Recursos Criados Sobre Síntese da Fala em Português Europeu



Modelo de Prosódia para o Português Europeu

Ferramenta de Etiquetagem de F0 nos parâmetros do modelo de Fujisaki

Sistema de síntese FEUP-TTS

Sistema de síntese MULTIVOX

Divisão silábica automática

Conversão grafema-fonema

Base de dados de fala FEUP-IPB

Base de Dados Curada de Parâmetros de Fala Patológica

 

Para mais esclarecimentos ou consulta dos recursos contactar:

joaopt@ipb.pt

Última Atualização: 17/05/2022


 

·      Modelo de Prosódia para o Português Europeu

 

o   Trata-se de um modelo que faz a predição dos parâmetros prosódicos durações temporais e frequência fundamental de um texto escrito, com a finalidade de ser sintetizado por um conversor texto-fala.

o   O modelo está dividido em dois sub-modelos:

§  Um modelo de predição das durações segmentais, baseado em redes neuronais. (.pdf - 351 Kb). O modelo determina as durações dos segmentos de fonema com que devem ser sintetizados, tendo como entrada apenas o texto escrito.

·       Ouvir resultados

o   Fala original (locutor profissional)

§  Frase 1 (t2_p2.mp3 - 84 Kb)

§  Frase 2 (t1_p16.mp3 - 104 Kb)

o   Fala com durações segmentais impostas com o modelo

§  Frase 1 (t2_p2_d44.mp3 - 84 Kb)

§  Frase 2 (t1_p16_d44.mp3 - 104 Kb)

§  Um modelo de predição das curvas da frequência fundamental (F0) (.pdf - 222 Kb). Este modelo determina os parâmetros associados aos comandos de acento (.pdf - 214 Kb) e aos comandos de frase (.pdf - 230 Kb) que são as entradas de um modelo fisiológico de Fujisaki para geração de curvas de F0. Os parâmetros dos comandos da acento e de frase são determinados com redes neuronais (uma para cada parâmetro), tendo como entrada apenas o texto e as durações dos segmentos (determinadas pelo modelo de durações anterior).

·       Ouvir resultados (Modelo de Durações + Modelo de F0)

o   Fala com F0 imposta pelo modelo

§  Frase 1 (re14_t2_p2.mp3 - 84 Kb)

§  Frase 2 (re14_t1_p16.mp3 - 104 Kb)

 

 

§  Apresentação dos Resultados de forma visual:

 

 

fig_4_32

 

Para mais detalhes consultar "A Prosody Model to TTS Systems" (.pdf - 3.9 Mb).

 

 

 

Modelo fisiológico de Fujisaki para geração de curvas de F0:

 

 

 

 

Em que:

 

                                                          

                                     

 

 


 

·     Etiquetagem de F0 nos parâmetros do modelo de Fujisaki

 

Ferramenta desenvolvida em ambiente Matlab para inserção e edição dos parâmetros associados aos comandos de acento (instante de início, fim, e amplitude) e de frase (instante de início e magnitude). A ferramenta representa o sinal de fala, F0 (original e estimado pelo modelo – de acordo com os comandos), os comandos de acento e de frase, fonemas, sílabas, palavras, frases e marcas de frase. Tudo alinhado temporalmente.

 

 

 

 


  • Sistema FEUP-TTS - sistema de síntese para Português Europeu
    • Forte capacidade do bloco de pré-processamento:
      • Acrónimos;
      • Abreviaturas;
      • Numerais em todos os formatos;
      • Números de telefone, etc.
    • Algoritmo de silabificação;
    • Marcação da sílaba tónica;
    • Conversão grafema-fonema;
    • Modelo de prosódia:
      • modelo de durações;
      • modelo de F0;
    • Dois motores de síntese:
      • Modelo de formantes
      • Modelo de concatenação de unidades temporais
    • Para o sistema Windows - SAPI

  • Sistema MULTIVOX - sistema multíilíngua de síntese de fala (Teixeira, J. P. - "Modelização Paramétrica de Sinais Para Aplicação em Sistemas de Conversão Texto-Fala (pdf - 2.8 Mb)", Cap. 5, FEUP, 1995 - Tese de Mestrado)
    • Desenvolvimento da versão do Português Europeu;
    • Sistema baseado em formantes;
    • Sistema com uma baixissima taxa de transmissão, cerca de 1 kBit/s;
    • Sistema levissímo, cerca de 150 kBytes;
    • Adequado para aplicações para pessoas com incapacidades visuais.

 


 

  • Divisão silábica automática: (Gouveia, P., Teixeira, J. P. e Freitas, D. - "Divisão Silábica Automática do Texto Escrito e Falado (pdf - 235 Kb)", V PROPOR – Processamento Computacional da Língua Portuguesa Escrita e Falada, Novembro de 2000 em Atibaia – S. Paulo)
    • do texto - divide o texto em sílabas com o objectivo de realizar síntese de fala.
    • dos fonemas - divide em sílabas a sequência de fonemas produzidos numa elocução.

 


  • Regras de Conversão Grafema-Fonema: (Teixeira, J. P."A Prosody Model to TTS Systems Cap. 2 (pdf - 524 Kb)", Tese de Doutoramento (Cap. 2), FEUP, 2004)

    Conjunto de regras que convertem o texto escrito numa sequência de fonemas.