produtos

Recursos Criados Sobre Síntese da Fala em Português Europeu

Modelo de Prosódia para o Português Europeu

Ferramenta de Etiquetagem de F0 nos parâmetros do modelo de Fujisaki

Sistema de síntese FEUP-TTS

Sistema de síntese MULTIVOX

Divisão silábica automática

Conversão grafema-fonema

Base de dados de fala FEUP-IPB

Base de Dados Curada de Parâmetros de Fala Patológica

Para mais esclarecimentos ou consulta dos recursos contactar:

joaopt@ipb.pt

Última Atualização: 17/05/2022

· Modelo de Prosódia para o Português Europeu

o Trata-se de um modelo que faz a predição dos parâmetros prosódicos durações temporais e frequência fundamental de um texto escrito, com a finalidade de ser sintetizado por um conversor texto-fala.

o O modelo está dividido em dois sub-modelos:

§ Um modelo de predição das durações segmentais, baseado em redes neuronais. (.pdf - 351 Kb). O modelo determina as durações dos segmentos de fonema com que devem ser sintetizados, tendo como entrada apenas o texto escrito.

· Ouvir resultados

o Fala original (locutor profissional)

§ Frase 1 (t2_p2.mp3 - 84 Kb)

§ Frase 2 (t1_p16.mp3 - 104 Kb)

o Fala com durações segmentais impostas com o modelo

§ Frase 1 (t2_p2_d44.mp3 - 84 Kb)

§ Frase 2 (t1_p16_d44.mp3 - 104 Kb)

§ Um modelo de predição das curvas da frequência fundamental (F0) (.pdf - 222 Kb). Este modelo determina os parâmetros associados aos comandos de acento (.pdf - 214 Kb) e aos comandos de frase (.pdf - 230 Kb) que são as entradas de um modelo fisiológico de Fujisaki para geração de curvas de F0. Os parâmetros dos comandos da acento e de frase são determinados com redes neuronais (uma para cada parâmetro), tendo como entrada apenas o texto e as durações dos segmentos (determinadas pelo modelo de durações anterior).

· Ouvir resultados (Modelo de Durações + Modelo de F0)

o Fala com F0 imposta pelo modelo

§ Frase 1 (re14_t2_p2.mp3 - 84 Kb)

§ Frase 2 (re14_t1_p16.mp3 - 104 Kb)

§ Apresentação dos Resultados de forma visual:

fig_4_32

Para mais detalhes consultar "A Prosody Model to TTS Systems" (.pdf - 3.9 Mb).

Modelo fisiológico de Fujisaki para geração de curvas de F0:

Em que:

· Etiquetagem de F0 nos parâmetros do modelo de Fujisaki

Ferramenta desenvolvida em ambiente Matlab para inserção e edição dos parâmetros associados aos comandos de acento (instante de início, fim, e amplitude) e de frase (instante de início e magnitude). A ferramenta representa o sinal de fala, F0 (original e estimado pelo modelo – de acordo com os comandos), os comandos de acento e de frase, fonemas, sílabas, palavras, frases e marcas de frase. Tudo alinhado temporalmente.

Sistema FEUP-TTS - sistema de síntese para Português Europeu

Forte capacidade do bloco de pré-processamento:

Acrónimos;
Abreviaturas;
Numerais em todos os formatos;
Números de telefone, etc.

Algoritmo de silabificação;
Marcação da sílaba tónica;
Conversão grafema-fonema;
Modelo de prosódia:

modelo de durações;
modelo de F0;

Dois motores de síntese:

Modelo de formantes
Modelo de concatenação de unidades temporais

Para o sistema Windows - SAPI

Sistema MULTIVOX - sistema multíilíngua de síntese de fala (Teixeira, J. P. - "Modelização Paramétrica de Sinais Para Aplicação em Sistemas de Conversão Texto-Fala (pdf - 2.8 Mb)", Cap. 5, FEUP, 1995 - Tese de Mestrado)

Desenvolvimento da versão do Português Europeu;
Sistema baseado em formantes;
Sistema com uma baixissima taxa de transmissão, cerca de 1 kBit/s;
Sistema levissímo, cerca de 150 kBytes;
Adequado para aplicações para pessoas com incapacidades visuais.

Divisão silábica automática: (Gouveia, P., Teixeira, J. P. e Freitas, D. - "Divisão Silábica Automática do Texto Escrito e Falado (pdf - 235 Kb)", V PROPOR – Processamento Computacional da Língua Portuguesa Escrita e Falada, Novembro de 2000 em Atibaia – S. Paulo)

do texto - divide o texto em sílabas com o objectivo de realizar síntese de fala.
dos fonemas - divide em sílabas a sequência de fonemas produzidos numa elocução.

Regras de Conversão Grafema-Fonema: (Teixeira, J. P."A Prosody Model to TTS Systems Cap. 2 (pdf - 524 Kb)", Tese de Doutoramento (Cap. 2), FEUP, 2004)

Conjunto de regras que convertem o texto escrito numa sequência de fonemas.