Download - Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases

Transcript

$Page 1: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Sistemas de Conversão Texto-Fala:

estado da arte, aplicações,

arquitectura e desafios

Daniela Braga e Miguel Sales [email protected], [email protected]

Escola de Verão, Faculdade de Letras da Universidade do Porto

2 de Julho de 2009

$Page 2: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

2

Sumário

• Parte I – Parte teórica

– Processamento da Fala – o que é?

– Aplicações do processamento da fala

– Sistemas de síntese de fala – um pouco de história

– Estado da arte actual dos sistemas de síntese de fala

– Alguns key-players importantes

– Arquitectura de um sistema de síntese de fala

– Principais desafios na construção do sistema: selecção da voz,

controlo de qualidade, desenvolvimento e implementação de

regras linguísticas, teste do sistema

– Metodologias e processos de teste

– Principais desafios e problemas actuais

• Parte II – Parte prática

$Page 3: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Síntese da Fala Reconhecimento de Voz

Processamento da Fala

TextoTexto

Processamento da Fala:

o que é?

$Page 4: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Processamento da Fala: uma

área interdisciplinar

4

Linguística

Informática

Engenharia

Medicina

Terapia da Fala

Matemática

Ciências

da Fala

$Page 5: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Sistemas de síntese e

reconhecimento de voz: aplicações

ORIENTAÇÃO E NAVEGAÇÃO

• Sistemas de voz aplicados a navegação por GPS

instalado em viaturas, para que as orientações

visuais sejam acompanhadas por informações

auditivas.

• Vantagens: maior segurança na navegação em

automóvel.

ENSINO

• e-learning com interfaces de voz; tele-escola

complementada com sistemas visuais em que uma

face é animada em sincronismo com a voz ,

permitindo escolher a voz e a face do orador; ensino

de línguas estrangeiras.

• Vantagens: ensino mais agradável, mais eficaz;

aumento da motivação; possibilidade de repetição.

$Page 6: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Sistemas de síntese e

reconhecimento de voz: aplicações

SISTEMAS DE COMANDO E CONSULTA

• Controlo de sistemas por voz, aplicados por exemplo a casas inteligentes

(domótica), cadeiras de rodas que obedecem a comandos como

recuar/avançar, anterior/seguinte, etc. por voz.

• Vantagens: comodidade, rapidez na execução de tarefas.

$Page 7: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Sistemas de síntese e

reconhecimento de voz: aplicações

TELECOMUNICAÇÕES

• Sistemas de execução da chamada por indicação do nome ou do número

do destinatário*; leitura de SMS por voz (útil a cegos) com a possibilidade

de utilizar a voz do remetente; reconhecimento da voz**.

• Vantagens: *rapidez nos comandos e na comunicação; **redução da

informação a transmitir libertando largura de banda.

Vodafone Say Net

$Page 8: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Sistemas de síntese e

reconhecimento de voz: aplicações

QUIOSQUES DIGITAIS E MULTIMÉDIA

• e-commerce com diversas aplicações: venda de

bilhetes para espectáculos, viagens, alimentos,

livros;

• quiosques digitais com informações turísticas ou de

localização, listas telefónicas, etc.

• e-banking

• e-books

• leitura de páginas web

• leitura de e-mail

• E-cards

• Vantagens: facilitar o acesso à informação a

pessoas com necessidade especiais (invisuais ou

pessoas com deficiências de visão); agilizar a

consulta de produtos e de informações.

$Page 9: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Projectos terminados no

MLDC: Exchange 14

• http://blogs.msdn.com/tagarela/archive/2007/02/28/bem-

vindos.aspx

$Page 10: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Exchange 14

• Microsoft: TTS em 26 línguas

10

Herena

Helle

Heloísa

Hélia

$Page 11: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

SR no Windows 7

• Reconhecimento de Voz: Comando e Controlo e Ditado

11

$Page 12: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Projectos terminados no

MLDC

• Voice command:

http://soapbox.msn.com/video.aspx?vi

d=945afe25-90de-4b7d-ac07-

116e286a3c06&wa=wsignin1.0

• Media Center controlled by speech:

http://soapbox.msn.com/video.aspx?vid=945afe25-90de-4b7d-ac07-

116e286a3c06&wa=wsignin1.0

$Page 13: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Cronologia

• Até ao final dos anos 80 - técnicas de primeira geração

– síntese por formantes

– síntese articulatória

• Desde finais dos anos 90 - técnicas de segunda geração

– síntese por concatenação

– Síntese por HMMs

13

$Page 14: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

14

Técnicas de primeira geração

• 1.VODER, by Homer Dudley, 1939 (synthesizing speech by electrical means)

• 2.Pattern playback by F. Cooper (1951)

• 3.Pat (Parametric artificial talker), by Walter Lawrence (1953)

• 4.OVE I (Orator Verbis Electris) formant synthesizer, by Gunnar Fant (1953)

• 5.Pat formant synthesizer (1962) by Walter Lawrence

• 6.OVE II by Gunnar Fant (1962)

• 7.Comparison between synthesized and natural voices, by Jonh Holmes(1961, 1973)

• 8.Voice morphing D. Klatt (1987)

• 9.DAVO (Dynamic Analog of the VOcal tract) articulatory syntheziser, byGeorge Rosen (1958)

• 10.Linear Prediction Analysis and Re-synthesis, by Texas Instruments(1980)

• 11.first full TTS: Umeda et al (1968)

• 12.MIT MITalk (Allen, Hunnicut, Klatt), 1979

$Page 15: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

15

TTS modernos de segunda geração

• Commercial TTS (normally concatenative):– Loquendo

http://www.loquendo.com/en/index.htm

– Nuance (formerly Scansoft)http://www.nuance.com/realspeak/languages/

– IBMhttp://www.research.ibm.com/tts/

– Acapela

http://www.elan.fr/

– AT&T Labs

http://www.research.att.com/viewProject.cfm?prjID=315

– Cepstralhttp://www.cepstral.com/

http://www.loquendo.com/en/index.htm

http://www.nuance.com/realspeak/languages/

http://www.research.ibm.com/tts/

http://www.elan.fr/

http://www.research.att.com/viewProject.cfm?prjID=315

http://www.cepstral.com/

$Page 16: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Alguns key-players importantes

• Na Europa:

– Institute of Phonetic Sciences, University of Amsterdam,

Holanda, onde o Praat foi desenvolvido;

– KTH – The Royal Institute of Technology, Suécia, activo na área

da Fonologia, onde Gunnar Fant, um dos nomes históricos da

Síntese da Fala e da Fonologia, é Professor Emérito; activo

ainda na área da Síntese Multi-modal;

– Department of Phonetics and Linguistics, University Colledge of

London, Reino Unido, autores do SFS;

– Laboratoire de Parole et Langage, Université de Provence,

laboratório activo na área da Prosódia, dirigido por Daniel Hirts,

autor do INTSINT;

– University of Edimburgh, Reino Unido, onde Alan Black e Paul

Taylor desenvolveram o Festival;16

$Page 17: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Alguns key-players importantes

• Nos Estados Unidos da América:

– Language Technologies Institute, Conergie Mellon University,

onde se desenvolve o projecto Festvox, responsável por

iniciativas de avaliação de sistemas de síntese da fala, os

Blizzard Challenges, entre outras;

– University of Colorado, at Boulder (Daniel Jurafsky é um dos

grandes nomes)

– MIT - Massachusetts Institute of Technology, Estados Unidos,

onde se desenvolveu o DAVO, um dos primeiros sintetizadores

articulatórios (1958) e o MITTalk, em 1979, um dos primeiros

sintetizadores baseados em dicionários (Allen et al., 1987) e o

Klattalk, em 1983;

17

$Page 18: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Alguns key-players importantes

• Na Ásia:

– Nagoya Institute of Technology, onde Keiichi Tokuda e o seu

grupo desenvolveram o HTS, considerado o novo paradigma

nas técnicas de síntese;

– ATR – Advanced Telecommunications Research Institute

International, Japão, um dos maiores centros de

desenvolvimento estatais do Japão;

– Microsoft Research Asia – Speech Technology Group, em

Pequim, China, onde tecnologias de ponta estão a ser

desenvolvidas.

18

$Page 19: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Arquitectura geral dos

sistemas de síntese de fala

19

Análise do texto

Análise fonética

Geração prosódica

Voz sintética

Motor de síntese

Texto

1

• Analisador morfossintáctico

• Desambiguador de homógrafos

2

• Leitor de estrangeirismos

• Conversor grafema-fone

3

• Marcador de tonicidade

• Divisor silábico

Separador de frases

Separador de palavras

Normalizador de texto

Base de

dados de voz

Geração de entoação, durações,intensidade

Determinação do foco

Geração de emoções

Front-end Back-endDependente

da línguaAgnóstico da

língua

$Page 20: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Estado da arte

• 3 abordagens principais para o front-end

– Baseada em regras: mais robustos, requerem menos memória,

requerem conhecimento linguístico muito especializado

– Baseada em modelos estatísticos: podem ser muito robustos,

requerem muita memória, quando falham pode ser desastroso

– Modelos híbridos: preferíveis

• 2 paradigmas actuais para o back-end:

– Síntese por HTS

– Síntese por Selecção de Unidades

• Futuro:

– Melhoramentos do HTS

– RUS – técnica que combina síntese por concatenação e HMMs

20

$Page 21: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Arquitectura TTS no MLDC

21

Data

Stu

dio

(Sc

ript &

rec

ord

ing

revie

w, p

ros

od

y

an

no

tatio

n)

LexiconRaw text

corpus

Phoneme

table

Voice talent

selection Recording

Wave process

Alignment

Font compilingVoice

Font

Script

Generation

TTS runtime

enginePolyphony

resolution

Prosody

modelling LTS rules

Text Analysis

Acoustic

models

TN rules

TESTS

$Page 22: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Principais desafios na

construção de um TTS

• Selecção do locutor

• Controlo de qualidade da gravação e das waves

• Parte linguística do front-end:

– Obtenção de recursos linguísticos (clean text)

– Normalização de texto

– Desambiguação de homógrafos

– Expansão do léxico

22

$Page 23: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Selecção do locutor

• Sabemos que grande parte do sucesso de um TTS está

dependente da escolha do locutor

• Problemas:

– Que requisitos deve ter um locutor?

– Que parâmetros devemos avaliar?

– Esses requisitos estão relacionados com a tecnologia? Estão

dependentes do cenário de aplicação?

23

$Page 24: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Parte linguística: Normalização de

texto

24

Conversor de símbolos e caracteres especiais

Expansor de abreviaturas

Leitor de siglas e

acrónimos

Conversor de numerais

(cardinais, ordinais,

datas, tempo,etc.)

Baseado em

dicionário

Baseado em regras

Baseado em dicionário

Baseado em regras

$Page 25: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Parte linguística: Desambiguação

de homógrafos

Texto

Analisador morfossintáctico

Homograph typeidentification

Biblioteca de homógrafos

Biblioteca de classes fechadas

Biblioteca de morfemas

Biblioteca de lemas

Biblioteca de verbos irregulares

Biblioteca de exp. impessoais

Identificador do tipo de homógrafo

≠ classe gramatical

Tipos 1-16

= classe gramatical

Tipos 17-24

Biblioteca de combinatórias

lexicais restritas

Biblioteca de wordnets

Análise morfossintáctica Análise semântica

$Page 26: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Parte linguística:Desambiguação

de homógrafos

26

TipoAlternância vocálica e classe gramatical

diferenteHomógrafo

1 [e] nome / [E] verbo

aceno, acerto, apelo, aperto, apreço, arrepelo, começo, concerto, conserto,

desemprego, desespero, emprego, enredo, erro, esmero, espeto, flagelo, gelo, governo, interesse, interesses, modelo, pego, peso, pena, penas rego, remo, selo, testo, zelo

2 [o] nome / [O] verbo

abono, aborto, acordo, adorno, aforro, almoço, arrojo, arroto, choco, choro, conforto, consolo, contorno, controlo, coro, desgosto,

despojo, destroço, encosto, endosso, esforço, estorvo, folgo, gosto, jogo, logro, namoro,

olho, piloto, reforço, rodo, rogo, rolo, sopro, suborno, sufoco, toco, toldo, topo, torno,

troco, troço

3 [o] nome/ [O] verbo rola, rolha, soma4 [e] verbo / [E] nome colher, meta

5[e] contractção/ [E]

verbodesses, deste, destes

6 [o] verbo/ [O] adv fora

7 [e] Adj., nome/ [E] verbo seco, seca, secas

8 [o] Adj., nome/ [O] verbo boto

9 [e] Dem. / [E] Adj., nome este

10[e] verbo / [E] Adj.,

nomeleste

11 [o] Prep./ [O] verbo sobre

12 [@] verbo/ [E] nome pegada

13 [o] Adj./ [O] nome rota, rotas, tola, tolas

14[o] nome/ [O] nome/ [O]

verbocorte, cortes, forma, formas, molho, soco

15[e] Prep./ [e] nome/

[E]verbocerca

16[e] nome/ [E] verbo/

nome[E]pega, pegas

TipoAlternância vocálica e

mesma classe gramaticalHomógrafo

17 [e] nome / [E] nome besta, bestas

18 [e] nome / [E] nome sede, sedes

19 [e] nome / [E] nome medo, medos

20 [e] nome / [E] nome, verbo termos

21 [o] nome/ [O] nome cor

22 [o] nome/ [O] nome lobo, lobos

23 [o] nome/ [O] nome bola, bolas

24 [@] verbo/ [E] verbo pregar

$Page 27: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Expansão do léxico: Divisor

silábico

27

Input: palavra

ortográfica

Definição de vogal, glide, consoante,

etc.

Definição de casos e

operações

Busca das vogais de

cada palavra e análise da

sua vizinhança

Regras de divisão silábica

Output: palavra

ortográfica dividida em

sílabas

$Page 28: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Expansão do léxico: marcador

de sílaba tónica

28

$Page 29: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

Descrição dos tipos de testes

29

• Módulos de Front-end: sentence separator, word

breaker, text normalization, pronunciation (homograph

ambiguity resolution, LTS conversion);

• Funcionalidade do back-end: testes de compliance,

performance e BVT (Build Verification Tests);

• Teste da qualidade da voz sintética: testes de

compreensão e MOS (Mean Opinion Score) tests.

• Testes de usabilidade

$Page 30: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

30

Hot topics (principais desafios

e problemas actuais)

• Melhoramentos no HTS: menos ruído metálico,menos nº de waves para o treino

• Boa utilização dos parâmetros prosódicos no treino do back-end

• Síntese expressiva e de emoções

• Síntese multi-língua

• Síntese multi-modal ou síntese audio-visual

• Voice transformation, conversion

• Front-end

• Avaliação – the Blizzard Challenges

• Novas APPs

$Page 31: Sistemas de Conversão Texto-Fala: estado da arte ...web.letras.up.pt/bhsmaia/EDV/apresentacoes/Braga_Texto_Fala.pdf · { Marcador de tonicidade { Divisor silábico Separador de frases$

www.microsoft.com/portugal/mldc

Daniela Braga

Program Manager Lead

[email protected]

Top Related

Avaliação fonoaudiológica do indivíduo com fissura ... · auto-imagem relacionadas à fala, ... função, selamento, tonicidade); língua ... como as placas de timpanoesclerose

Avaliação fonoaudiológica do indivíduo com fissura ... · auto-imagem relacionadas à fala, ... função, selamento, tonicidade); língua ... como as placas de timpanoesclerose

tonicidade e acentiação

tonicidade e acentiação

OZÉIAS J. SANTOS - cesarkallas.net20-%20Dos%20... · ED Embargos de Declaração EDAR Embargos de Declaração na Ação Rescisória EDv Embargos de Divergência EF Ementário Forense

OZÉIAS J. SANTOS - cesarkallas.net20-%20Dos%20... · ED Embargos de Declaração EDAR Embargos de Declaração na Ação Rescisória EDv Embargos de Divergência EF Ementário Forense

CONTROLO DA QUALIDADE LINGUÍSTICA E PARÁFRASES …web.letras.up.pt/bhsmaia/EDV/apresentacoes/Barreiro_CQL e... · Controlo da qualidade linguística – permitem desambiguar, eliminar

CONTROLO DA QUALIDADE LINGUÍSTICA E PARÁFRASES …web.letras.up.pt/bhsmaia/EDV/apresentacoes/Barreiro_CQL e... · Controlo da qualidade linguística – permitem desambiguar, eliminar

Osmose, osmolaridade e tonicidade: transporte de água e ...

Osmose, osmolaridade e tonicidade: transporte de água e ...

Workshop edv 2015 completo

Workshop edv 2015 completo

Taize Winkelmann Teixeira - ufrgs.br · INSTITUTO DE LETRAS ... não-nomes), tonicidade (oxítona, ... A análise dos resultados mostrou que -inho é o sufixo mais usado, ainda

Taize Winkelmann Teixeira - ufrgs.br · INSTITUTO DE LETRAS ... não-nomes), tonicidade (oxítona, ... A análise dos resultados mostrou que -inho é o sufixo mais usado, ainda

Susana Afonso UMA FRAMENET PARA O PORTUGUÊSweb.letras.up.pt/bhsmaia/EDV/apresentacoes/Afonso_Ptframenet.pdf · Todos os conceitos num quadro conceptual evocam e ... Nucleares/obrigatórios:

Susana Afonso UMA FRAMENET PARA O PORTUGUÊSweb.letras.up.pt/bhsmaia/EDV/apresentacoes/Afonso_Ptframenet.pdf · Todos os conceitos num quadro conceptual evocam e ... Nucleares/obrigatórios:

Línguas

Páginas

Legal

Copyright © 2022 FDOCUMENTOS