Sistema de decisão automático para conversão de áudio em texto na geração de legenda oculta
-
Upload
luiz-fausto-de-souza-brito -
Category
Documents
-
view
15 -
download
4
description
Transcript of Sistema de decisão automático para conversão de áudio em texto na geração de legenda oculta
-
SISTEMA DE DECISO AUTOMTICO PARA CONVERSO DE UDIO EM TEXTO
NA GERAO DE LEGENDA OCULTA
Luiz Fausto
-
Agenda
Introduo Legenda Oculta Reconhecimento Autom;co de Voz (RAV) Gerao de Legenda Oculta com RAV no mundo Avaliao de Desempenho Concluso e Trabalhos Futuros
-
INTRODUO
-
Tema Desenvolvimento de um sistema de RAV para gerao de closed cap*on a par;r de so,ware livre e de bases de dados disponveis publicamente
Obje>vo Treinar e avaliar um sistema de RAV na gerao de closed cap*on para programas de televiso ao vivo com fala espontnea em Portugus do Brasil u;lizando relocuo
-
LEGENDA OCULTA (CLOSED CAPTION)
-
Decientes audi;vos: quase 10 milhes
Acessibilidade
-
Norma Complementar N 001/2006
Uso obrigatrio de Legenda Oculta (Closed Cap*on) pelas emissoras,
conforme cronograma estabelecido:
Junho / 2011 08 horas / dia Junho / 2012 12 horas / dia Abril / 2014 16 horas / dia Abril / 2015 20 horas / dia
Junho / 2017 24 horas / dia
Legislao NBR 15290:2005
Diretrizes para a legenda oculta Acertos:
no sistema CC ao vivo, o texto das legendas deve ter no mnimo 98% de acerto
Sincronia: no sistema CC ao vivo pode ser tolerado um atraso mximo de quatro segundos
-
Esteno>pia
Digitao em tempo real u;lizando smbolos fon;cos em teclado especial (esten;po)
Os smbolos so conver;dos em palavras de acordo com um dicionrio
Mo-de-obra escassa e cara, treinamento demorado
Erros: digitao, palavras fora do dicionrio
-
RECONHECIMENTO AUTOMTICO DE VOZ (RAV)
-
Relocuo Sistema adaptado a uma voz, sem precisar considerar a variabilidade fon;ca entre pessoas
Melhor relao sinal/rudo
Correo da disuncia oral
Custo operacional mais baixo que esteno;pia
-
IBM ViaVoice Sistema no o>mizado para a
aplicao na gerao de legenda oculta
Produto descon>nuado h quase 10 anos, sem subs;tuto comercial para o Portugus do Brasil
Ausncia de suporte corre;vo e evolu;vo
Potenciais problemas para manter o sistema funcionando a longo prazo
A quan>dade de licenas existentes limitada
-
Soaware Livre
CMUSphinx
F a l a B r a s i l
iATROS
SRILM
-
Funcionamento
-
Dicionrio abafa a b a f a abafada a b a f a d a abafadas a b a f a d a s abafado a b a f a d u abafados a b a f a d u s abafamento a b a f a m ee t u abafando a b a f aa d u abafar a b a f a xm abafou a b a f o w
-
Processamento Digital de Sinais
MFCC
DCT
Log
Banco de Filtros (Escala Mel)
Espectro de Potncia
Janelamento
Pr-nfase
Reamostragem
Sinal de Entrada
-
Modelo Acs>co
-
Modelo de Linguagem -1.9060 a informao consta -3.6396 a informao constava -2.7161 a informao contida -3.6396 a informao contradiz -3.6396 a informao contraria -3.6396 a informao contm -2.3215 a informao correta -1.7412 a informao da -1.9408 a informao dada -2.7161 a informao das -0.7528 a informao de -3.0395 a informao desde -3.0395 a informao desejada -3.0395 a informao deve
-
Decodicao
-
GERAO DE LEGENDA OCULTA COM RAV NO
MUNDO
-
AVALIAO DE DESEMPENHO
-
Material da Avaliao
CMUSphinx
FalaBrasil
-
Programas (50% das sentenas u;lizadas para treinamento; 50% u;lizadas para teste)
Blocos Durao Palavras
BOM DIA BRASIL 5 52m50s 7.903
BEM ESTAR 2 38m55s 6.333
DOMINGO DO FAUSTO 4 01h45m02s 14.686
TOTAL 11 03h16m47s 28.922
-
Material de Treinamento - Corpora de Texto
Sentenas Palavras Vocabulrio
Globo.com (ViaVoice) 100.954 1.707.869 53.633
Globo.com + FalaBrasil
(CMUSphinx - Uso Geral)
1.593.389 24.746.658 210.446
BOM DIA BRASIL 82 4.011 1.333
BEM ESTAR 76 3.056 939
DOMINGO DO FAUSTO 341 7.690 1.569
-
Material de Treinamento - Corpora de Voz Corpus Reduzido
Corpus Intermedirio
Corpus Maior Sentenas Palavras Vocabulrio Durao Vozes Ambiente
Voz Masculina - Cons>tuio1.0 (FalaBrasil)
* * * 1.238 68.575 5.305 08h50m12s 1 Controlado
Vozes Masculinas - LapsBenchMark1.4
(FalaBrasil) * * 500 5.166 2.102 38m10s 25 No controlado
Vozes Masculinas - VoxForge * * 1.828 9.173 584 01h51m24s 78
No controlado
Vozes Femininas - LapsBenchMark1.4
(FalaBrasil) * 200 2.062 1.064 15m51s 10 No controlado
Vozes Femininas - VoxForge * 180 855 351 09m30s 6
No controlado
-
Material de Adaptao de Locutor
Sentenas Palavras Vocabulrio Durao
IBM ViaVoice 1.027 6.622 1.953 53m50s
Relocuo 499 14.757 2.889 98m23s
-
Resultados
Taxa de palavras fora do dicionrio* Perplexidade
Dicionrio de uso geral
Dicionrio especco do programa
Modelo de linguagem de uso geral
Modelo de linguagem
especco do programa
BOM DIA BRASIL 0,57% 0,47% 266,22 246,74
BEM ESTAR 1,34% 1,27% 666,42 589,79
DOMINGO DO FAUSTO 2,30% 1,37% 773,50 536,94
* Dicionrios com as 65.535 palavras mais frequentes do corpus
-
Resultados Relocuo Esteno>pia IBM Via Voice CMU Sphinx c/ Corpus Reduzido
CMU Sphinx c/ Corpus
Intermedirio
CMU Sphinx c/ Corpus Maior
SUBTOTAL BOM DIA BRASIL
Acertos: 99,11% 84,90% 83,91% 81,02% 82,44% 81,82%
Erros: Subs>tuies:
1,10% 0,48%
17,97% 6,96%
20,93% 12,82%
21,57% 14,09%
20,43% 13,23%
20,56% 13,34%
Omisses: 0,40% 8,14% 4,53% 4,89% 4,33% 4,84% Inseres: 0,22% 2,87% 3,58% 2,59% 2,87% 2,38%
Acurcia: 98,90% 82,03% 79,07% 78,43% 79,57% 79,44%
SUBTOTAL BEM ESTAR
Acertos: 95,42% 66,95% 71,49% 68,90% 69,93% 71,20%
Erros: Subs>tuies:
5,01% 3,32%
36,52% 13,33%
32,18% 22,60%
33,46% 22,93%
33,30% 22,43%
32,03% 22,46%
Omisses: 1,26% 19,72% 5,91% 8,17% 7,64% 6,34% Inseres: 0,43% 3,47% 3,67% 2,36% 3,23% 3,23%
Acurcia: 94,99% 63,48% 67,82% 66,54% 66,70% 67,97%
SUBTOTAL DOMINGO DO
FAUSTO
Acertos: 94,69% 60,83% 64,87% 68,88% 70,75% 70,75%
Erros: Subs>tuies:
7,20% 3,14%
40,29% 9,02%
38,36% 27,36%
33,81% 22,83%
32,03% 20,99%
31,94% 21,33%
Omisses: 2,17% 30,15% 7,77% 8,29% 8,26% 7,92% Inseres: 1,89% 1,12% 3,23% 2,69% 2,78% 2,69%
Acurcia: 92,80% 59,71% 61,64% 66,19% 67,97% 68,06%
TOTAL GERAL
Acertos: 96,06% 68,75% 71,52% 72,23% 73,78% 73,90%
Erros: Subs>tuies:
5,05% 2,45%
33,37% 9,40%
32,24% 22,34%
30,36% 20,44%
29,13% 19,18%
28,83% 19,39%
Omisses: 1,49% 21,85% 6,48% 7,33% 7,04% 6,71% Inseres: 1,11% 2,12% 3,42% 2,59% 2,91% 2,73%
Acurcia: 94,95% 66,63% 67,76% 69,64% 70,87% 71,17%
-
Resultados
Sistema Latncia CPU * RAM
Relocuo 1,059 s N/A N/A
Esteno>pia 4,034 s N/A N/A
IBM ViaVoice 2,098 s < 20% (de 1 core) < 70 MB
CMU Sphinx 0,652 s ~ 20% (de 4 cores) ~ 300 MB
* Intel Core i5 de 2,4 GHz
-
CONCLUSES E TRABALHOS FUTUROS
-
Concluses
Demanda por sistemas de RAV em Portugus do Brasil Sistemas de RAV testados apresentaram acurcia mais alta e latncia
mais baixa que a esteno;pia Sistema baseado em so,ware livre apresentou melhor desempenho Possibilidades de melhorias futuras Taxa de acerto mnima especicada pela ABNT NBR 15290 no pde ser
ob;da por RAV nem por esteno;pia
-
Trabalhos Futuros
Desenvolver corpus de voz sucientemente grande e diversicado Desenvolver mecanismos autom;cos para gerar corpus de texto a par;r
da Internet Experimentar smbolos fon;cos diferentes para vogais tnicas O;mizar o tempo de treinamento do sistema Avaliar outros so,wares de RAV
-
Trabalhos Futuros
Atualizao autom;ca dos dicionrios, modelos de linguagem e modelos acs;cos
Desenvolver interface operacional Ferramentas de correo da transcrio Gerao de relatrios de desempenho Integrao com ferramentas de codicao de closed cap*on Integrao da soluo completa em uma ferramenta simples de usar Realizar avaliao qualita;va do desempenho, com a par;cipao de
decientes audi;vos
-
PERGUNTAS?
-
OBRIGADO!