Sistema de decisão automático para conversão de áudio em texto na geração de legenda oculta

35
SISTEMA DE DECISÃO AUTOMÁTICO PARA CONVERSÃO DE ÁUDIO EM TEXTO NA GERAÇÃO DE LEGENDA OCULTA Luiz Fausto

description

Apresentação realizada na defesa da dissertação do Mestrado Integrado Profissional em Computação Aplicada (MPCOMP) da UFRJ/UECE, Rio de Janeiro, 2015.

Transcript of Sistema de decisão automático para conversão de áudio em texto na geração de legenda oculta

  • SISTEMA DE DECISO AUTOMTICO PARA CONVERSO DE UDIO EM TEXTO

    NA GERAO DE LEGENDA OCULTA

    Luiz Fausto

  • Agenda

    Introduo Legenda Oculta Reconhecimento Autom;co de Voz (RAV) Gerao de Legenda Oculta com RAV no mundo Avaliao de Desempenho Concluso e Trabalhos Futuros

  • INTRODUO

  • Tema Desenvolvimento de um sistema de RAV para gerao de closed cap*on a par;r de so,ware livre e de bases de dados disponveis publicamente

    Obje>vo Treinar e avaliar um sistema de RAV na gerao de closed cap*on para programas de televiso ao vivo com fala espontnea em Portugus do Brasil u;lizando relocuo

  • LEGENDA OCULTA (CLOSED CAPTION)

  • Decientes audi;vos: quase 10 milhes

    Acessibilidade

  • Norma Complementar N 001/2006

    Uso obrigatrio de Legenda Oculta (Closed Cap*on) pelas emissoras,

    conforme cronograma estabelecido:

    Junho / 2011 08 horas / dia Junho / 2012 12 horas / dia Abril / 2014 16 horas / dia Abril / 2015 20 horas / dia

    Junho / 2017 24 horas / dia

    Legislao NBR 15290:2005

    Diretrizes para a legenda oculta Acertos:

    no sistema CC ao vivo, o texto das legendas deve ter no mnimo 98% de acerto

    Sincronia: no sistema CC ao vivo pode ser tolerado um atraso mximo de quatro segundos

  • Esteno>pia

    Digitao em tempo real u;lizando smbolos fon;cos em teclado especial (esten;po)

    Os smbolos so conver;dos em palavras de acordo com um dicionrio

    Mo-de-obra escassa e cara, treinamento demorado

    Erros: digitao, palavras fora do dicionrio

  • RECONHECIMENTO AUTOMTICO DE VOZ (RAV)

  • Relocuo Sistema adaptado a uma voz, sem precisar considerar a variabilidade fon;ca entre pessoas

    Melhor relao sinal/rudo

    Correo da disuncia oral

    Custo operacional mais baixo que esteno;pia

  • IBM ViaVoice Sistema no o>mizado para a

    aplicao na gerao de legenda oculta

    Produto descon>nuado h quase 10 anos, sem subs;tuto comercial para o Portugus do Brasil

    Ausncia de suporte corre;vo e evolu;vo

    Potenciais problemas para manter o sistema funcionando a longo prazo

    A quan>dade de licenas existentes limitada

  • Soaware Livre

    CMUSphinx

    F a l a B r a s i l

    iATROS

    SRILM

  • Funcionamento

  • Dicionrio abafa a b a f a abafada a b a f a d a abafadas a b a f a d a s abafado a b a f a d u abafados a b a f a d u s abafamento a b a f a m ee t u abafando a b a f aa d u abafar a b a f a xm abafou a b a f o w

  • Processamento Digital de Sinais

    MFCC

    DCT

    Log

    Banco de Filtros (Escala Mel)

    Espectro de Potncia

    Janelamento

    Pr-nfase

    Reamostragem

    Sinal de Entrada

  • Modelo Acs>co

  • Modelo de Linguagem -1.9060 a informao consta -3.6396 a informao constava -2.7161 a informao contida -3.6396 a informao contradiz -3.6396 a informao contraria -3.6396 a informao contm -2.3215 a informao correta -1.7412 a informao da -1.9408 a informao dada -2.7161 a informao das -0.7528 a informao de -3.0395 a informao desde -3.0395 a informao desejada -3.0395 a informao deve

  • Decodicao

  • GERAO DE LEGENDA OCULTA COM RAV NO

    MUNDO

  • AVALIAO DE DESEMPENHO

  • Material da Avaliao

    CMUSphinx

    FalaBrasil

  • Programas (50% das sentenas u;lizadas para treinamento; 50% u;lizadas para teste)

    Blocos Durao Palavras

    BOM DIA BRASIL 5 52m50s 7.903

    BEM ESTAR 2 38m55s 6.333

    DOMINGO DO FAUSTO 4 01h45m02s 14.686

    TOTAL 11 03h16m47s 28.922

  • Material de Treinamento - Corpora de Texto

    Sentenas Palavras Vocabulrio

    Globo.com (ViaVoice) 100.954 1.707.869 53.633

    Globo.com + FalaBrasil

    (CMUSphinx - Uso Geral)

    1.593.389 24.746.658 210.446

    BOM DIA BRASIL 82 4.011 1.333

    BEM ESTAR 76 3.056 939

    DOMINGO DO FAUSTO 341 7.690 1.569

  • Material de Treinamento - Corpora de Voz Corpus Reduzido

    Corpus Intermedirio

    Corpus Maior Sentenas Palavras Vocabulrio Durao Vozes Ambiente

    Voz Masculina - Cons>tuio1.0 (FalaBrasil)

    * * * 1.238 68.575 5.305 08h50m12s 1 Controlado

    Vozes Masculinas - LapsBenchMark1.4

    (FalaBrasil) * * 500 5.166 2.102 38m10s 25 No controlado

    Vozes Masculinas - VoxForge * * 1.828 9.173 584 01h51m24s 78

    No controlado

    Vozes Femininas - LapsBenchMark1.4

    (FalaBrasil) * 200 2.062 1.064 15m51s 10 No controlado

    Vozes Femininas - VoxForge * 180 855 351 09m30s 6

    No controlado

  • Material de Adaptao de Locutor

    Sentenas Palavras Vocabulrio Durao

    IBM ViaVoice 1.027 6.622 1.953 53m50s

    Relocuo 499 14.757 2.889 98m23s

  • Resultados

    Taxa de palavras fora do dicionrio* Perplexidade

    Dicionrio de uso geral

    Dicionrio especco do programa

    Modelo de linguagem de uso geral

    Modelo de linguagem

    especco do programa

    BOM DIA BRASIL 0,57% 0,47% 266,22 246,74

    BEM ESTAR 1,34% 1,27% 666,42 589,79

    DOMINGO DO FAUSTO 2,30% 1,37% 773,50 536,94

    * Dicionrios com as 65.535 palavras mais frequentes do corpus

  • Resultados Relocuo Esteno>pia IBM Via Voice CMU Sphinx c/ Corpus Reduzido

    CMU Sphinx c/ Corpus

    Intermedirio

    CMU Sphinx c/ Corpus Maior

    SUBTOTAL BOM DIA BRASIL

    Acertos: 99,11% 84,90% 83,91% 81,02% 82,44% 81,82%

    Erros: Subs>tuies:

    1,10% 0,48%

    17,97% 6,96%

    20,93% 12,82%

    21,57% 14,09%

    20,43% 13,23%

    20,56% 13,34%

    Omisses: 0,40% 8,14% 4,53% 4,89% 4,33% 4,84% Inseres: 0,22% 2,87% 3,58% 2,59% 2,87% 2,38%

    Acurcia: 98,90% 82,03% 79,07% 78,43% 79,57% 79,44%

    SUBTOTAL BEM ESTAR

    Acertos: 95,42% 66,95% 71,49% 68,90% 69,93% 71,20%

    Erros: Subs>tuies:

    5,01% 3,32%

    36,52% 13,33%

    32,18% 22,60%

    33,46% 22,93%

    33,30% 22,43%

    32,03% 22,46%

    Omisses: 1,26% 19,72% 5,91% 8,17% 7,64% 6,34% Inseres: 0,43% 3,47% 3,67% 2,36% 3,23% 3,23%

    Acurcia: 94,99% 63,48% 67,82% 66,54% 66,70% 67,97%

    SUBTOTAL DOMINGO DO

    FAUSTO

    Acertos: 94,69% 60,83% 64,87% 68,88% 70,75% 70,75%

    Erros: Subs>tuies:

    7,20% 3,14%

    40,29% 9,02%

    38,36% 27,36%

    33,81% 22,83%

    32,03% 20,99%

    31,94% 21,33%

    Omisses: 2,17% 30,15% 7,77% 8,29% 8,26% 7,92% Inseres: 1,89% 1,12% 3,23% 2,69% 2,78% 2,69%

    Acurcia: 92,80% 59,71% 61,64% 66,19% 67,97% 68,06%

    TOTAL GERAL

    Acertos: 96,06% 68,75% 71,52% 72,23% 73,78% 73,90%

    Erros: Subs>tuies:

    5,05% 2,45%

    33,37% 9,40%

    32,24% 22,34%

    30,36% 20,44%

    29,13% 19,18%

    28,83% 19,39%

    Omisses: 1,49% 21,85% 6,48% 7,33% 7,04% 6,71% Inseres: 1,11% 2,12% 3,42% 2,59% 2,91% 2,73%

    Acurcia: 94,95% 66,63% 67,76% 69,64% 70,87% 71,17%

  • Resultados

    Sistema Latncia CPU * RAM

    Relocuo 1,059 s N/A N/A

    Esteno>pia 4,034 s N/A N/A

    IBM ViaVoice 2,098 s < 20% (de 1 core) < 70 MB

    CMU Sphinx 0,652 s ~ 20% (de 4 cores) ~ 300 MB

    * Intel Core i5 de 2,4 GHz

  • CONCLUSES E TRABALHOS FUTUROS

  • Concluses

    Demanda por sistemas de RAV em Portugus do Brasil Sistemas de RAV testados apresentaram acurcia mais alta e latncia

    mais baixa que a esteno;pia Sistema baseado em so,ware livre apresentou melhor desempenho Possibilidades de melhorias futuras Taxa de acerto mnima especicada pela ABNT NBR 15290 no pde ser

    ob;da por RAV nem por esteno;pia

  • Trabalhos Futuros

    Desenvolver corpus de voz sucientemente grande e diversicado Desenvolver mecanismos autom;cos para gerar corpus de texto a par;r

    da Internet Experimentar smbolos fon;cos diferentes para vogais tnicas O;mizar o tempo de treinamento do sistema Avaliar outros so,wares de RAV

  • Trabalhos Futuros

    Atualizao autom;ca dos dicionrios, modelos de linguagem e modelos acs;cos

    Desenvolver interface operacional Ferramentas de correo da transcrio Gerao de relatrios de desempenho Integrao com ferramentas de codicao de closed cap*on Integrao da soluo completa em uma ferramenta simples de usar Realizar avaliao qualita;va do desempenho, com a par;cipao de

    decientes audi;vos

  • PERGUNTAS?

  • OBRIGADO!