Sistema de Decisão Automático para Conversão de Áudio em Texto na Geração de Legenda Oculta

107
UNIVERSIDADE ESTADUAL DO CEARÁ CENTRO DE CIÊNCIAS E TECNOLOGIA MESTRADO PROFISSIONAL EM COMPUTAÇÃO APLICADA LUIZ FAUSTO DE SOUZA BRITO SISTEMA DE DECISÃO AUTOMÁTICO PARA CONVERSÃO DE ÁUDIO EM TEXTO NA GERAÇÃO DE LEGENDA OCULTA RIO DE JANEIRO – RIO DE JANEIRO 2015

description

O presente trabalho se propõe a analisar uma solução computacional para o problema de geração de legenda oculta em programas de televisão produzidos ao vivo e que contenham fala espontânea, decidindo automaticamente a melhor transcrição de um sinal de áudio em Português do Brasil para o texto correspondente. Trata-se, portanto, do estudo de sistemas de Reconhecimento Automático de Voz em Português do Brasil, tendo em vista a otimização da acurácia. A busca de tal solução se torna crítica pela falta de opções satisfatórias no mercado, pela necessidade de garantir a acessibilidade do conteúdo televisivo para as pessoas com deficiência auditiva e também para o cumprimento de legislação específica. A análise dos resultados obtidos demonstra que é possível desenvolver um sistema a partir de software livre e de bases de dados disponíveis publicamente que obtenha um desempenho superior à estenotipia e aos sistemas comerciais de Reconhecimento Automático de Voz em Português do Brasil atualmente disponíveis.

Transcript of Sistema de Decisão Automático para Conversão de Áudio em Texto na Geração de Legenda Oculta

  • UNIVERSIDADE ESTADUAL DO CEAR

    CENTRO DE CINCIAS E TECNOLOGIA

    MESTRADO PROFISSIONAL EM COMPUTAO APLICADA

    LUIZ FAUSTO DE SOUZA BRITO

    SISTEMA DE DECISO AUTOMTICO PARA

    CONVERSO DE UDIO EM TEXTO NA GERAO DE LEGENDA OCULTA

    RIO DE JANEIRO RIO DE JANEIRO

    2015

  • LUIZ FAUSTO DE SOUZA BRITO

    SISTEMA DE DECISO AUTOMTICO PARA

    CONVERSO DE UDIO EM TEXTO NA GERAO DE LEGENDA OCULTA

    Dissertao apresentada ao Curso de Mestrado Profissional em Computao Aplicada do Centro de Cincias e Tecnologia da Universidade Estadual do Cear, como requisito parcial obteno do ttulo de mestre em Computao Aplicada. rea de Concentrao: Computao Aplicada. Orientador: Prof. Dr. Flvio Luis de Mello.

    RIO DE JANEIRO RIO DE JANEIRO

    2015

  • Dados Internacionais de Catalogao na Publicao

    Universidade Estadual do Cear

    Sistema de Bibliotecas

    Brito, Luiz Fausto de Souza.

    Sistema de Deciso Automtico para Converso de udio em Texto na Gerao de Legenda Oculta [recurso eletrnico] / Luiz Fausto de Souza Brito 2015.

    1 CD-ROM: il. ; 4 pol. CD-ROM contendo o arquivo no formato PDF do trabalho acadmico

    com 106 folhas, acondicionado em caixa de DVD Slim (19 x 14 cm x 7 mm).

    Dissertao (mestrado profissional) Universidade Estadual do Cear,

    Centro de Cincias e Tecnologia, Mestrado Profissional em Computao Aplicada, Rio de Janeiro, 2015.

    rea de Concentrao: Computao Aplicada. Orientao: Prof. Dr. Flvio Luis de Mello. 1. Computao. 2. Sistemas de Apoio Deciso. 3. Legenda Oculta. 4.

    Reconhecimento Automtico de Voz. I. Ttulo.

  • LUIZ FAUSTO DE SOUZA BRITO

    SISTEMA DE DECISO AUTOMTICO PARACONVERSO DE AUDIO EM TEXTO NA GERAO DE LEGENDA OCULTA

    Aprovada em: 27 de abril de 2015.

    BANCA

    /

    Prof. Dr. Flvio Luis de Mello (Orientador)

    Dissertao apresentada ao Curso de MestradoProfissional em Computao Aplicada doCentro de Cincias e Tecnologia daUniversidade Estadual do Cear, comorequisito parcial obteno do ttulo de mestreem Computao Aplicada. rea deConcentrao: Computao Aplicada.

    _EXAMINADORA' 7/

    Universidade Federal do Rio de Janeiro - UFRJ

    Prof. Dr Marcos Jo ' Negr iros GomesUniversi ade Estadual do Cear - UECE

    Prof. Dr. Francisco Henrique de Freitas Viana

    Centro Federal de Educao Tecnolgicado Rio de Janeiro - CEFET/RJ

    Prof. Dr. Luiz Wagner Pereira Biscainho

    Universidade Federal do Rio de Janeiro - UFRJ

  • memria do meu pai, meu maior mestre

    nessa vida. minha me, fonte de serenidade.

    minha esposa, meu apoio incondicional.

    Aos meus filhos, minha eterna alegria. Ao meu

    Deus, fonte da perseverana.

  • AGRADECIMENTOS

    A Deus, verdadeira fonte de toda sabedoria. minha esposa, por todo suporte que me d. Aos

    meus filhos, por inspirarem e alegrarem os meus dias. Aos meus pais, pela educao que me

    deram. Aos professores Flvio Mello e Edilberto Strauss, pela pacincia, compreenso e

    apoio. A todos que, de alguma forma, me ajudaram a chegar at aqui, o meu muito obrigado.

  • Assim tambm vs: se vossa lngua s

    profere palavras ininteligveis, como se

    compreender o que dizeis? Sereis como quem

    fala ao vento.

    (1Cor 14, 9)

  • RESUMO

    Este trabalho se prope a analisar uma soluo computacional para o problema de gerao de

    legenda oculta em programas de televiso produzidos ao vivo e que contenham fala

    espontnea, decidindo automaticamente a melhor transcrio de um sinal de udio em

    Portugus do Brasil para o texto correspondente. Trata-se, portanto, do estudo de sistemas de

    Reconhecimento Automtico de Voz em Portugus do Brasil, tendo em vista a otimizao da

    acurcia. A busca de tal soluo se torna crtica pela falta de opes satisfatrias no mercado,

    pela necessidade de garantir a acessibilidade do contedo televisivo para as pessoas com

    deficincia auditiva e tambm para o cumprimento de legislao especfica. A anlise dos

    resultados obtidos demonstra que possvel desenvolver um sistema a partir de software livre

    e de bases de dados disponveis publicamente que obtenha um desempenho superior

    estenotipia e aos sistemas comerciais de Reconhecimento Automtico de Voz em Portugus

    do Brasil atualmente disponveis.

    Palavras-Chave: Computao. Sistemas de Apoio Deciso. Legenda Oculta.

    Reconhecimento Automtico de Voz.

  • ABSTRACT

    This study aims to analyze a computational solution to the problem of generating closed

    captions on live television programs containing spontaneous speech. The system may

    automatically decide the best transcription of an audio signal in Brazilian Portuguese to the

    corresponding text. To that end, it investigates Brazilian Portuguese Automatic Speech

    Recognition systems in order to optimize their accuracy. The search for such a solution

    becomes critical due to the lack of satisfactory options in the market, the need to provide

    television content accessibility for hearing impaired people and also the compulsory

    fulfillment of specific legislation. The analysis of the results that have been achieved shows

    that it is possible to develop a system based on free software and publicly available databases

    that gets a superior performance compared to stenotyping and currently available commercial

    Brazilian Portuguese Automatic Speech Recognition systems.

    Keywords: Computing. Decision Support Systems. Closed Caption. Automatic Speech

    Recognition.

  • LISTA DE ILUSTRAES

    Figura 1 ! Reconhecimento Automtico de Voz ................................................................ 24!

    Figura 2 ! Processamento Digital de Sinais empregado no RAV .................................... 28!

    Figura 3 ! Representao Esquemtica da Preparao do Material de Teste ............... 47!

    Figura 4 ! Extrao de arquivo VRO do Disco Rgido ..................................................... 48!

    Figura 5 ! Extrao de closed caption de arquivo VRO ................................................... 50!

    Figura 6 ! Extrao de udio em formato WAV a partir de arquivo MPEG ................ 55!

    Figura 7 ! Exemplo de marcao de tempo de fim de frase no udio do programa

    e no texto extrado do closed caption ................................................................ 56!

    Figura 8 ! Formatos de arquivos e softwares utilizados na relocuo ............................ 57!

    Figura 9 ! Ambiente de execuo do IBM ViaVoice ......................................................... 61!

    Figura 10 !Extrao dos textos da globo.com .................................................................... 63!

    Figura 11 !Fluxo do sinal de udio utilizado na adaptao de locutor do IBM

    ViaVoice .............................................................................................................. 64!

    Figura 12 !Formatos de arquivos e softwares utilizados na avaliao da latncia

    do IBM ViaVoice ................................................................................................ 68!

    Figura 13 !Trecho do corpus de texto ................................................................................. 70!

    Figura 14 !Segmentao automtica do udio ................................................................... 70!

    Figura 15 !Variao da perplexidade do modelo de linguagem do programa Bom

    Dia Brasil com o nmero de repeties da transcrio de parte do

    programa no corpus de texto ............................................................................. 71!

    Figura 16 !Variao da perplexidade do modelo de linguagem do programa Bem

    Estar com o nmero de repeties da transcrio de parte do

    programa no corpus de texto ............................................................................. 72!

    Figura 17 !Variao da perplexidade do modelo de linguagem do programa

    Domingo do Fausto com o nmero de repeties da transcrio de

    parte do programa no corpus de texto ............................................................. 73!

    Figura 18 !Ferramentas utilizadas para criao dos dicionrios e dos modelos de

    linguagem ............................................................................................................ 74!

    Figura 19 !Lista dos smbolos fonticos utilizados ............................................................. 75!

    Figura 20 !Trecho do dicionrio .......................................................................................... 76!

    Figura 21 !Representao esquemtica do treinamento do modelo acstico

    independente de locutor .................................................................................... 79!

  • Figura 22 !Representao esquemtica da adaptao de locutor .................................... 82!

    Figura 23 !Representao esquemtica da decodificao ................................................. 84!

    Figura 24 !Variao da acurcia com peso do modelo de linguagem, para o

    programa Bom Dia Brasil, utilizando o modelo acstico treinado com

    corpus maior ....................................................................................................... 85!

  • LISTA DE TABELAS

    ! Prazos e cargas horrias mnimas para disponibilizao de closed Tabela 1

    caption por faixa horria ................................................................................... 20!

    ! Prazos de adequao da infraestrutura das estaes analgicas para Tabela 2

    transmisso de closed caption, de acordo com a populao da cidade

    onde a estao estiver localizada ...................................................................... 21!

    ! Comparao de textos com e sem alinhamento ............................................... 49!Tabela 3

    ! Exemplo de trecho de closed caption extrado em dois formatos: Tabela 4

    apenas texto e texto com marcao de tempo de cada caractere ................... 51!

    ! Acurcia da Estenotipia .................................................................................... 52!Tabela 5

    ! Acurcia da Relocuo ...................................................................................... 58!Tabela 6

    ! Acurcia do IBM ViaVoice ............................................................................... 64!Tabela 7

    ! Taxa de palavras fora do dicionrio e perplexidade do modelo de Tabela 8

    linguagem ............................................................................................................ 77!

    ! Impacto sobre a acurcia do nmero de senones e gaussianas do Tabela 9

    modelo acstico treinado com uma nica voz masculina ............................... 81!

    !Acurcia do sistema de RAV baseado em software livre utilizando Tabela 10

    modelo acstico treinado com corpus mais reduzido, com apenas uma

    voz masculina ..................................................................................................... 86!

    !Acurcia do sistema de RAV baseado em software livre utilizando Tabela 11

    modelo acstico treinado com corpus intermedirio, com vozes

    masculinas apenas .............................................................................................. 89!

    !Acurcia do sistema de RAV baseado em software livre utilizando Tabela 12

    modelo acstico treinado com corpus maior, com vozes masculinas e

    femininas ............................................................................................................. 92!

    !Resumo dos resultados de acurcia obtidos nos testes ................................... 96!Tabela 13

  • LISTA DE ABREVIATURAS E SIGLAS

    ABNT Associao Brasileira de Normas Tcnicas

    AC-3 Audio Codec 3

    CC Closed Caption

    CMU Carnegie Mellon University

    CPU Central Processing Unit

    DCT Discrete Cosine Transform

    DCT-II Type-II Discrete Cosine Transform

    DFT Discrete Fourier Transform

    FFT Fast Fourier Transform

    HMM Hidden Markov Model

    HTML HyperText Markup Language

    IBGE Instituto Brasileiro de Geografia e Estatstica

    IBM International Business Machines Corporation

    LDA Linear Discriminant Analysis

    MAP Maximum a Posteriori

    MB Mega Bytes

    MFCC Mel-Frequency Cepstral Coefficients

    MLLR Maximum Likelihood Linear Regression

    MLLT Maximum Likelihood Linear Transform

    MOV QuickTime Movie

    MPEG Moving Picture Experts Group

    MPEG-2 Moving Picture Experts Group Standard 2

    NHK Nippon Hs Kykai

    PCM Pulse-Code Modulation

    RAM Random-Access Memory

    RAV Reconhecimento Automtico de Voz

    SD Standard Definition

    TV Televiso

    UFPA Universidade Federal do Par

    VRO Video Recording Object File

    WAV Waveform Audio File Format

    WER Word Error Rate

  • SUMRIO

    1! INTRODUO ............................................................................................................. 15!

    1.1! TEMA ............................................................................................................................. 15!1.2! DELIMITAO ............................................................................................................. 15!1.3! JUSTIFICATIVA ............................................................................................................ 15!1.4! OBJETIVOS ................................................................................................................... 16!1.5! METODOLOGIA ........................................................................................................... 16!1.6! ORGANIZAO DA DISSERTAO ........................................................................ 16!2! LEGENDA OCULTA ................................................................................................... 18!

    2.1! ACESSIBILIDADE ........................................................................................................ 18!2.2! LEGISLAO ................................................................................................................ 20!2.3! ESTENOTIPIA ............................................................................................................... 22!2.4! RECONHECIMENTO AUTOMTICO DE VOZ ........................................................ 22!3! RECONHECIMENTO AUTOMTICO DE VOZ (RAV) ....................................... 24!

    3.1! UNIDADE FONTICA .................................................................................................. 25!3.2! DICIONRIO ................................................................................................................. 26!3.3! PROCESSAMENTO DIGITAL DE SINAIS ................................................................. 27!3.4! MODELOS ESTATSTICOS EMPREGADOS NOS MODELOS ACSTICOS ........ 31!3.5! MODELOS ESTATSTICOS EMPREGADOS NOS MODELOS DE

    LINGUAGEM ................................................................................................................. 34!3.6! DECODIFICAO ........................................................................................................ 35!4! GERAO DE LEGENDA OCULTA COM RAV NO MUNDO ........................... 38!

    4.1! JAPO ............................................................................................................................ 38!4.2! PORTUGAL ................................................................................................................... 39!4.3! REINO UNIDO ............................................................................................................... 39!4.4! CANAD ........................................................................................................................ 39!4.5! ESLOVNIA .................................................................................................................. 40!4.6! BRASIL ........................................................................................................................... 41!5! AVALIAO DE DESEMPENHO ............................................................................ 46!

    5.1! MATERIAL DE TESTE ................................................................................................. 46!5.2! AVALIAO DA ESTENOTIPIA ................................................................................ 49!5.2.1!Acurcia ......................................................................................................................... 51!

    5.2.2!Latncia .......................................................................................................................... 55!

  • 5.3! AVALIAO DA RELOCUO ................................................................................. 56!5.3.1!Acurcia ......................................................................................................................... 57!

    5.3.2!Latncia .......................................................................................................................... 61!

    5.4! AVALIAO DO IBM VIAVOICE ............................................................................. 61!5.4.1!Adaptao do Dicionrio e do Modelo de Linguagem ............................................... 62!

    5.4.2!Adaptao do Modelo Acstico .................................................................................... 63!

    5.4.3!Acurcia ......................................................................................................................... 64!

    5.4.4!Latncia .......................................................................................................................... 67!

    5.4.5!Consumo de recursos computacionais ........................................................................ 68!

    5.5! AVALIAO DE UM SISTEMA DE RAV BASEADO EM SOFTWARE LIVRE ............................................................................................................................. 69!

    5.5.1!Criao do Dicionrio e do Modelo de Linguagem .................................................... 69!

    5.5.2!Taxa de palavras fora do dicionrio e perplexidade do modelo de linguagem ....... 76!

    5.5.3!Treinamento do Modelo Acstico ................................................................................ 77!

    5.5.4!Adaptao do Modelo Acstico .................................................................................... 81!

    5.5.5!Acurcia ......................................................................................................................... 83!

    5.5.6!Latncia .......................................................................................................................... 95!

    5.5.7!Consumo de recursos computacionais ........................................................................ 95!

    5.6! ANLISE DOS RESULTADOS .................................................................................... 95!6! CONCLUSO E TRABALHOS FUTUROS ............................................................. 99!

    6.1! CONCLUSO ................................................................................................................ 99!6.2! TRABALHOS FUTUROS ............................................................................................. 100! REFERNCIAS ........................................................................................................... 102!

  • 15

    1 INTRODUO

    1.1 TEMA

    O tema deste trabalho o desenvolvimento de um sistema de deciso automtico

    para converso de udio em texto na gerao de legenda oculta a partir de software livre e de

    bases de dados disponveis publicamente.

    1.2 DELIMITAO

    Este trabalho pretende examinar os sistemas computacionais por trs do

    Reconhecimento Automtico de Voz (RAV) na gerao de legenda oculta, ou seja, sistemas

    capazes de realizar um processo de deciso automtica para converso de udio em texto na

    gerao de closed caption, utilizando o portugus do Brasil. Neste trabalho no se pretende

    desenvolver os algoritmos de processamento digital de sinais ou os modelos estatsticos

    envolvidos no Reconhecimento Automtico de Voz. Pretende-se, ao contrrio, avaliar

    solues de RAV disponveis, os recursos necessrios ao treinamento para o Portugus do

    Brasil e as possibilidades de otimizao da acurcia, levando em considerao as

    informaes disponveis sobre a experincia internacional no uso desse tipo de soluo e as

    otimizaes especficas para a aplicao de RAV na gerao de legenda oculta j

    implementadas.

    1.3 JUSTIFICATIVA

    Na anlise de maturidade de tecnologias emergentes (Hype Cycle) da

    consultoria Gartner publicada em 2014 (GARTNER, 2014), considera-se que a tecnologia de

    reconhecimento de voz j est no patamar de produtividade, ou seja, que j se trata de uma

    tecnologia relativamente madura com aplicaes no mercado. No entanto, no se pode

    considerar que essa tecnologia esteja to madura no Portugus do Brasil quanto est em outras

    lnguas, como o Ingls. Este trabalho motivado pela falta de opes satisfatrias de sistemas

    comerciais atuais de Reconhecimento Automtico de Voz em Portugus do Brasil para a

    aplicao na gerao de legenda oculta ao vivo.

  • 16

    1.4 OBJETIVOS

    O objetivo deste trabalho treinar e avaliar uma das opes de software livre

    disponveis, tendo em vista a aplicao na gerao de legenda oculta para programas de

    televiso ao vivo com fala espontnea em Portugus do Brasil, com Reconhecimento

    Automtico de Voz (RAV) e utilizando relocuo (repetio das falas por um locutor

    especfico em um ambiente acusticamente controlado). O treinamento para o Portugus do

    Brasil utilizar bases de dados disponveis publicamente.

    O desempenho desse sistema ser comparado ao obtido por Estenotipia e pelo

    IBM ViaVoice.

    Pretende-se ainda examinar os algoritmos de processamento de sinais e modelos

    estatsticos utilizados por sistemas de RAV.

    Por fim, pretende-se tambm verificar a experincia das emissoras de televiso ao

    redor do mundo na utilizao de sistemas de Reconhecimento Automtico de Voz em seus

    respectivos idiomas para a aplicao em questo, com foco nas otimizaes implementadas

    que possam ser aproveitadas para o Brasil.

    1.5 METODOLOGIA

    A metodologia a ser empregada no desenvolvimento deste trabalho envolve uma

    ampla reviso bibliogrfica, tanto da fundamentao necessria sobre o atual estado da arte de

    sistemas de Reconhecimento Automtico de Voz (RAV), quanto das ferramentas e recursos

    disponveis publicamente, da aplicao do Reconhecimento Automtico de Voz na gerao de

    legendas ocultas ao redor do mundo e do contexto brasileiro. Envolve ainda a realizao de

    testes comparativos de desempenho de um sistema de RAV para o Portugus do Brasil a ser

    desenvolvido a partir de ferramentas e recursos disponveis publicamente com o desempenho

    do IBM ViaVoice e da Estenotipia.

    1.6 ORGANIZAO DA DISSERTAO

    O Captulo 2 descreve o uso de Legenda Oculta na televiso, sua motivao e os

    sistemas utilizados para gerao ao vivo: Estenotipia e Reconhecimento Automtico de Voz.

  • 17

    No Captulo 3 apresentada uma fundamentao terica sobre o funcionamento

    de sistemas de Reconhecimento Automtico de Voz.

    No Captulo 4 so apresentadas algumas experincias relatadas por diversos

    autores ao redor do mundo sobre a implementao de sistemas de Reconhecimento

    Automtico de Voz na gerao de Legenda Oculta.

    O Captulo 5 apresenta os resultados de testes comparativos de desempenho de

    um sistema de RAV desenvolvido a partir de ferramentas e recursos disponveis publicamente

    com o desempenho do IBM ViaVoice e da Estenotipia.

    As concluses e propostas de trabalhos futuros so apresentadas no Captulo 6.

  • 18

    2 LEGENDA OCULTA

    2.1 ACESSIBILIDADE

    De acordo com os resultados do Censo Demogrfico 2010 do IBGE (INSTITUTO

    BRASILEIRO DE GEOGRAFIA E ESTATSTICA, 2012), cerca de 5,1% da populao

    brasileira (quase 10 milhes de pessoas) possuem deficincia auditiva. Para que essa

    populao tenha acesso ao contedo dos programas de televiso, necessrio que tais

    programas disponham de legendas, contendo no apenas a transcrio textual do que falado,

    como tambm descries de msicas e efeitos sonoros que sejam necessrios para a melhor

    compreenso do contedo sendo exibido. Tais legendas, porm, no devem estar visveis para

    todos os telespectadores, apenas para aqueles que assim as desejarem, ativando tal recurso no

    receptor de TV. Isso possvel, tanto na transmisso de TV analgica (CONSUMER

    ELECTRONICS ASSOCIATION, 2008), quanto na transmisso de TV digital

    (ASSOCIAO BRASILEIRA DE NORMAS TCNICAS, 2011), atravs de um recurso

    denominado legenda oculta ou closed caption (CC).

    Outra possibilidade de prover acessibilidade do contedo televisivo populao

    com deficincia auditiva, o uso de uma janela superposta ao vdeo com um intrprete de

    Libras (Lngua Brasileira de Sinais). Esse meio de acessibilidade atenderia particularmente

    populao com deficincia auditiva no alfabetizada (note-se que, de acordo com os

    resultados do Censo Demogrfico 2010 do IBGE (INSTITUTO BRASILEIRO DE

    GEOGRAFIA E ESTATSTICA, 2012), o analfabetismo mais prevalente na populao com

    deficincia auditiva do que na populao geral). Entretanto, se por um lado nem todos os

    deficientes auditivos so alfabetizados, por outro nem todos utilizam a Lngua Brasileira de

    Sinais. Dessa forma, a Legenda Oculta e a janela com intrprete de Libras seriam

    complementares no provimento da acessibilidade do contedo televisivo populao com

    deficincia auditiva. Deve-se notar, entretanto, que a Legenda Oculta muito mais utilizada

    que a janela com intrprete de Libras, por diversos motivos:

    de acordo com a Lei n 10.436, de 24 de abril de 2002 (BRASIL, 2002), no

    que se refere ao ensino pblico a "Lngua Brasileira de Sinais - Libras no

    poder substituir a modalidade escrita da lngua portuguesa", o que significa

    que todos os deficiente auditivos, assim como todos as demais pessoas,

    deveriam ser alfabetizados e dessa forma teriam acesso Legenda Oculta;

  • 19

    a Lngua Brasileira de Sinais muito pouco conhecida na populao geral,

    sendo a modalidade escrita da lngua portuguesa essencial para a integrao da

    populao com deficincia auditiva, no que a Legenda Oculta poderia ser um

    estmulo e uma ferramenta adicional do processo de alfabetizao;

    o uso da janela com intrprete de Libras na televiso obrigatrio apenas na

    propaganda poltico-partidria e eleitoral, nas campanhas institucionais e

    informativos de utilidade pblica do governo (BRASIL, 2006), e nas vinhetas

    de classificao indicativa (BRASIL, 2007);

    de acordo com a ABNT NBR 15290:2005 (ASSOCIAO BRASILEIRA

    DE NORMAS TCNICAS, 2005), a janela de Libras deve ocupar metade da

    altura e um quarto da largura da tela, no que poderia comprometer

    significativamente a visualizao integral do vdeo;

    embora a Norma Complementar 01, aprovada pela Portaria n 310 do

    Ministrio das Comunicaes (BRASIL, 2006), mencione que "o

    desenvolvimento e implementao da televiso digital no Brasil dever

    permitir o acionamento opcional da janela com intrprete de LIBRAS", tal

    recurso opcional na norma de receptores (ASSOCIAO BRASILEIRA

    DE NORMAS TCNICAS, 2008a) e na norma de codificao de dados

    (ASSOCIAO BRASILEIRA DE NORMAS TCNICAS, 2008b) do

    Sistema Brasileiro de TV Digital Terrestre e a codificao de tal recurso no

    foi padronizada, de forma que a nica alternativa atualmente disponvel para

    utilizao da janela de Libras inclu-la no sinal de vdeo principal, tornando-

    a visvel a todos os telespectadores e no apenas aos que desejariam ativar

    esse recurso.

    Embora a maior motivao para utilizar legendas ocultas na programao da

    televiso seja para garantir a acessibilidade aos telespectadores com deficincia auditiva, tal

    recurso tambm interessante para o pblico geral em algumas situaes especficas, a saber:

    em ambientes nos quais a necessidade de silncio no permite que o som da TV seja

    reproduzido ou pelo menos no com volume suficiente para uma compreenso adequada (e.g.

    hospitais); em ambientes muito barulhentos em que no seria possvel compreender o udio

    da televiso, ainda que reproduzido com volume razovel (e.g. bares e restaurantes); em

    ambientes com sonorizao musical (e.g. academia); para permitir que diferentes televisores

    reproduzam programas diferenciados em um mesmo ambiente para atender a um pblico

  • 20

    heterogneo; em ambiente residencial para permitir que se assista TV noite sem incomodar

    os demais moradores; para aprendizagem da lngua por parte de estrangeiros ou pessoas em

    processo de alfabetizao.

    2.2 LEGISLAO

    No Brasil, a Lei n 10.098 de 2000 (BRASIL, 2000), criada para estabelecer

    normas de acessibilidade, j previa que os servios de radiodifuso de sons e imagens

    deveriam adotar medidas tcnicas com o objetivo de permitir o uso de subtitulao, para

    garantir o direito de acesso informao s pessoas portadoras de deficincia auditiva.

    Contudo, foi somente em 2006, que a Norma Complementar 01, aprovada pela Portaria n 310

    do Ministrio das Comunicaes (BRASIL, 2006) estabeleceu prazos, obrigando os

    radiodifusores a uma utilizao progressiva de legendas ocultas nas suas programaes. De

    acordo com o cronograma estabelecido, em 2017 a totalidade da programao diria das

    emissoras e retransmissoras dever dispor de legendas ocultas, como pode ser verificado na

    Tabela 1.

    Prazos e cargas horrias mnimas para Tabela 1 disponibilizao de closed caption por faixa horria

    Prazo Faixa Horria Carga Horria

    27/06/2008 08:00 - 14:00 1 h 20:00 - 02:00 1 h

    27/06/2009 08:00 - 14:00 2 h 18:00 - 02:00 2 h

    27/06/2010 08:00 - 14:00 3 h 18:00 - 02:00 3 h

    27/06/2011 08:00 - 14:00 4 h 18:00 - 02:00 4 h

    27/06/2012 06:00 - 14:00 6 h 18:00 - 02:00 6 h 27/04/2014 06:00 - 02:00 16 h 27/04/2015 Dia Inteiro 20 h 27/06/2017 Dia Inteiro Totalidade da Programao

    Fonte: Prprio autor.

    As estaes transmissoras ou retransmissoras analgicas que no suportarem a

    transmisso de closed caption devem se adequar de acordo com um prazo estabelecido

    conforme a populao da cidade onde a estao estiver localizada, como pode ser observado

  • 21

    na Tabela 2. As estaes transmissoras ou retransmissoras digitais devem suportar a

    transmisso de closed caption desde o princpio da operao.

    Prazos de adequao da infraestrutura das estaes analgicas para Tabela 2 transmisso de closed caption, de acordo com a populao da cidade onde a estao

    estiver localizada

    Prazo Populao 27/06/2008 > 1.000.000 27/06/2010 > 500.000 27/06/2012 > 200.000 27/06/2014 > 100.000 27/06/2016 Qualquer

    Fonte: Prprio autor.

    Alm disso, a Norma Complementar 01 de 2006 do Ministrio das Comunicaes

    estabelece que a produo e veiculao de legendas ocultas deve atender os critrios e

    requisitos tcnicos da ABNT NBR 15290:2005. Dentre esses requisitos, consta que o texto

    das legendas deve ter 100% de acerto acompanhando o tempo exato da cena para programas

    com legenda pr-gravada e deve ter no mnimo 98% de acerto com no mximo 4 segundos de

    atraso para programas com legenda ao vivo (ASSOCIAO BRASILEIRA DE NORMAS

    TCNICAS, 2005). No consta na norma a metodologia a ser utilizada na aferio desses

    valores.

    Tais exigncias afetam todas as emissoras de televiso do Brasil, independente do

    porte. Mesmo as retransmissoras ou afiliadas das redes de televiso localizadas em cidades de

    pequeno e mdio porte devero veicular legendas ocultas para sua programao e

    comercializao, inclusive local, atendendo os requisitos tcnicos especificados. O

    descumprimento das disposies da norma sujeita as emissoras ou retransmissoras s

    penalidades prescritas no Cdigo Brasileiro de Telecomunicaes.

    Maximizar a taxa de acerto das legendas ocultas importante no apenas para

    cumprir a legislao, como tambm para viabilizar a compreenso das mensagens sendo

    veiculadas. Por vezes, apenas uma palavra errada suficiente para modificar profundamente o

    significado de um texto.

    O maior desafio est na produo de legendas ocultas ao vivo, sobretudo quando

    h fala espontnea (sem que haja um texto pr-definido em roteiro). Essa situao ocorre com

  • 22

    bastante frequncia na programao televisiva: programas de entrevistas, auditrio, religiosos,

    variedades, reality shows etc.

    Existem atualmente duas formas de produzir as legendas ocultas que se aplicam

    transcrio da fala espontnea ao vivo: Estenotipia e Reconhecimento Automtico de Voz.

    Quando a fala ao vivo utiliza a leitura de um teleprompt, o texto do teleprompt pode ser

    utilizado como legenda oculta. Para a parte da programao que no produzida ao vivo, a

    legenda oculta pode ser inserida por digitadores durante o processo de ps-produo.

    2.3 ESTENOTIPIA

    No caso da estenotipia, um profissional especializado digita as palavras na

    velocidade em que as ouve, utilizando smbolos fonticos em um equipamento com teclado

    especial (estentipo), conectado a um computador, que utilizando um dicionrio especfico

    converte as sequncias de smbolos em palavras.

    Um curso de formao profissional em estenotipia dura de seis meses a um ano,

    mas normalmente necessrio pelo menos dois anos de prtica para obter a velocidade

    necessria para legendagem ao vivo (cerca de 180 palavras por minuto). uma mo-de-obra

    relativamente cara, escassa e difcil de repor. De acordo com matria publicada na revista

    Galileu de maio de 2012, existem apenas 400 desses profissionais no Brasil (SANT'ANA,

    2012), em geral concentrados nas cidades de maior porte.

    Erros no processo de estenotipia podem ocorrer tanto por falha humana na

    digitao, quanto pela ocorrncia de palavras fora do dicionrio.

    2.4 RECONHECIMENTO AUTOMTICO DE VOZ

    O Reconhecimento Automtico de Voz o processo de converso do sinal

    acstico da voz em uma transcrio textual correspondente. Um sistema que implemente tal

    processo inclui a captao do sinal de voz, sua digitalizao, processamento digital de sinais e

    modelos estatsticos.

    Na aplicao de Reconhecimento Automtico de Voz para a gerao de closed

    caption, normalmente utilizado um relocutor, que ouve a fala espontnea atravs de um fone

    de ouvido e a repete em um estdio (AHMER, 2002; INTERNATIONAL

    TELECOMMUNICATION UNION, 2011). Com o uso da relocuo, o sistema pode ser

  • 23

    adaptado voz do relocutor, reduzindo a complexidade do reconhecimento de voz, por no

    precisar considerar a variabilidade fontica entre indivduos. Alm disso, como a relocuo se

    d em um ambiente acusticamente controlado, proporciona uma razo sinal/rudo melhor para

    o sistema de reconhecimento. Outra vantagem de utilizar a relocuo, que o relocutor pode

    reformular a fala, corrigindo as disfluncias comuns na linguagem oral, tornando-a mais

    adequada a uma transcrio para a linguagem escrita. Em caso de fala muito rpida (e.g.

    locuo esportiva), o relocutor pode resumir a fala, para que a velocidade de exibio do texto

    seja suficientemente lenta para permitir a leitura. Para facilitar o processo de reconhecimento,

    o relocutor pode ainda falar ou digitar os sinais de pontuao que devem ser utilizados e

    acrescentar pausas entre as palavras. Para realizar a relocuo, no necessrio um curso de

    formao profissional especfico, sendo uma mo-de-obra mais barata, fcil e rpida de repor

    do que um estenotipista. Pela experincia profissional do autor desta dissertao, o custo

    operacional da relocuo aproximadamente a metade do custo da estenotipia.

    Erros no processo de reconhecimento de voz podem ser atribudos a problemas

    com a qualidade da captao e digitalizao do sinal de voz, ao rudo ambiente, s limitaes

    dos algoritmos de processamento de sinais e modelos estatsticos empregados, limitao

    e/ou baixa qualidade da base de dados empregada no treinamento do sistema, bem como s

    diferenas entre a base de dados utilizada no treinamento e a fala a ser reconhecida

    (diferenas acsticas, de vocabulrio, de linguagem etc.) (HUANG; ACERO; HON, 2001).

    Pode-se notar que a criticidade para o emprego da estenotipia est no fator

    humano, enquanto a criticidade para emprego do reconhecimento de voz est em um sistema

    computacional. Em princpio, a soluo utilizando reconhecimento de voz mais atrativa para

    as emissoras, por possuir um custo operacional menor.

  • 24

    3 RECONHECIMENTO AUTOMTICO DE VOZ (RAV)

    Como j foi descrito no captulo anterior, o Reconhecimento Automtico de Voz

    o processo de converso do sinal acstico da voz em uma transcrio textual correspondente.

    Um sistema que implemente tal processo inclui a captao do sinal de voz, sua digitalizao,

    processamento digital de sinais e modelos estatsticos. Uma representao esquemtica de um

    sistema de Reconhecimento Automtico de Voz, em sua arquitetura mais frequente (AHMER,

    2002; INTERNATIONAL TELECOMMUNICATION UNION, 2011), pode ser visualizada

    na Figura 1.

    Figura 1 Reconhecimento Automtico de Voz

    Fonte: Prprio autor.

    O sinal de udio obtido pela captao (realizada atravs de um microfone) e

    digitalizao (que consiste em um processo de amostragem no tempo e quantizao da

    amplitude) da fala. Esse sinal passa por um processamento digital que se destina a extrair

    parmetros que possam ser teis no processo de reconhecimento de padres fonticos. O

    dicionrio fontico e os modelos estatsticos utilizados no reconhecimento (modelo acstico e

    modelo de linguagem) so especficos para cada idioma, podendo ser otimizados para

  • 25

    determinadas caractersticas de voz, vocabulrio e linguagem. So gerados a partir de uma

    base de dados que deve conter: um conjunto de textos (corpus de texto) e um conjunto de

    gravaes de fala em segmentos de curta durao com as transcries textuais

    correspondentes (corpus de voz) (HUANG; ACERO; HON, 2001).

    3.1 UNIDADE FONTICA

    Na implementao de um sistema de Reconhecimento Automtico de Voz, deve-

    se escolher qual ser a unidade fontica empregada, ou seja, quais sero as menores partes da

    fala que sero consideradas no treinamento e, consequentemente, no reconhecimento

    realizado pelo sistema (HUANG; ACERO; HON, 2001).

    A utilizao de palavras como unidade fontica em um sistema de RAV apresenta

    grandes dificuldades para a aplicao em fala contnua com vocabulrio extenso, embora

    possa ser empregada em aplicaes de RAV para comando de voz, em que a fala no seja

    contnua e o vocabulrio do sistema seja limitado. Na fala contnua, muitas vezes no h

    pausas entre as palavras, o que torna difcil a deteco dos limites de cada palavra no tempo

    dentro de um sinal de voz. Como o reconhecimento de voz um tipo de reconhecimento de

    padres, a utilizao de um vocabulrio extenso (dezenas ou at centenas de milhares de

    palavras) torna difcil a obteno de exemplos de udio com transcrio suficientes para

    treinar de forma confivel os modelos estatsticos de cada palavra. Alm disso, com o

    aumento da quantidade de padres a serem reconhecidos, aumenta a probabilidade de

    confuso entre eles (CINCAREK, 2008).

    A utilizao de slabas como unidade fontica, embora reduza a quantidade de

    padres a serem reconhecidos, pode representar uma quantidade de padres ainda

    relativamente alta dependendo do idioma considerado, alm de tambm apresentar problemas

    para a deteco de incio e fim das slabas (AHMER, 2002).

    A menor unidade sonora distintiva da fala denominada fonema. Pode-se

    considerar essa unidade anloga ao grafema (menor unidade distintiva da linguagem escrita,

    que nas lnguas com escrita alfabtica um caractere). Note-se, entretanto, que no h uma

    relao biunvoca entre grafema e fonema (um grafema pode corresponder a mais de um

    fonema e vice-versa). Um aspecto interessante da analogia entre fonema e grafema que

    ambos so conceitos abstratos, com uma variedade praticamente infinita de realizaes

    concretas. No caso do grafema, essa variedade se deve s diferenas de formatao ou

  • 26

    caligrafia; no caso do fonema, deve-se s diferenas fisiolgicas (e.g. voz mais grave ou mais

    aguda), psicolgicas (e.g. estado emocional) e culturais (e.g. sotaque) dos falantes, alm dos

    efeitos coarticulatrios (o som de um fonema afetado pelo contexto de vizinhana fontica).

    A realizao concreta de um fonema denominada fone (HUANG; ACERO; HON, 2001).

    A quantidade de fonemas existentes em qualquer idioma bem inferior

    quantidade de palavras ou slabas existentes, sendo por isso o fonema uma unidade mais

    adequada ao treinamento e ao reconhecimento. A durao dos fonemas tambm apresenta

    variabilidade menor que a durao das palavras ou slabas, o que facilita a deteco de incio

    e fim (AHMER, 2002).

    As variaes fonticas devidas aos falantes podem ser mitigadas atravs do uso de

    relocuo (INTERNATIONAL TELECOMMUNICATION UNION, 2011). As variaes

    devidas aos efeitos coarticulatrios podem ser levadas em considerao diferenciando os

    fonemas pelo contexto de vizinhana fontica, utilizando trifones (um trifone representa um

    nico fonema, dados o fonema anterior e o fonema posterior). Contudo, a utilizao de

    trifones aumenta a quantidade de padres a serem reconhecidos, o que demanda uma base de

    dados maior para o treinamento do sistema. Por vezes, uma soluo de compromisso o

    agrupamento de informaes em modelos de trifones semelhantes (CINCAREK, 2008).

    3.2 DICIONRIO

    Como palavras fora do dicionrio no sero reconhecidas pelo sistema, comum

    a necessidade de atualizao frequente do dicionrio, incorporando novas palavras, sobretudo

    nomes prprios (AHMER, 2002; HUANG; ACERO; HON, 2001). Contudo, deve-se destacar

    que quanto maior o vocabulrio considerado pelo sistema, maior a probabilidade de confuso

    entre palavras. Portanto, para maximizar a acurcia do sistema, tambm pode ser interessante

    retirar do vocabulrio palavras que no sejam mais utilizadas. Uma estratgia comum extrair

    o vocabulrio a partir da anlise das palavras mais comuns do conjunto de textos da base de

    dados do treinamento (BROUSSEAU et al., 2003; MARTINS; TEIXEIRA; NETO, 2010).

    Dessa forma, tambm podem ser construdos dicionrios especializados, segmentando o

    conjunto de textos por assunto (MEINEDO et al., 2003; MIYASAKA, 2004).

    A transcrio fontica das palavras do dicionrio pode ser realizada de forma

    automtica, utilizando um conjunto de regras de converso grafema-fonema (SILVA, 2010).

    Eventualmente, uma mesma palavra no dicionrio pode conter mais de uma transcrio

  • 27

    fontica, o que particularmente til se o sistema precisar suportar variaes regionais de

    pronncia (HUANG; ACERO; HON, 2001).

    3.3 PROCESSAMENTO DIGITAL DE SINAIS

    Como j mencionado, o processamento digital de sinais empregado no

    Reconhecimento Automtico de Voz se destina a extrair do sinal de udio correspondente

    voz captada e digitalizada parmetros que possam ser teis no processo de reconhecimento de

    padres fonticos. Considerando a tcnica de extrao de parmetros mais utilizada (MFCC

    Mel-Frequency Cepstral Coefficients Coeficientes Cepstrais em Frequncia Mel) (SILVA,

    2010; YOUNG et al., 2009), tal processo ser descrito a seguir e est ilustrado na Figura 2.

  • 28

    Figura 2 Processamento Digital de Sinais empregado no RAV

    Fonte: Prprio autor.

    Tipicamente, o processamento de sinais utilizado nesta aplicao iniciado por

    uma filtragem com a finalidade de maximizar a razo sinal/rudo. Nesse sentido, os

    componentes com frequncia acima do espectro da voz so filtrados e o sinal reamostrado a

    16 kHz (HUANG; ACERO; HON, 2001), o que tambm ajuda a reduzir a quantidade de

    dados a serem processados. utilizado ainda um filtro de pr-nfase para compensar o

    decaimento de energia nos componentes de frequncia mais alta da fala, que so essenciais

    para a distino fontica. Esse filtro tambm ajuda a reduzir o rudo de baixa frequncia.

    A seguir, o sinal segmentado no tempo, tipicamente com um segmento a cada 10

    ms, tendo cada segmento a durao entre 20 e 30 ms, curto o bastante para que as

    caractersticas do sinal de voz possam ser consideradas uniformes dentro do segmento. Em

    cada um desses segmentos aplicada uma funo de janelamento, normalmente a de

  • 29

    Hamming, para reduzir o vazamento espectral produzido na anlise desses segmentos

    (SEGBROECK, 2010). Das janelas resultantes, so extrados os coeficientes MFCC,

    conforme os passos descritos a seguir.

    As janelas so processadas por uma DFT (Discrete Fourier Transform

    Transformada Discreta de Fourier), uma vez que as diferenas fonticas so mais facilmente

    observadas no domnio da frequncia do que no domnio do tempo. Para otimizao de

    desempenho computacional, a DFT normalmente calculada atravs de uma FFT (Fast

    Fourier Transform Transformada Rpida de Fourier). Como a fase da Transformada de

    Fourier no contribui para a diferenciao fontica, calcula-se o espectro de potncia atravs

    do quadrado do mdulo da transformada (MESEGUER, 2009).

    O espectro de potncia calculado dessa forma possui escala de frequncia linear.

    Entretanto, possvel verificar que a utilizao de uma escala de frequncia subjetivamente

    linear (Mel) benfica para o reconhecimento de voz. O mapeamento do espectro de

    potncia para a escala de frequncia Mel realizado atravs de um banco de filtros. So

    utilizados normalmente de 24 a 40 filtros triangulares uniformemente espaados na escala

    Mel. Dessa forma, o banco de filtros tambm reduz a dimensionalidade dos dados. Como a

    percepo humana de intensidade sonora logartmica, calculado o logaritmo da energia

    resultante na sada de cada filtro (CINCAREK, 2008).

    Para reduzir ainda mais a dimensionalidade, descorrelacionando o vetor resultante

    da etapa anterior, calculada a DCT-II (Type-II Discrete Cosine Transform Transformada

    Discreta do Cosseno, Tipo 2), da qual permanecemos apenas com os 12 primeiros

    componentes (que concentram a maior parte da informao). A quantidade de bandas do

    banco de filtros e a quantidade de componentes utilizados da DCT foi determinada

    empiricamente para otimizar a relao performance / custo computacional (MESEGUER,

    2009).

    A transformada do logaritmo do espectro de potncia denominada de cepstro

    (termo derivado da palavra espectro). O termo MFCC se justifica porque no processo

    anteriormente descrito, calculamos os coeficientes cepstrais utilizando a transformada do

    logaritmo do espectro de potncia na escala de frequncia Mel. O cepstro uma representao

    do sinal no domnio da quefrncia (termo derivado da palavra frequncia), que tem a

    dimenso de tempo (HUANG; ACERO; HON, 2001).

    Uma forma de justificar a utilizao de uma transformao cepstral do sinal para a

    extrao de parmetros teis na diferenciao fontica considerando um modelo linear de

  • 30

    produo fontica com fonte (sinal produzido pela passagem do ar atravs das pregas vocais)

    e canal (filtro acstico da cavidade oronasal, controlado pela abertura da boca e pela posio

    da lngua, do palato mole e dos lbios). No domnio do tempo, pode-se caracterizar o canal

    atravs da sua resposta ao impulso e o sinal de fala resultante atravs da convoluo da fonte

    com a resposta ao impulso do canal. No domnio da frequncia a convoluo substituda

    pelo produto dos espectros. No domnio da quefrncia a convoluo substituda pela soma

    dos cepstros (HUANG; ACERO; HON, 2001).

    Uma transformao que converta uma convoluo em uma soma denominada

    homomrfica. Embora a transformao empregada no clculo dos coeficientes MFCC no

    seja rigorosamente homomrfica por causa da utilizao do banco de filtros, ela pode ser

    considerada aproximadamente homomrfica para filtros com espectro suave, como o caso

    do filtro acstico oronasal. Dessa forma, a MFCC favorece a separao entre fonte e canal.

    Isso favorece o reconhecimento porque a maior parte da diferenciao fontica se deve s

    caractersticas do canal. Da fonte, interessa saber apenas se as cordas vocais esto tensionadas

    e, portanto vibrando (como o caso nas vogais e nas consoantes sonoras, nas quais o sinal da

    fonte peridico) ou relaxadas e, portanto, no vibrando (como o caso nas consoantes

    surdas, nas quais o sinal da fonte no peridico) (HUANG; ACERO; HON, 2001).

    Nas lnguas tonais, como o chins, que utilizam a variao de afinao (que est

    relacionada frequncia de vibrao das pregas vocais) como elemento de diferenciao

    fontica, necessrio extrair a informao da afinao, alm dos coeficientes MFCC. Nas

    lnguas no-tonais, como o portugus, a variao de afinao frequentemente utilizada como

    elemento de diferenciao prosdica, para distinguir afirmativas de interrogativas, para

    indicar ironia etc. Entretanto, os sistemas de Reconhecimento Automtico de Voz

    normalmente no se prope a analisar a prosdia, portanto essa informao no extrada do

    udio (HUANG; ACERO; HON, 2001).

    Alm dos 12 coeficientes MFCC normalmente adicionado ao vetor de

    parmetros um componente que representa a energia mdia do sinal, aspecto tambm

    considerado importante na diferenciao fontica. A esses 13 componentes, so ainda

    adicionados a primeira e a segunda derivada, denominados de coeficientes dinmicos, delta

    ou vetores de velocidade e acelerao, que ajudam a caracterizar os efeitos coarticulatrios,

    formando um vetor de parmetros ou de caractersticas com 39 coeficientes (SEGBROECK,

    2010).

  • 31

    O vetor de parmetros ou de caractersticas utilizado no modelo acstico para

    reconhecimento dos padres fonticos. possvel otimizar esses parmetros utilizando uma

    transformao linear que melhore a separabilidade entre os padres a serem reconhecidos, o

    que produz um impacto positivo sobre a acurcia do sistema. Alm disso, tal transformao

    descorrelaciona as dimenses do vetor de parmetros e possvel reduzir a dimenso desse

    vetor (por exemplo, de 39 para 32) sem reduzir significativamente a acurcia, o que reduz o

    custo computacional do reconhecimento. Duas transformaes conhecidas que podem ser

    utilizadas em conjunto para aumentar a acurcia e reduzir o custo do reconhecimento so

    LDA (Linear Discriminant Analysis) e MLLT (Maximum Likelihood Linear Transform)

    (HUANG; ACERO; HON, 2001; CARNEGIE MELLON UNIVERSITY, 2012).

    3.4 MODELOS ESTATSTICOS EMPREGADOS NOS MODELOS ACSTICOS

    As transcries textuais das gravaes de fala contidas na base de dados utilizada

    no treinamento do sistema de Reconhecimento Automtico de Voz so convertidas para uma

    sequncia de fonemas de acordo com o dicionrio, para que sejam identificados nos

    parmetros extrados do sinal de udio, pela etapa de processamento digital de sinais, padres

    correspondentes aos fonemas empregados. A modelagem estatstica desses padres fonticos

    denominada Modelo Acstico. Diferentemente do dicionrio, as gravaes de fala

    utilizadas no treinamento no precisam conter todas as palavras do vocabulrio do sistema,

    mas devem conter exemplos suficientes de todos os fonemas, preferencialmente em todos os

    contextos de vizinhana fontica possveis (uma vez que cada fonema pode ter suas

    caractersticas alteradas de acordo com o antecessor e o sucessor) (HUANG; ACERO; HON,

    2001).

    Os modelos acsticos treinados com a voz de diferentes locutores so ditos

    independentes de locutor. Contudo, a acurcia mxima quando o sistema pode ser treinado

    com a voz a ser reconhecida, produzindo modelos acsticos dependentes de locutor. Mas

    como, na prtica, difcil obter gravaes suficientes para treinar adequadamente o modelo

    acstico, uma soluo de compromisso comum o que se denomina adaptao de locutor, em

    que h um treinamento independente de locutor, que posteriormente adaptado para a voz de

    um locutor especfico utilizando uma base de treinamento relativamente pequena. Se a base

    de treinamento independente de locutor for suficientemente grande e diversificada, tambm

    possvel segment-la, gerando modelos acsticos independentes de locutor, mas agrupados

  • 32

    por sexo, idade, sotaque etc. A adaptao de locutor tambm pode ser feita a partir dos

    modelos acsticos desses agrupamentos (AHMER, 2002; SILVA, 2010).

    Dada uma sequncia de vetores de parmetros X extrada de um sinal de voz

    atravs do Processamento Digital de Sinais anteriormente descrito, a tarefa do

    Reconhecimento Automtico de Voz determinar a sequncia correspondente de palavras W

    mais provvel. Em termos probabilsticos, deseja-se descobrir a sequncia de palavras W que

    maximiza a probabilidade condicional P(W|X). Como essa probabilidade no conhecida a

    priori, podemos utilizar o teorema de Bayes para inverter essa probabilidade condicional

    (CINCAREK, 2008; SILVA, 2010):

    ! ! ! = !(!|!) !(!) !(!) (1) Como a maximizao de P(W|X) calculada com X fixo, isso equivale a

    maximizar:

    !(!|!) !(!) (2) Isso permite a separao do problema do Reconhecimento Automtico de Voz em

    dois problemas distintos, um modelo acstico, P(X|W), que ser tratado agora, e um modelo

    de linguagem, P(W), que ser abordado adiante.

    O modelo acstico utiliza, tipicamente, HMM (Hidden Markov Model Modelo

    Oculto de Markov). Nesse modelo, assume-se que o processo segue uma sequncia de estados

    que no so diretamente observveis. A observao indireta, no caso, corresponde a um vetor

    de caractersticas extrado do sinal de voz. Os estados poderiam ser associados aos fonemas

    (ou trifones), mas para maior acurcia do sistema, divide-se cada fonema (ou trifone) em trs

    estados, denominados senones, sendo o primeiro correspondente ao incio do fonema, cuja

    observao influenciada pelo efeito coarticulatrio da transio a partir do fonema anterior,

    o segundo estado corresponde parte intermediria e mais estvel do fonema e o terceiro

    estado corresponde parte final do fonema, cuja observao influenciada pelo efeito

    coarticulatrio da transio para o prximo fonema (HUANG; ACERO; HON, 2001).

    Um modelo HMM caracterizado pelas probabilidades iniciais dos estados

    (representadas por um vetor), pelas probabilidades de transio entre os estados

    (representadas por uma matriz) e pelas probabilidades de observao. As probabilidades de

    observao so modeladas, normalmente, por uma mistura de gaussianas, pela flexibilidade

    que tal mistura oferece de aproximar qualquer distribuio de probabilidade. Uma mistura de

    gaussianas representada pelo vetor das mdias e matriz de covarincia de cada componente

    e por um vetor com os pesos de cada componente (SEGBROECK, 2010).

  • 33

    Para reduzir a dimensionalidade do modelo pode-se associar as probabilidades dos

    estados (senones) semelhantes, tais como os estados intermedirios dos trifones que

    representam o mesmo fonema e os estados inicial e final dos trifones que representam o

    mesmo fonema e que podem ser agrupadas por categorias fonticas dos fonemas anteriores e

    posteriores, respectivamente (YOUNG et al., 2009).

    Em alguns idiomas, como o japons, em que a durao um fator de

    diferenciao fontica, necessrio modelar a probabilidade de transio de estados como

    uma funo do tempo. Nos demais idiomas, como o portugus, embora a durao possa servir

    para diferenciao prosdica, indicando nfase ou mesmo o estado emocional do falante,

    como os sistemas de Reconhecimento Automtico de Voz normalmente no se propem a

    analisar a prosdia, essa modelagem no utilizada (HUANG; ACERO; HON, 2001).

    O treinamento de um modelo acstico o processo de estimao das

    probabilidades que caracterizam o modelo HMM. O algoritmo mais utilizado para essa

    estimao o de Baum-Welch. A transcrio textual dos udios empregados no treinamento

    utilizada para gerar, baseada no dicionrio, a transcrio fontica das palavras e, a partir da, a

    sequncia de estados correspondentes aos trifones, inserindo estados opcionais de silncio

    entre as palavras. O algoritmo por si busca o melhor alinhamento temporal dos estados em

    relao sequncia de vetores de caractersticas extrada do sinal de udio e estima as

    probabilidades do modelo HMM (AHMER, 2002).

    Na adaptao de um modelo acstico para a voz de um locutor especfico

    (adaptao de locutor), duas tcnicas so empregadas com frequncia: MLLR (Maximum

    Likelihood Linear Regression) e MAP (Maximum a Posteriori). A tcnica MLLR calcula

    matrizes de transformao dos vetores de mdias das gaussianas do modelo acstico

    independente de locutor de forma a maximizar a probabilidade de observao dos vetores de

    parmetros extrados do corpus de adaptao. A tcnica MAP ajusta todos os parmetros do

    modelo acstico, interpolando o modelo original com um novo modelo treinado a partir do

    corpus de adaptao. O hiperparmetro (tau) usado para controlar o peso do modelo

    disponvel a priori. A tcnica MLLR possui custo computacional mais baixo e resulta em

    maior acurcia caso o corpus de adaptao seja muito pequeno. A tcnica MAP possui custo

    computacional mais alto e resulta em maior acurcia caso o corpus de adaptao seja um

    pouco maior. A combinao das tcnicas MLLR e MAP resulta na melhor acurcia para

    qualquer tamanho de corpus de adaptao (HUANG; ACERO; HON, 2001; CARNEGIE

    MELLON UNIVERSITY, 2012).

  • 34

    3.5 MODELOS ESTATSTICOS EMPREGADOS NOS MODELOS DE LINGUAGEM

    O conjunto de textos da base de dados de treinamento do sistema de RAV

    utilizado na modelagem da probabilidade de palavras e sequncias de palavras, no que se

    denomina Modelo de Linguagem (SILVA, 2010; SEGBROECK, 2010). Para maximizar a

    acurcia, os textos devem possuir similaridade de vocabulrio e estilo de linguagem com a

    fala a ser reconhecida (HUANG; ACERO; HON, 2001). Para um sistema com uso previsto

    em situaes com assuntos (e, portanto, vocabulrios e estilos de linguagem) muito distintos,

    comum segmentar a base de dados de textos por assunto, produzindo modelos de linguagem

    diferenciados, a serem selecionados em cada situao (AHMER, 2002). comum, assim

    como no caso do dicionrio, a necessidade de atualizao frequente dos modelos de

    linguagem, para incorporao de novos assuntos e atualizao do vocabulrio (MARTINS;

    TEIXEIRA; NETO, 2010; LAMBOURNE et al., 2004; BOULIANNE et al., 2006).

    O modelo de linguagem utiliza, tipicamente, cadeias de Markov para modelar a

    probabilidade de ocorrncia de uma sequncia de palavras. Idealmente, o clculo da

    probabilidade de ocorrncia de uma palavra deveria levar em conta todo o histrico de

    palavras anteriores. Isso, obviamente, no factvel. possvel, contudo, obter uma

    aproximao razovel, limitando o tamanho do histrico considerado (uma vez que a

    dependncia estatstica da ocorrncia de uma palavra com a ocorrncia de outra anterior reduz

    com o aumento da distncia entre elas). Isso nos leva ao modelo denominado N-Grama, onde

    N o nmero de palavras consideradas em sequncia. Normalmente so utilizados trigramas,

    em que a probabilidade de uma palavra condicionada s duas palavras anteriores,

    constituindo um modelo de Markov de segunda ordem (CINCAREK, 2008; SILVA, 2010).

    O treinamento do modelo de linguagem utiliza apenas uma base de texto e os

    parmetros podem ser estimados por uma simples contagem da frequncia de ocorrncia dos

    trigramas. Entretanto, dessa forma, os trigramas que no ocorressem no treinamento do

    modelo de linguagem nunca seriam considerados no Reconhecimento Automtico de Voz,

    uma vez que seriam associados a uma probabilidade nula. Esse problema seria frequente, uma

    vez que o sistema de RAV precisa lidar com um vocabulrio muito grande (dezenas ou

    centenas de milhares de palavras) e o nmero de trigramas possveis seria aproximadamente o

    tamanho do vocabulrio ao cubo, enquanto a base de texto utilizada no treinamento sempre

    limitada. A soluo para isso a utilizao de um algoritmo de suavizao, que reduza um

    pouco a probabilidade de ocorrncia dos trigramas mais frequentes e aumente a probabilidade

  • 35

    dos menos frequentes, atribuindo uma probabilidade pequena, mas no nula, aos trigramas

    que no ocorrerem no treinamento. O algoritmo de suavizao mais utilizado o de Kneser-

    Ney (YOUNG et al., 2009).

    Note-se que, embora o modelo de linguagem no leve em conta explicitamente a

    gramtica, sintaxe ou semntica da lngua, esses elementos esto de certa forma implcitos,

    uma vez que influenciam a probabilidade de ocorrncia de uma sequncia de palavras

    (HUANG; ACERO; HON, 2001).

    3.6 DECODIFICAO

    A decodificao basicamente um processo de busca. O sistema de

    Reconhecimento Automtico de Voz busca a sequncia de palavras mais provvel, a partir do

    vocabulrio definido no dicionrio e dados os modelos acstico e de linguagem, para a

    sequncia de parmetros extrada do sinal de voz captado, digitalizado e processado

    (HUANG; ACERO; HON, 2001).

    O espao de busca pode ser definido em um nico modelo HMM integrando os

    modelos acstico, P(X|W), e de linguagem, P(W), em que, opcionalmente, pode-se atribuir

    empiricamente um peso diferenciado (LW) para o modelo de linguagem, P(W)LW, para

    otimizar a acurcia. O modelo de linguagem tambm funciona como uma penalidade para

    inserir novas palavras durante a decodificao (com uma penalidade pequena o decodificador

    prefere utilizar mais palavras de menor durao e com uma penalidade alta o decodificador

    prefere utilizar menos palavras de maior durao). Ao modificar o peso do modelo de

    linguagem, essa penalidade alterada. Uma penalidade para insero de novas palavras (IP)

    pode ser includa no modelo de linguagem, P(W)LW . IPN(W), onde N(W) o nmero de

    palavras, podendo tambm ser ajustada empiricamente para maximizar a acurcia (HUANG;

    ACERO; HON, 2001).

    A sequncia de estados pode ser organizada na forma de uma rvore ou grafo.

    Uma busca de todas as sequncias de estados possveis para uma decodificao teria, em

    princpio, complexidade exponencial, O(NT), onde N o nmero de estados possveis a cada

    transio de estados (que por sua vez, proporcional ao tamanho do vocabulrio) e T o

    tempo. Para otimizar essa busca, utilizado, tipicamente, o algoritmo de Viterbi. Esse

    algoritmo baseado no princpio da Programao Dinmica, de dividir um problema

    complexo recursivamente em problemas mais simples, armazenando os resultados parciais

  • 36

    para evitar a necessidade de reclculos. O algoritmo de Viterbi, armazena para cada estado, a

    melhor (mais provvel) sequncia de estados at aquele e a respectiva probabilidade,

    reduzindo a complexidade para O(N2T). Ao final da decodificao, basta verificar o estado

    mais provvel e recuperar a informao armazenada sobre o melhor caminho at aquele

    estado (SILVA, 2010; SEGBROECK, 2010).

    Outra otimizao comum a representao da probabilidade de transio de

    estados atravs do seu logaritmo, substituindo as operaes de multiplicao por somas, a

    representao em ponto flutuante por ponto fixo e permitindo uma maior faixa dinmica para

    os valores envolvidos, evitando erros de aproximao numrica (especialmente o underflow)

    (YOUNG et al., 2009).

    A organizao do espao de busca em uma rvore lexical, em que cada ramo

    representa um fonema e as folhas representam as palavras, previne o clculo

    desnecessariamente replicado das probabilidades dos estados iniciais das diversas palavras

    que compartilham os mesmos fonemas inicias (o que particularmente til na lngua

    portuguesa, pelo grande nmero de flexes de palavras existentes). As probabilidades do

    modelo de linguagem podem ser fatoradas ao longo dos ramos da rvore para que possam ser

    levadas em considerao desde o incio da busca, mas empregando um modelo de linguagem

    N-Grama, devem ser consideradas em relao ao contexto das palavras anteriormente

    decodificadas (HUANG; ACERO; HON, 2001).

    Idealmente, a busca deveria considerar todas as hipteses possveis para a

    sequncia de estados. Como o clculo de todos os caminhos possveis dentro da rvore ou

    grafo do espao de busca pode ser proibitivo pelo tamanho do vocabulrio e pela

    complexidade do modelo (e.g. utilizando trigramas, trifones e probabilidades de observao

    modeladas pela mistura de vrias gaussianas), a busca pode ser otimizada

    computacionalmente se forem desconsiderados (podados) os ramos mais improvveis.

    Note-se que h o risco de desconsiderar prematuramente um ramo pertencente ao caminho

    com maior probabilidade global, introduzindo erros de decodificao devido a essa poda.

    Trata-se de uma deciso de compromisso entre custo computacional e acurcia (YOUNG et

    al., 2009).

    H vrios mecanismos de poda empregados na decodificao dos sistemas de

    RAV. O mais frequente o controle de feixe (beam), empregado em conjunto com o

    algoritmo de Viterbi, em que so expandidos apenas os ramos cuja probabilidade no caia

    abaixo de um limiar proporcional probabilidade do ramo mais provvel. Outra possibilidade

  • 37

    a gerao de uma lista dos N-Melhores caminhos utilizando uma primeira decodificao

    mais rpida, com modelos simplificados (e.g. bigramas, monofones, probabilidades de

    observao modeladas pela mistura de menos gaussianas). A seguir, so calculadas as

    probabilidades dos caminhos escolhidos, utilizando modelos acsticos e de linguagem mais

    refinados, para escolher o caminho mais provvel e, portanto, a decodificao mais provvel

    (HUANG; ACERO; HON, 2001).

  • 38

    4 GERAO DE LEGENDA OCULTA COM RAV NO MUNDO

    4.1 JAPO

    No Japo, de acordo com Miyasaka (2004), desde 2000 a emissora NHK utiliza

    um software de Reconhecimento Automtico de Voz para gerao de legenda oculta ao vivo

    em telejornais, por ela desenvolvido, para atender os requisitos tcnicos desejados por essa

    emissora (acurcia mnima de 95% e latncia mxima de 2 segundos), porque o software

    comercial disponvel, IBM ViaVoice em japons, no atendia a tais requisitos. O sistema

    utilizava modelos acsticos adaptados para cada apresentador de telejornal, sem utilizar

    relocuo. Antes de cada telejornal, o modelo de linguagem era atualizado utilizando os

    rascunhos das matrias disponveis. Embora o software desenvolvido atendesse o requisito de

    95% de acurcia, para que no houvesse erro algum na legenda oculta, o sistema inclua

    quatro operadores: dois para revisar frases alternadas marcando as palavras erradas e, para

    cada revisor, um operador para corrigir as palavras erradas marcadas.

    De acordo com Homma et al. (2008), desde 2001 a NHK passou a empregar,

    sobretudo em emissoras afiliadas sua rede, um sistema com apenas um ou dois operadores

    para realizar as correes, em que as palavras erradas so selecionadas em um monitor

    sensvel ao toque e corrigidas pelo mesmo operador. Com dois operadores, no

    Reconhecimento Automtico de Voz de telejornais com apenas um apresentador, o sistema

    chegou a obter 99,9% de acurcia e 99,8% com apenas um operador. A emissora passou

    tambm a utilizar Reconhecimento Automtico de Voz para gerao de legenda oculta ao

    vivo em outros programas, alm de telejornais, empregando relocuo.

    Sako e Ariki (2005) relatam a implementao de um sistema de Reconhecimento

    Automtico de Voz para produzir closed caption para a transmisso de jogos de beisebol ao

    vivo. O sistema no emprega relocuo, porm os modelos acsticos so adaptados para o

    locutor do jogo. Alm disso, os modelos acsticos so segmentados de acordo com alguns

    estados emocionais pr-definidos. Assim, o sistema deve primeiro classificar o estado

    emocional da fala, para a seguir escolher qual modelo acstico empregar. Tambm foi

    incorporado ao modelo de linguagem uma memria de estado, com significado especfico

    para o jogo (e.g. o placar no pode regredir, mudanas no placar normalmente esto

    associadas a uma mudana no estado emocional da voz do locutor etc.). A melhoria de

  • 39

    acurcia proporcionada pela anlise de estado emocional e memria de estado do jogo foi de

    cerca de 1%.

    Ohno et al. (2007) relatam o desenvolvimento de um sistema de resumo

    automtico de monlogos, para ser usado em conjunto com um sistema de Reconhecimento

    Automtico de Voz na gerao de closed caption, porque, de acordo os autores, a velocidade

    de exibio do texto era rpida demais para a leitura.

    4.2 PORTUGAL

    Em Portugal, Meinedo et al. (2003) relatam o desenvolvimento de um software de

    Reconhecimento Automtico de Voz para telejornais. A acurcia obtida foi de 85%, com

    modelo acstico independente de locutor.

    Martins et al. (2010) relatam a implementao de um sistema que atualiza

    diariamente o dicionrio e o modelo de linguagem, de forma automtica, utilizando textos de

    sites de notcias. Com essa abordagem, conseguiram reduzir em 88% os erros ocasionados

    pela ocorrncia de palavras fora do vocabulrio do sistema.

    4.3 REINO UNIDO

    No Reino Unido, Evans (2003) relata o uso na BBC de um sistema de

    Reconhecimento Automtico de Voz desenvolvido internamente utilizando o software IBM

    ViaVoice e empregando relocuo, para a gerao de closed caption em programas ao vivo.

    Lambourne et al. (2004) relatam a adoo de um sistema semelhante em trs

    outras grandes emissoras britnicas, tambm utilizando o IBM ViaVoice, empregando

    relocuo e modelos de linguagem diferenciados de acordo com o assunto. A acurcia obtida

    foi de 95 a 98%.

    4.4 CANAD

    No Canad, de acordo com Boulianne et al. (2006), desde 2004 utiliza-se

    regularmente na gerao de legenda oculta ao vivo um software de Reconhecimento

    Automtico de Voz para a lngua francesa, desenvolvido em conjunto por uma emissora e um

    instituto de pesquisa canadenses.

  • 40

    O sistema utiliza relocuo, com modelos acsticos adaptados a partir de modelos

    independentes de locutor agrupados por sexo. Utiliza ainda dicionrios e modelos de

    linguagem diferenciados por assunto. Os dicionrios, os modelos de linguagem e os modelos

    acsticos so atualizados semiautomaticamente. O sistema busca diariamente textos de sites

    de notcias correspondentes aos assuntos modelados no sistema, para atualizar os modelos de

    linguagem. Quando ocorrem palavras novas, o relocutor precisa valid-las (juntamente com

    suas pronncias e associao aos assuntos) na pr-produo dos programas para que sejam

    inseridas nos dicionrios. Palavras inativas por muito tempo tambm so removidas do

    vocabulrio do sistema. Ainda na pr-produo, o relocutor faz uma breve gravao para

    atualizar seu modelo acstico. Durante a produo, o relocutor pode comutar o assunto,

    indicar a mudana da pessoa cuja fala est sendo transcrita e inserir pontuao e outros

    smbolos utilizando um controle de videogame. Aps a produo, o relocutor pode corrigir os

    erros do reconhecimento para que a transcrio corrigida seja utilizada na atualizao dos

    modelos acstico e de linguagem. A acurcia obtida pelo sistema variou entre 89 e 93%, com

    latncia de dois segundos, alm de um segundo de latncia da relocuo.

    Cardinal et al. (2007) relatam o desenvolvimento de um sistema de correo em

    tempo real de legendas ocultas para ser usado em conjunto com um sistema de

    Reconhecimento Automtico de Voz. Alm de permitir a digitao das palavras corrigidas, o

    sistema sugere, para cada palavra, uma lista de alternativas baseada nos erros de

    reconhecimento mais comuns observados.

    4.5 ESLOVNIA

    Na Eslovnia, devido falta de gravaes de fala com transcrio textual em

    quantidade suficiente para um treinamento adequado dos modelos acsticos, Zgank (2010)

    props uma metodologia para incorporar gravaes sem transcrio na base de dados,

    treinando o sistema inicialmente apenas com as gravaes com transcrio disponveis,

    utilizando o sistema para fazer uma transcrio automtica das gravaes sem transcrio,

    associando a essas transcries um escore de confiana, e aproveitando em um novo

    treinamento do sistema apenas as gravaes cujas transcries automticas obtiveram os

    escores de confiana mais altos (descartando 10% das transcries, aquelas com escores de

    confiana mais baixos). Pelos resultados experimentais que ele obteve, o acrscimo dessas

    gravaes transcritas automaticamente na base de treinamento do sistema melhorou

  • 41

    significativamente a acurcia do mesmo. A acurcia obtida foi de 82%, mas como se trata de

    um modelo acstico independente de locutor, pode-se esperar obter uma acurcia

    significativamente mais alta empregando-se adaptao de locutor.

    4.6 BRASIL

    O primeiro software de reconhecimento de voz comercial que surgiu para o

    Portugus do Brasil e que foi empregado nesta aplicao foi o IBM ViaVoice. Este produto

    foi desenvolvido e comercializado pela IBM at 2003, quando foi vendido para a ScanSoft,

    posteriormente adquirida pela Nuance (IBM, 2008). Nem a ScanSoft, nem a Nuance deram

    continuidade ou desenvolveram produtos para substituir o ViaVoice em Portugus do Brasil.

    Com isso, o software no dispe mais de suporte corretivo ou evolutivo. Eventualmente ele

    pode deixar de funcionar com sistemas operacionais mais novos. Alm disso, a quantidade de

    licenas existentes limitada.

    Note-se que o IBM ViaVoice nem era um produto otimizado para aplicao na

    gerao de legenda oculta: tratava-se de um sistema de Reconhecimento Automtico de Voz

    para utilizao como interface homem-mquina. Como tal, era um produto desenvolvido para

    funcionar como um processo em segundo plano, em computadores de uso domstico da

    poca. Emissoras de televiso e outras empresas desenvolveram interfaces para a gerao de

    legendas ocultas utilizado o ViaVoice. Como j mencionamos que parte dos erros do

    reconhecimento de voz se devem s limitaes dos algoritmos de processamento de sinais e

    modelos estatsticos empregados, pode-se imaginar que hoje seria possvel utilizar algoritmos

    e modelos mais precisos e complexos, na medida em que a tecnologia de reconhecimento de

    voz evoluiu nesse perodo e na medida em que a capacidade computacional aumentou desde a

    descontinuidade do ViaVoice. E ainda mais se considerarmos que no precisamos nos limitar

    a computadores de uso domstico, mas podemos utilizar at mesmo um conjunto de

    servidores realizando processamento distribudo. E, obviamente, neste contexto, o sistema de

    reconhecimento de voz no precisa ser considerado um processo secundrio no(s)

    computador(es) em que estiver sendo executado.

    De fato, alguns dos sistemas de reconhecimento de voz mais bem sucedidos

    atualmente utilizam o paradigma de computao em nuvem (cloud computing), como, por

    exemplo, a pesquisa por voz do Google (GOOGLE, 2012) e o Apple Siri (APPLE, 2011).

  • 42

    Dessa forma, esto livres da limitao da capacidade computacional dos usurios (o que

    especialmente til para aplicaes embarcadas em dispositivos mveis).

    Recentemente, uma empresa que atua na rea de Reconhecimento Automtico de

    Voz para gerao de closed caption em Portugal (Voice Interaction) entrou no mercado

    brasileiro, treinando seus sistemas para o Portugus do Brasil e fazendo parcerias comerciais

    com empresas que implementam codificadores de legenda oculta para o Sistema Brasileiro de

    TV Digital. Existem dois produtos dessa empresa sendo utilizados na gerao de legendas

    ocultas ao vivo no Brasil: o Audimus.Media (VOICE INTERACTION, 2014a) e o

    VoxControl (VOICE INTERACTION, 2014b). O principal produto o Audimus.Media, que

    possui entretanto a restrio de no poder ser adaptado voz de um relocutor, utilizando um

    sistema independente de locutor, o que limita a acurcia. O segundo produto, VoxControl,

    embora permita a adaptao de locutor, utiliza um sistema de reconhecimento mais simples,

    que no foi concebido para a aplicao na gerao de legenda oculta, mas sim como um

    sistema de interface homem-mquina otimizado para execuo como um processo em

    segundo plano em computadores domsticos, o que tambm limita a acurcia.

    Apesar de existirem poucas opes de software comercial que possam ser

    empregadas no Reconhecimento Automtico de Voz do Portugus do Brasil, existem diversas

    opes de software livre que podem ser consideradas: HTK (CAMBRIDGE UNIVERSITY,

    2009) da Universidade de Cambridge, CMU Sphinx (CARNEGIE MELLON UNIVERSITY,

    2012) da Universidade Carnegie Mellon, Julius (KYOTO UNIVERSITY, 2012) da

    Universidade de Kyoto, Simon (SIMON LISTENS, 2012) da Organizao Simon Listens,

    RWTH ASR (RWTH AACHEN UNIVERSITY, 2012) da Universidade Tcnica de Aachen,

    iATROS (UNIVERSIDAD POLITCNICA DE VALENCIA, 2011) da Universidade

    Politcnica de Valncia, SHoUT (UNIVERSITY OF TWENTE, 2010) da Universidade de

    Twente, ISIP ASR (MISSISSIPPI STATE UNIVERSITY, 2007) da Universidade Estadual

    do Mississippi etc. Esses sistemas implementam em software os algoritmos de processamento

    de sinais e modelos estatsticos utilizados no Reconhecimento Automtico de Voz, mas para

    serem aplicados ao Portugus do Brasil necessitam de treinamento com bases de dados

    correspondentes a este idioma. O treinamento desses sistemas utiliza ferramentas distribudas

    juntamente com alguns deles, alm de outras distribudas separadamente, como o SRILM

    (SRI INTERNATIONAL, 2011) da SRI International.

    Como j mencionado anteriormente, o treinamento um aspecto crtico para o

    bom funcionamento de um sistema de Reconhecimento Automtico de Voz. E sendo o

  • 43

    portugus, ao contrrio do ingls, uma lngua altamente flexiva (em que as palavras podem

    sofrer flexo de gnero, nmero, modo, tempo e pessoa), o vocabulrio a ser considerado

    aumenta substancialmente, o que tende a ter um impacto negativo na acurcia do

    reconhecimento. A gramtica do portugus, novamente ao contrrio do ingls, tambm

    relativamente livre quanto ordem das palavras, o que torna os modelos de linguagem mais

    complexos e tambm tende a ter um impacto negativo na acurcia do sistema. Essas duas

    diferenas entre os idiomas portugus e ingls apontam para a necessidade de bases de dados

    para o treinamento de um sistema de Reconhecimento Automtico de Voz em portugus

    maiores do que seria necessrio em ingls, para se obter a mesma acurcia. Entretanto, o que

    ainda se observa que dispomos de bases de dados significativamente menores.

    As bases de dados necessrias para o treinamento de um sistema de

    reconhecimento de voz so de dois tipos: conjuntos de textos (corpus de texto) e gravaes de

    voz com transcrio textual (corpus de voz). relativamente fcil gerar um corpus de texto

    arbitrariamente grande a partir de textos disponveis na internet, por exemplo, mas no

    simples gerar um corpus de voz adequado, pois ele deveria idealmente conter centenas de

    horas de gravao de voz de centenas de pessoas divididas em segmentos de curta durao

    com a transcrio textual correspondente a cada segmento.

    Existem alguns corpora de voz para o Portugus do Brasil que esto disponveis

    comercialmente, a saber:

    Spoltech (OREGON HEALTH & SCIENCE UNIVERSITY, 2009a) (4 horas,

    477 locutores, ambiente no controlado - US$ 50.00 para licena acadmica e

    US$ 3000.00 para licena comercial);

    West Point (LINGUISTIC DATA CONSORTIUM, 2008) (8 horas, 68

    homens e 60 mulheres, ambiente no controlado - licena por US$ 500.00);

    GlobalPhone (EUROPEAN LANGUAGE RESOURCES ASSOCIATION,

    2008) (24 horas, 54 homens e 48 mulheres, ambiente no controlado - 700

    Euros para licena acadmica e 3600 Euros para licena comercial);

    OGI-22 (OREGON HEALTH & SCIENCE UNIVERSITY, 2009b) (3 horas,

    gravaes telefnicas, ambiente no controlado - US$ 50.00 para licena

    acadmica e US$ 3000.00 para licena comercial).

    Uma das iniciativas que buscam disponibilizar publicamente um corpus de voz

    para o treinamento de sistemas de Reconhecimento Automtico de Voz em Portugus (do

    Brasil e de Portugal) a do site VoxForge (VOXFORGE, 2014a). Em maio de 2014, o site

  • 44

    informava ter 2,8 horas de gravao em ambiente no controlado (2% da meta deles), da voz

    de diversos voluntrios (VOXFORGE, 2014b).

    Existe tambm um pequeno corpus de Portugus do Brasil desenvolvido pela

    Universidade de Lisboa e disponvel publicamente (CENTRO DE LINGUSTICA DA

    UNIVERSIDADE DE LISBOA, 1997) (2 horas, 12 homens e 13 mulheres, ambiente no

    controlado, segmentos de longa durao).

    Outra iniciativa importante de ser citada a do grupo FalaBrasil

    (UNIVERSIDADE FEDERAL DO PAR, 2009), da Universidade Federal do Par. Eles

    desenvolveram alguns corpora de voz, a saber:

    Constituio1.0 (com a voz de um nico locutor masculino em ambiente

    acstico controlado de estdio, com 9 horas de durao, disponvel

    publicamente);

    LapsBenchMark1.4 (total de 54 minutos de gravao em ambiente no

    controlado, utilizando 25 homens e 10 mulheres com a mesma durao,

    disponvel publicamente);

    LapsMail1.0 (total de 84 minutos de gravao em ambiente no controlado,

    utilizando 21 homens e 4 mulheres com a mesma durao, udio disponvel

    publicamente, porm transcrio textual no);

    LapsStory (total de 5 horas e 19 minutos, construdo atravs da segmentao e

    transcrio manual de audiolivros, porm no disponibilizado publicamente

    devido s restries de direitos autorais dos audiolivros utilizados).

    Em um dos trabalhos do grupo (BATISTA, 2013), relata-se o uso de um corpus

    de voz do Centro de Estudos de Telecomunicaes da PUC-Rio que teria cerca de 130 horas,

    porm no foi possvel obter informaes adicionais sobre esse corpus.

    Alm de disponibilizar alguns corpora de voz, o grupo FalaBrasil j possui uma

    experincia considervel e bons resultados no treinamento de diversos sistemas em software

    livre para o Portugus do Brasil e na integrao desses sistemas para algumas aplicaes

    especficas (interface homem-mquina: ditado e comandos de voz). Entretanto, as diferenas

    entre essas aplicaes e a aplicao de gerao de legenda oculta dificulta qualquer

    comparao dos resultados obtidos.

    Como todos os corpora de voz disponveis (mesmo os pagos) podem ser

    insuficientes para o treinamento de um sistema de Reconhecimento Automtico de Voz em

    Portugus do Brasil com acurcia elevada, pode-se considerar outras alternativas para

  • 45

    desenvolver novos corpora de voz a partir de recursos disponveis publicamente. Uma

    possibilidade desenvolver um corpus de voz a partir do acervo do site Librivox

    (LIBRIVOX, 2014), que disponibiliza audiolivros de domnio pblico e que possua, em maio

    de 2014, 157 horas de gravaes em portugus do Brasil (em ambiente no controlado) com

    23 homens e 13 mulheres (embora a distribuio no seja uniforme: duraes por leitor

    variando de menos de um minuto a mais de 110 horas e totalizando 42 horas de voz

    masculina e 114 horas de voz feminina). Para utilizar esse material preciso segmentar udio

    e texto em pequenas frases. possvel segmentar o udio por pausas de forma automtica. O

    desafio segmentar o texto de acordo. No havendo uma forma automtica confivel para

    realizar a segmentao do texto a partir da segmentao do udio, essa segmentao teria que

    ser feita manualmente, o que seria um processo extremamente demorado.

  • 46

    5 AVALIAO DE DESEMPENHO

    Utilizando um telejornal, um programa jornalstico sobre sade e um programa de

    auditrio, foram avaliados o desempenho da transcrio textual realizada por estenotipia e por

    Reconhecimento Automtico de Voz da relocuo, atravs do IBM ViaVoice (IBM, 2008) e

    de um sistema utilizando um software livre (CMU Sphinx) (CARNEGIE MELLON

    UNIVERSITY, 2012) treinado para o Portugus do Brasil utilizando bases de dados

    disponveis publicamente.

    O IBM ViaVoice foi utilizado como referncia por ter sido o primeiro software de

    Reconhecimento Automtico de Voz em Portugus do Brasil utilizado na gerao de Legenda

    Oculta, sendo ainda hoje muito utilizado nesta aplicao.

    O CMU Sphinx foi escolhido para esse teste por ser um software de RAV livre

    dos mais bem conceituados atualmente, relativamente maduro (desenvolvido desde 1986) mas

    que ainda conta com uma comunidade de desenvolvimento bastante ativa, por conter todas as

    ferramentas necessrias ao treinamento e teste de um sistema de RAV, por estar

    suficientemente bem documentado para permitir a realizao de todos os testes pretendidos e

    por adotar uma licena de uso que no restringe a aplicao comercial.

    5.1 MATERIAL DE TESTE

    Uma representao esquemtica da preparao do material de teste, que ser

    descrita de forma pormenorizada a seguir, apresentada na Figura 3.

  • 47

    Figura 3 Representao Esquemtica da Preparao do Material de Teste

    Fonte: Prprio autor

    O computador utilizado na avaliao da estenotipia, da relocuo, do IBM

    ViaVoice e nas avaliaes de latncia e consumo de recursos computacionais do sistema de

    RAV baseado em software livre foi um Apple MacBook Pro 13 polegadas do final de 2011,

    com processador Intel Core i5 de 2,4 GHz, 8 GB de RAM e sistema operacional OS X 10.8.2.

    O computador utilizado nos demais testes foi um Apple Mac mini do final de 2012, com

    processador Intel Core i5 de 2,5 GHz, 16 GB de RAM e sistema operacional OS X 10.9.4. Tal

    diviso no compromete a comparao dos resultados, pois nas avaliaes em que o

    desempenho do computador poderia afetar o resultado (latncia e consumo de recursos

    computacionais) foi utilizado um nico computador.

    Para os testes foram escolhidos o telejornal Bom Dia Brasil,