Uso de Reconhecimento Automático de Voz em Português do Brasil na geração de Closed Caption

6
USO DE RECONHECIMENTO AUTOMÁTICO DE VOZ EM PORTUGUÊS DO BRASIL NA GERAÇÃO DE CLOSED CAPTION Luiz Fausto de Souza Brito 1 , Edilberto Strauss 2 , Flávio Luis de Mello 2 1 Rede Globo, Rio de Janeiro - RJ, Brasil, [email protected] 2 Universidade Federal do Rio de Janeiro, Rio de Janeiro - RJ, Brasil, {strauss,fmello}@poli.ufrj.br Resumo: Este trabalho tem a finalidade de apresentar a necessidade de utilização de legenda oculta (closed caption) na programação da televisão, tanto como recurso de acessibilidade, quanto para cumprimento de legislação específica. Para viabilizar tal recurso durante a ocorrência de fala espontânea ao vivo, é apresentada a tecnologia de reconhecimento automático de voz como uma alternativa à estenotipia com menor custo operacional. Em seguida, são apresentados alguns exemplos de utilização dessa abordagem relatados por diversos autores ao redor do mundo. Por fim, são apresentadas as dificuldades específicas de implementação desse tipo de sistema utilizando o idioma português do Brasil e alguns caminhos possíveis para a superação de tais dificuldades. Palavras chave: Closed Caption, Reconhecimento Automático de Voz, Português do Brasil. 1. CLOSED CAPTION E ACESSIBILIDADE De acordo com os resultados do Censo Demográfico 2010 do IBGE [1], cerca de 5,1% da população brasileira (quase 10 milhões de pessoas) possuem deficiência auditiva. Para que essa população tenha acesso ao conteúdo dos programas de televisão, é necessário que tais programas disponham de legendas, contendo não apenas a transcrição textual do que é falado, como também descrições de músicas e efeitos sonoros que sejam necessários para a melhor compreensão do conteúdo sendo exibido. Tais legendas, porém, não devem estar visíveis para todos os telespectadores, apenas para aqueles que assim desejarem, ativando tal recurso no receptor de TV. Isso é possível, tanto na transmissão de TV analógica [2], quanto na transmissão de TV digital [3], através de um recurso denominado “legenda oculta” ou “closed caption” (CC). Embora a maior motivação para utilizar legendas ocultas na programação da televisão seja para garantir a acessibilidade aos telespectadores com deficiência auditiva, tal recurso também é interessante para o público em geral em algumas situações específicas, a saber: em ambientes nos quais a necessidade de silêncio não permite que o som da TV seja reproduzido ou pelo menos não com volume suficiente para uma compreensão adequada (e.g. hospitais); em ambientes muito barulhentos em que não seria possível compreender o áudio da televisão, ainda que reproduzido com volume elevado (e.g. bares e restaurantes); em locais com sonorização musical ambiente (e.g. academia); para permitir que diferentes televisores reproduzam programas diferenciados em um mesmo ambiente para atender a um público heterogêneo; em ambiente residencial para permitir que se assista TV à noite sem incomodar os demais moradores; para aprendizagem da língua por parte de estrangeiros ou pessoas em processo de alfabetização. 2. LEGISLAÇÃO No Brasil, a lei nº 10.098 de 2000 [4], criada para estabelecer normas de acessibilidade, já previa que os serviços de radiodifusão de sons e imagens deveriam adotar medidas técnicas com o objetivo de permitir o uso de subtitulação, para garantir o direito de acesso à informação às pessoas portadoras de deficiência auditiva. Contudo, foi somente em 2006, que a Norma Complementar 01, aprovada pela Portaria nº 310 do Ministério das Comunicações [5] estabeleceu prazos, obrigando os radiodifusores a uma utilização progressiva de legendas ocultas nas suas programações. De acordo com o cronograma estabelecido, em 2017 a totalidade da programação diária das emissoras e retransmissoras deverá dispor de legendas ocultas, como pode ser verificado na Tabela 1. Tabela 1. Prazos e cargas horárias mínimas para disponibilização de closed caption por faixa horária Prazo Faixa Horária Carga Horária 27/06/2008 08:00 - 14:00 1 h 20:00 - 02:00 1 h 27/06/2009 08:00 - 14:00 2 h 18:00 - 02:00 2 h 27/06/2010 08:00 - 14:00 3 h 18:00 - 02:00 3 h 27/06/2011 08:00 - 14:00 4 h 18:00 - 02:00 4 h 27/06/2012 06:00 - 14:00 6 h 18:00 - 02:00 6 h 27/04/2014 06:00 - 02:00 16 h 27/04/2015 Dia Inteiro 20 h 27/06/2017 Dia Inteiro Totalidade da Programação As estações transmissoras ou retransmissoras analógicas que não suportarem a transmissão de closed caption devem se adequar de acordo com um prazo estabelecido conforme a população da cidade onde a estação estiver localizada, como pode ser observado na Tabela 2. As estações transmissoras ou retransmissoras digitais devem suportar a transmissão de closed caption desde o princípio da operação. Tabela 2. Prazos de adequação da infraestrutura das estações analógicas para transmissão de closed caption, de acordo com a população da cidade onde a estação estiver localizada População Prazo > 1.000.000 27/06/2008 > 500.000 27/06/2010 > 200.000 27/06/2012 > 100.000 27/06/2014 Qualquer 27/06/2016 Além disso, a Norma Complementar 01 de 2006 do Ministério das Comunicações estabelece que a produção e veiculação de legendas ocultas deve atender os critérios e requisitos técnicos da ABNT NBR 15290:2005. Dentre

description

Este trabalho tem a finalidade de apresentar a necessidade de utilização de legenda oculta (closed caption) na programação da televisão, tanto como recurso de acessibilidade, quanto para cumprimento de legislação específica. Para viabilizar tal recurso durante a ocorrência de fala espontânea ao vivo, é apresentada a tecnologia de reconhecimento automático de voz como uma alternativa à estenotipia com menor custo operacional. Em seguida, são apresentados alguns exemplos de utilização dessa abordagem relatados por diversos autores ao redor do mundo. Por fim, são apresentadas as dificuldades específicas de implementação desse tipo de sistema utilizando o idioma português do Brasil e alguns caminhos possíveis para a superação de tais dificuldades.

Transcript of Uso de Reconhecimento Automático de Voz em Português do Brasil na geração de Closed Caption

  • USO DE RECONHECIMENTO AUTOMTICO DE VOZ EM PORTUGUS DO BRASIL NA GERAO DE CLOSED CAPTION

    Luiz Fausto de Souza Brito 1, Edilberto Strauss 2, Flvio Luis de Mello 2 1 Rede Globo, Rio de Janeiro - RJ, Brasil, [email protected]

    2 Universidade Federal do Rio de Janeiro, Rio de Janeiro - RJ, Brasil, {strauss,fmello}@poli.ufrj.br

    Resumo: Este trabalho tem a finalidade de apresentar a necessidade de utilizao de legenda oculta (closed caption) na programao da televiso, tanto como recurso de acessibilidade, quanto para cumprimento de legislao especfica. Para viabilizar tal recurso durante a ocorrncia de fala espontnea ao vivo, apresentada a tecnologia de reconhecimento automtico de voz como uma alternativa estenotipia com menor custo operacional. Em seguida, so apresentados alguns exemplos de utilizao dessa abordagem relatados por diversos autores ao redor do mundo. Por fim, so apresentadas as dificuldades especficas de implementao desse tipo de sistema utilizando o idioma portugus do Brasil e alguns caminhos possveis para a superao de tais dificuldades.

    Palavras chave: Closed Caption, Reconhecimento Automtico de Voz, Portugus do Brasil.

    1. CLOSED CAPTION E ACESSIBILIDADE

    De acordo com os resultados do Censo Demogrfico 2010 do IBGE [1], cerca de 5,1% da populao brasileira (quase 10 milhes de pessoas) possuem deficincia auditiva. Para que essa populao tenha acesso ao contedo dos programas de televiso, necessrio que tais programas disponham de legendas, contendo no apenas a transcrio textual do que falado, como tambm descries de msicas e efeitos sonoros que sejam necessrios para a melhor compreenso do contedo sendo exibido. Tais legendas, porm, no devem estar visveis para todos os telespectadores, apenas para aqueles que assim desejarem, ativando tal recurso no receptor de TV. Isso possvel, tanto na transmisso de TV analgica [2], quanto na transmisso de TV digital [3], atravs de um recurso denominado legenda oculta ou closed caption (CC).

    Embora a maior motivao para utilizar legendas ocultas na programao da televiso seja para garantir a acessibilidade aos telespectadores com deficincia auditiva, tal recurso tambm interessante para o pblico em geral em algumas situaes especficas, a saber: em ambientes nos quais a necessidade de silncio no permite que o som da TV seja reproduzido ou pelo menos no com volume suficiente para uma compreenso adequada (e.g. hospitais); em ambientes muito barulhentos em que no seria possvel compreender o udio da televiso, ainda que reproduzido com volume elevado (e.g. bares e restaurantes); em locais com sonorizao musical ambiente (e.g. academia); para permitir que diferentes televisores reproduzam programas diferenciados em um mesmo ambiente para atender a um pblico heterogneo; em ambiente residencial para permitir que se assista TV noite sem incomodar os demais moradores; para aprendizagem da lngua por parte de estrangeiros ou pessoas em processo de alfabetizao.

    2. LEGISLAO

    No Brasil, a lei n 10.098 de 2000 [4], criada para estabelecer normas de acessibilidade, j previa que os servios de radiodifuso de sons e imagens deveriam adotar medidas tcnicas com o objetivo de permitir o uso de subtitulao, para garantir o direito de acesso informao s pessoas portadoras de deficincia auditiva. Contudo, foi somente em 2006, que a Norma Complementar 01, aprovada pela Portaria n 310 do Ministrio das Comunicaes [5] estabeleceu prazos, obrigando os radiodifusores a uma utilizao progressiva de legendas ocultas nas suas programaes. De acordo com o cronograma estabelecido, em 2017 a totalidade da programao diria das emissoras e retransmissoras dever dispor de legendas ocultas, como pode ser verificado na Tabela 1.

    Tabela 1. Prazos e cargas horrias mnimas para disponibilizao de closed caption por faixa horria

    Prazo Faixa Horria Carga Horria

    27/06/2008 08:00 - 14:00 1 h 20:00 - 02:00 1 h

    27/06/2009 08:00 - 14:00 2 h 18:00 - 02:00 2 h

    27/06/2010 08:00 - 14:00 3 h 18:00 - 02:00 3 h

    27/06/2011 08:00 - 14:00 4 h 18:00 - 02:00 4 h

    27/06/2012 06:00 - 14:00 6 h 18:00 - 02:00 6 h 27/04/2014 06:00 - 02:00 16 h 27/04/2015 Dia Inteiro 20 h 27/06/2017 Dia Inteiro Totalidade da Programao

    As estaes transmissoras ou retransmissoras analgicas que no suportarem a transmisso de closed caption devem se adequar de acordo com um prazo estabelecido conforme a populao da cidade onde a estao estiver localizada, como pode ser observado na Tabela 2. As estaes transmissoras ou retransmissoras digitais devem suportar a transmisso de closed caption desde o princpio da operao.

    Tabela 2. Prazos de adequao da infraestrutura das estaes analgicas para transmisso de closed caption, de acordo com a

    populao da cidade onde a estao estiver localizada

    Populao Prazo > 1.000.000 27/06/2008 > 500.000 27/06/2010 > 200.000 27/06/2012 > 100.000 27/06/2014 Qualquer 27/06/2016

    Alm disso, a Norma Complementar 01 de 2006 do Ministrio das Comunicaes estabelece que a produo e veiculao de legendas ocultas deve atender os critrios e requisitos tcnicos da ABNT NBR 15290:2005. Dentre

  • esses requisitos, consta que o texto das legendas deve ter 100% de acerto acompanhando o tempo exato da cena para programas com legenda pr-gravada e deve ter no mnimo 98% de acerto com no mximo 4 segundos de atraso para programas com legenda ao vivo [6].

    Tais exigncias afetam todas as emissoras de televiso do Brasil, independente do porte. Mesmo as retransmissoras ou afiliadas das redes de televiso, devero veicular legendas ocultas para sua programao e comercializao, inclusive local, atendendo os requisitos tcnicos especificados. O descumprimento das disposies da norma sujeita as emissoras ou retransmissoras s penalidades prescritas no Cdigo Brasileiro de Telecomunicaes.

    Maximizar a taxa de acerto das legendas ocultas importante no apenas para cumprir a legislao, como tambm para viabilizar a compreenso das mensagens sendo veiculadas. Por vezes, apenas uma palavra errada suficiente para modificar profundamente o significado de um texto.

    O maior desafio est na produo de legendas ocultas ao vivo, sobretudo quando h fala espontnea (sem que haja um texto pr-definido em roteiro). Essa situao ocorre com bastante frequncia na programao televisiva: programas de entrevistas, de auditrio, religiosos, de variedades, reality shows etc. Existem atualmente duas formas de produzir as legendas ocultas que se aplicam transcrio da fala espontnea ao vivo: estenotipia e reconhecimento automtico de voz. Quando a fala ao vivo utiliza a leitura de um teleprompt, o texto do teleprompt pode ser utilizado como legenda oculta. Para a parte da programao que no produzida ao vivo, a legenda oculta pode ser inserida por digitadores durante o processo de ps-produo.

    3. ESTENOTIPIA

    Trata-se do uso de um profissional especializado que digita as palavras na velocidade em que as ouve, utilizando smbolos fonticos em um equipamento com teclado especial (estentipo), conectado a um computador, que utilizando um dicionrio especfico converte as sequncias de smbolos em palavras.

    Um curso de formao profissional em estenotipia dura de seis meses a um ano, mas normalmente necessrio pelo menos dois anos de prtica para obter a velocidade necessria para legendagem ao vivo (180 palavras por minuto). uma mo-de-obra relativamente cara, escassa e difcil de repor. De acordo com matria publicada na revista Galileu de maio de 2012, existem apenas 400 profissionais desses no Brasil [7].

    Erros no processo de estenotipia podem ocorrer tanto por falha humana na digitao quanto pela ocorrncia de palavras fora do dicionrio.

    4. RECONHECIMENTO AUTOMTICO DE VOZ

    O reconhecimento automtico de voz o processo de converso do sinal acstico da voz em uma transcrio textual correspondente. Um sistema que implemente tal processo inclui a captao do sinal de voz, sua digitalizao, processamento digital de sinais e modelos estatsticos. Uma representao esquemtica de um sistema de reconhecimento automtico de voz pode ser visualizada na Figura 1.

    Figura 1. Reconhecimento Automtico de Voz

    A captao do sinal de voz realizada atravs de um microfone e a digitalizao consiste em um processo de amostragem no tempo e quantizao da amplitude do sinal. O processamento digital de sinais empregado se destina a extrair do sinal de udio correspondente voz captada e digitalizada, parmetros que possam ser teis no processo de reconhecimento de padres fonticos. Os modelos estatsticos so treinados para cada idioma a partir de uma base de dados que deve conter: um dicionrio com o vocabulrio que o sistema deve utilizar contendo a transcrio fontica de cada palavra, um conjunto de gravaes de fala com transcrio textual e um conjunto de textos.

    Como palavras fora do dicionrio no sero reconhecidas pelo sistema, comum a necessidade de atualizao frequente do dicionrio, incorporando novas palavras, sobretudo nomes prprios. Contudo, deve-se destacar que quanto maior o vocabulrio considerado pelo sistema, maior a probabilidade de confuso entre palavras. Portanto, para maximizar a acurcia do sistema, tambm pode ser interessante retirar do vocabulrio palavras que no sejam mais utilizadas. Uma estratgia comum extrair o vocabulrio a partir da anlise das palavras mais comuns do conjunto de textos. Dessa forma, tambm podem ser construdos dicionrios especializados, segmentando o conjunto de textos por assunto. A transcrio fontica das palavras do dicionrio pode ser realizada de forma automtica, utilizando um conjunto de regras de converso grafema-fonema. Eventualmente, uma mesma palavra no dicionrio pode conter mais de uma transcrio fontica, o que particularmente til se o sistema precisar suportar variaes regionais de pronncia.

    As transcries textuais das gravaes de fala so convertidas para uma sequncia de fonemas de acordo com o dicionrio, para que sejam identificados nos parmetros extrados do sinal de udio, pela etapa de processamento digital de sinais, padres correspondentes aos fonemas empregados no dicionrio. A modelagem estatstica desses padres fonticos denominada

  • Modelo Acstico. Diferentemente do dicionrio, as gravaes de fala utilizadas no treinamento no precisam conter todas as palavras do vocabulrio do sistema, mas devem conter exemplos suficientes de todos os fonemas, preferencialmente em todos os contextos de vizinhana fontica possveis (uma vez que cada fonema pode ter suas caractersticas alteradas de acordo com o antecessor e o sucessor). Os modelos acsticos, se treinados com a voz de diferentes locutores, so ditos independentes de locutor. Contudo, a acurcia mxima quando o sistema pode ser treinado com a voz a ser reconhecida, produzindo modelos acsticos dependentes de locutor. Mas como, na prtica, difcil obter gravaes suficientes para treinar adequadamente o modelo acstico, uma soluo de compromisso comum o que se denomina adaptao de locutor, em que h um treinamento independente de locutor, que posteriormente adaptado para a voz de um locutor especfico utilizando uma base de treinamento relativamente pequena. Se a base de treinamento independente de locutor for suficientemente grande e diversificada, tambm possvel segment-la, gerando modelos acsticos independentes de locutor, mas agrupados por sexo, idade, sotaque etc. A adaptao de locutor tambm pode ser feita a partir dos modelos acsticos desses agrupamentos.

    O conjunto de textos utilizado na modelagem da probabilidade de palavras e sequncias de palavras, no que se denomina Modelo de Linguagem. Para maximizar a acurcia, os textos devem possuir similaridade de vocabulrio e estilo de linguagem com a fala a ser reconhecida. Para um sistema com uso previsto em situaes com assuntos (e, portanto, vocabulrios e estilos de linguagem) muito distintos, comum segmentar a base de dados de textos por assunto, produzindo modelos de linguagem diferenciados, a serem selecionados em cada situao. Assim como no caso do dicionrio, h necessidade de atualizao frequente dos modelos de linguagem, para incorporao de novos assuntos e atualizao do vocabulrio.

    Erros no processo de reconhecimento de voz podem ser atribudos a problemas com a qualidade da captao e digitalizao do sinal de voz, s limitaes dos algoritmos de processamento de sinais e modelos estatsticos empregados, restrio e/ou baixa qualidade da base de dados empregada no treinamento do sistema, bem como s diferenas entre a base de dados utilizada no treinamento e a fala a ser reconhecida (diferenas acsticas, de vocabulrio, de linguagem etc.) [8].

    5. USO AO REDOR DO MUNDO

    Na aplicao de reconhecimento automtico de voz para a gerao de closed caption, normalmente utilizado um relocutor, que ouve a fala espontnea atravs de um fone de ouvido e a repete em um estdio [9] [10]. Com o uso da relocuo, o modelo acstico do sistema pode ser adaptado voz do relocutor, reduzindo a complexidade do reconhecimento de voz, por no precisar considerar a variabilidade fontica entre indivduos. Alm disso, como a relocuo se d em um ambiente acusticamente controlado, proporciona uma relao sinal/rudo melhor para o sistema de reconhecimento. Outra vantagem de utilizar a relocuo que o relocutor pode reformular a fala, corrigindo as disfluncias comuns na linguagem oral,

    tornando-a mais adequada a uma transcrio para a linguagem escrita. Para facilitar o processo de reconhecimento, o relocutor pode ainda falar os sinais de pontuao que devem ser utilizados e acrescentar pausas entre as palavras. Para realizar a relocuo no necessrio um curso de formao profissional especfico, sendo uma mo-de-obra mais barata, fcil e rpida de repor do que um estenotipista.

    No Japo, de acordo com Miyasaka [11], desde 2000 a emissora NHK utiliza um software de reconhecimento automtico de voz para gerao de legenda oculta ao vivo em telejornais, por ela desenvolvido para atender os requisitos tcnicos desejados por essa emissora (acurcia mnima de 95% e latncia mxima de 2 segundos), porque o software comercial disponvel (IBM ViaVoice em japons) no atendia a tais requisitos. O sistema utilizava modelos acsticos adaptados para cada apresentador de telejornal, sem utilizar relocuo. Antes de cada telejornal, o modelo de linguagem era atualizado utilizando os rascunhos das matrias disponveis. Embora o software desenvolvido atendesse o requisito de 95% de acurcia, para que no houvesse erro algum na legenda oculta, o sistema inclua quatro operadores: dois para revisar frases alternadas marcando as palavras erradas e, para cada revisor, um operador para corrigir as palavras erradas marcadas. De acordo com Homma [12], desde 2001 a NHK passou a empregar, sobretudo em emissoras afiliadas sua rede, um sistema com apenas um ou dois operadores para realizar as correes, em que os as palavras erradas so selecionadas em um monitor sensvel ao toque e corrigidas pelo mesmo operador. Com dois operadores, no reconhecimento automtico de voz de telejornais com apenas um apresentador, o sistema chegou a obter 99,9% de acurcia e 99,8% com apenas um operador. A emissora passou tambm a utilizar reconhecimento automtico de voz para gerao de legenda oculta ao vivo em outros programas, alm de telejornais, empregando relocuo. Sako e Ariki [13] relatam em 2005 a implementao de um sistema de reconhecimento automtico de voz para produzir closed caption para a transmisso de jogos de beisebol ao vivo. O sistema no emprega relocuo, porm os modelos acsticos so adaptados para o locutor do jogo. Alm disso, os modelos acsticos so segmentados de acordo com alguns estados emocionais pr-definidos. Assim, o sistema deve primeiro classificar o estado emocional da fala, para a seguir escolher qual modelo acstico empregar. Tambm foi incorporado ao modelo de linguagem uma memria de estado, com significado especfico para o jogo (ex: o placar no pode regredir, mudanas no placar normalmente esto associadas a uma mudana no estado emocional da voz do locutor etc.). A melhoria de acurcia proporcionada pela anlise de estado emocional e memria de estado do jogo foi de cerca de 1%.

    Em Portugal, Meinedo et alli [14] relatam em 2003 o desenvolvimento de um software de reconhecimento automtico de voz para telejornais. A acurcia obtida foi de 85%, com modelo acstico independente de locutor. Martins et alli [15] relatam em 2010 a implementao de um sistema que atualiza diariamente o dicionrio e o modelo de linguagem, de forma automtica, utilizando textos de sites de notcias. Com essa abordagem,

  • conseguiram reduzir em 88% os erros ocasionados pela ocorrncia de palavras fora do vocabulrio do sistema.

    No Reino Unido, Evans [16] relata em 2003 o uso na BBC de um sistema de reconhecimento automtico de voz desenvolvido internamente utilizando o software IBM ViaVoice e empregando relocuo, para a gerao de closed caption em programas ao vivo. Lambourne et alli [17] relatam em 2004 a adoo de um sistema semelhante em trs outras grandes emissoras britnicas, tambm utilizando o IBM ViaVoice, empregando relocuo e modelos de linguagem diferenciados de acordo com o assunto. A acurcia obtida foi de 95 a 98%.

    No Canad, de acordo com Boulianne et alli [18], desde 2004 utiliza-se regularmente na gerao de legenda oculta ao vivo um software de reconhecimento automtico de voz para a lngua francesa, desenvolvido em conjunto por uma emissora e um instituto de pesquisa canadenses. O sistema utiliza relocuo, com modelos acsticos adaptados a partir de modelos independentes de locutor agrupados por sexo. Utiliza ainda dicionrios e modelos de linguagem diferenciados por assunto. Os dicionrios, os modelos de linguagem e os modelos acsticos so atualizados semi-automaticamente. O sistema busca diariamente textos de sites de notcias correspondentes aos assuntos modelados no sistema, para atualizar os modelos de linguagem. Quando ocorrem palavras novas, o relocutor precisa valid-las (juntamente com suas pronncias e associao aos assuntos) na pr-produo dos programas para que sejam inseridas nos dicionrios. Palavras inativas por muito tempo tambm so removidas do vocabulrio do sistema. Ainda na pr-produo, o relocutor faz uma breve gravao para atualizar seu modelo acstico. Durante a produo, o relocutor pode comutar o assunto, indicar a mudana da pessoa cuja fala est sendo transcrita e inserir pontuao e outros smbolos utilizando um joystick. Aps a produo, o relocutor pode corrigir os erros do reconhecimento para que a transcrio corrigida seja utilizada na atualizao dos modelos acstico e de linguagem. A acurcia obtida pelo sistema variou entre 89 e 93%. Cardinal et alli [19] relatam em 2007 o desenvolvimento de um sistema de correo em tempo real de legendas ocultas para ser usado em conjunto com um sistema de reconhecimento automtico de voz. Alm de permitir a digitao das palavras corrigidas, o sistema sugere, para cada palavra, uma lista de alternativas baseada nos erros de reconhecimento mais comuns observados.

    Na Eslovnia, devido falta de gravaes de fala com transcrio textual em quantidade suficiente para um treinamento adequado dos modelos acsticos, Zgank [20] props em 2010 uma metodologia para incorporar gravaes sem transcrio na base de dados, treinando o sistema inicialmente apenas com as gravaes com transcrio disponveis, utilizando o sistema para fazer uma transcrio automtica das gravaes sem transcrio, associando a essas transcries um escore de confiana, e aproveitando em um novo treinamento do sistema as gravaes com transcrio automtica que obtiveram escores de confiana suficientemente altos. Pelos resultados experimentais que ele obteve, o acrscimo dessas gravaes transcritas automaticamente na base de treinamento do sistema melhorou significativamente a acurcia do mesmo. A acurcia obtida foi de 82%, mas trata-se de um modelo acstico

    independente de locutor, e portanto, pode-se esperar obter uma acurcia significativamente mais alta empregando-se adaptao de locutor.

    6. SITUAO BRASILEIRA

    O nico software de reconhecimento automtico de voz comercial existente para o portugus do Brasil e empregado na gerao de closed caption o IBM ViaVoice. Este produto foi desenvolvido e comercializado pela IBM at 2003, quando foi vendido para a ScanSoft, posteriormente adquirida pela Nuance [21]. Nem a ScanSoft, nem a Nuance deram continuidade ou desenvolveram produtos para substituir o ViaVoice em Portugus do Brasil. Com isso, o software no dispe mais de suporte corretivo ou evolutivo, podendo eventualmente deixar de funcionar com sistemas operacionais mais novos. Alm disso, a quantidade de licenas existentes limitada.

    Note-se que o IBM ViaVoice nem era um produto otimizado para aplicao na gerao de legenda oculta: tratava-se de um sistema de reconhecimento automtico de voz para utilizao como interface homem/mquina. Emissoras de televiso e outras empresas desenvolveram interfaces para a gerao de legendas ocultas utilizado o ViaVoice. Como j citado, parte dos erros do reconhecimento de voz se devem s limitaes dos algoritmos de processamento de sinais e modelos estatsticos empregados. Pode-se imaginar que hoje seria possvel utilizar algoritmos e modelos mais precisos e complexos, uma vez que a tecnologia de reconhecimento de voz evoluiu nesse perodo e que a capacidade computacional aumentou desde a descontinuidade do ViaVoice. Alm disso, no h necessidade de ficar restrito a computadores de uso domstico, pode-se utilizar at mesmo um conjunto de servidores realizando processamento distribudo.

    De fato, alguns dos sistemas de reconhecimento de voz mais bem sucedidos atualmente utilizam o paradigma de computao em nuvem (cloud computing), como, por exemplo, a pesquisa por voz do Google [22] e o Apple Siri [23]. Dessa forma, esto livres da limitao da capacidade computacional dos usurios (o que especialmente til para aplicaes embarcadas em dispositivos mveis).

    Apesar da falta de softwares comerciais que possam ser empregados no reconhecimento automtico de voz do portugus do Brasil, existem diversas opes de software livre que podem ser consideradas: HTK [24] da Universidade de Cambridge, CMU Sphinx [25] da Universidade Carnegie Mellon, Julius [26] da Universidade de Kyoto, Simon [27] da Organizao Simon Listens, RWTH ASR [28] da Universidade Tcnica de Aachen, iATROS [29] da Universidade Politcnica de Valncia, SHoUT [30] da Universidade de Twente, ISIP ASR [31] da Universidade Estadual do Mississippi etc. Esses softwares implementam os algoritmos de processamento de sinais e modelos estatsticos utilizados no reconhecimento automtico de voz, mas para serem aplicados ao portugus do Brasil necessitam de treinamento com bases de dados brasileiras. O treinamento desses sistemas utiliza ferramentas distribudas juntamente com os mesmos, alm de outras distribudas separadamente, como o SRILM [32] da SRI International.

    O treinamento um aspecto crtico para o bom funcionamento de um sistema de reconhecimento

  • automtico de voz. Sendo o portugus, ao contrrio do ingls, uma lngua altamente flexiva (em que as palavras podem sofrer flexo de gnero, nmero, modo, tempo e pessoa), o vocabulrio a ser considerado aumenta substancialmente, o que tende a ter um impacto negativo na acurcia do reconhecimento. A gramtica do portugus, novamente ao contrrio do ingls, tambm relativamente livre quanto ordem das palavras, o que torna os modelos de linguagem mais complexos, o que tambm tende a ter um impacto negativo na acurcia do sistema. Essas duas diferenas entre os idiomas portugus e ingls apontam para a necessidade de bases de dados para o treinamento de um sistema de reconhecimento automtico de voz em portugus maiores do que seria necessrio em ingls, para obter-se a mesma acurcia. Entretanto, o que ainda se observa a disponibilidade de bases de dados significativamente menores. Uma das iniciativas que buscam disponibilizar as bases de dados necessrias para o portugus do Brasil a do site VoxForge [33]. Outra iniciativa importante de ser citada a do grupo FalaBrasil [34], da Universidade Federal do Par. Alm de disponibilizar suas bases de dados, esse grupo j possui uma experincia considervel no treinamento de diversos softwares livres para o portugus do Brasil e na integrao desses softwares para algumas aplicaes especficas. Tambm pode-se considerar que o acervo das prprias emissoras de televiso interessadas em utilizar o sistema de reconhecimento automtico de voz poderia contribuir significativamente para o desenvolvimento das bases de dados necessrias.

    7. CONSIDERAES FINAIS

    Uma opo para o desenvolvimento de alternativas viveis falta de ferramentas comerciais de reconhecimento automtico de voz para o portugus do Brasil aplicveis na gerao de legenda oculta realizar um levantamento das opes de software livre disponveis. Em um levantamento criterioso de tais softwares pode-se avaliar as opes dos parmetros de configurao disponveis quanto aos impactos sobre a acurcia e o custo computacional dos sistemas, podendo ser adotadas opes tais que necessitem de processamento distribudo para viabilizar a execuo em tempo real, se isso resultar em uma melhoria significativa da acurcia do sistema. necessrio ainda avaliar as bases de dados disponveis publicamente para treinamento dos sistemas de reconhecimento automtico de voz em portugus do Brasil e, eventualmente, aproveitar o acervo das emissoras para desenvolver e/ou incrementar tais bases de dados, alm de melhor adequ-las aplicao em questo. Por fim, algumas otimizaes implementadas nesse tipo de sistema em emissoras de televiso ao redor do mundo (e.g. sistema de atualizao automtica ou semi-automtica de dicionrio, modelos de linguagem e modelos acsticos, sistema de correo manual em tempo real etc.) podem ser experimentadas no Brasil.

    Algumas dificuldades que podem surgir na tentativa de desenvolver sistemas de reconhecimento automtico de voz para o portugus do Brasil para a aplicao na gerao de legenda oculta a partir de ferramentas disponveis publicamente so as seguintes:

    A licena de ferramentas livres pode no permitir a aplicao desejada;

    O desempenho dos softwares livres a serem testados pode estar abaixo do desejado;

    Os softwares podem no possuir documentao suficiente;

    As bases de dados disponveis publicamente podem ser insuficientes para um treinamento adequado do sistema.

    A grande quantidade de softwares livres disponveis para reconhecimento automtico de voz e a reputao das instituies que os desenvolveram, sugere que sejam obtidas algumas opes viveis. Adicionalmente, uma vez que os cdigos-fonte so abertos, possvel desenvolver otimizaes se necessrio, ou mesmo, possvel estudar esses cdigos como subsdio para o desenvolvimento de novos sistemas.

    As bases de dados para treinamento dos sistemas sero provavelmente o principal limitador da acurcia que pode ser obtida. Porm, alm da opo de utilizar o acervo das emissoras, pode-se considerar a realizao de acordos com universidades para o desenvolvimento de bases pblicas e a utilizao de bases comerciais, pr-existentes ou desenvolvidas sob encomenda. A abordagem de aproveitar udio sem transcrio na base de dados para treinamento dos modelos acsticos tambm pode ser til.

    REFERNCIAS

    [1] INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATSTICA. Censo Demogrfico 2010: Resultados gerais da amostra, Rio de Janeiro, 2012. Disponvel em: . Acesso em: 12 maio 2012.

    [2] CONSUMER ELECTRONICS ASSOCIATION. ANSI/CEA-608-E: Line 21 Data Services. Arlington, p. 127. 2008.

    [3] ASSOCIAO BRASILEIRA DE NORMAS TCNICAS. NBR 15610-1: Televiso digital terrestre - Acessibilidade - Parte 1: Ferramentas de texto. Rio de Janeiro, p. 23. 2011.

    [4] BRASIL. Lei n 10.098, de 19 de dezembro de 2000. Estabelece normas gerais e critrios bsicos para a promoo da acessibilidade das pessoas portadoras de deficincia ou com mobilidade reduzida, e d outras providncias. Dirio Oficial [da] Repblica Federativa do Brasil, Poder Legislativo, Braslia, DF, p. 2-3, Seo 1, 20 dez. 2000.

    [5] BRASIL. MINISTRIO DAS COMUNICAES. Portaria n 310, 27 jun. 2006. Disponvel em: . Acesso em: 12 maio 2012.

    [6] ASSOCIAO BRASILEIRA DE NORMAS TCNICAS. NBR 15290: Acessibilidade em comunicao na televiso. Rio de Janeiro, p. 10. 2005.

  • [7] SANT'ANA, T. Eu sou: Estenotipista. Revista Galileu, maio 2012. Disponvel em: . Acesso em: 12 maio 2012.

    [8] HUANG, X.; ACERO, A.; HON, H.-W. Spoken Language Processing: A Guide to Theory, Algorithm, and System Development. Upper Saddle River: Prentice-Hall, 2001.

    [9] AHMER, I. Automatic Speech Recognition for Closed Captioning of Television: Data and Issues. Thesis (Master of Engineering) - University of South Australia. Adelaide, p. 244. 2002.

    [10] INTERNATIONAL TELECOMMUNICATION UNION. Report ITU-R BT.2207-1: Accessibility to broadcasting services for persons with disabilities. Geneva, p. 17. 2011.

    [11] MIYASAKA, E. Development of information systems in Japan Broadcasting Corporation. Journal of the Center for Information Studies, n. 5, p. 52-57, 2004.

    [12] HOMMA, S. et al. New Real-Time Closed-Captioning System for Japanese Broadcast News Programs. In: Proceedings of the 11th International Conference on Computers Helping People with Special Needs. Linz: Springer. 2008. p. 651-654.

    [13] SAKO, A.; ARIKI, Y. Structuring baseball live games based on speech recognition using task dependent knowledge and emotion state recognition. In: Proceedings of the International Conference on Acoustics, Speech, and Signal Processing. Philadelphia: IEEE. 2005. p. 1049-1052.

    [14] MEINEDO, H. et al. AUDIMUS.media- A Broadcast News Speech Recognition System for the European Portuguese Language. In: PROPOR 2003: Proceedings of the 6th International Workshop on Computational Processing of the Portuguese Language. Faro: Springer. 2003. p. 9-17.

    [15] MARTINS, C.; TEIXEIRA, A.; NETO, J. Dynamic language modeling for European Portuguese. Computer Speech and Language, v. 24, n. 4, p. 750-773, out. 2010.

    [16] EVANS, M. J. BBC R&D White Paper 065. Speech Recognition in Assisted and Live Subtitling for Television, 2003. Disponvel em: . Acesso em: 18 maio 2012.

    [17] LAMBOURNE, A. et al. Speech-Based Real-Time Subtitling Services. International Journal of Speech Technology, v. 7, n. 4, p. 269-279, out. 2004.

    [18] BOULIANNE, G. et al. Computer-Assisted Closed-Captioning of Live TV Broadcasts in French. In: Interspeech 2006: Proceedings of the International Conference of Spoken Language Processing. Pittsburgh: ISCA. 2006. p. 273-276.

    [19] CARDINAL, P. et al. Real-Time Correction of Closed-Captions. In: Proceedings of the ACL 2007 Demo and Poster Sessions. Prague: ACL. 2007. p. 113-116.

    [20] ZGANK, A. Three-Stage Framework for Unsupervised Acoustic Modeling Using Untranscribed Spoken Content. ETRI Journal, v. 32, n. 5, p. 810-818, out. 2010.

    [21] IBM. IBM Desktop ViaVoice. Disponvel em: . Acesso em: 13 maio 2012.

    [22] GOOGLE. Introducing Voice Search: Now on your computer. Disponvel em: . Acesso em: 13 maio 2012.

    [23] APPLE. Learn more about Siri. Disponvel em: . Acesso em: 13 maio 2012.

    [24] CAMBRIDGE UNIVERSITY. HTK. Disponvel em: . Acesso em: 14 maio 2012.

    [25] CARNEGIE MELLON UNIVERSITY. CMU Sphinx. Disponvel em: . Acesso em: 14 maio 2012.

    [26] KYOTO UNIVERSITY. Julius. Disponvel em: . Acesso em: 14 maio 2012.

    [27] SIMON LISTENS. Simon. Disponvel em: . Acesso em: 14 maio 2012.

    [28] RWTH AACHEN UNIVERSITY. RWTH ASR. Disponvel em: . Acesso em: 14 maio 2012.

    [29] UNIVERSIDAD POLITCNICA DE VALENCIA. iATROS. Disponvel em: . Acesso em: 14 maio 2012.

    [30] UNIVERSITY OF TWENTE. SHoUT. Disponvel em: . Acesso em: 14 maio 2012.

    [31] MISSISSIPPI STATE UNIVERSITY. ISIP ASR. Disponvel em: . Acesso em: 14 maio 2012.

    [32] SRI INTERNATIONAL. SRILM. Disponvel em: . Acesso em: 14 maio 2012.

    [33] VOXFORGE. VoxForge. Disponvel em: . Acesso em: 14 maio 2012.

    [34] UNIVERSIDADE FEDERAL DO PAR. FalaBrasil. Disponvel em: . Acesso em: 14 maio 2012.