Relatório Final - PDIpaginas.fe.up.pt/~ee08333/wp-content/uploads/2013/10/PDI.pdf · É um teste...

18
Faculdade De Engenharia da Universidade do Porto Mestrado Integrado em Engenharia Electrotécnica e de Computadores Preparação da Dissertação - 2013/14 Relatório Final - PDI Monitorização Preventiva de Voz Falada ou Cantada Hugo Daniel Alves Martins de Carvalho 200800581

Transcript of Relatório Final - PDIpaginas.fe.up.pt/~ee08333/wp-content/uploads/2013/10/PDI.pdf · É um teste...

!Faculdade De Engenharia da Universidade do Porto!

Mestrado Integrado em Engenharia Electrotécnica e de Computadores!Preparação da Dissertação - 2013/14!!!!!!!!!!!!!!!

!Relatório Final - PDI!!!

Monitorização Preventiva de Voz Falada ou Cantada!!!Hugo Daniel Alves Martins de Carvalho!

200800581!!!!!!!!!!!!!!!

!!

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

INDÍCE!!Introdução! 6!

1.1 Contexto! 6! 1.2 Motivação! 6! 1.3 Objetivos! 7! 1.4 Estrutura! 7!

Estado da arte! 7! 2.1 A voz! 7! 2.1.1 Sistema produtor de voz! 7! 2.1.2 A avaliação da voz! 8! 2.1.2.1 A avaliação acústica ! 8! 2.1.2.2 A avaliação percetiva ! 9! 2.1.3 Modelo Acústico-Preceptivo! 10! 2.2 Mecanismos existentes! 11! 2.2.1 Praat! 12! 2.2.2 VoiceStudio! 13! 2.2.2 Masterpitch! 14!

Caraterização detalhada dos problemas a tratar! 14! 3.1 Cenários Experimentais! 15! 3.2 Descrição da aplicação! 15! 3.2.1 Funcionalidades! 15! 3.2.2 Hardware/Software! 15!

Plano de trabalho! 16! REFERENCIAS BILIOGRÁFICAS! 17!

�3

LISTA ABREVIATURAS!!!ARTTS - Assistive Real-Time Technology in Singing!

FEUP - Faculdade de Engenharia da Universidade do Porto!!FCT - Fundação para a Ciência e Tecnologia!!RASATI - Escala de avaliação perceptiva utilizada!!HNR - Harmonic-to-Noise Ratio, proposta por Yumoto et al., 1982!

F0 - Frequência Fundamental!

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!�4

!!LISTA DE FIGURAS E TABELAS!!!

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

Figura 1 - Sistema produtor de voz! 8! Tabela 1 - Fonetograma! 10! Figura 2 - Espectograma! 11! Figura 3 - Fonetograma! 11! Figura 4 -Plano das Vogais! 12! Figura 5 - Espectograma! 12! Figura 6 - Plano das Vogais! 12! Figura 7 - VoiceStudio! 13!

�5

!Capítulo 1!!Introdução!!!1.1 Contexto!!A voz humana, enquanto ferramenta fundamental de comunicação, tem sido motivo de um vasto número de estudos, nos vários quadrantes da investigação. O aparelho fonatório - responsável pela produção de sons inteligíveis - é um sistema complexo, cujo funcionamento assenta na articulação de vários órgãos, podendo assim manifestar perturbações médicas de natureza física, psicológica e até de postura.!!Esta investigação surge com uma preocupação médica e fisiológica, complementando o projeto ARTTS - Tecnologia de Apoio em Tempo-Real ao Canto, financiado pela FCT, que, além da monitorização preventiva de voz, tem como objetivo o desenvolvimento de tecnologias de apoio ao ensino e aprendizagem de canto, materializando-se através da sinergia entre várias entidades, ligadas à engenharia, música, medicina e terapia da fala.!!Em suma, este trabalho prevê uma discussão estruturada em torno da análise critica das características acústicas e perceptivas da voz na sua reprodução cantada e falada, bem como da produção de mecanismos que se assumam ferramentas de estudo da relação destas matérias.!!!!1.2 Motivação!!O tema desta dissertação: “Monitorização preventiva de voz falada ou cantada” visa o desenvolvimento de uma aplicação que suporte, em tempo-real, funcionalidades de monitorização de voz falada ou cantada.!!Mostra-se interessante segundo duas vertentes: a médica e a tecnológica. Na primeira, com o propósito de reconhecimento e sinalização de fatores de risco que, previamente detetados, podem prevenir afonias, disfonias ou patologias vocais; imprimindo na segunda uma tónica de inovação e desafio na produção de mecanismos.!!!!!!!!

�6

!1.3 Objetivos!!Esta fase de desenvolvimento do ARTTS compreende a o estudo e implementação algorítmica da relação entre as características subjetivas e parâmetros acústicos da voz que constitui o modelo de avaliação perceptiva da mesma.!!Na prossecução dos objetivos propostos, prevêem-se as seguintes fases de desenvolvimento:!

• Analisar soluções similares existentes no mercado;!

• Familiarização com trabalhos de investigação anteriores!

• Colaboração com membros da equipa do ARTTS na identificação e levantamento de dados para o desenvolvimento do projeto!!

• Implementar uma aplicação multimédia em C++ com funcionalidades de medição dos parâmetros acústico-perceptivos da voz, em tempo real!!

1.4 Estrutura !Este documento está organizado da seguinte forma: No Capítulo 2 apresenta-se o estado da arte. O Capítulo 3 providencia a metodologia a seguir para atingir os objetivos deste trabalho. No Capítulo 4 é descrito o plano de trabalhos da dissertação. Finalmente, o Capítulo 5 apresenta as conclusões obtidas.!

!!Capítulo 2!!Estado da arte!!!2.1 A voz!!A disposição deste capítulo prende-se com a necessidade de um enquadramento fisiológico, acústico e perceptivo do que é o aparelho fonador e da sua ação enquanto órgão reprodutor da voz.!

!2.1.1 Sistema produtor de voz!!

�7

No campo fisiológico, a voz é o resultado de um conjunto de processos biomecânicos e acústicos que ocorrem no aparelho produtor de voz. Basicamente, este sistema é composto por dois tipos de estruturas: as que produzem fluxo de ar e o moldam em padrões audíveis, e as que têm a função de ressonância e amplificação, de regiões espectrais específicas da voz [Probst2006]. !

Figura 1 - Sistema produtor de voz!!Ainda, para além destas estruturas essenciais para a produção da voz, encontram-se os órgãos da articulação, responsáveis pela modificação do tracto vocal, com o fim de produzir e de tornar possível a coordenação dos diversos sons [Kent2004]. Na Figura 1 são apresentadas as estruturas mais relevantes que integram o aparelho de produção da voz.!

A fisiologia do sistema produtor de voz é analisada com o objectivo de introduzir conceitos importantes para a compreensão dos modelos e dos fenómenos inerentes à diversidade acústica da voz.!

!!2.1.2 A avaliação da voz!!A voz pode ser caraterizada, em cada vertente, com recurso a parâmetros. Estes parâmetros serão definidos de forma a integrar e unificar as definições existentes na literatura, pelo que analisaremos as vertentes: Acústica e Perceptiva; para posterior estabelecimento de relações entre as duas.!

2.1.2.1 A avaliação acústica !O método acústico propicia as designadas medidas objetivas, ou seja, dados que são extraídos através de um processamento computacional adequado. !

�8

Permite a especificação detalhada do processo de geração do sinal sonoro, fornecendo uma estimativa indireta dos padrões vibratórios das pregas vocais, bem como dos formatos do trato vocal supraglótico e das respetivas modificações (Hirano & Bless,1997; Vogel, 2011).!

Frequência Fundamental - corresponde à velocidade na qual uma forma de onda se repete por unidade de tempo, no comportamento vocal sustentado ou em fala encadeada (Buder, 2000; Behlau, 2001). Assim, reflete o número de ciclos vibratórios produzidos pelas pregas vocais, num segundo (Pinho, 2003; Seikel et al., 2010).!

Jitter - é uma medida de curto termo (ciclo a ciclo), de variabilidade não voluntária na F0 ou período (Titze, 1995; Baken & Orlikoff, 2000; Pinho et al., 2006; Mora et al., 2009; Dejonckere, 2010; Manfredi et al., 2012). Não deve ser confundida com a medida do grau de oscilação de baixa frequência que forma a base do vibrato ou do tremor (índices de perturbação da frequência a longo prazo). !

Shimmer - quantifica as alterações mínimas da amplitude do sinal, a curto prazo, com base em cada ciclo fonatório (Baken & Orlikoff, 2000; Buder, 2000; Pinho et al., 2006; Dejonckere, 2010). Se o sistema fonador fosse completamente estável ele seria zero. O shimmer indica a pequena variabilidade entre os sucessivos ciclos glóticos.!

HNR - é uma avaliação objetiva, isto é, de base matemática, que relaciona a componente periódica e aperiódica (Guimarães, 2007) que compõem um segmento de fala sustentada, estimada com base na análise de pelo menos 50 ciclos glotais consecutivos (Yumoto, 1983; Yumoto et al. 1984).!

!2.1.2.2 A avaliação percetiva !É um teste subjetivo fundamentado, essencialmente, na impressão do avaliador sobre a voz do utente. Desta forma, o seu resultado materializa-se sob influencia do nível de experiência do avaliador, pelo material de voz analisado, pela sua qualidade, pelo grau de desvio da qualidade vocal e pela escala utilizada na tarefa.!!Para este tipo de avaliação, recorre-se normalmente à escala RASATI, uma adaptação para o português da escala GRBASI, elaborada pela Sociedade Japonesa Logopedia e Foniatria e divulgada por Hirano, no ano de 1981. Pinho e Pontes (2002) adaptaram esta escala, de forma a adequar e facilitar o processo de triagem vocal percetiva ao nível glótico, pois, na tradução fiel, alguns termos não contemplavam o aspeto percetivo específico (Mendonça 2007). A escala RASATI, avalia os parâmetros de rouquidão (R), aspereza (A), soprosidade (S), astenia (A), tensão (T) e instabilidade (I).!!Rouquidão - irregularidade da vibração da mucosa causada por presença de uma fenda glótica ou por alteração orgânica da mucosa. Apresenta-se em casos como a presença de nódulos e edemas. A rouquidão surge em casos de excesso de muco [Boone2003] ou por perda de adução das pregas vocais [Lehto2007]. Muitas vezes é referida como uma combinação de soprosidade e aspereza [Boone2003]. !!Aspereza - elevado nível de aperiodicidade na vibração. Uma possível causa desta característica consiste na compressão excessiva ou hiperfunção adutora das pregas vocais [Laver80]. A causa mais frequente é a rigidez da mucosa que conduz a uma vibração irregular das pregas vocais e também à origem de uma fenda glótica que

�9

provoca uma perda rápida de ar [Pinho2008]. Da mesma forma que a rouquidão, a aspereza está associada aos fenómenos de ruído que ocorrem na produção da voz, no entanto, a aspereza está associada as perturbações de frequência e a ruído com uma tonalidade aguda [Pinho2008]. !!Soprosidade - vibração não eficiente associada ao escape de ar entre as pregas vocais, muitas vezes causado por um encerramento incompleto (fenda glótica) [Laver80]. Tal facto permite inferir que as vozes soprosas caracterizam-se por valores baixos de frequência fundamental. A soprosidade está perceptivamente associada ao ruído de fundo. A voz soprosa tem um som semelhante a um suspiro ou pode ser considerada como uma mistura de vozeamento com expiração [Laver80]. !!Astenia - mau desempenho das estruturas com função adutoras e à baixa energia de emissão sonora [Pinho2008]. Manifesta-se em vozes de intensidade baixa (presença reduzida de harmónicos).!!Tensão - excesso da adução glótica associada ao esforço vocal, aumento da actividade dos músculos extrínsecos da laringe ou pela elevação da laringe [Oates98]. Este excesso muscular pode incluir estruturas supra-glóticas na laringe como as pregas ventriculares.!!Instabilidade - relacionada com a alteração de frequência fundamental ou qualidade vocal, com oscilações de ligeiras a evidentes ou quebras. A instabilidade na emissão de uma vogal prolongada pode indicar desde falta de treino vocal, alterações emocionais ou manifestação de doenças neurológicas.!!2.1.3 Modelo Acústico-Preceptivo!!Importa, para o desenvolvimento sustentado deste projeto, estudar de que forma se relaciona a avaliação perceptiva dos peritos com a que é matemática e computacionalmente fundamentada. Assim, no âmbito da cooperação com a terapia da fala, desenhou-se o que iremos utilizar enquanto quadro de correlação dos parâmetros de avaliação vocal, para que se se possa implementar um mecanismo que contemple esta análise em tempo real, como é pretendido neste trabalho de dissertação.!O relatório feito pela terapeuta da fala em colaboração com o ARTTS compreende um estudo sobre esta relação baseado no Coeficiente de Correlação Spearman Rank, que obtém as seguintes correlações:!!

Tabela 1 - Fonetograma!!

Desvio-Padrão F0 Shimmer Jitter HNR

Rouquidão x

Aspereza x x

Soprosidade x x x

Astenia x x

�10

Após a repetição deste processo pelo teste estatístico de Kruskal-Wallis, o relatório conclui o disposto na relação estabelecida na Tabela 1, o que a materializa na base de trabalho para a construção dos critérios de avaliação da aplicação.!!Ainda assim, o mesmo relatório explana a necessidade de uma investigação na matéria da correspondência entre estes parâmetros, o que pode, certamente, comprometer a acuidade científica desta investigação.!!2.2 Mecanismos existentes!!Atualmente existe uma série de programas de captação de áudio que poderão servir de base de trabalho no cumprimento dos objetivos traçados. Ainda assim, numa ótica de maior detalhe e evolução, convém-nos estudar ferramentas que, aliadas a esta componente da captação tenham também robustez no tratamento de sinal, nomeadamente no cálculo dos parâmetros acústicos.!De entre os métodos software fidedignos de análise acústica da voz destacam-se: o Espectograma (informação de ressonância do tracto vocal), o Fonetograma (intensidade da voz em dB) e o Plano das Vogais (visualização gráfica das duas primeiras frequências formantes).!

Figura 2 - Espectograma!

Figura 3 - Fonetograma!

�11

Figura 4 -Plano das Vogais!!!Desta forma, e do ponto de vista da integração de funcionalidades acima referida, parece-me pertinente o estudo de três programas: Praat, VoiceStudio e MasterPitch.!!2.2.1 Praat!!O Praat é um software open source que integra várias funcionalidades de análise de sinais de voz, proporcionando um vasto número de métodos de medição: perturbação da frequência fundamental, amplitude, ruído, e ainda análise espectral. !

Figura 5 - Espectograma!

Figura 6 - Plano das Vogais!!Este software é essencialmente orientado para as áreas de análise acústica de sinais de voz disfónica, como a Terapia da Fala.!!!!!

�12

!2.2.2 VoiceStudio!!Desenhado pela empresa SEEGNAL, o VoiceStudio é um ambiente poderoso de análise e processamento de sinais, especialmente vocacionado para a análise e diagnóstico de sinais de voz.!Como indicado na descrição do programa, o VoiceStudio suporta, entre outras, a funcionalidade de “…reprodução selectiva de cada região vozeada e a obtenção dos principais parâmetros objectivos de qualidade da voz, nomeadamente frequência fundamental (F0), perturbação de frequência (jitter), perturbação de amplitude (shimmer), relação harmónicos-ruído (HNR) e energia,”.!

Figura 7 - VoiceStudio!

Figura 8 - VoiceStudio!

�13

! !! !!2.2.2 Masterpitch!!O MasterPitch é um assistente inovador desenvolvido pela SEEGNAL para apoio no tratamento da fluência oratória em indivíduos com problemas de gaguez, ou para apoio no controlo da tonalidade da voz. Trata-se de uma aplicação importante para o estudo em curso dado que tem uma componente dinâmica (tempo-real) muito interessante.!

Figura 8 - VoiceStudio!

!!!!Capítulo 3!!Caraterização detalhada dos problemas a tratar!!!Este capítulo apresenta a metodologia prosposta bem como a descrição dos passos a seguir durante o desenvolvimento deste estudo científico.!Após a revisão do estado da arte e o estudo de algumas matérias relevantes para o tratamento do problema, podemos perspectivá-lo no âmbito da sua implementação e aplicação, pelo que se assume fulcral a reflexão sobre o que pretendemos do produto

�14

final. Desta forma, comecemos por conceber o cenário experimental da aplicação para que possamos avançar para o desenho das suas funcionalidades.!!3.1 Cenários Experimentais!!Para efeitos de teste do produto final, podemos considerar uma amostra significativa de pessoas cujos registos de voz, serão avaliados em vários regimes, de forma dinâmica e interativa, com o intuito do resultado refletir as tendências fisiológicas do aparelho vocal em questão e, didaticamente, encaminhar a utilização da voz da pessoa no sentido da sua preservação e prevenção de problemas.!!!3.2 Descrição da aplicação!!O produto final será, como já foi explicado, uma aplicação de suporte windows, que, em tempo real, mostre medições dos parâmetros acústicos (F0, Jitter, Shimmer, HNR) e avaliações perceptivas da voz que está a ser medida, de forma dinâmica.!!!3.2.1 Funcionalidades!!A aplicação deverá então contemplar funcionalidades de captura e análise de sinal, cuja implementação constitui, na perspectiva dinâmica da aplicação, um grande desafio. Teremos que priorizar, a montante de qualquer análise, o critério de segmentação de sinal - uma forma de seletividade das partes da voz (e do próprio sinal) que têm interesse. É também importante a validação dos algoritmos, colocando-os a prova em relação a dados que tenhamos de vozes alteradas, blindando a algorítmica das suas implicações diretas no resultado científico dos testes.!!!!3.2.2 Hardware/Software!!Dadas as caraterísticas do projeto, srão necessários equipamentos informáticos de captura de som: PC, microfones e placa de som.!!A aplicação será desenvolvida em C++, no programa Visual Studio, que confere a implementação do ambiente gráfico e respetiva programação lógica. Serão utilizadas bibliotecas do Qt para a interface gráfica e os plugins: Qwt - para desenho gráfico matemático - e RTaudio - captura de som.!!!!!!

�15

Capítulo 4!!Plano de trabalho!

!Neste capítulo será apresentado o plano de trabalhos a desenvolver durante o próximo semestre para que todos os objetivos definidos no Capítulo 1 sejam alcançados.!!O plano, bem como o número de semanas estimado para a realização de cada tarefa, é o seguinte:!• 23/02 a 8/03 Planeamento das experiências e abordagem aos mecanismos já

desenvolvidos - 2 semanas;!• 09/03 a 22/03 Implementação: Captação e segmentação automática do som- 2

semanas;!• 22/03 a 29/03 Implementação: Cálculo de parâmetros + Interface Gráfica, Análise de

resultados - 1 semana;!• 29/03 a 19/04 Implementação: Valores dos parâmetros em tempo real - 3 semanas;!• 19/04 a 19/05 Análise de resultados e correção de bugs - 2 semanas;!• 19/05 a 20/06 Produção escrita do relatório final - 4 semanas.!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

�16

REFERENCIAS BILIOGRÁFICAS!!!Probst, 2006 Probst R, Grevers G, Iro H. Basic otorhinolaryngology. Stuttgart: Thieme; 2006.!!Kent, 2004 Kent R. The MIT encyclopedia of communication disorders. MIT Press; 2004.!Hirano & Bless,1997; Hirano, M. and Bless, D.M. 1997. Exame Videoestroboscópico da laringe. Porto Alegre: Artes Médicas.!!Vogel, 2011 Vogel, A.P. 2011. “Multidimensional Analysis of Voice: Computerized Speech Lab.” In Handbook of Voice Assessments. Ma, E. and Yiu, E. San Diego: Singular Publishing Inc..!!Buder, E.H. 2000. “Acoustic Analysis of Voice Quality: A Tabulation of Algorithms 1902-1990.” In Voice Quality Measurements, Kent, R.D. and Ball, M.J.. San Diego: Singular Publishing Inc..! !Behlau, M. (Org). 2001. Voz. O Livro do Especialista. Rio de Janeiro: Livraria e Editora Revinter, Lda. Volume 1. !!Pinho, S.M.R. 2003. Fundamentos em Fonoaudiologia. Tratando os Distúrbios da Voz, 2a Edição. Rio de Janeiro: Editora Guanabara Kooogan.!!Seikel et al., 2010 J.A.; King, D.W. and Drumright, D.G. 2010. Anatomy and Physiology for Speech, Language and Hearing. 4th Edition. New York: Delmar.!!Titze, I.R. and Liang, H. 1993. Comparison of F0 extraction methods for high-precision voice perturbation measurements. Journal of Speech and Hearing Research. 36(6): 1120-1133.!!Titze, I.R. 1995. Summary Statement. Workshop on Acoustic Voice Analysis. !Denver, C.O.: The National Center for Voice and Speech.!Baken, R.J. and Orlikoff, R.J. 2000. Clinical Measurement of Speech and Voice. 2nd Edition. San Diego: Singular Publishing. !!Pinho, S.; Tsuji, D. and Bohadana, S. 2006. Fundamentos em Laringologia e Voz. Rio de Janeiro: Editora Guanabara Koogan, S.A..!!Mora, R.; Jankowska, B.; Mora, F.; Crippa, B.; Dellepiane, M. and Salami, A. 2009. Effects of tonsillectomy on speech spectrum in children. Journal of Voice. 23: 614-618.!!Dejonckere, P.H. 2010. “Assessment of Voice and Respiratory Function.” In Surgery of Larynx and Trachea, Remacle, M. and Eckel, H.E. (Eds.). Berlin: Springer-Verlag. !!Dejonckere, P.H.; Giordano, A.; Schoentgen, J.; Frag, S.; Bocchi, L. and Manfredi, C. 2012. To what degree of voice perturbation are jitter measurements valid? A !novel approach with synthesized vowels and visuo-perceptual pattern!recognition. Computer Methods and Programs in Biomedicine Journal. 7: 37-42.!!Yumoto, E.; Gould, W.J. and Baer, T. 1982. Harmonics-to-noise ratio as anindex of the degree of hoarseness. Journal of the Acoustic Society of America. 71(6): 1544-1549.!

�17

!Guimarães, I. 2007. A Ciência e a Arte da Voz Humana. Alcoitão: ESSA – Escola Superior de Saúde de Alcoitão.!!Yumoto, E. 1983. The quantitative evaluation of hoarseness. Archives of!otolaryngology - head & neck surgery. 109(1): 48-52.!!Yumoto, E.; Sasaki, Y. and Okamura, H. 1984. Harmonics-to-noise ratio and psychological measurement of the degree of harshness. Journal of Speech and Hearing Research. 27(1): 2-6.!!

�18