SOLUÇÃOPARAARMAZENAMENTODEVOZ … · FUZYI, E. M. Solution for voice storage for the diagnosis of...

ESTEFÂNIA MAYUMI FUZYI

SOLUÇÃO PARA ARMAZENAMENTO DE VOZPARA O DIAGNÓSTICO DE DOENÇAS

MENTAIS

LONDRINA–PR

2014



MENTAIS

Trabalho de Conclusão de Curso apresentadoao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel emCiência da Computação.

Orientador: Prof. Dr. Sylvio Barbon Junior

LONDRINA–PR

2014

Estefânia Mayumi FuzyiSolução para armazenamento de voz para o diagnóstico de doenças mentais/

Estefânia Mayumi Fuzyi. – Londrina–PR, 2014-49 p. : il. (algumas color.) ; 30 cm.

Orientador: Prof. Dr. Sylvio Barbon Junior

– Universidade Estadual de Londrina, 2014.

1. Palavra-chave1. 2. Palavra-chave2. I. Orientador. II. Universidade xxx. III.Faculdade de xxx. IV. Título

CDU 02:141:005.7



MENTAIS

Trabalho de Conclusão de Curso apresentadoao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel emCiência da Computação.

BANCA EXAMINADORA

Prof. Dr. Sylvio Barbon JuniorUniversidade Estadual de Londrina

Orientador

Prof. Dr. Segundo Membro da BancaUniversidade/Instituição do Segundo

Membro da Banca

Prof. Msc. Terceiro Membro da BancaUniversidade/Instituição do Terceiro

Membro da Banca

Londrina–PR, 24 de novembro de 2014

LONDRINA–PR2014

Este trabalho é dedicado às crianças adultas que,quando pequenas, sonharam em se tornar cientistas.

AGRADECIMENTOS

“Não vos amoldeis às estruturas deste mundo,mas transformai-vos pela renovação da mente,a fim de distinguir qual é a vontade de Deus:

o que é bom, o que Lhe é agradável, o que é perfeito.(Bíblia Sagrada, Romanos 12, 2)

FUZYI, E. M. Solução para armazenamento de voz para o diagnósticode doenças mentais. 49 p. Trabalho de Conclusão de Curso (Graduação).Bacharelado em Ciência da Computação – Universidade Estadual de Londrina,2014.

RESUMO

Devido à necessidade e importância do diagnóstico precoce de pacientes acometidos porpatologias mentais, são pesquisados métodos automatizados baseados em sistemas deinformacão para o desenvolvimento de ferramentas de apoio a decisão médica. O sinaldigitalizado da voz é objeto de estudo para o diagnóstico automatizado de diversos dis-túrbios, inclusive neurológicos, traumáticos e psicogênicos. Para proporcionar o uso dessesinal é necessário um banco de dados para armazenar os dados do paciente e amostrasde áudio capturados, mantendo um histórico de avaliação e tratamento. A proposta dessetrabalho é um modelo para banco de dados de vozes brasileiro para o diagnóstico de doen-ças mentais. O modelo foi criado para manter as características acústicas e não acústicasdo paciente, o que proporciona a aplicação de técnicas tradicionais e futuras com base navoz, permitindo ações remotas e acompanhamento da evolução do paciente.

Palavras-chave: latex. abntex. editoração de texto.

FUZYI, E. M. Solution for voice storage for the diagnosis of men-tal disorders. 49 p. Final Project (Undergraduation). Bachelor of Science inComputer Science – State University of Londrina, 2014.

ABSTRACT

Due to the need and importance of an premature diagnosis of patients affected by mentaldisorders, automated methods are being researched based on information systems for thedevelopment of medical decision support tools. The digitized voice signal is an object ofstudy for the automated diagnosis of many disorders, such as neurological, traumatic,psychogenic and others. To help this process, a database is required to store patientsdata and audio files captured to maintain a history of treatment and compare the speechof a healthy person to that of a depressive and reach a conclusion. There are Americandatabases of speech disorders, however, because of different characteristics of the lan-guages, the ideal would be the creation of a Brazilian database. Thus, the purpose of thiswork is modeling a database of Brazilian voice for the diagnosis of mental disorders.

Keywords: latex. abntex. text editoration.

LISTA DE ILUSTRAÇÕES

Figura 1 – Representação de um sistema em diagrama de blocos [1] . . . . . . . . 30Figura 2 – Classificação em relação ao tempo: a) Sinal de tempo contínuo (analó-

gico); b) Sinal de tempo discreto (digital) [1] . . . . . . . . . . . . . . . 31Figura 3 – Diagrama de classes da base de dados . . . . . . . . . . . . . . . . . . 41

LISTA DE ABREVIATURAS E SIGLAS

CRM Conselho Regional de Medicina

MER Modelo Entidade-Relaciomento

MR Modelo Relacional

SGBD Sistema Gerenciador de Banco de Dados

GIF Graphics Interchange Format

JPEG Joint Photographic Experts Group

MPEG Moving Picture Experts Group

LISTA DE SÍMBOLOS

Z Conjunto dos números inteiros

∈ Pertence

SUMÁRIO

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3 TRANSTORNOS MENTAIS . . . . . . . . . . . . . . . . . . . . 273.1 Transtornos de Humor . . . . . . . . . . . . . . . . . . . . . . . . . 27

4 PROCESSAMENTO DIGITAL DE SINAIS . . . . . . . . . . . 294.1 Sinais e Sistemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.2 Sinal Analógico vs. Digital . . . . . . . . . . . . . . . . . . . . . . 30

5 BANCO DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . 335.1 Banco de dados multimídia . . . . . . . . . . . . . . . . . . . . . . 33

6 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . 35

7 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

8 RESULTADOS E DISCUSSÃO . . . . . . . . . . . . . . . . . . 418.1 Entidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418.2 Atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428.3 Relacionamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

9 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

23

1 INTRODUÇÃO

Um dos primeiros registros sobre doenças mentais que se tem conhecimento, estána Bílbia, em que há a descrição de patologias mentais semelhantes às doenças hojediagnosticadas1. Embora seja um problema antigo, inerente a espécie humana, apenas noséculo XX os recursos terapêuticos eficazes surgiram.

De acordo com uma pesquisa realizada pela Organização Mundial da Saúde, pelomenos 5% da população mundial sofre de depressão2, um transtorno mental consideradocomum, definido pela tristeza, perda de interesse, sentimento de culpa, distúrbios de sonoou apetite, entre outros. Embora exista terapia para depressão, somente metade temacesso ao tratamento médico, em casos moderados a graves, é necessário que os pacientessejam medicados. Em seu estado mais grave, pode levar ao suicídio.

Diagnosticar um paciente com depressão e avaliar o seu risco de suicídio, para umpsiquiatra é uma decisão muito importante, complexa e exigente [2]. Além do livro Diag-nostic and Statistical Manual of Mental Disorders (DSM-IV), ele baseia-se nos sintomasdescritos, na história de vida e no comportamento do paciente durante a consulta.

A fala pode ser relacionada a condição emocional e mental enquanto a pessoa fazo discurso, dessa forma, há como prever o nível de gravidade do transtorno afetivo dopaciente, o qual afeta a produção e a mediação nos resultados da fala [3]. Pois, segundo[4], as propriedades acústicas da voz têm sido identificadas como indícios de depressãoe existem evidências que determinados parâmetros da voz podem ser utilizados paradeferenciar objetivamente entre a fala depressiva e a suicida.

Ao tratar a fala como um sinal de voz, pode-se extrair diversas informações, comoao relatar que o paciente tem a fala monótona, provavelmente está relacionado com aênfase reduzida, que pode ser medida através do nível da voz, ou quanto a inflexão, queé a variação da frequência fundamental [5].

Apesar da existência de bancos de dados de vozes internacionais, como o KAY3,desenvolvido para ajudar na análise acústica de vozes de pacientes que sofrem de algumtranstorno para aplicações médicas ou de pesquisa, que inclui amostras de pacientes comuma ampla variedade de distúrbios da voz, sejam eles neurológicos, traumáticos, psicogê-nicos, entre outros, existe a necessidade de possuir uma base brasileira de vozes, devidoa diferença das características do idioma.

1 Disponível em http://drauziovarella.com.br/letras/s/saude-mental/. Acesso em 19 de Março de 2014.2 Disponível em http://drauziovarella.com.br/noticias/mais-de-350-milhoes-de-pessoas-sofrem-de-

depressao-no-mundo/. Acesso em 19 de Março de 2014.3 Disponível em http://www.kaypentax.com. Acesso em 30 de Março de 2014.

25

2 OBJETIVOS

Este trabalho tem como objetivo modelar uma base de dados, para auxiliar nodiagnóstico automatizado e/ou clínico, de patologias mentais. Nela serão armazenadas asvozes e atributos necessários para o diagnóstico, de forma que técnicas de processamentode sinais e ferramentas de diagnóstico automatizado possam ser aplicadas.

27

3 TRANSTORNOS MENTAIS

“Um transtorno mental é uma doença com manifestações psicológicas e compor-tamentais associadas com sofrimento significativo no funcionamento causado por pertur-bação biológica, social, psicológica, genética, física ou química”, [6].

Para auxiliar no diagnóstico de transtornos mentais, existe o livro denominado Di-agnostic and Statistical Manual of Mental Disorders (DSM-IV, por se tratar da 4a edição)[7]. Nele estão inclusos componentes descritivos, tanto de diagnóstico quanto tratamento,tornando-se um referência para os profissionais da área da saúde1. Segundo [6], para esta-belecer um diagnóstico, além dos critérios listados no DSM-IV-TR para cada transtorno,são necessárias informações a respeito da história psiquiátrica e estado do estado mentaldo paciente.

A primeira é o registro de vida do paciente, permite que o professional saibaquem ele é, de onde veio, e entender para onde irá futuramente. Com base na históriade vida contada pelo ponto de vista do paciente, é possível estabelecer um diagnóstico eplanejar um tratamento adequado. Nessa fase são adquiridas tanto informações básicascomo nome, idade, estado civil, sexo, profissão, idioma, quanto informações a respeito daqueixa principal, história da doença atual, médica, psiquiátrica anterior e familiar, alémda anamnese.

A segunda é relacionada ao comportamento do paciente durante a entrevista, comoaparência, fala, ações e pensamentos. Esse registro é importante pois a história é constante,porém, o estado mental pode alterar no intervalo de horas ou dias. Em relação a fala,verificar se é rápida, lenta, pressionada, hesitante, emocionada, monótona, estridente,sussurrada, arrastada, com resmungos, guaguejante, ecolalia (quando há a repetição domesmo som repetidamente), intensidade, modulação, à vontade, espontânea, produtiva,maneira, tempo de reação, vocabulário, prosódia (pronúncia correta das palavras quantoa posição da sílaba tônica, segunda as normas da língua culta).

3.1 Transtornos de Humor

Entre as diversas classificações de transtornos do DSM-IV, existem os transtornosde humor, que se caracterizam pela alteração do humor, condição que dita a vida mentaldo paciente, sendo responsável pela redução do funcionamento. Sua causa pode ser umacondição médica ou substâncias, como drogas ou fármacos psicoativos. São eles: 1. Trans-tornos bipolares: caracterizados por alterações de humor entre a depressão e euforia. 2.

1 Disponível em http://www.psicologia.pt/instrumentos/dsm_cid/. Acesso em 20 de Março de 2014.

28 Capítulo 3. Transtornos Mentais

Transtornos depressivos: a) transtorno depressivo maior: humor gravemente depressivo,retardo mental e motor, apreensão, inquietude, perplexidade, agitação, sentimento deculpa, tendência ao suicídio; b) transtorno distímico: forma menos grave, geralmente cau-sada por um eventou ou perda; c) depressão pós-parto: ocorrência no primeiro mês apóso parto; d) depressão de padrão sazonal: mais frequente durante os meses de inverno.

O transtorno bipolar pode ser categorizado entre I e II, o primeiro apresenta ocor-rência de episódios maníacos com ou sem episódio depressivo maior, e o segundo tempelo menos um episódio depressivo com ou sem episódio hipomaníaco. Se comparado aosdemais transtornos psiquiátricos, o transtorno depressivo maior apresenta a prevalênciamais elevada durante da vida, cerca de 17% e incidência anual do episódio depressivomaior é de 1,59%, sendo 1,89% mulheres e 1,10% homens [6].

Como pode ser observado, a incidência é mais comum em mulheres, sendo episó-dios maníacos mais comuns entre elas e depressivos em homens. Esse transtorno é maisfrequente entre indivíduos solteiros e divorciados em comparação aos indivíduos casados.Não está relacionado com a situação socioeconômica e não existem diferenças étnicas oureligiosas.

No caso do transtorno depressivo maior (depressão), quanto ao estado mental dopaciente, as informações obtidas em relação a fala são: pouca ou nenhuma espontaneidade;monossilábico; pausas demoradas; tom monótono, baixo e suave. Entretanto, para maniatem-se: pressão por falar; tom de voz alto, dramático, exagerado; pode tornar-se incoerente[6].

29

4 PROCESSAMENTO DIGITAL DE SINAIS

Segundo Alcaim, existem especulações de que as mãos foram o primeiro meio decomunicação utilizado pelo homem. Acredita-se que devido ao aumento das atividades queexigiam seu uso, como a caça e a agricultura, houve a necessidade de utilizar outra forma,como a fala, que “representa um dos meios de comunicação mais importantes utilizadospelo homem para expressar seus sentimentos e ideias” [8]. Fisicamente, os sons da falasão ondas de pressão resultantes de vibrações longitudinais das moléculas do ar.

4.1 Sinais e Sistemas

Um sinal é definido como “uma função de uma ou mais variáveis, a qual veiculainformações sobre a natureza de um fenômeno fisico” [1].

Os sinais podem ser da fala ou imagens, seja na conversação entre duas pessoasfrente a frente ou por um meio telefônico, ou assumindo imagens de humanos e objetos queos rodeiam. Ele pode ser considerado unidimensional ou multidimensional, de acordo como número de variáveis dependentes que existem na função. O sinal da fala por exemplo, éunidimensional, cuja amplitude varia com o tempo, conforme a palavra falada e de quema fala, e a imagem é um sinal multidimensional, por se tratar de coordenadas horizontaise verticais que representam as duas dimensões.

Pode-se encontrar vários exemplos de sinais na vida real, seja na área médica aoouvir os batimentos cardíacos de um paciente ou monitorar a pressão saguínea e tempera-tura, que transmitem informações a respeito da saúde da pessoa, seja na área econômica,em que são analisadas flutuações diárias dos preços das ações, que transmitem informaçõesrelaciondas ao comportamento das ações de determinada empresa, ou na área espacial,em que uma sona explora o espaço e envia dados para sobre um planeta, seja ela em formade imagens de radar, infravermelho ou ópticas.

Contudo, para cada sinal sempre há um sistema associado a geração e a extraçãode suas informações, que pode ser de origem biológica ou eletrônica, como a comunicaçãooral, em que o sinal da fala estimula o trato vocal – sistema, ou a execução do sinal dafala por um gerador de sinais e um sistema capaz de reconhecer palavras ou frases.

Para [1], um sistema é definido como “uma entidade que manipula um ou mais si-nais para realizar uma função, produzindo, assim, novos sinais”. Na Figura 1 está ilustradaa associação entre o sinal e o sistema.

O objetivo de um sistema não é único, ele depende da aplicação, por exemplo, emum sistema de reconhecimento do locutor, o sinal de entrada é a voz, o sistema é um

30 Capítulo 4. Processamento Digital de Sinais

Figura 1 – Representação de um sistema em diagrama de blocos [1]

computador e o saída é a identidade da pessoa, no contexto da comunicação, o sinal deentrada é a voz ou um sinal do computador, o sistema é dividido em transmissor, canal ereceptor e o sinal de saída é a aproximação da mensagem original.

4.2 Sinal Analógico vs. Digital

Operações de processamento de sinais relacionados ao desenvolvimento de sistemaspodem ser implementados de duas maneiras, a abordagem analógica (tempo contínuo) oudigital (tempo discreto). Por muitos anos, a abordagem adotada foi a analógica [1]. Elafaz uso de elementos de circuitos analógicos, como resistores, capacitores, diodos entreoutros. A sua principal característica é a habilidade de resolver equações diferencias querepresentam sistemas físicos, sem precisar descartar soluções aproximadas. Como seusmecanismos encarregados das operações também são físicos, na abordagem analógica háa garantia de operação em tempo real.

Entretanto, a abordagem digital recorre a elementos digitais básicos do computa-dor, como somadores, multiplicadores e memória. É preciso a computação numérica pararealizar suas operações, logo, operar em tempo real depende do tempo necessário paraexecutar as computações. Ela apresenta vantagens em comparação com a analógica, comoa flexibilidade de alterar apenas o software para versões diferentes de uma operação emvez de projetar o sistema novamente e a repetitividade por ser capaz de refazer a operaçãomúltiplas vezes de maneira exata.

Entre as várias maneiras de classificar sinais, pode-se classificá-los como uma fun-ção do tempo. Dessa forma, um sinal 𝑥(𝑡) é um sinal de tempo contínuo se ele estiverdefinido para todo tempo 𝑡. Eles surgem naturalmente a partir de ondas físicas convertidaspara sinais elétricos através de um transdutor, como o microfone, que converte variaçõesde pressão sonora em variações de tensão [1].

Por outro lado, um sinal de tempo discreto pode ser demonstrado por uma sequên-cia de números [9]. Como a sequência {𝑥(𝑛), 𝑛 ∈ Z}, em que Z é o conjunto dos inteiros,pode atuar como um sinal no tempo discreto, onde cada número 𝑥(𝑛) corresponde àamplitude do sinal em cada instante 𝑛𝑇 , onde 𝑛 é um inteiro e 𝑇 denota o período deamostragem. Nem sempre 𝑇 é uma unidade de tempo, caso 𝑥(𝑛) seja a temperatura desensores posicionaos ao longo de uma barra de metal, ele será uma unidade de compri-mento [9]. A amostragem de um sinal de tempo contínuo 𝑥(𝑡) no instante 𝑡 = 𝑛𝑇 fornece

4.2. Sinal Analógico vs. Digital 31

uma amostra de valor 𝑥(𝑛𝑇 ), que pode ser escrita como 𝑥[𝑛] = 𝑥(𝑛𝑇 ), para 𝑛 inteiro [1].Na Figura 2 são apresentadas as representações gráficas de um sinal de tempo contínuo eum sinal de tempo discreto, respectivamente.

Figura 2 – Classificação em relação ao tempo: a) Sinal de tempo contínuo (analógico); b)Sinal de tempo discreto (digital) [1]

33

5 BANCO DE DADOS

Bancos de dados e sistemas de bancos de dados são essenciais para a vida nasociedade moderna [10] e amplamente utilizados, sejam em sistemas de supermercados queatualizam o estoque, sistema de banco para depositar ou retirar dinheiro, fazer comprason-line que lidam, em sua maioria, com dados simples de texto ou numérico, ou sistemasmais elaborados, como o banco de dados de multimídia, capaz de armazenar imagens,clipes de áudio e streams de video digitalmente, os sistemas de informações geográficasque podem armazenar e analisar mapas, informações sobre o clima e imagens de satélite,entre outros.

Um banco de dados é derivado de uma fonte do mundo real e interage com seuseventos, é uma coleção coerente de dados, com público e objetivos específicos. Para ele serconsiderado preciso e confiável, deve ser um reflexo do mundo ao qual representa, tendosuas informações atualizadas o mais breve possível. Ele pode ter qualquer tamanho ecomplexidade, seja para uma agenda de telefones ou para um grande site de e-commerce.

Para gerenciar, criar e manter um banco de dados, existe o SGBD, Sistema Ge-renciador de Banco de Dados ou Database Management System, é um sistema de softwarede uso geral que auxilia no processo de definição, construção, manipulação e comparti-lhamento de dados entre múltiplos usuários e aplicações [10]. A união entre o bando dedados e SGDB é denominado Sistema de Bandos de Dados.

As vantagens de utilizar um banco de dados em relação ao sistema de arquivospor exemplo, é a natureza autodescritiva do sistema, isolamento entre programas e dadose abstração de dados, suporte a múltiplas visões dos dados e compartilhamento de dadose processamento de transações multiusuário. Além das vantagens de controle de redun-dância, restrição de acesso não autorizado, estruturas de armazenamento e técnicas depesquisa para o processamento eficiente da consulta, de modo a agilizar a consulta, entreoutras.

5.1 Banco de dados multimídia

Um banco de dados multimídia apresenta recursos que possibilita ao usuário ar-mazenar e recuperar diversos tipos de informações multimídia, tal como imagens (fotos),clipes de vídeo (filmes), clipes de áudio (músicas, discursos) e documentos (livros) [10].

Com a recuperação baseada em conteúdo, é possivel retornar resultados com deter-minados objetos ou atividades, como por exemplo, procurar por vídeos em que o MichaelJackson aparece[10]. Logo, ele precisa utilizar um modelo que organize e indexe as fontes

34 Capítulo 5. Banco de Dados

de multimídia com base em seu conteúdo. Existem duas técnicas principais para isso, aanálise automática que busca características matemáticas e a identificação manual, querequer uma fase de pré-processamento onde é necessário que uma pessoa analise, inden-tifique e catalogue os objetos e atividades que cada fonte multimídia possui, para entãoindexá-la.

Uma imagem normalmente é armazenada como um conjunto valores de pixel oucélula, ou de forma compacta para economizar espaço. Cada imagem pode ser representadapor uma grade de células 𝑚 por 𝑛, em que cada uma compreende um valor de pixel querepresenta seu conteúdo, podendo ser um bit se a imagem for preto e branco, ou múltiplosse for colorida ou em escala de cinza. Para a sua compactação, os padrões como GIF, JPEGou MPEG utilizam transformadas matemáticas, relacionadas a processamento de sinais,para reduzir o número de células armazenadas, são elas Transformada Discreta de Fourier,Tranformada Discreta de Cossenos e Transformadas Wavelet [9, 10, 1].

Para identificar objetos de interesse em uma imagem, normalmente divide-se elaem segmentos homogêneos que utilizam o predicado de homogeneidade. Ele define con-dições para agrupar automaticamente, células adjacentes que possuem valores similares.Portanto, a segmentação e a compactação podem identificar as características predomi-nantes da imagem.

As fontes de áudio podem ser classificadas como dados de voz, música e outrosdados de áudio [10] e são tratadas de formas diferentes. Os dados de áudio devem ser con-vertidos para o formato digital, antes de processados e armazenados. Por ser uma mídiacontínua no tempo, sem características facilmente mensuráveis, como o texto, sua inde-xação e recuperação é a mais difícil entre os tipos. Para facilitar o processo de indexação,pode ser utilizada a indexação baseada em texto de dados de áudio, que utiliza técnicasde reconhecimento de voz para auxiliar o conteúdo de áudio real. É possível comparartrechos de dados de áudio diferentes, e recuperar suas informações com base no cálculode determinadas características, tal como a aplicação de transformadas.

35

6 TRABALHOS RELACIONADOS

No trabalho de [4], foram realizados estudos com amostras de áudio de homense mulheres normais e com diagnóstico de depressão e alto risco de suicídio, a partir deum banco de dados de voz utilizados por dois médicos. Seu objetivo era investigar aspropriedades acústicas da fala como um sintoma psicomotor da depressão e do suicídio,e para testar sua relevância como um parâmetro diferencial para o diagnóstico. O estudofoi separado em duas partes, a primeira analisa características vocais de mulheres de-pressivas não medicadas e a segunda, a fala de homens depressivos e com alto risco desuicídio. Segundo o autor, a maior fraqueza dessa abordagem, foi não ter controle sobre asespecificações técnicas do equipamento de aquisição do áudio, ambiente e procedimentos,devido a qualidade acústica associada com ruídos do ambiente, uso de equipamentos degravação de baixa qualidade e a utilização de procedimentos não padronizados, pois eramamostras de áudio gravadas durante as consultas, conversas telefônicas entre o pacientee o médico. Foi concluído, que as características vocais do comportamento do formantee o power distribution podem ser utilizadas para distinguir indivíduos que carregam odiagnóstico de depressão e alto risco de suicídio.

Em [3], foram analisados discursos para verificar alterações nas característicasacústicas causadas pela depressão. Pois foi relatado que a fala pode estar relacionada coma condição emocional e mental enquanto o locutor está falando, a qual pode ajudar a prevero nível de gravidade do transtorno, pois ele afeta produção e a mediação dos resultadosda fala. O banco de dados utilizado continha gravações de paciente categorizados comodepressivos ou normais por um médico que não envolvido no projeto. Elas foram gravadasem mono canal, digitalizadas com a taxa de amostragem de 16kHz e convertidas para10kHz e editadas para remover a voz do entrevistador, pausas maiores que 0.5 segundos eruídos de fundo, como espirros e batidas de porta. Os resultados experimentais mostraramque o cálculo das entropias alcançaram efetivamente a separação de classes com altasporcentagens de validações corretas. Sendo a entropia definida como a quantidade médiade informação significativa que a fala leva ao ouvinte.

A diferença entre a fala livre e a fala automática foi abordada por [11], pois a pri-meira requer atividades cognitivas, como procurar por uma palavra e planejar o discurso,além da atividade motora da segunda. Foram analisados pacientes idosos, separados emdois grupos, o grupo dos agitados e o dos lentos. Os testes pedidos foram para que con-tassem de 1 a 10, e depois que contassem de 10 até 1, atividade que demanda mais doprocesso cognitivo. Para a avaliação da fala livre, os paciente foram envolvidos em umaentrevista, com tópicos de conversação, tal como atividade recentes, programas de TV fa-voritos, além de relatarem experiências positivas e negativas, durante 5 minutos. A partir

36 Capítulo 6. Trabalhos Relacionados

dessas atividades, foi concluído que as impressões clínicas são substancialmente relacio-nadas aos parâmetros acústicos, que as variações temporais refletem o estado depressivo,enquanto as características prosódicas refletem o traço depressivo.

Devido a necessidade de ter uma base de dados de distúrbios da voz, de acordocom as condições patológicas de pacientes e características do mandarim, [12] desenvolveuuma que é composta por sustentar uma vogal, palavras, sentenças e poesia. A primeiraparte contém as vogais mais utilizadas entre as seis, a segunda dez palavras simples, aterceira duas sentenças de cinco palavras e uma de sete e a última é uma poesia popularantiga. O banco de dados fornece a escala GRBAS1, que avalia a percepção vocal no nívelglótico, para cada amostra, avaliadas por otorrinolaringologistas. Além de informaçõesquanto ao sexo, idade, conclusão do diagnóstico e exemplos padrões para comparaçãoentre o mandarim e o inglês.

1 Escala de avaliação vocal perceptiva criada pelo Comitê para Testes de Função Fo-natória da Sociedade Japonesa de Logopedia e Foniatria em 1969. Disponível emhttp://www.invoz.com.br/paginas/rasat_pt.pdf. Acesso em 30 de Março de 2014.

37

7 METODOLOGIA

A modelagem da base de dados foi realizada de forma a avaliar os dados do pacienteque estão presentes em testes psicológicos e quais os parâmetros relacionados a sua fala sãoextraídos e analisados segundo o estado da arte para o diagnóstico de doenças mentais. Omecanismo de obtenção da voz por meio das técnicas de processamento digital de sinaistambém foi estudado, para que as informações armazenadas propiciem a aplicação dequaisquer técnicas de extração de características da voz.

Duas premissas foram utilizadas como guia na confecção da modelagem, a pri-meira: quais os tipos e tamanhos mais adequados para o objetivo, de modo que não hajaperda de qualidade do dado e desperdício de memória, para que não influencie negativa-mente no diagnóstico automatizado. Por exemplo, caso tenha sido escolhido um formatode armazenamento de voz que ocupe pouca memória, o sinal pode se tornar de baixa qua-lidade e prejudicar no diagnóstico, e tal informação fica presente na base para auxiliar naescolha das abordagens de processamento. A segunda, foi a preservação de informaçõesrelevantes na anamnese do paciente, o que dá suporte a preservação de dados para ostestes tradicionais.

Na fase de criação da modelagem, o primeiro passo foi elaborar o Modelo Entidade-Relacionamento (MER), um modelo de dados utilizado para o “projeto conceitual deaplicações de banco de dados” [10], nele são descritos entidades, relacionamentos e cardi-nalidade. A partir do esquema conceitual, foi projetado um esquema de banco de dadosrelacional, para isso foi utilizado o algoritmo de mapeamento do MER para o Modelo Rela-cional (MR) [10], que representa o banco de dados como um conjunto de relações e possuiforte fundamentação matemática. Esse passo é necessário para que sejam respeitadas asrestrições de integridade do modelo, restrição de domínio, restrição de chave, integridadede entidade e integridade referencial [10], de forma que não aconteçam atualizações er-rôneas no banco. Então, foi criado o Diagrama de Classes [10, 13], muito semelhante aoMER, em que são exibidas as entidades a serem criadas com seus respectivos atributos etipos, seus relacionamentos e cardinalidades, além de especificar a estrutura do esquemado banco de dados [10].

Uma entidade é algo no mundo real que pode ser abstraído como uma pessoa, queé um objeto que existe fisicamente, ou um curso universitário, que é conceitual [10, 13].Cada entidade possui atributos que a descrevem, por exemplo, ao criar uma entidade“Pessoa”, ela pode ter os atributos “nomePessoa”, “cpf”, “telefone”, “dataNascimento” e“idade” e uma entidade “CursoUniversitario” com o “nomeCurso” e “dataCriação”.

Os atributos podem ser classificados como simples (atômicos) ou compostos [10].

38 Capítulo 7. Metodologia

O primeiro seria um valor não divisível, o campo “cpf” com o valor “934.282.283-59” porexemplo, e o segundo pode ser divido em partes menores independentes e é formado pelaconcatenação dessas partes, tal como o atributo “nomePessoa”, que pode ser divido em“primeiroNome” e “ultimoNome”. Eles podem ser classificados como únicos, de forma quesó existe um para uma pessoa ou multivalorado [10], que pode ter um ou mais, comoo “cpf” e o “telefone”, respectivamente. Podem ser atributos armazenados ou derivados[10], a “dataNascimento” da pessoa por exemplo, é armazenado e a “idade” é derivadoda “dataNascimento”, pois se essa informação for armazenada, será necessário alterá-latodo ano. E quando não tem valores aplicáveis a ele, o atributo pode ser null [10], comoquando o número do telefone não é conhecido, o atributo ficará vazio.

Em entidades denominadas fortes, existe um atributo, ou mais, que pode identificá-la unicamente, chamado atributo-chave [10]. Estes precisam ser únicos no conjunto equando mais de um, a sua combinação se torna uma chave primária, que não pode sernulo, pois ele será utilizado para identificação, como o atributo “cpf” da “Pessoa”. Umaentidade é dita fraca, quando ela não tem o atributo-chave e precisa ser identificada pelaentidade com quem ela se relaciona [10], dessa forma, ao realizar o mapeamento, o(s)atributo(s) da chave primária da entidade identificadora são adicionados à entidade fracacomo chave estrangeira.

As entidades podem se relacionar entre si, como entre “Pessoa” e “CursoUniversi-tário” pode existir o relacionamento “Estuda”. Um tipo de relacionamento [10] pode terdiferentes graus, dependendo do número de entidades participantes, se forem duas serágrau dois, também denominado binário, se forem três será grau três, ou ternário e assimpor diante. Tipos de relacionamentos binários podem ter as cardinalidades [10], a) 1:1:uma pessoa pode se relacionar com apenas um curso; b) 1:N: uma pessoa pode se relaci-onar a vários cursos; c) N:1: várias pessoas podem se relacionar com apenas um curso; d)M:N: várias pessoas podem se relacionar com vários cursos.

A agregação permite “a criação de objetos compostos com base em seus objetoscomponentes” [10]. Ela pode ser utilizada em três casos, primeiro quando é necessárioagregar valores de atributos para formar um objeto, segundo quando é necessário repre-sentar um relacionamento de agregação como comum e terceiro quando o objeto o objetode agregação precisa se relacionar com outro [10].

A implementação de um protótipo do modelo criado será realizado com o auxílioda ferramenta PostgreSQL, devido a sua gratuidade e por ser open source, o que faci-lita as implementações específicas para o problema e sem nenhum custo. O PostgreSQL1 é um sistema de banco de dados objeto-relacional, possui mais de quinze anos de de-senvolvimento ativo e uma arquitetura comprovada que ganhou uma forte reputação deconfiabilidade, integridade de dados e correção. Pode ser executado na maioria dos siste-

1 Disponível em http://www.postgresql.org/about/. Acesso em 27 de Março de 2014.

39

mas operacionais, apresenta total suporte para chave estrangeira, junção, visões, gatilhose procedimentos de armazenamento. Além de tipos de dados como Integer, Numeric, Boo-lean, também suporta o armazenamento de grandes objetos binários, incluindo fotos, sonse vídeos.

O modelo desenvolvido terá uma ampla divulgação e poderá ser encontrado eobtido no site do grupo de pesquisa.

41

8 RESULTADOS E DISCUSSÃO

Após a criação do MER e feito seu MR, foi criado o Diagrama de Classes, comomostra a Figura 3. Nas próximas subseções serão descritas as entidades, atributos, osrelacionamentos e as duas cardinalidades.

Figura 3 – Diagrama de classes da base de dados

8.1 Entidades

As entidades Paciente e Medico existem para representar as informações do paci-ente e do médico, para sua identificação. Outra entidade criada é a Consulta, mapeada

42 Capítulo 8. Resultados e Discussão

como uma agregação, pois é a partir dela que o áudio poderá ser adquirido, em que ficarãoarmazenadas as informações da consulta e do paciente na sessão de amostragem da voz.

As entidades Nacionalidade, Religião e Profissão são todas informações acessóriassobre o paciente criadas para manter a normalização do banco de dados. Como o diagnós-tico da doença será baseado na fala do paciente, a entidade Nacionalidade é importante,caso o paciente tenha outra língua materna [6], pois pode influenciar no discurso.

Para armazenar os sinais de voz capturados durante a consulta, tem-se as entidadesAudio e FormatoArquivo para armazenar qual o tipo do arquivo será gerado com base nosinal. A entidade Audio foi mapeada como uma entidade fraca, pois ela só existe seexistir pelo menos uma consulta e um teste para se relacionar. Dessa forma, ao realizaro mapeamento para Entidade Relacional, as chaves primárias de Consulta e Teste sãoadicionadas como chave estrangeira e a sua combinação se torna chave primária da Audio.

A entidade Teste é o modelo dos testes para avaliação da fala do paciente, naentidade Parametros são armazenados os parâmetros necessários para a execução dostestes e a entidade ParametrosTeste vincula os parâmetros com seus respectivos testes. Aúltima foi criada devido ao mapeamento do relacionamento com cardinalidade [N:N], poisnão é possível representar esse tipo de relacionamento por uma única chave estrangeirade uma das entidades participantes [10].

A entidade DadosExtraidos representa as informações extraídas a partir do sinalde áudio por meio de técnicas de processamento digital de sinais. A entidade DadosEx-traidos é uma entidade fraca, pois sua existência depende da entidade Audio e da entidadeParametros, e pelo mapeamento de uma entidade fraca, as chaves primárias das entidadesidentificadoras são adicionadas como chave estrangeira e em conjunto, se tornam chaveprimária. O processamento e o armazenamento correto desses dados são de grande im-portância, visto que eles serão necessários para a obtenção do diagnóstico automatizado.

8.2 Atributos

Na entidade Medico, existem os atributos nome, crmNumero e crmSigla, com oobjetivo de armazenar informações sobre o médico, e identificá-lo unicamente por meiodos atributos obtidos do registro do Conselho Nacional de Medicina (CRM).

Para o paciente, são necessários os atributos: nome, cpf, rg, dataNascimento, sexo,estadoCivil e endereço. O fato do paciente fumar é relevante, pois segundo [10] tal fatotem influência sobre os parâmetros acústicos da voz, seja de modo isolado ou em conjuntocom o etilismo, tosse, hábito de pigarrear, entre outros.

Para identificar uma consulta de forma única, são necessários os atributos dataCon-sulta, horário, além do paciente e o médico. O peso e a altura do paciente são importantes,

8.2. Atributos 43

pois um Índice de Massa Corporal alto ou baixo pode estar diretamente relacionado a de-pressão, porém de formas distintas entre os gêneros masculino e feminino, como podeser visto em [14, 15], em que, por exemplo, quanto mais alto o IMC nos homens, poderesultar em uma forma mais severa da depressão, enquanto nas mulheres a relação podenão ser a mesma, além de que o ganho ou a perda de peso serem sintomas da doença[16]. Tem-se também o atributo diagnóstico, que armazenará qual a doença mais prováveldo paciente, com base nos diagnósticos parciais dos testes executados e/ou na decisão domédico (depende se o diagnóstico será automatizado ou não), com o objetivo de mantero histórico do paciente.

O sinal de áudio capturado durante a consulta está representado na entidade Audio,no atributo arquivo, como um tipo de dado binário. Os demais atributos foram incluídospor meio do mapeamento da entidade, sendo o atributo consulta, um identificador daconsulta que gerou esse áudio, o campo formatoArquivo determina qual será o tipo dessedo sinal de áudio e o teste diz para qual teste essa gravação será utilizada.

Na entidade FormatoAudio, tem-se os atritbutos nome, compactação e sigla. Oprimeiro campo, deve ser preenchido com o nome do formato do sinal de áudio, como“WAVEform Audio Format”, o segundo pode ser verdadeiro ou falso, de forma que indiquese o sinal de áudio foi compactado ou não, e o terceiro preenchido com a sigla do formato,como “wav”, para o exemplo dado.

Para a entidade Teste, são necessários o nome do teste para sua identificação, qualo texto vocalizado e a sua descrição, como por exemplo “Contar de 1 a 10”, “1, 2, 3, 4,5, 6, 7, 8, 9, 10”, “Contar de forma livre, sem ler, os números no intervalo de 1 a 10”,respectivamente [11]. Cada teste é relacionado com diversos parâmetros, que podem serencontrados na entidade Parametros, por meio dos atributos nome e unidade, que podemser “frequência fundamental” e “Hz”, por exemplo.

Na entidade DadosExtraidos, há o atributo audio, que mostra a qual sinal de áu-dio o dado extraído pertence, o parametroNome, que relaciona o dado ao seu determinadoparâmetro e o campo dado, que armazena a informação extraída. E o atributo diagnósti-coParcial para armazenar o resultado de cada teste.

Os atributos do tipo varchar têm, em sua maioria, a finalidade de armazenarinformações de sequência de caracteres para identificação da entidade, como o campo nomede Medico e Paciente ou conteúdo como o campo textoVocalizado da entidade Teste. Osatributos Medico.crmNumero e Paciente.cpf são aparentemente numéricos, porém, comonão é necessário realizar cálculos com esses valores, eles foram modelados como varchar.

O tipo character é utilizado para atributos de texto em que é possível delimitaro número de caracteres, por isso ele é utilizado nos atributos Medico.crmSigla, Paci-ente.sexo, FormatoArquivo.sigla e Parametros.unidade, dessa forma, permite os valores

44 Capítulo 8. Resultados e Discussão

“F” e “M” para o atributo sexo, sem que seja desperdiçado espaço se fosse utilizado o tipovarchar.

Para os atributos que devem aceitar números com casas decimais, como Con-sulta.pesoPaciente e DadosExtraidos.dado por exemplo, foi escolhido o tipo real por su-portar até seis casas decimais, e não o numeric, pois não será necessária a realização decálculos com esses valores.

Os atributos Paciente.fumante e FormatoArquivo.compactacao são do tipo booleanpois as informações necessárias são, apenas, se o paciente fuma ou não, e se o sinal deáudio está compactado ou não.

8.3 Relacionamentos

Para que uma consulta exista, precisa existir uma entidade médico e paciente vin-culados à ela com a cardinalidade [N,1] pois o médico/paciente pode ter várias consultas.Porém uma consulta pertence apenas uma combinação de médico, paciente, data e hora.Para cada consulta podem ser capturados um ou mais amostras de áudio, por isso suacardinalidade de [1,N], no entanto, o áudio só existe se estiver vinculado a uma consultae a um teste.

Da mesma forma ocorre entre Paciente-Nacionalidade e Paciente-Religião. Emrelação ao relacionamento entre Paciente e Profissao, existe uma sub-entidade devido aofato que um paciente pode ter mais de uma profissão e que a profissão pode ser vinculadacom mais de um paciente [12].

Cada sinal de áudio armazenado pode ter um formato de armazenamento, seja“.wav” ou “.mp3” por exemplo. Logo, ele deve ser relacionado com a entidade Formato-Arquivo para que possa ser identificado em um relacionamento [N,1] pois cada sinal deáudio só tem um formato de áudio, e o formato de áudio pode pertencer a mais de umsinal. Ele se relaciona com Teste, pois para cada sinal de áudio, pode ser aplicado umteste, portanto, sua cardinalidade é [N,1].

Para cada teste é possível haver vários parâmetros relacionados, tal como váriosparâmetros pertencem a vários testes. Dessa forma, foi criada a entidade Parâmetros-Teste que faz a ligação entre testes e parâmetros. As entidades Teste e ParametrosTestetem cardinalidade [1,N] pois cada teste pode ter vários parâmetros e, Parâmetros e Pa-rametrosTeste tem cardinalidade [1,N] também, porque cada parâmetro pode pertencer avários testes.

Após gravado o sinal áudio para determinado teste durante determinada consulta,e identificados quais os parâmetros o teste necessita para chegar a uma conclusão, elespodem ser extraídos do áudio original, por meio de técnicas de processamento digital de

8.3. Relacionamentos 45

sinais específicas e armazenados conforme a entidade DadosExtraidos. Um registro nestaentidade só existe caso seja necessário um áudio, caso contrário não há como identificarsua origem e função. Com a cardinalidade [1,N] de Audio para DadosExtraidos podemser extraídos vários dados de um áudio, e [N,1] de DadosExtraidos para Parametros, vistoque cada dado pode pertencer apenas a um parâmetro, e que o mesmo parâmetro podeser relacionado a dados distintos.

47

9 CONCLUSÃO

49

REFERÊNCIAS

1 HAYKIN, S.; VEEN, B. V. Sinais e Sistemas. [S.l.]: Bookman, 2001.

2 OZDAS, A. et al. Investigation of vocal jitter and glottal flow spectrum aspossible cues for depression and near-term suicidal risk. Biomedical Engineering, IEEETransactions on, v. 51, n. 9, p. 1530–1540, 2004.

3 VAYADA, M.; NAYAK, V.; AGRAWAL, A. Analysis of speech of depressed person.In: Sarjan. [S.l.: s.n.], 2013. p. 33–36.

4 FRANCE, D. et al. Acoustical properties of speech as indicators of depression andsuicidal risk. Biomedical Engineering, IEEE Transactions on, p. 829–837, 2000.

5 KRAEPELIN, E. Manic-Depressive Insanity and Paranoia. [S.l.]: E. & S. Livingstone,1921.

6 SADOCK, B. J.; SADOCK, V. A. Manual de psiquiatria clínica. 5. ed. [S.l.]: Artmed,2012.

7 DIAGNOSTIC and Statistical Manual of Mental Disorders: DSM-IV. 4. ed. [S.l.]:American Psychiatric Association, 2005.

8 ALCAIM, A.; OLIVEIRA, C. A. d. S. Fundamentos do processamento de sinais devoz e imagem. [S.l.]: Editora Interciência; PUC-Rio, 2011.

9 DINIZ, P. S. R.; SILVA, E. A. B. d.; NETTO, S. L. Processamento digital de sinaisprojeto e análise de sistemas. [S.l.]: Bookman, 2004.

10 ELSMARI, R.; NAVATHE, S. B. Sistemas de banco de dados. [S.l.]: Pearson AddisonWesley, 2011.

11 ALPERT, M.; POUGET, E. R.; SILVA, R. R. Reflections of depression in acousticmeasures of the patients speech. Journal of Affective Disorders, v. 66, n. 1, p. 59 – 69,2001.

12 WANG, D. et al. An introduction to mandarin disordered voice database. In: Audio,Language and Image Processing, 2008. ICALIP 2008. International Conference on. [S.l.:s.n.], 2008. p. 1077–1080.

13 PRESSMAN, R. S. Engenharia de Software. 6. ed. [S.l.]: McGrawHill, 2006.

14 DRAGAN, A.; AKHTAR-DANESH, N. Relation between body mass indexand depression: a structural equation modeling approach. BMC Medical ResearchMethodology, v. 7, n. 1, p. 17, 2007.

15 WIT, L. de et al. Depression and body mass index, a u-shaped association. BMCPublic Health, v. 9, n. 1, p. 14, 2009.

16 PINTO, A.; CRESPO, A.; MOURãO, L. Influence of smoking isolated andassociated to multifactorial aspects in vocal acoustic parameters. In: Brazilian JournalOtorhinolaryngology. [S.l.: s.n.], 2014.

SOLUÇÃOPARAARMAZENAMENTODEVOZ … · FUZYI, E. M. Solution for voice storage for the diagnosis of...

Documents

Transcript of SOLUÇÃOPARAARMAZENAMENTODEVOZ … · FUZYI, E. M. Solution for voice storage for the diagnosis of...