TCCfinalImpre

HUDSON JORGE SCATENA

A FÍSICA APLICA À PERÍCIA CRIMINAL:

FONÉTICA FORENSE Trabalho de conclusão de curso apresentado ao curso de graduação em Física da Universidade Católica de Brasília, como requisito parcial para obtenção do Título de Licenciado em física. Orientador: Prof. Msc. Thiago Borduqui Ferrari

Brasília

2010

Trabalho de Conclusão de Curso de autoria de Hudson Jorge Scatena, intitulado “A

FÍSICA APLICADA À PERICIA CRIMINAL”, apresentado como requisito parcial para

obtenção do grau de Licenciado em Física da Universidade Católica de Brasília em 23 de

junho de 2010, defendida e aprovada pela banca examinadora abaixo assinada:

___________________________________________

Prof. . Msc. Thiago Borduqui Ferrari

Orientador

Física-UCB

___________________________________________

Prof. Dr. Sérgio Luiz Garavelli

Física - UCB

___________________________________________

Prof. Msc. Diego Oliveira Nolasco da Silva

Física - UCB

AGRADECIMENTO

Agradeço a Deus por ter me conduzido até este momento. Ao meu professor e amigo

Thiago B. Ferrari por ter me orientado durante o processo de construção deste trabalho e por

suas relevantes aulas ministradas na Universidade Católica de Brasília. Aos produtores do

software e sítio Sound Ruler acousct analysis, por disponibilizarem de maneira gratuita uma

poderosa ferramenta para o desenvolvimento científico da humanidade. Aos criadores e

colaboradores do sítio Perito Criminal, por disponibilizarem vários relatos e artigos

relacionados à perícia criminal no Brasil. Ao professor Edson Benício por me encaminhar um

belo material sobre as transformadas de Fourier, que foi de grande valia para o entendimento

dos fenômenos tratados neste trabalho. A minha família por ter me apoiado e sempre ter

acreditado em mim. Aos meus amigos por terem me acompanhado e apoiado neste processo

tão importante, em especial a Aline Mourão, Ana Carolina S. Machado, Carlos da Silva,

Carlos Antônio, Demetrius Leão Diones Charles, Jonathas Fernandes, Pedro Castilho, Thiago

de Freita.

“O mundo não está ameaçado pelas pessoas

más, e sim por aquele que permitem a

maldade.”

Albert Einstein

RESUMO

Referência: SCATENA, Hudson Jorge. A Física aplicada a perícia criminal: Fonética

forense. 2010. 32 folhas. Trabalho de conclusão de curso para obtenção do grau de Licenciado

em Física pela Universidade Católica de Brasília, Brasília-DF.

O presente trabalho busca mostrar um pouco dos conceitos da física envolvidos na atividade

pericial, em especial nas análises das falas, aqui tratada como fonética forense, fazendo uso de

softwares aplicáveis à análise dos sons da fala humana, aliadas aos conceitos de outras áreas

do conhecimento humano. Os resultados aqui apresentados não buscam atingir o mesmo nível

de precisão dos resultados alcançados em laudos oficiais, porque a metodologia e materiais

utilizados buscaram mostrar de maneira superficial tal atividade, porém estes resultados se

mostraram como fortes elementos para a individualização da voz de um falante confirmando

assim a teoria apresentada.

Palavras-chave: Física forense. Fonética forense. Perícia criminal.

SUMÁRIO

1. INTRODUÇÃO 08

2. FISIOLOGIA DA FALA 09

2.1. SUBSISTEMA RESPITATÓRIO 10

2.2. SUBSISTEMA LARÍNGEO 10

2.3. SUBSISTEMA SUPRALARÍNGEO 10

3. PRODUÇÃO DA FALA 10

4. FONÉTICA FORENSE 12

4.1. VERIFICAÇÃO DE LOCUTOR 12

4.2. VERIFICAÇÃO DE EDIÇÃO 13

4.3. ANÁLISE DE CONTEUDO FONOGRAFICO 13

5. ELEMENTOS TECNICOS-COMPARATIVOS 13

5.1. FORMANTES 13

5.2. FREQUÊNCIA FUNDAMENTAL 15

5.3. MODOS ARTICULATÓRIOS 16

5.4. QUALIDADE VOCAL DO FALANTE 16

5.5. SONORIDADE OU VOZEAMENTO 17

5.6. RITMO E TAXA DE ELOCUÇÃO 17

5.7. VOICE ONSET TIME (VOT) 17

6. EXAME DE VERIFICAÇÃO DE LOCUTOR 17

6.1. ANÁLISE PERCEPTUAL 17

6.2. ANÁLISE ACÚSTICA 18

6.3. TÉCNICAS PARA A ANÁLISE 18

6.3.1. Espectrograma: 18

6.3.2. Formantes: 18

6.3.3. FFT (Fast Fourier Transform): 18

6.3.4. LPC (Linear predictive coding): 18

6.3.5. LTAS (Long term average spectrum): 19

6.3.6. Frequência fundamental: 19

6.4. METODOLOGIA PARA A ANÁLISE 19

6.4.1. Análise geral e particular dos formantes 19

6.4.2. Análise de Estabilidade das Vogais Orais 19

6.4.3. Traçado da curva de frequência de resposta 20

6.4.4. Análise de VOT (Voice Onset Time) 20

6.4.5. Análise de Curvas de Energia: 20

6.4.6. Análise de Frequência de Vibração das Pregas Vocais: 20

6.5. REQUESITOS DAS AMOSTRAS PARA VERIFICAÇÃO DE LOCUTOR 20

6.5.1. Autenticidade 20

6.5.2. Adequabilidade 21

6.5.3. Contemporaneidade 21

6.5.4. Quantidade 21

7. EXAME DE VERIFICAÇÃO DE EDIÇÃO 21

8. ANÁLISE DE VOZ COM OS SOFTWARES 22

9. CONCLUSÃO 30

8

1. INTRODUÇÃO

O perito criminal é uma pessoa com grande conhecimento técnico, científico ou

artístico, capaz de esclarecer fatos de interesse judicial. Compõem o corpo de peritos,

profissionais das áreas de física, química, biologia, contábeis, ciência da computação,

geologia, odontologia, farmácia, bioquímica, mineralogia e engenharia, devido a variabilidade

de áreas de atuação. As atribuições do perito criminal são: periciar locais de crimes ou

desastres, objetos, veículos, documentos, moedas, mercadorias, produtos químicos, tóxicos,

exames balísticos, instrumentos utilizados na prática de infrações, exames de DNA, bem

como a realização de todas as investigações necessárias à complementação dessas perícias,

para fins jurídico-legais (PCI Concursos, 2007).

O perito criminal no exercício de sua função faz uso da ciência chamada

criminalística, que é a união dos vários conhecimentos científicos aplicados na elucidação de

ilícitos penais e tem por objetivo o estudo sistemático dos objetos e locais envolvidos no

crime1. Na criminalística, se usa várias áreas do conhecimento humano, entre eles estão os

da física, neste caso chamado de Física Forense, que de acordo com Negrini Neto (2002) “é a

parte da Física destinada à observação, análise e interpretação dos fenômenos físicos

naturais de interesse judiciário”, essenciais na elucidação de vários eventos, tais como:

Acidentes de trânsito.

Balística Forense, que compreende o estudo das armas de fogo, suas munições e

perícias.

Documentoscopia Forense, que verifica se houve falsificação ou alteração de um

documento.

Fonética Forense, que a parte da criminalística que busca determinar a autenticidade

de arquivos de áudio apresentados aos aplicadores da Lei.

Neste trabalho serão abordados aspectos relacionados à fonética forense, verificando

suas ramificações e aspectos físicos relacionados com sua realização.

2. FISIOLOGIA DA FALA

1 Crime: Definido legalmente como a infração penal a que a lei comina pena de reclusão ou de

detenção quer isoladamente, quer alternativa ou cumulativamente com a pena de multa (Dec. Lei nº 3.9 14, de 9/12/1941 - Lei de Introdução ao Código Penal - art. 1º). A doutrina define crime como o "fato proibido por lei sob ameaça de uma pena" (Bento de Faria)

9

De acordo com Morisson (2010), para o melhor entendimento do processo de

comparação de vozes se faz necessário expor alguns parâmetros técnico-comparativos

intimamente ligados à anatomia bem como uma sucinta explicação sobre o funcionamento do

aparelho fonador humano. Do ponto de vista fonético podem ser apontados três subsistemas

relevantes para o entendimento, o respiratório, laríngeo e o supralaríngeo.

Figura 1: O aparelho fonador.

Figura encontrada em:

http://www.cefala.org/fonologia/galeria_imagens.php?vcategoria=Aparelho%20fonador&vnome=Diag

rama%204&vfile=aparelhofonador_d4.jpg&vref=4, inicialmente extraída e adaptada de

http://www.barcode.ro/tutorials/biometrics/img/speech-production.jpg

2.1. O SUBSISTEMA RESPIRATÓRIO.

... Composto pelos pulmões, músculos respiratórios, brônquios e traqueia cuja

principal função é a respiração (MORISSON, 2010). Os sons da língua portuguesa

são produzidos com o ar que sai do subsistema respiratório em direção ao meio

externo, e por meio de compressões e rarefações deste ar que são produzidos os sons

da fonação.

10

2.2. O SUBSISTEMA LARÍNGEO

... Composto por um conjunto de músculos, ligamentos e cartilagens cuja principal

função é controlar a disposição das pregas vocais, o ar que sai dos pulmões, que é

contínuo, em direção ao meio externo, ao passar pelas pregas vocais pode sofrer

modificações, transformando-se em pulsos de ar, de acordo com o som desejado

(MORISSON, 2010).

2.3. O SUBSISTEMA SUPRALARÍNGEO

... Composto pela região faringal, bucal e nasal. Sua finalidade é definir a maiorias

das características qualitativas na fonação, ou seja, a modulação do som produzido na

região laríngea ou na própria região supralaríngea principalmente pela movimentação

da língua, alterando o tamanho e a forma da cavidade bucal ou unindo-se ou não a

cavidade nasal (MORISSON, 2010).

3. PRODUÇÃO DA FALA

Na língua portuguesa, a fala é produzida com o ar ascendente dos pulmões que é

conduzido pela traqueia até a laringe. Na laringe se encontram as pregas vocais, que são

músculos estriados que revestem a laringe, separados por espaços chamados de glote. O ar

que se acumula na região inferior da glote, aumenta a pressão até conseguir provocar sua

abertura e a consequente passagem do ar e seu fechamento é devido ao efeito Bernoulli2, com

isso as pregas vocais vibram produzido o som. Esse som segue para o subsistema

supralaríngeo, que tem a função de modulá-lo, atenuando a energia do som em algumas

frequências e reforça em outras, para assim produzir o som desejado pelo falante. Por fim o

som passa pelo trato vocal, que é composto pela faringe, laringe, cavidade nasal e cavidade

oral (boca, língua, bochechas e dentes), e o som que antes era bastante simples, passa por

constantes modificações no sistema de ressonância do trato vocal e estruturas ali localizadas

(MORISSON, 2010).

Como a forma e comprimento de cada cavidade do trato vocal são distintos, a fonação

se torna única para cada indivíduo e, portanto cabível de análise de vários elementos técnico-

comparativos nos exames periciais (MORISSON, 2010).

2 Efeito Bernoulli: “Quando uma pequena amostra de um fluido escoa numa região estreita de um tubo, ele

ganha velocidade, porque a pressão a montante (antes do estreitamento) que a empurra para frente é maior do que a pressão a jusante (dentro ou depois do estreitamento) que se opõe a seu movimento” (Tipler, 2006, p. 463).

11

O conceito de tubos sonoros se faz muito importante para entendimento da produção

da voz de um indivíduo, que diz o seguinte: o ar ou gás contido num tubo pode vibrar de

modo estacionário, em determinadas frequências, produzindo ondas sonoras. Os tubos

sonoros podem ser do tipo aberto ou fechado, com as duas extremidades abertas ou uma

extremidade aberta e a outra fechada respectivamente (Tipler, 2006, p. 580).

Figura 2 – Tubo sonoro aberto

Figura encontrada em: <http://www.cdcc.usp.br/ondulatoria/musica5.html>

Figura 3 – Tubo sonoro fechado

Figura encontrada em: <http://www.cdcc.usp.br/ondulatoria/musica5.html>

Se uma fonte sonora for colocada na extremidade aberta de um tubo, as ondas sonoras

emitidas em determinadas frequências irão superpor-se às que se refletirem na outra

extremidade, produzindo ondas estacionárias. Nessas condições, a coluna de ar no tubo entra

em ressonância com a frequência emitida pela fonte. Uma extremidade aberta sempre

corresponde a um ventre (interferência construtiva) e a fechada, a um nó (interferência

destrutiva).

De acordo com Kemp3 (2010), o trato vocal pode ser entendido como um tubo sonoro

fechado, onde a extremidade fechada é a glote, fonte da energia acústica, e a outra

extremidade aberta serão os lábios. Portanto o trato vocal funcionará como um ressoador

3 Informações obtidas das notas de aula do Prof. Dr Ernesto Kemp do Instituto de Física da Universidade Estadual de Campinas, disponível em:<http://www.ifi.unicamp.br/~kemp/f105wp/downloads/Parte6.pdf>

12

natural, com aproximadamente 17 cm de comprimento para um homem adulto e frequência

fundamental de aproximadamente 500 Hz conforme de expressão:

sendo n=1, 2, 3, ..., v a velocidade do som no meio e L o comprimento do tubo. Tal equação

pode ser reescrita da seguinte forma (KEMP, 2010):

sendo i os inteiros impares, que pode ser entendido como os harmônicos de um tubo sonoro

fechado, v a velocidade do som (aproximadamente 340 m/s), L o comprimento do tubo

(aproximadamente 0,17 m), portanto:

,

,

Observa-se que o tubo do trato vocal não é reto, porém a análise de ressonância em

tubos retos ou curvos não traz diferenças significativas nos resultados (KEMP, 2010),

(MORISSON, 2010).

4. FONÉTICA FORENSE

A fonética forense se ramifica em: verificação de locutor, verificação de edição e

análise de conteúdo fonográfico (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008).

4.1. A VERIFICAÇÃO DE LOCUTOR

... Investiga se as falas gravadas em uma mídia (fita K7, CD, DVD, VHS), provêm ou

não do aparelho fonador de uma pessoa em questão. Muitas vezes nos processos de

investigação policial, a única maneira de atribuir a autoria de um crime ou desvincular uma

pessoa dele é determinar se a voz contida em uma mídia é ou não da pessoa em questão, em

especial nos casos de suborno, chantagem ou extorsão. Este tipo de perícia é feita por meio de

comparação entre dois arquivos de voz levando em conta vários parâmetros acústicos e varias

(1)

(2)

13

realizações articulatórias do falante. O resultado da investigação dá origem a um laudo

técnico, que apresentado por perito qualificado é considerado como prova material4.

4.2. A VERIFICAÇÃO DE EDIÇÃO

Tem como objetivo examinar os arquivos de áudio contidos em uma mídia, para

averiguar se sofreram algum tipo de edição como modificação, supressão ou acréscimo.

4.3. ANÁLISE DE CONTEÚDO FONOGRÁFICO

Consiste em descrever todo o conteúdo registrado, que seja relevante à investigação,

em um anexo eletrônico contendo todos os arquivos de áudio, que podem ser acessados por

aparelhos que leiam CD ou DVD compatível com o formato de arquivo MP3. Possui

vantagens sobre o método tradicional de transcrição, pois ao transcrever os fatos para o papel

as palavras são escritas de modo inexpressivo, podendo distorcer o seu real sentido e perder

várias informações vitais na elucidação e no entendimento dos fatos, tais como entonação,

velocidade da fala, regionalismos, som ambiente, sons ao fundo e toda a riqueza de detalhes

contidos no áudio. O anexo eletrônico consiste em uma mídia do tipo CD-R, com todos os

áudios investigados organizados de forma que o usuário possa avaliá-lo rapidamente e de

maneira descomplicada podendo fazer uso de ferramentas como pesquisa de palavras por

exemplo.

5. ELEMENTOS TÉCNICO-COMPARATIVOS

5.1. FORMANTES

De acordo com Morisson (MORISSON, 2010) “Os formantes são os efeitos

ressonantes no trato vocal, relacionado à amplificação da energia sonora no subsistema

supralaríngeo. Estão relacionados à anatomia e às configurações do aparelho fonador de

cada indivíduo”. De maneira análoga pode ser entendido como um filtro que da a forma por

meio das frequências ressonantes do trato vocal.

O primeiro formante ( ) possui sua frequência relacionada com a posição da língua na

direção vertical e pelo grau de abertura da boca. Já o segundo formante ( ) está relacionado à

posição da língua no plano horizontal. As frequências dos demais formantes estão

4 Prova material: Provas produzidas a partir de vestígios encontrados no local do crime. Sendo uma das provas admitidas no nosso processo penal. A prova pericial contribui para formar a convicção do juiz na decisão de um caso concreto.

14

relacionadas à geometria do trato vocal no momento da fonação, e assim como os dois

primeiros, dentro de um conjunto de convergências são fortes aspectos para individualização

do falante. (MORISSON, 2010).

A figura 4 é uma imagem de análise real feita pelo Instituto Nacional de Criminalística

que mostra as regiões dos formantes, ou seja, a frequência de ressonância, entre duas amostras

de áudio de um mesmo falante.

Observa-se a perfeita coerência entre os valores dos quatro primeiros formantes do

fone relacionado à vogal [e] da primeira sílaba do enunciado “deixa o resto” quando

comparado entre os registros de voz do questionado (curva vermelha no gráfico à

direita) e padrão (curva azul). Ressalta-se que não é articulada a semivogal /i/ nesse

enunciado. (MORISSON, 2010)

Figura 4 – Análise de formantes


<http://www.peritocriminal.net/mambo/index.php?option=com_content&task=view&id=182&Itemid=28>.

A figura 5 também mostra a convergência dos gráficos dos formantes que de acordo

com o autor a divergência do primeiro formante pode ter ocorrido por fatores emocionais.

15

Perfeita coerência entre o segundo, terceiro e quarto formantes do segmento

vocálico da locução “tá” quando comparado entre os registros de voz do questionado

e padrão. Como o primeiro formante está diretamente relacionado ao grau de

abertura da boca, a falta de espontaneidade durante o fornecimento do material

sonoro padrão justifica a divergência encontrada nos valores do primeiro formante

(MORISSON, 2010).

Figura 5 – Análise de formantes


<http://www.peritocriminal.net/mambo/index.php?option=com_content&task=view&id=182&Itemid=28>

5.2. FREQUÊNCIA FUNDAMENTAL

A menor frequência de ressonância é chamada de frequência fundamental ( ) ou

primeiro harmônico, possui a componente de frequência com maior energia do pulso de ar

gerado no sistema laríngeo, devido ao movimento de afastamento e de aproximação das

pregas vocais.

De acordo com Morisson (2010), os falantes adultos femininos e crianças possuem a

frequência fundamental em média de 220 Hz e de 300 Hz respectivamente, já os falantes

masculinos adultos possuem a frequência fundamental em média de 120 Hz. Esta diferença

nos valore de suas frequências se deve a características anatômicas, em especifico pelo

tamanho das membranas das pregas vocais, sendo o falante adulto masculino, em geral

possuidor dos maiores comprimentos destas membranas, seguido pelos falantes adultos

16

femininos e por crianças. Portanto a relação entre as frequências, anatomia e fisiologia das

pregas vocais nos demonstram que a frequência fundamental é um importante elemento

técnico-comparativo na individualização do falante.

5.3. MODOS ARTICULATÓRIOS

Trata da maneira que o ar sai da cavidade oral, ou seja, o grau de obstrução da

passagem de ar. Desta forma os sons podem ser classificados em:

Oclusiva5: obstrução completa da corrente de ar através da boca, véu palatino

levantado e o ar vai para a cavidade oral - [p], [t], [k], [b], [d] e [g]. Ex.: [p]elo

“pelo”, [t]ábua “tábua”, [k]orte “corte”, [b]ote “bote”, [d]ama “dama”, [g]alo

“galo”

Nasal: obstrução completa da corrente de ar através da boca, véu palatino

abaixado e o ar vai para as cavidades oral e nasal – [m], [n], [ɲ]. Ex.: [m]el “mel”,

[n]oite “noite”, so[ɲ]o “sonho”

Fricativa: obstrução parcial do ar pela aproximação dos articuladores, causando

fricção – [f], [v], [s], [z], [ʃ], [ʒ]. Ex.: [f]ado “fado”, [v]alor “valor”, [s]aco “saco”,

[z]ebra “zebra”, [ʃ]ave “chave”, [ʒ]á “já” Africada: obstrução completa na passagem do ar (como nas oclusivas) na fase

inicial e, após esta fase (quando se dá a soltura da oclusão), fricção, decorrente da

passagem central da corrente de ar (como nas fricativas) – [tʃ], [dʒ]. Ex.: po[tʃ]e

“pote”, bo[dʒ]e “bode”

Tepe (ou vibrante simples): o articulador ativo toca rapidamente o articulador

passivo, ocorrendo uma rápida obstrução da passagem do ar através da boca – [ɾ].

Ex.: a[ɾ]o “aro”

Vibrante: o articulador ativo toca algumas vezes o articulador passivo, causando

vibração – [r ]. Ex.: ca[r ]o “carro”

Retroflexas: o articulador ativo é a ponta da língua e o passivo é o palato duro. A

produção das retroflexas se dá pelo levantamento e encurvamento da ponta da língua em relação ao palato duro - [ɻ]. Ex.: ca[ɻ]ta “carta”, ca[ɻ]ga “carga”

Laterais: a corrente de ar é obstruída na linha central do trato vocal e o ar é

expelido por ambos os lados da obstrução, tendo saída lateral – [l] e [ʎ]. Ex.: [l]ata

“lata”, pa[ʎ]a “palha”

Ao se analisar os segmentos fonéticos de um falante, por meio da espectrografia, é

possível inferir os modos articulatórios empregados em determinados enunciados.

(MORISSON, 2010). O seguimento fonético realizado por um falante tem a tendência de

seguir um padrão, e isso permite a comparação estatística de uma mesma especificação

fonológica e desta maneira está analise constitui mais um forte elemento técnico-comparativo.

5 Dados obtidos das notas de aula da Professora Flaviane R. Fernandes Svartman, da Universidade de São Paulo. Disponível em:< http://www.fflch.usp.br/dlcv/2010-FLC0275aula01.pdf>

17

5.4. QUALIDADE VOCAL DO FALANTE

A qualidade vocal está relacionada à maneira que o som da fala é entendido por outras

pessoas, e está intimamente ligado às características fisiológicas.

Em seu artigo Morisson (2010), destaca algumas classificações da voz utilizadas por

peritos, estas são: voz modal (normal), rangida, o falseto (pitch alto), bitonal, laringalizada

(creaky voice), murmurada, áspera, rouca, hipernasalisada, robotizada (monotônica),

infantilizada, virilizada e a voz feminilizada.

5.5. SONORIDADE OU VOZEANTO

Neste parâmetro os sons produzidos pelo falante ou também chamado de fone, pode

ser classificado como sonoro ou surdo. Esta classificação é feita por meio de verificação da

vibração das pregas vocais no momento da produção do fone, caso seja positivo classifica-se

como fone sonoro, caso negativo classifica-se como fone surdo (MORISSON, 2010).

5.6. RITIMO E TAXA DE ELOCUÇÃO

O ritmo e a taxa de elocução ou (speech rate), estão relacionados à velocidade do

encadeamento dos fones produzidos por um falante. Esta velocidade relaciona-se a maneira

que os órgãos ativos do aparelho fonador trabalham e também de fatores neurológicos, código

linguísticos, aspectos psicoemocionais e se é natural ou não ao vocabulário do falante

(MORISSON, 2010).

5.7. Voice Onset Time (VOT)

É a medida do tempo que leva entre a soltura de uma oclusão no trato e o início do

vozeamento a ele interligado. Como exemplo, citamos o intervalo de tempo entre a explosão

de um som oclusivo (por exemplo, um [p]) e o início de vibração das pregas vocais

(MORISSON, 2010).

6. EXAME DE VERIFICAÇÃO DE LOCUTOR

6.1. ANALISE PERCEPTUAL

Busca identificar maneiras particulares na fala, como o socioleto6, idioleto

7 e dialeto

8

bem como variações na articulação das unidades sonoras como ponto de articulação, adição,

6 De acordo com a linguística é a maneira particular de um grupo social. 7 De acordo com a linguística é a maneira particular de um individuo falar.

18

omissão, nasalização e troca de fonemas, empregado pelo falante na articulação tanto na fala

questionada como na fala padrão.

6.2. ANÁLISE ACÚSTICA

A análise acústica dos fones questionados e padrão deverão ser realizados nas mesmas

condições, tais como nível de intensidade e largura da banda de frequência.

A verificação deverá ser realizada preferencialmente entre frases, entre palavras, entre

unidades silábicas e unidades sonoras que sejam semelhantes.

Os resultados da análise acústica deverão ser apresentados na forma de estatística com

relação aos parâmetros acústicos analisados.

Os espectrogramas deverão contemplar analises tanto em banda larga como em banda

fina de frequência. Sendo que em banda larga deverá destacar os formantes e suas transições e

em banda fina deverá ilustrar a estruturação dos harmônicos da fala.

6.3. TECNICAS PARA A ANÁLISE

6.3.1. Espectrograma:

Analisar o movimento dos formantes e suas transições, a estruturação dos harmônicos

em uma unidade ou em um conjunto de unidades sonoras assim como características

articulatórias e de co-articulação da fala. (RIBEIRO; MORISSON; RICARDO; SAMPAIO,

2008).

6.3.2. Formantes:

Busca identificar características comuns nos valores médios das zonas de estabilidade

dos núcleos vocálicos e as equivalências em suas transições. (RIBEIRO; MORISSON;

RICARDO; SAMPAIO, 2008).

6.3.3. FFT (Fast Fourier Transform):

A transformada rápida de Fourier é uma poderosa ferramenta, que neste caso é feita

por um algoritmo, que objetiva determinar a característica da amplitude no domínio da

frequência da fala em uma amostra de curto ou longo período. (RIBEIRO; MORISSON;


8 De acordo com a linguística é a maneira particular de indivíduos de uma região falar.

19

6.3.4. LPC (Linear predictive coding):

A codificação preditiva linear busca determinar a frequência em um ponto de maior

energia e a frequência dos formantes num dado instante. (RIBEIRO; MORISSON;


6.3.5. LTAS (Long term average spectrum):

É um desenho bidimensional da intensidade em função da freqüência espectral da

amostra. Para Nordemberg e Sundberg9, "Reflete a contribuição tanto da fonte glótica

quanto do trato vocal na qualidade de uma voz". “Dispõe em um só espectro, a média de

vários espectros momentâneos obtidos, por exemplo, a cada 200 milésimos de segundo”

(MASTER; BIASE; PEDROSA; CHIARI, 2006.)

6.3.6. Frequência fundamental:

Aplicar esta análise quando a qualidade do áudio for excelente e as condições de

coleta do som padrão e questionado10

forem muito próximas. (RIBEIRO; MORISSON;

RICARDO; SAMPAIO, 2008)

6.4. METODOLOGIAS PARA ANÁLISE

6.4.1. Análise geral e particular dos formantes

São analises relacionadas às frequências dos formantes, buscando similaridade nas amostras

cotejas ou investigadas.

“cotejar conjuntos de valores das frequências utilizando a técnica de máximos e de

mínimos para os dois primeiros formantes vocálicos entre fonemas análogos

existentes na amostra padrão e na questionada. Deve ser considerado, sempre que

possível, como ponto de medida, a região de maior valor de F1 (primeiro formante),

para a vogal baixa e para as vogais médias baixas (/a,é,ó/), para as vogais anteriores

/i/ e /e/ a região de máximo F2 (segundo formante) e para as vogais posteriores /o/ e

/u/ a região de menor valor de F2” (RIBEIRO; MORISSON; RICARDO;

SAMPAIO, 2008)

Outras possibilidades são:

cálculo da média das frequências dos formantes na zona de estabilidade no núcleo

vocálico;

9 2003 apud MASTER; BIASE; PEDROSA; CHIARI,2006. 10 Amostra de fala gravada que se busca identificação por comparações com amostras cedidas pelo investigado, ditas padrão.

20

extração dos valores das frequências dos formantes na zona de maior energia do

núcleo vocálico;

localização, por análise em banda fina de frequência, do centro do harmônico de maior

energia na zona de frequência correspondente a cada formante do referido núcleo”

E ainda de acordo com (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008),

“Cotejar o desenho dos formantes entre as amostras padrão e questionada. As transições dos

formantes inter e intra-conjuntos fonéticos. Quando possível utilizar para intervalos de tempo

e de localização espacial análogos, dados estatísticos para os valores extraídos das duas

amostras cotejadas entre si”.

6.4.2. Análise de Estabilidade das Vogais Orais

Fazer a análise do espectrograma no modo spectrum, que é o gráfico da energia em

função da frequência em zonas de estabilidade das vogais orais. (RIBEIRO; MORISSON;

RICARDO; SAMPAIO, 2008)

6.4.3. Traçado da curva de frequência de resposta

Realizar a LPC sobreposta à FFT, observando para que a compatibilidade técnica

usada no cálculo da Análise de Fourier seja a correspondente para esse exame, permitindo que

os picos espectrais sejam coincidentes. (RIBEIRO; MORISSON; RICARDO; SAMPAIO,

2008).

6.4.4. Análise de VOT (Voice Onset Time):

Cotejar o tempo decorrido entre a soltura de uma plosiva e o início do movimento

periódico de articulação da vogal utilizando-se das análises de oscilograma e espectrografia.

(RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008)

6.4.5. Análise de Curvas de Energia:

Empregado no estudo da estrutura rítmica do discurso (RIBEIRO; MORISSON;


6.4.6. Análise de Frequência de Vibração das Pregas Vocais:

Empregado no estudo da estrutura rítmica do discurso.

21

6.5. REQUISITOS DAS AMOSTRAS PARA VEIFICAÇÃO DE LOCUTOR

6.5.1. Autenticidade

As amostras padrões devem ser coletadas e preparadas pelo Perito que vai realizar o

exame pericial e o cotejo deve ser preferencialmente realizado com o áudio questionado

original (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008).

6.5.2. Adequabilidade

Amostras padrões devem ser produzidas de maneiras e em datas distintas. Um

conjunto dessas deve ser gravado, preferencialmente, no mesmo tipo de “mídia”, com a

utilização do mesmo sistema, do mesmo meio ou linha de transmissão de gravação daquele

utilizado no material questionado. Outras amostras padrões devem ser produzidas com a

melhor qualidade possível em seu áudio. O local onde deve ser feita a coleta das amostras

padrões deverá apresentar a maior similaridade possível com o ruído ambiental existente na

gravação questionada. Portanto, a coleta de padrões em cabine acústica nem sempre se faz

necessária e conveniente, por não apresentar, na maioria dos casos, similaridade com as

gravações de situações forenses nas quais, normalmente, o falante está em ambiente de sua

convivência, em oposição a uma situação atípica, que certamente influenciará na sua

qualidade vocal (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008).

6.5.3. Contemporaneidade

Os padrões devem ser preferencialmente obtidos em datas próximas à data em que foi

produzida a peça questionada. O decurso de um tempo muito prolongado entre a produção da

peça questionada e a obtenção dos padrões pode dificultar a realização da perícia (RIBEIRO;

MORISSON; RICARDO; SAMPAIO, 2008).

6.5.4. Quantidade

Deve ser facultada ao perito a possibilidade de coleta de material padrão, no mínimo,

em duas oportunidades (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008).

7. EXAME DE VERIFICAÇÃO DE EDIÇÃO

Neste tipo de investigação, busca-se identificar evidências que indiquem a existência

de edição que possa ter alterado o conteúdo original da gravação, seja por inserção, corte,

superposição, abafamento ou por deslocamento de trechos no áudio gravado. Para isso é

22

preciso observar o tempo de duração do conjunto de sons analisados, assinalar os pontos

suspeitos de edição, destacar os instantes em que houve alteração da amplitude do sinal para

posterior análise espectrográfica e assinalar todo e qualquer sinal sonoro tal como ruídos e

estalos (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008).

8. ANÁLISE DE VOZ COM OS SOFTWARES

Para a confirmação da teoria aqui descrita, serão analisados 06 áudios gravados, sendo

dois falantes masculinos adultos e um falante feminino adulto.

Os sons para está análise foram capturados por um aparelho de telefone celular

modelo Nokia 5610 XpressMusic. Os áudios capturados por este tipo de aparelho ficam no

formato AMR (exemplo: Grav000.amr), porém o programa Sound Ruler11

abre apenas os

arquivos do tipo Wave ( exemplo: Grav000.wav), portanto foi preciso fazer a conversão da

extensão amr para a wav , e para isso foi utilizado o software Switch Audio File Converter ,

que é um conversor livre obtido no sítio de downloads. De fácil utilização, o programa

converte os arquivos para os seguintes formatos de áudio e vídeo: AAC, AIFF, AMR, AU,

FLAC, GSM, M3U, M4U, M4A, OGG, PLS, RAW, RSS, VOX, WAV, WMA e MPL,

(BAIXAKI, 2010).

Os programas utilizados para análise dos áudios foram o Sound Ruler versão 0.9.6.0 e

o Vox metria 4 versão Trial, que são ferramentas para análise, produção de gráficos e ensino

de bioacústica. Sendo o Sound Ruler livre e o Vox metria com licença para 07 dias.

Para a verificação da teoria, os falantes gravaram cada enunciado duas vezes para que

fossem feitas as devidas comparações.

Para melhor organização dos dados os falantes foram identificados como falante

masculino 01 (FM1), falante masculino 02 (FM2) e falante feminino 03 (FF3).

Para facilitar o estudo sem comprometer a qualidade do trabalho foram escolhidos

sons limpos e fáceis de serem pronunciado. Os dois enunciados trabalhados foram as

principais vogais da língua portuguesa e os números de um a dez, como exposto nos itens (a)

e (b). Aos falantes foi pedido que falassem de maneira tranquila duas vezes o enunciado (a) e

em seguida duas vezes o enunciado (b).

a. [a], [ê], [i], [ó], [u].

b. [1], [2], [3], [4], [5], [6], [7], [8], [9], [10].

11

Disponível em:<http://soundruler.sourceforge.net/oldsite/index-br.htm>

23

Resultados

A lista a seguir foi feita com alguns itens selecionados do arquivo tipo “txt” do

softwere Sound Ruler. Na lista constam os valores calculados pelo programa

relacionado ao fone [1] do enunciado (b) produzido pelo falante FM1.

Tabela 1 – Dados obtidos com o Sound Ruler

Amplitude máxima do pulso RelPulsePeak 0,59682

Energia entre os 90% iniciais:

amplitude do pico

Ener_90-Peak_Beg 0

Frequência fundamental do pulso PulseFundFreq 117,1875

Amplitude da frequência

fundamental

relAmpl_H1 -6,1046

Amplitude do harmônico 2 relAmpl_H2 0

Amplitude do harmônico 3 relAmpl_H3 -2,6219

O Sound Ruler é um programa que analisa o áudio por intervalos pequenos e por isso

foram geradas trinta tabelas semelhantes à exposta acima, para cada falante totalizando

noventa tabelas, porém para a comparação pretendida, vários dos parâmetros calculados são

desnecessários e, portanto os dados foram trabalhados separadamente.

Os gráficos apresentados a seguir na figura 6, também foram feitos com o Sound

Ruler. O gráfico localizado na parte esquerda superior mostra o oscilograma da seção

analisada, o seguinte mostra o oscilograma do intervalo, na parte de baixo a esquerda o

espectrograma e por último o gráfico que o programa chama de “Zoom Oscillogram /Ampl

Spectrum”, que é um gráfico da amplitude em função da frequência, que pode ser entendida

como uma FFT.

Figura 6 – Gráficos obtidos com o Sound Ruler

24

Para este experimento foram selecionados os parâmetros que mais se aproximaram da

teoria apresentada, calculados pelo Sound Ruler. As tabelas 02, 03, 04, 05 e 06 representam a

análise estatística dos parâmetros calculados, com o auxilio de um editor de planilhas, sendo

que todo o desenvolvimento está presente no anexo deste trabalho, com os valores

individuais, média, desvio padrão, moda, máximo e mínimo.

Tabela 2 – Dados estatísticos do FM1N1

FM1N1

MÉDIA DESV. PAD MODA MIN MAX

RelPulsePeak

0,91509 0,179280289 1 0,55412 1,00000

Ener_90-Peak_beg

0,02038 0,06443457 0 0,00000 0,20376

PulseFundFreq

246,87500 85,27999737 117,1875 117,18750 398,43750

relAmpl_H1

-11,48557 3,065368713 #N/D -15,13920 -6,06010

relAmpl_H2

0,00000 0 0 0,00000 0,00000

relAmpl_H3

-13,11066 8,125112753 #N/D -23,00580 -0,18379

RelPulsePeak

0,91509 0,179280289 1 0,55412 1,00000


FM1N2


RelPulsePeak

0,92334 0,183024222 1 0,43447 1,00000

Ener_90-Peak_beg

0,00000 0 0 0,00000 0,00000

PulseFundFreq

246,87492 72,18761941 #N/D 132,81250 382,81250

relAmpl_H1

-10,65950 4,368184013 #N/D -15,97340 -1,04350

relAmpl_H2

0,00000 0 0 0,00000 0,00000

relAmpl_H3

-12,26296 5,993373278 #N/D -20,12010 -1,92090

RelPulsePeak

0,92334 0,183024222 1 0,43447 1,00000

25


FM2N1


RelPulsePeak

0,94183 0,183962341 1 0,41826 1,00000

Ener_90-Peak_beg

0,00133 0,004206778 0 0,00000 0,01330

PulseFundFreq

196,87500 53,34411512 195,3125 117,18750 289,06250

relAmpl_H1

-12,23249 5,251644933 #N/D -21,40290 -3,70800

relAmpl_H2

0,00000 0 0 0,00000 0,00000

relAmpl_H3

-14,85603 5,447488681 #N/D -23,78120 -7,48230

RelPulsePeak

0,94183 0,183962341 1 0,41826 1,00000

Tabela 5 – Dados estatísticos do FF3V1

FF3V1


RelPulsePeak

1,00000 0 1 1,00000 1,00000

Ener_90-Peak_beg

0,00000 0 0 0,00000 0,00000

PulseFundFreq

335,93750 243,8201021 #N/D 101,56250 648,43750

relAmpl_H1

-14,58306 9,026894875 #N/D -28,63980 -4,36200

relAmpl_H2

0,00000 0 0 0,00000 0,00000

relAmpl_H3

-19,77722 14,93570124 #N/D -39,50650 -3,08470

RelPulsePeak

1,00000 0 1 1,00000 1,00000

Tabela 6 – Dados estatísticos comparativos dos falantes.

MÉDIA GERAL FM1 FM2 FF3

RelPulsePeak 0,84313 0,89873 0,99569

Ener_90-Peak_beg 0,00510 0,00034 0,00000

PulseFundFreq 249,99998 294,53160 295,31250

relAmpl_H1 -10,59600 -13,77181 -11,18627

relAmpl_H2 0,00000 0,00000 0,00000

relAmpl_H3 -12,32229 -13,82110 -15,34466

26

Um dos primeiros aspectos que pode ser verificado, são os valores para a amplitude

relacionada ao harmônico 02, confirmando assim a teoria relativa à comparação do trato vocal

com um tubo sonoro fechado e, portanto produz apenas harmônicos impares.

Podem ser observados também os valores das frequências fundamentais, algo que

pode ser utilizado na individualização do falante. Como exposto nas tabelas 02 e 03, os

valores de são muito próximos e, portanto corrobora com a afirmação de que os falantes de

FM1N1 e FM1N2 serem a mesma pessoa ao passo que ao comparar com os valores das

demais tabelas serão verificado valores muito diferentes.

Com o software Vox Metria foi possível visualizar melhor os dados comparados, por

possuir mais ferramentas gráficas e por ter sido desenvolvido no Brasil, ou seja, foi

direcionado às características e peculiaridades da população brasileira e está em português.

Nesta sessão está exposta apenas uma pequena parte dos resultados obtidos a fim de

proporcionar melhor entendimento da técnica utilizada, as demais imagens estão disponíveis

no anexo. As imagens a seguir são resultados das análises comparativas entre os três falantes.

Figura 6 – Gráficos comparativos entre FM1 e FF3 do espectro de energia e curva de LPC obtidos com o Vox

Metria.

Na figura 6 é exposta a comparação do espectro de energia (em vermelho) e a curva de

LPC (em verde) dos falantes FM1 e FM3, para um mesmo enunciado. Pode ser observado nas

27

curvas de LPC, as regiões do primeiro e segundo formantes descrito por picos de frequência

em cada uma.

Figura 7 – Gráficos comparativos entre FM1 e FM2 dos dados estatísticos obtidos com o Vox Metria.

Na figura 7 acima é exposta a comparação dos dados estatísticos, feita pelo software

entre os falantes FM1 e FM2 para um mesmo enunciado. Podem ser comparados os valores

de , intensidade e os tempos percentuais de voz e sem voz.

28

Figura 8 – Gráficos comparativos entre FM2 e FF3 da freqüência fundamental e intensidade obtidos com o Vox

Metria.

Na figura 8 é exposta a comparação de (em azul) e a intensidade (em verde) do som

para os falantes FM2 e FF3. Esta imagem facilita o entendimento dos sons analisados, pois

para intensidades parecidas, as frequências se mostraram bastante distintas, revelando na

imagem a esquerda um som mais grave e a direita mais agudo, corroborando com a afirmação

de que são falantes distintos.

Nas figuras 9 e 10, são mostradas as curvas de energia e de LPC, produzidas pelo

mesmo falante sendo que na primeira a comparação é feita com enunciados iguais e na

segunda com enunciados distintos. Para a imagens com os enunciados iguais se observa muita

semelhança tanto na curva de energia quanto na de LPC em especifico na região dos

formantes como mostra as imagens, e na figura 11 é mostrada a curva de LPC com os valores

dos formantes.

29

Figura 9 – Gráficos comparativos entre FM1 e FM2 do espectro de energia e curva de LPC obtidos com o Vox

Metria.

Figura 10 – Gráficos comparativos entre FM1 e FF3 do espectro de energia e curva de LPC obtidos com o Vox

Metria.

30

Figura 11 – Gráficos da curva de LPC com os valores dos formantes obtido com o Vox Metria.

9. CONCLUSÃO

A necessidade de atribuir um fone a um indivíduo de maneira confiável e científica, só

é possível graças às grandes evoluções tecnológicas sofridas pelo mundo nas últimas décadas,

em especial as da informática, pois o processo de quantificação de falas só é possível de

maneira computacional.

Durante as pesquisas para a confecção deste trabalho, foi observado que os peritos que

trabalham com a fonética forense, na produção de seus laudos, não se prendem a avaliações

minuciosas de características isoladas e sim na visão geral do conjunto de dados passíveis de

confronto, tanto objetivos quanto subjetivos. E na mesma linha este trabalho pretendeu seguir

mostrando um pouco dos conhecimentos físicos envolvidos na identificação de falantes,

embora tenha havido a necessidade de explanações que envolvem outras áreas do

conhecimento humano, expondo assim umas das mais fortes características da criminalística,

que é a interdisciplinaridade em seu objeto de estudo.

Conclui-se que a análise dos fones humanos permite calcular várias grandezas físicas e

sua evolução no tempo, essenciais na caracterização do fone e que estes dados devem ser

unidos aos obtidos pela audição do perito e assim compor um laudo com uma grande

diversidade de parâmetros comparativos.

Os principais conhecimentos para um perito trabalhar com a verificação de locutor e

edição são os de processamento digital de sinais, física acústica, fonética articulatória,

fonética acústica e fonologia do português (RIBEIRO; MORISSON; RICARDO; SAMPAIO,

2008). E isto mostra o quanto pode ser complexa e especializada é a atividade pericial.

31

Os dados gravados para analise neste trabalho foram gentilmente cedidos por

voluntários e em seguida tratados com os softwares obtidos na internet de forma gratuita.

Portanto nem sempre os mesmos se adequaram a todas as especificações exigidas para esta

finalidade.

Houve alguns eventos que podem ter influenciado nos resultados, um deles foi com o

Vox Metria, que por ele ser um software de domínio privado, ou seja, deve-se comprar uma

licença para usá-lo, foi preciso trabalhar com ele em sua versão de testes, disponível por sete

dias e isso exigiu um maior planejamento das atividades a serem desenvolvidas no momento

mais oportuno. Outro fator que pode ter influenciado os dados, foi a maneira e o tempo entre

as duas gravações que os falantes produziram seus fones, pois as falas foram um pouco

diferentes de suas falas naturais e o tempo entre uma gravação e outra foi da ordem de

minutos.

Portanto as análises dos fones foram possíveis graças a alguns conhecimentos da física

acústica adquiridos no curso de física e ao uso de algumas ferramentas computacionais hoje

disponíveis.

32

REFERENCIAS

BUTKOV, Eugene. Física matemática. Rio de Janeiro: LTC, 1988.

MASTER, Suely; BIASE,Noemi de; PEDROSA, Vanessa; CHIARI,Brasí Maria. O espectro

médio de longo termo na pesquisa e na clínica fonoaudiológica. Disponível em:

<http://www.scielo.br/scielo.php?pid=s0104-56872006000100013&script=sci_arttext>.

Acesso em 30 de maio. 2010

MORISSON, André Luiz da Costa. Identificação Humana pela voz. Disponível em:

<http://www.apcesp.com.br/idvoice.htm>. Acesso em 10 de maio. 2010.

NEGRINI NETO, Osvaldo. Soluções Eletrônicas para Cálculos de Velocidade em

Acidentes de Trânsito. Disponível em:

< http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0102-47442002000200007>.

Acesso em 09 de maio. 2010.

PCDF – Polícia Civil do Distrito Federal. Unidade Policiais; Instituto de Criminalística.

Disponível em:

<http://www.pcdf.df.gov.br/pgUnidadesPoliciais/pgInstitutoCriminalistica.aspx>. Acesso em

17 de fev. 2010.

PCI CONCURSOS. Concursos. Polícia civil DF. Brasília, 17 dez. 2007. Disponível em:

<http://www.pciconcursos.com.br/concurso/policia-civil-df-40-vagas>. Acesso em 09 maio.

2010.

RIBEIRO, Joel F.; MORISSON, André Luiz da Costa; RICARDO, Jabes de Lima;

SAMPAIO, José Fabrizio.

Exames periciais em fonética forense: Recomendações técnicas para a padronização de

procedimento em metodologias. Disponível em:

<http://www.abcperitosoficiais.org.br/hotsites/seminariopara/Criminal-12-fonetica.pdf>.

Acesso em 29 de maio. 2010.

SOUND RULER. Análises acústicas.

Disponível em: <http://soundruler.sourceforge.net/oldsite/index-br.htm>

TIPLER, Paul; MOSCA, Gene; Física para cientistas e engenheiros – v. 1 –mecânica,

oscilações e ondas, termodinâmica. 5ª edição, LTC, Rio de Janeiro, 2006. p. 463.

TCCfinalImpre

Documents

Transcript of TCCfinalImpre