TCCfinalImpre
Transcript of TCCfinalImpre
HUDSON JORGE SCATENA
A FÍSICA APLICA À PERÍCIA CRIMINAL:
FONÉTICA FORENSE Trabalho de conclusão de curso apresentado ao curso de graduação em Física da Universidade Católica de Brasília, como requisito parcial para obtenção do Título de Licenciado em física. Orientador: Prof. Msc. Thiago Borduqui Ferrari
Brasília
2010
Trabalho de Conclusão de Curso de autoria de Hudson Jorge Scatena, intitulado “A
FÍSICA APLICADA À PERICIA CRIMINAL”, apresentado como requisito parcial para
obtenção do grau de Licenciado em Física da Universidade Católica de Brasília em 23 de
junho de 2010, defendida e aprovada pela banca examinadora abaixo assinada:
___________________________________________
Prof. . Msc. Thiago Borduqui Ferrari
Orientador
Física-UCB
___________________________________________
Prof. Dr. Sérgio Luiz Garavelli
Física - UCB
___________________________________________
Prof. Msc. Diego Oliveira Nolasco da Silva
Física - UCB
AGRADECIMENTO
Agradeço a Deus por ter me conduzido até este momento. Ao meu professor e amigo
Thiago B. Ferrari por ter me orientado durante o processo de construção deste trabalho e por
suas relevantes aulas ministradas na Universidade Católica de Brasília. Aos produtores do
software e sítio Sound Ruler acousct analysis, por disponibilizarem de maneira gratuita uma
poderosa ferramenta para o desenvolvimento científico da humanidade. Aos criadores e
colaboradores do sítio Perito Criminal, por disponibilizarem vários relatos e artigos
relacionados à perícia criminal no Brasil. Ao professor Edson Benício por me encaminhar um
belo material sobre as transformadas de Fourier, que foi de grande valia para o entendimento
dos fenômenos tratados neste trabalho. A minha família por ter me apoiado e sempre ter
acreditado em mim. Aos meus amigos por terem me acompanhado e apoiado neste processo
tão importante, em especial a Aline Mourão, Ana Carolina S. Machado, Carlos da Silva,
Carlos Antônio, Demetrius Leão Diones Charles, Jonathas Fernandes, Pedro Castilho, Thiago
de Freita.
“O mundo não está ameaçado pelas pessoas
más, e sim por aquele que permitem a
maldade.”
Albert Einstein
RESUMO
Referência: SCATENA, Hudson Jorge. A Física aplicada a perícia criminal: Fonética
forense. 2010. 32 folhas. Trabalho de conclusão de curso para obtenção do grau de Licenciado
em Física pela Universidade Católica de Brasília, Brasília-DF.
O presente trabalho busca mostrar um pouco dos conceitos da física envolvidos na atividade
pericial, em especial nas análises das falas, aqui tratada como fonética forense, fazendo uso de
softwares aplicáveis à análise dos sons da fala humana, aliadas aos conceitos de outras áreas
do conhecimento humano. Os resultados aqui apresentados não buscam atingir o mesmo nível
de precisão dos resultados alcançados em laudos oficiais, porque a metodologia e materiais
utilizados buscaram mostrar de maneira superficial tal atividade, porém estes resultados se
mostraram como fortes elementos para a individualização da voz de um falante confirmando
assim a teoria apresentada.
Palavras-chave: Física forense. Fonética forense. Perícia criminal.
SUMÁRIO
1. INTRODUÇÃO 08
2. FISIOLOGIA DA FALA 09
2.1. SUBSISTEMA RESPITATÓRIO 10
2.2. SUBSISTEMA LARÍNGEO 10
2.3. SUBSISTEMA SUPRALARÍNGEO 10
3. PRODUÇÃO DA FALA 10
4. FONÉTICA FORENSE 12
4.1. VERIFICAÇÃO DE LOCUTOR 12
4.2. VERIFICAÇÃO DE EDIÇÃO 13
4.3. ANÁLISE DE CONTEUDO FONOGRAFICO 13
5. ELEMENTOS TECNICOS-COMPARATIVOS 13
5.1. FORMANTES 13
5.2. FREQUÊNCIA FUNDAMENTAL 15
5.3. MODOS ARTICULATÓRIOS 16
5.4. QUALIDADE VOCAL DO FALANTE 16
5.5. SONORIDADE OU VOZEAMENTO 17
5.6. RITMO E TAXA DE ELOCUÇÃO 17
5.7. VOICE ONSET TIME (VOT) 17
6. EXAME DE VERIFICAÇÃO DE LOCUTOR 17
6.1. ANÁLISE PERCEPTUAL 17
6.2. ANÁLISE ACÚSTICA 18
6.3. TÉCNICAS PARA A ANÁLISE 18
6.3.1. Espectrograma: 18
6.3.2. Formantes: 18
6.3.3. FFT (Fast Fourier Transform): 18
6.3.4. LPC (Linear predictive coding): 18
6.3.5. LTAS (Long term average spectrum): 19
6.3.6. Frequência fundamental: 19
6.4. METODOLOGIA PARA A ANÁLISE 19
6.4.1. Análise geral e particular dos formantes 19
6.4.2. Análise de Estabilidade das Vogais Orais 19
6.4.3. Traçado da curva de frequência de resposta 20
6.4.4. Análise de VOT (Voice Onset Time) 20
6.4.5. Análise de Curvas de Energia: 20
6.4.6. Análise de Frequência de Vibração das Pregas Vocais: 20
6.5. REQUESITOS DAS AMOSTRAS PARA VERIFICAÇÃO DE LOCUTOR 20
6.5.1. Autenticidade 20
6.5.2. Adequabilidade 21
6.5.3. Contemporaneidade 21
6.5.4. Quantidade 21
7. EXAME DE VERIFICAÇÃO DE EDIÇÃO 21
8. ANÁLISE DE VOZ COM OS SOFTWARES 22
9. CONCLUSÃO 30
8
1. INTRODUÇÃO
O perito criminal é uma pessoa com grande conhecimento técnico, científico ou
artístico, capaz de esclarecer fatos de interesse judicial. Compõem o corpo de peritos,
profissionais das áreas de física, química, biologia, contábeis, ciência da computação,
geologia, odontologia, farmácia, bioquímica, mineralogia e engenharia, devido a variabilidade
de áreas de atuação. As atribuições do perito criminal são: periciar locais de crimes ou
desastres, objetos, veículos, documentos, moedas, mercadorias, produtos químicos, tóxicos,
exames balísticos, instrumentos utilizados na prática de infrações, exames de DNA, bem
como a realização de todas as investigações necessárias à complementação dessas perícias,
para fins jurídico-legais (PCI Concursos, 2007).
O perito criminal no exercício de sua função faz uso da ciência chamada
criminalística, que é a união dos vários conhecimentos científicos aplicados na elucidação de
ilícitos penais e tem por objetivo o estudo sistemático dos objetos e locais envolvidos no
crime1. Na criminalística, se usa várias áreas do conhecimento humano, entre eles estão os
da física, neste caso chamado de Física Forense, que de acordo com Negrini Neto (2002) “é a
parte da Física destinada à observação, análise e interpretação dos fenômenos físicos
naturais de interesse judiciário”, essenciais na elucidação de vários eventos, tais como:
Acidentes de trânsito.
Balística Forense, que compreende o estudo das armas de fogo, suas munições e
perícias.
Documentoscopia Forense, que verifica se houve falsificação ou alteração de um
documento.
Fonética Forense, que a parte da criminalística que busca determinar a autenticidade
de arquivos de áudio apresentados aos aplicadores da Lei.
Neste trabalho serão abordados aspectos relacionados à fonética forense, verificando
suas ramificações e aspectos físicos relacionados com sua realização.
2. FISIOLOGIA DA FALA
1 Crime: Definido legalmente como a infração penal a que a lei comina pena de reclusão ou de
detenção quer isoladamente, quer alternativa ou cumulativamente com a pena de multa (Dec. Lei nº 3.9 14, de 9/12/1941 - Lei de Introdução ao Código Penal - art. 1º). A doutrina define crime como o "fato proibido por lei sob ameaça de uma pena" (Bento de Faria)
9
De acordo com Morisson (2010), para o melhor entendimento do processo de
comparação de vozes se faz necessário expor alguns parâmetros técnico-comparativos
intimamente ligados à anatomia bem como uma sucinta explicação sobre o funcionamento do
aparelho fonador humano. Do ponto de vista fonético podem ser apontados três subsistemas
relevantes para o entendimento, o respiratório, laríngeo e o supralaríngeo.
Figura 1: O aparelho fonador.
Figura encontrada em:
http://www.cefala.org/fonologia/galeria_imagens.php?vcategoria=Aparelho%20fonador&vnome=Diag
rama%204&vfile=aparelhofonador_d4.jpg&vref=4, inicialmente extraída e adaptada de
http://www.barcode.ro/tutorials/biometrics/img/speech-production.jpg
2.1. O SUBSISTEMA RESPIRATÓRIO.
... Composto pelos pulmões, músculos respiratórios, brônquios e traqueia cuja
principal função é a respiração (MORISSON, 2010). Os sons da língua portuguesa
são produzidos com o ar que sai do subsistema respiratório em direção ao meio
externo, e por meio de compressões e rarefações deste ar que são produzidos os sons
da fonação.
10
2.2. O SUBSISTEMA LARÍNGEO
... Composto por um conjunto de músculos, ligamentos e cartilagens cuja principal
função é controlar a disposição das pregas vocais, o ar que sai dos pulmões, que é
contínuo, em direção ao meio externo, ao passar pelas pregas vocais pode sofrer
modificações, transformando-se em pulsos de ar, de acordo com o som desejado
(MORISSON, 2010).
2.3. O SUBSISTEMA SUPRALARÍNGEO
... Composto pela região faringal, bucal e nasal. Sua finalidade é definir a maiorias
das características qualitativas na fonação, ou seja, a modulação do som produzido na
região laríngea ou na própria região supralaríngea principalmente pela movimentação
da língua, alterando o tamanho e a forma da cavidade bucal ou unindo-se ou não a
cavidade nasal (MORISSON, 2010).
3. PRODUÇÃO DA FALA
Na língua portuguesa, a fala é produzida com o ar ascendente dos pulmões que é
conduzido pela traqueia até a laringe. Na laringe se encontram as pregas vocais, que são
músculos estriados que revestem a laringe, separados por espaços chamados de glote. O ar
que se acumula na região inferior da glote, aumenta a pressão até conseguir provocar sua
abertura e a consequente passagem do ar e seu fechamento é devido ao efeito Bernoulli2, com
isso as pregas vocais vibram produzido o som. Esse som segue para o subsistema
supralaríngeo, que tem a função de modulá-lo, atenuando a energia do som em algumas
frequências e reforça em outras, para assim produzir o som desejado pelo falante. Por fim o
som passa pelo trato vocal, que é composto pela faringe, laringe, cavidade nasal e cavidade
oral (boca, língua, bochechas e dentes), e o som que antes era bastante simples, passa por
constantes modificações no sistema de ressonância do trato vocal e estruturas ali localizadas
(MORISSON, 2010).
Como a forma e comprimento de cada cavidade do trato vocal são distintos, a fonação
se torna única para cada indivíduo e, portanto cabível de análise de vários elementos técnico-
comparativos nos exames periciais (MORISSON, 2010).
2 Efeito Bernoulli: “Quando uma pequena amostra de um fluido escoa numa região estreita de um tubo, ele
ganha velocidade, porque a pressão a montante (antes do estreitamento) que a empurra para frente é maior do que a pressão a jusante (dentro ou depois do estreitamento) que se opõe a seu movimento” (Tipler, 2006, p. 463).
11
O conceito de tubos sonoros se faz muito importante para entendimento da produção
da voz de um indivíduo, que diz o seguinte: o ar ou gás contido num tubo pode vibrar de
modo estacionário, em determinadas frequências, produzindo ondas sonoras. Os tubos
sonoros podem ser do tipo aberto ou fechado, com as duas extremidades abertas ou uma
extremidade aberta e a outra fechada respectivamente (Tipler, 2006, p. 580).
Figura 2 – Tubo sonoro aberto
Figura encontrada em: <http://www.cdcc.usp.br/ondulatoria/musica5.html>
Figura 3 – Tubo sonoro fechado
Figura encontrada em: <http://www.cdcc.usp.br/ondulatoria/musica5.html>
Se uma fonte sonora for colocada na extremidade aberta de um tubo, as ondas sonoras
emitidas em determinadas frequências irão superpor-se às que se refletirem na outra
extremidade, produzindo ondas estacionárias. Nessas condições, a coluna de ar no tubo entra
em ressonância com a frequência emitida pela fonte. Uma extremidade aberta sempre
corresponde a um ventre (interferência construtiva) e a fechada, a um nó (interferência
destrutiva).
De acordo com Kemp3 (2010), o trato vocal pode ser entendido como um tubo sonoro
fechado, onde a extremidade fechada é a glote, fonte da energia acústica, e a outra
extremidade aberta serão os lábios. Portanto o trato vocal funcionará como um ressoador
3 Informações obtidas das notas de aula do Prof. Dr Ernesto Kemp do Instituto de Física da Universidade Estadual de Campinas, disponível em:<http://www.ifi.unicamp.br/~kemp/f105wp/downloads/Parte6.pdf>
12
natural, com aproximadamente 17 cm de comprimento para um homem adulto e frequência
fundamental de aproximadamente 500 Hz conforme de expressão:
sendo n=1, 2, 3, ..., v a velocidade do som no meio e L o comprimento do tubo. Tal equação
pode ser reescrita da seguinte forma (KEMP, 2010):
sendo i os inteiros impares, que pode ser entendido como os harmônicos de um tubo sonoro
fechado, v a velocidade do som (aproximadamente 340 m/s), L o comprimento do tubo
(aproximadamente 0,17 m), portanto:
,
,
Observa-se que o tubo do trato vocal não é reto, porém a análise de ressonância em
tubos retos ou curvos não traz diferenças significativas nos resultados (KEMP, 2010),
(MORISSON, 2010).
4. FONÉTICA FORENSE
A fonética forense se ramifica em: verificação de locutor, verificação de edição e
análise de conteúdo fonográfico (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008).
4.1. A VERIFICAÇÃO DE LOCUTOR
... Investiga se as falas gravadas em uma mídia (fita K7, CD, DVD, VHS), provêm ou
não do aparelho fonador de uma pessoa em questão. Muitas vezes nos processos de
investigação policial, a única maneira de atribuir a autoria de um crime ou desvincular uma
pessoa dele é determinar se a voz contida em uma mídia é ou não da pessoa em questão, em
especial nos casos de suborno, chantagem ou extorsão. Este tipo de perícia é feita por meio de
comparação entre dois arquivos de voz levando em conta vários parâmetros acústicos e varias
(1)
(2)
13
realizações articulatórias do falante. O resultado da investigação dá origem a um laudo
técnico, que apresentado por perito qualificado é considerado como prova material4.
4.2. A VERIFICAÇÃO DE EDIÇÃO
Tem como objetivo examinar os arquivos de áudio contidos em uma mídia, para
averiguar se sofreram algum tipo de edição como modificação, supressão ou acréscimo.
4.3. ANÁLISE DE CONTEÚDO FONOGRÁFICO
Consiste em descrever todo o conteúdo registrado, que seja relevante à investigação,
em um anexo eletrônico contendo todos os arquivos de áudio, que podem ser acessados por
aparelhos que leiam CD ou DVD compatível com o formato de arquivo MP3. Possui
vantagens sobre o método tradicional de transcrição, pois ao transcrever os fatos para o papel
as palavras são escritas de modo inexpressivo, podendo distorcer o seu real sentido e perder
várias informações vitais na elucidação e no entendimento dos fatos, tais como entonação,
velocidade da fala, regionalismos, som ambiente, sons ao fundo e toda a riqueza de detalhes
contidos no áudio. O anexo eletrônico consiste em uma mídia do tipo CD-R, com todos os
áudios investigados organizados de forma que o usuário possa avaliá-lo rapidamente e de
maneira descomplicada podendo fazer uso de ferramentas como pesquisa de palavras por
exemplo.
5. ELEMENTOS TÉCNICO-COMPARATIVOS
5.1. FORMANTES
De acordo com Morisson (MORISSON, 2010) “Os formantes são os efeitos
ressonantes no trato vocal, relacionado à amplificação da energia sonora no subsistema
supralaríngeo. Estão relacionados à anatomia e às configurações do aparelho fonador de
cada indivíduo”. De maneira análoga pode ser entendido como um filtro que da a forma por
meio das frequências ressonantes do trato vocal.
O primeiro formante ( ) possui sua frequência relacionada com a posição da língua na
direção vertical e pelo grau de abertura da boca. Já o segundo formante ( ) está relacionado à
posição da língua no plano horizontal. As frequências dos demais formantes estão
4 Prova material: Provas produzidas a partir de vestígios encontrados no local do crime. Sendo uma das provas admitidas no nosso processo penal. A prova pericial contribui para formar a convicção do juiz na decisão de um caso concreto.
14
relacionadas à geometria do trato vocal no momento da fonação, e assim como os dois
primeiros, dentro de um conjunto de convergências são fortes aspectos para individualização
do falante. (MORISSON, 2010).
A figura 4 é uma imagem de análise real feita pelo Instituto Nacional de Criminalística
que mostra as regiões dos formantes, ou seja, a frequência de ressonância, entre duas amostras
de áudio de um mesmo falante.
Observa-se a perfeita coerência entre os valores dos quatro primeiros formantes do
fone relacionado à vogal [e] da primeira sílaba do enunciado “deixa o resto” quando
comparado entre os registros de voz do questionado (curva vermelha no gráfico à
direita) e padrão (curva azul). Ressalta-se que não é articulada a semivogal /i/ nesse
enunciado. (MORISSON, 2010)
Figura 4 – Análise de formantes
Figura encontrada em:
<http://www.peritocriminal.net/mambo/index.php?option=com_content&task=view&id=182&Itemid=28>.
A figura 5 também mostra a convergência dos gráficos dos formantes que de acordo
com o autor a divergência do primeiro formante pode ter ocorrido por fatores emocionais.
15
Perfeita coerência entre o segundo, terceiro e quarto formantes do segmento
vocálico da locução “tá” quando comparado entre os registros de voz do questionado
e padrão. Como o primeiro formante está diretamente relacionado ao grau de
abertura da boca, a falta de espontaneidade durante o fornecimento do material
sonoro padrão justifica a divergência encontrada nos valores do primeiro formante
(MORISSON, 2010).
Figura 5 – Análise de formantes
Figura encontrada em:
<http://www.peritocriminal.net/mambo/index.php?option=com_content&task=view&id=182&Itemid=28>
5.2. FREQUÊNCIA FUNDAMENTAL
A menor frequência de ressonância é chamada de frequência fundamental ( ) ou
primeiro harmônico, possui a componente de frequência com maior energia do pulso de ar
gerado no sistema laríngeo, devido ao movimento de afastamento e de aproximação das
pregas vocais.
De acordo com Morisson (2010), os falantes adultos femininos e crianças possuem a
frequência fundamental em média de 220 Hz e de 300 Hz respectivamente, já os falantes
masculinos adultos possuem a frequência fundamental em média de 120 Hz. Esta diferença
nos valore de suas frequências se deve a características anatômicas, em especifico pelo
tamanho das membranas das pregas vocais, sendo o falante adulto masculino, em geral
possuidor dos maiores comprimentos destas membranas, seguido pelos falantes adultos
16
femininos e por crianças. Portanto a relação entre as frequências, anatomia e fisiologia das
pregas vocais nos demonstram que a frequência fundamental é um importante elemento
técnico-comparativo na individualização do falante.
5.3. MODOS ARTICULATÓRIOS
Trata da maneira que o ar sai da cavidade oral, ou seja, o grau de obstrução da
passagem de ar. Desta forma os sons podem ser classificados em:
Oclusiva5: obstrução completa da corrente de ar através da boca, véu palatino
levantado e o ar vai para a cavidade oral - [p], [t], [k], [b], [d] e [g]. Ex.: [p]elo
“pelo”, [t]ábua “tábua”, [k]orte “corte”, [b]ote “bote”, [d]ama “dama”, [g]alo
“galo”
Nasal: obstrução completa da corrente de ar através da boca, véu palatino
abaixado e o ar vai para as cavidades oral e nasal – [m], [n], [ɲ]. Ex.: [m]el “mel”,
[n]oite “noite”, so[ɲ]o “sonho”
Fricativa: obstrução parcial do ar pela aproximação dos articuladores, causando
fricção – [f], [v], [s], [z], [ʃ], [ʒ]. Ex.: [f]ado “fado”, [v]alor “valor”, [s]aco “saco”,
[z]ebra “zebra”, [ʃ]ave “chave”, [ʒ]á “já” Africada: obstrução completa na passagem do ar (como nas oclusivas) na fase
inicial e, após esta fase (quando se dá a soltura da oclusão), fricção, decorrente da
passagem central da corrente de ar (como nas fricativas) – [tʃ], [dʒ]. Ex.: po[tʃ]e
“pote”, bo[dʒ]e “bode”
Tepe (ou vibrante simples): o articulador ativo toca rapidamente o articulador
passivo, ocorrendo uma rápida obstrução da passagem do ar através da boca – [ɾ].
Ex.: a[ɾ]o “aro”
Vibrante: o articulador ativo toca algumas vezes o articulador passivo, causando
vibração – [r ]. Ex.: ca[r ]o “carro”
Retroflexas: o articulador ativo é a ponta da língua e o passivo é o palato duro. A
produção das retroflexas se dá pelo levantamento e encurvamento da ponta da língua em relação ao palato duro - [ɻ]. Ex.: ca[ɻ]ta “carta”, ca[ɻ]ga “carga”
Laterais: a corrente de ar é obstruída na linha central do trato vocal e o ar é
expelido por ambos os lados da obstrução, tendo saída lateral – [l] e [ʎ]. Ex.: [l]ata
“lata”, pa[ʎ]a “palha”
Ao se analisar os segmentos fonéticos de um falante, por meio da espectrografia, é
possível inferir os modos articulatórios empregados em determinados enunciados.
(MORISSON, 2010). O seguimento fonético realizado por um falante tem a tendência de
seguir um padrão, e isso permite a comparação estatística de uma mesma especificação
fonológica e desta maneira está analise constitui mais um forte elemento técnico-comparativo.
5 Dados obtidos das notas de aula da Professora Flaviane R. Fernandes Svartman, da Universidade de São Paulo. Disponível em:< http://www.fflch.usp.br/dlcv/2010-FLC0275aula01.pdf>
17
5.4. QUALIDADE VOCAL DO FALANTE
A qualidade vocal está relacionada à maneira que o som da fala é entendido por outras
pessoas, e está intimamente ligado às características fisiológicas.
Em seu artigo Morisson (2010), destaca algumas classificações da voz utilizadas por
peritos, estas são: voz modal (normal), rangida, o falseto (pitch alto), bitonal, laringalizada
(creaky voice), murmurada, áspera, rouca, hipernasalisada, robotizada (monotônica),
infantilizada, virilizada e a voz feminilizada.
5.5. SONORIDADE OU VOZEANTO
Neste parâmetro os sons produzidos pelo falante ou também chamado de fone, pode
ser classificado como sonoro ou surdo. Esta classificação é feita por meio de verificação da
vibração das pregas vocais no momento da produção do fone, caso seja positivo classifica-se
como fone sonoro, caso negativo classifica-se como fone surdo (MORISSON, 2010).
5.6. RITIMO E TAXA DE ELOCUÇÃO
O ritmo e a taxa de elocução ou (speech rate), estão relacionados à velocidade do
encadeamento dos fones produzidos por um falante. Esta velocidade relaciona-se a maneira
que os órgãos ativos do aparelho fonador trabalham e também de fatores neurológicos, código
linguísticos, aspectos psicoemocionais e se é natural ou não ao vocabulário do falante
(MORISSON, 2010).
5.7. Voice Onset Time (VOT)
É a medida do tempo que leva entre a soltura de uma oclusão no trato e o início do
vozeamento a ele interligado. Como exemplo, citamos o intervalo de tempo entre a explosão
de um som oclusivo (por exemplo, um [p]) e o início de vibração das pregas vocais
(MORISSON, 2010).
6. EXAME DE VERIFICAÇÃO DE LOCUTOR
6.1. ANALISE PERCEPTUAL
Busca identificar maneiras particulares na fala, como o socioleto6, idioleto
7 e dialeto
8
bem como variações na articulação das unidades sonoras como ponto de articulação, adição,
6 De acordo com a linguística é a maneira particular de um grupo social. 7 De acordo com a linguística é a maneira particular de um individuo falar.
18
omissão, nasalização e troca de fonemas, empregado pelo falante na articulação tanto na fala
questionada como na fala padrão.
6.2. ANÁLISE ACÚSTICA
A análise acústica dos fones questionados e padrão deverão ser realizados nas mesmas
condições, tais como nível de intensidade e largura da banda de frequência.
A verificação deverá ser realizada preferencialmente entre frases, entre palavras, entre
unidades silábicas e unidades sonoras que sejam semelhantes.
Os resultados da análise acústica deverão ser apresentados na forma de estatística com
relação aos parâmetros acústicos analisados.
Os espectrogramas deverão contemplar analises tanto em banda larga como em banda
fina de frequência. Sendo que em banda larga deverá destacar os formantes e suas transições e
em banda fina deverá ilustrar a estruturação dos harmônicos da fala.
6.3. TECNICAS PARA A ANÁLISE
6.3.1. Espectrograma:
Analisar o movimento dos formantes e suas transições, a estruturação dos harmônicos
em uma unidade ou em um conjunto de unidades sonoras assim como características
articulatórias e de co-articulação da fala. (RIBEIRO; MORISSON; RICARDO; SAMPAIO,
2008).
6.3.2. Formantes:
Busca identificar características comuns nos valores médios das zonas de estabilidade
dos núcleos vocálicos e as equivalências em suas transições. (RIBEIRO; MORISSON;
RICARDO; SAMPAIO, 2008).
6.3.3. FFT (Fast Fourier Transform):
A transformada rápida de Fourier é uma poderosa ferramenta, que neste caso é feita
por um algoritmo, que objetiva determinar a característica da amplitude no domínio da
frequência da fala em uma amostra de curto ou longo período. (RIBEIRO; MORISSON;
RICARDO; SAMPAIO, 2008).
8 De acordo com a linguística é a maneira particular de indivíduos de uma região falar.
19
6.3.4. LPC (Linear predictive coding):
A codificação preditiva linear busca determinar a frequência em um ponto de maior
energia e a frequência dos formantes num dado instante. (RIBEIRO; MORISSON;
RICARDO; SAMPAIO, 2008).
6.3.5. LTAS (Long term average spectrum):
É um desenho bidimensional da intensidade em função da freqüência espectral da
amostra. Para Nordemberg e Sundberg9, "Reflete a contribuição tanto da fonte glótica
quanto do trato vocal na qualidade de uma voz". “Dispõe em um só espectro, a média de
vários espectros momentâneos obtidos, por exemplo, a cada 200 milésimos de segundo”
(MASTER; BIASE; PEDROSA; CHIARI, 2006.)
6.3.6. Frequência fundamental:
Aplicar esta análise quando a qualidade do áudio for excelente e as condições de
coleta do som padrão e questionado10
forem muito próximas. (RIBEIRO; MORISSON;
RICARDO; SAMPAIO, 2008)
6.4. METODOLOGIAS PARA ANÁLISE
6.4.1. Análise geral e particular dos formantes
São analises relacionadas às frequências dos formantes, buscando similaridade nas amostras
cotejas ou investigadas.
“cotejar conjuntos de valores das frequências utilizando a técnica de máximos e de
mínimos para os dois primeiros formantes vocálicos entre fonemas análogos
existentes na amostra padrão e na questionada. Deve ser considerado, sempre que
possível, como ponto de medida, a região de maior valor de F1 (primeiro formante),
para a vogal baixa e para as vogais médias baixas (/a,é,ó/), para as vogais anteriores
/i/ e /e/ a região de máximo F2 (segundo formante) e para as vogais posteriores /o/ e
/u/ a região de menor valor de F2” (RIBEIRO; MORISSON; RICARDO;
SAMPAIO, 2008)
Outras possibilidades são:
cálculo da média das frequências dos formantes na zona de estabilidade no núcleo
vocálico;
9 2003 apud MASTER; BIASE; PEDROSA; CHIARI,2006. 10 Amostra de fala gravada que se busca identificação por comparações com amostras cedidas pelo investigado, ditas padrão.
20
extração dos valores das frequências dos formantes na zona de maior energia do
núcleo vocálico;
localização, por análise em banda fina de frequência, do centro do harmônico de maior
energia na zona de frequência correspondente a cada formante do referido núcleo”
E ainda de acordo com (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008),
“Cotejar o desenho dos formantes entre as amostras padrão e questionada. As transições dos
formantes inter e intra-conjuntos fonéticos. Quando possível utilizar para intervalos de tempo
e de localização espacial análogos, dados estatísticos para os valores extraídos das duas
amostras cotejadas entre si”.
6.4.2. Análise de Estabilidade das Vogais Orais
Fazer a análise do espectrograma no modo spectrum, que é o gráfico da energia em
função da frequência em zonas de estabilidade das vogais orais. (RIBEIRO; MORISSON;
RICARDO; SAMPAIO, 2008)
6.4.3. Traçado da curva de frequência de resposta
Realizar a LPC sobreposta à FFT, observando para que a compatibilidade técnica
usada no cálculo da Análise de Fourier seja a correspondente para esse exame, permitindo que
os picos espectrais sejam coincidentes. (RIBEIRO; MORISSON; RICARDO; SAMPAIO,
2008).
6.4.4. Análise de VOT (Voice Onset Time):
Cotejar o tempo decorrido entre a soltura de uma plosiva e o início do movimento
periódico de articulação da vogal utilizando-se das análises de oscilograma e espectrografia.
(RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008)
6.4.5. Análise de Curvas de Energia:
Empregado no estudo da estrutura rítmica do discurso (RIBEIRO; MORISSON;
RICARDO; SAMPAIO, 2008).
6.4.6. Análise de Frequência de Vibração das Pregas Vocais:
Empregado no estudo da estrutura rítmica do discurso.
21
6.5. REQUISITOS DAS AMOSTRAS PARA VEIFICAÇÃO DE LOCUTOR
6.5.1. Autenticidade
As amostras padrões devem ser coletadas e preparadas pelo Perito que vai realizar o
exame pericial e o cotejo deve ser preferencialmente realizado com o áudio questionado
original (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008).
6.5.2. Adequabilidade
Amostras padrões devem ser produzidas de maneiras e em datas distintas. Um
conjunto dessas deve ser gravado, preferencialmente, no mesmo tipo de “mídia”, com a
utilização do mesmo sistema, do mesmo meio ou linha de transmissão de gravação daquele
utilizado no material questionado. Outras amostras padrões devem ser produzidas com a
melhor qualidade possível em seu áudio. O local onde deve ser feita a coleta das amostras
padrões deverá apresentar a maior similaridade possível com o ruído ambiental existente na
gravação questionada. Portanto, a coleta de padrões em cabine acústica nem sempre se faz
necessária e conveniente, por não apresentar, na maioria dos casos, similaridade com as
gravações de situações forenses nas quais, normalmente, o falante está em ambiente de sua
convivência, em oposição a uma situação atípica, que certamente influenciará na sua
qualidade vocal (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008).
6.5.3. Contemporaneidade
Os padrões devem ser preferencialmente obtidos em datas próximas à data em que foi
produzida a peça questionada. O decurso de um tempo muito prolongado entre a produção da
peça questionada e a obtenção dos padrões pode dificultar a realização da perícia (RIBEIRO;
MORISSON; RICARDO; SAMPAIO, 2008).
6.5.4. Quantidade
Deve ser facultada ao perito a possibilidade de coleta de material padrão, no mínimo,
em duas oportunidades (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008).
7. EXAME DE VERIFICAÇÃO DE EDIÇÃO
Neste tipo de investigação, busca-se identificar evidências que indiquem a existência
de edição que possa ter alterado o conteúdo original da gravação, seja por inserção, corte,
superposição, abafamento ou por deslocamento de trechos no áudio gravado. Para isso é
22
preciso observar o tempo de duração do conjunto de sons analisados, assinalar os pontos
suspeitos de edição, destacar os instantes em que houve alteração da amplitude do sinal para
posterior análise espectrográfica e assinalar todo e qualquer sinal sonoro tal como ruídos e
estalos (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008).
8. ANÁLISE DE VOZ COM OS SOFTWARES
Para a confirmação da teoria aqui descrita, serão analisados 06 áudios gravados, sendo
dois falantes masculinos adultos e um falante feminino adulto.
Os sons para está análise foram capturados por um aparelho de telefone celular
modelo Nokia 5610 XpressMusic. Os áudios capturados por este tipo de aparelho ficam no
formato AMR (exemplo: Grav000.amr), porém o programa Sound Ruler11
abre apenas os
arquivos do tipo Wave ( exemplo: Grav000.wav), portanto foi preciso fazer a conversão da
extensão amr para a wav , e para isso foi utilizado o software Switch Audio File Converter ,
que é um conversor livre obtido no sítio de downloads. De fácil utilização, o programa
converte os arquivos para os seguintes formatos de áudio e vídeo: AAC, AIFF, AMR, AU,
FLAC, GSM, M3U, M4U, M4A, OGG, PLS, RAW, RSS, VOX, WAV, WMA e MPL,
(BAIXAKI, 2010).
Os programas utilizados para análise dos áudios foram o Sound Ruler versão 0.9.6.0 e
o Vox metria 4 versão Trial, que são ferramentas para análise, produção de gráficos e ensino
de bioacústica. Sendo o Sound Ruler livre e o Vox metria com licença para 07 dias.
Para a verificação da teoria, os falantes gravaram cada enunciado duas vezes para que
fossem feitas as devidas comparações.
Para melhor organização dos dados os falantes foram identificados como falante
masculino 01 (FM1), falante masculino 02 (FM2) e falante feminino 03 (FF3).
Para facilitar o estudo sem comprometer a qualidade do trabalho foram escolhidos
sons limpos e fáceis de serem pronunciado. Os dois enunciados trabalhados foram as
principais vogais da língua portuguesa e os números de um a dez, como exposto nos itens (a)
e (b). Aos falantes foi pedido que falassem de maneira tranquila duas vezes o enunciado (a) e
em seguida duas vezes o enunciado (b).
a. [a], [ê], [i], [ó], [u].
b. [1], [2], [3], [4], [5], [6], [7], [8], [9], [10].
11
Disponível em:<http://soundruler.sourceforge.net/oldsite/index-br.htm>
23
Resultados
A lista a seguir foi feita com alguns itens selecionados do arquivo tipo “txt” do
softwere Sound Ruler. Na lista constam os valores calculados pelo programa
relacionado ao fone [1] do enunciado (b) produzido pelo falante FM1.
Tabela 1 – Dados obtidos com o Sound Ruler
Amplitude máxima do pulso RelPulsePeak 0,59682
Energia entre os 90% iniciais:
amplitude do pico
Ener_90-Peak_Beg 0
Frequência fundamental do pulso PulseFundFreq 117,1875
Amplitude da frequência
fundamental
relAmpl_H1 -6,1046
Amplitude do harmônico 2 relAmpl_H2 0
Amplitude do harmônico 3 relAmpl_H3 -2,6219
O Sound Ruler é um programa que analisa o áudio por intervalos pequenos e por isso
foram geradas trinta tabelas semelhantes à exposta acima, para cada falante totalizando
noventa tabelas, porém para a comparação pretendida, vários dos parâmetros calculados são
desnecessários e, portanto os dados foram trabalhados separadamente.
Os gráficos apresentados a seguir na figura 6, também foram feitos com o Sound
Ruler. O gráfico localizado na parte esquerda superior mostra o oscilograma da seção
analisada, o seguinte mostra o oscilograma do intervalo, na parte de baixo a esquerda o
espectrograma e por último o gráfico que o programa chama de “Zoom Oscillogram /Ampl
Spectrum”, que é um gráfico da amplitude em função da frequência, que pode ser entendida
como uma FFT.
Figura 6 – Gráficos obtidos com o Sound Ruler
24
Para este experimento foram selecionados os parâmetros que mais se aproximaram da
teoria apresentada, calculados pelo Sound Ruler. As tabelas 02, 03, 04, 05 e 06 representam a
análise estatística dos parâmetros calculados, com o auxilio de um editor de planilhas, sendo
que todo o desenvolvimento está presente no anexo deste trabalho, com os valores
individuais, média, desvio padrão, moda, máximo e mínimo.
Tabela 2 – Dados estatísticos do FM1N1
FM1N1
MÉDIA DESV. PAD MODA MIN MAX
RelPulsePeak
0,91509 0,179280289 1 0,55412 1,00000
Ener_90-Peak_beg
0,02038 0,06443457 0 0,00000 0,20376
PulseFundFreq
246,87500 85,27999737 117,1875 117,18750 398,43750
relAmpl_H1
-11,48557 3,065368713 #N/D -15,13920 -6,06010
relAmpl_H2
0,00000 0 0 0,00000 0,00000
relAmpl_H3
-13,11066 8,125112753 #N/D -23,00580 -0,18379
RelPulsePeak
0,91509 0,179280289 1 0,55412 1,00000
Tabela 3 – Dados estatísticos do FM1N2
FM1N2
MÉDIA DESV. PAD MODA MIN MAX
RelPulsePeak
0,92334 0,183024222 1 0,43447 1,00000
Ener_90-Peak_beg
0,00000 0 0 0,00000 0,00000
PulseFundFreq
246,87492 72,18761941 #N/D 132,81250 382,81250
relAmpl_H1
-10,65950 4,368184013 #N/D -15,97340 -1,04350
relAmpl_H2
0,00000 0 0 0,00000 0,00000
relAmpl_H3
-12,26296 5,993373278 #N/D -20,12010 -1,92090
RelPulsePeak
0,92334 0,183024222 1 0,43447 1,00000
25
Tabela 4 – Dados estatísticos do FM2N1
FM2N1
MÉDIA DESV. PAD MODA MIN MAX
RelPulsePeak
0,94183 0,183962341 1 0,41826 1,00000
Ener_90-Peak_beg
0,00133 0,004206778 0 0,00000 0,01330
PulseFundFreq
196,87500 53,34411512 195,3125 117,18750 289,06250
relAmpl_H1
-12,23249 5,251644933 #N/D -21,40290 -3,70800
relAmpl_H2
0,00000 0 0 0,00000 0,00000
relAmpl_H3
-14,85603 5,447488681 #N/D -23,78120 -7,48230
RelPulsePeak
0,94183 0,183962341 1 0,41826 1,00000
Tabela 5 – Dados estatísticos do FF3V1
FF3V1
MÉDIA DESV. PAD MODA MIN MAX
RelPulsePeak
1,00000 0 1 1,00000 1,00000
Ener_90-Peak_beg
0,00000 0 0 0,00000 0,00000
PulseFundFreq
335,93750 243,8201021 #N/D 101,56250 648,43750
relAmpl_H1
-14,58306 9,026894875 #N/D -28,63980 -4,36200
relAmpl_H2
0,00000 0 0 0,00000 0,00000
relAmpl_H3
-19,77722 14,93570124 #N/D -39,50650 -3,08470
RelPulsePeak
1,00000 0 1 1,00000 1,00000
Tabela 6 – Dados estatísticos comparativos dos falantes.
MÉDIA GERAL FM1 FM2 FF3
RelPulsePeak 0,84313 0,89873 0,99569
Ener_90-Peak_beg 0,00510 0,00034 0,00000
PulseFundFreq 249,99998 294,53160 295,31250
relAmpl_H1 -10,59600 -13,77181 -11,18627
relAmpl_H2 0,00000 0,00000 0,00000
relAmpl_H3 -12,32229 -13,82110 -15,34466
26
Um dos primeiros aspectos que pode ser verificado, são os valores para a amplitude
relacionada ao harmônico 02, confirmando assim a teoria relativa à comparação do trato vocal
com um tubo sonoro fechado e, portanto produz apenas harmônicos impares.
Podem ser observados também os valores das frequências fundamentais, algo que
pode ser utilizado na individualização do falante. Como exposto nas tabelas 02 e 03, os
valores de são muito próximos e, portanto corrobora com a afirmação de que os falantes de
FM1N1 e FM1N2 serem a mesma pessoa ao passo que ao comparar com os valores das
demais tabelas serão verificado valores muito diferentes.
Com o software Vox Metria foi possível visualizar melhor os dados comparados, por
possuir mais ferramentas gráficas e por ter sido desenvolvido no Brasil, ou seja, foi
direcionado às características e peculiaridades da população brasileira e está em português.
Nesta sessão está exposta apenas uma pequena parte dos resultados obtidos a fim de
proporcionar melhor entendimento da técnica utilizada, as demais imagens estão disponíveis
no anexo. As imagens a seguir são resultados das análises comparativas entre os três falantes.
Figura 6 – Gráficos comparativos entre FM1 e FF3 do espectro de energia e curva de LPC obtidos com o Vox
Metria.
Na figura 6 é exposta a comparação do espectro de energia (em vermelho) e a curva de
LPC (em verde) dos falantes FM1 e FM3, para um mesmo enunciado. Pode ser observado nas
27
curvas de LPC, as regiões do primeiro e segundo formantes descrito por picos de frequência
em cada uma.
Figura 7 – Gráficos comparativos entre FM1 e FM2 dos dados estatísticos obtidos com o Vox Metria.
Na figura 7 acima é exposta a comparação dos dados estatísticos, feita pelo software
entre os falantes FM1 e FM2 para um mesmo enunciado. Podem ser comparados os valores
de , intensidade e os tempos percentuais de voz e sem voz.
28
Figura 8 – Gráficos comparativos entre FM2 e FF3 da freqüência fundamental e intensidade obtidos com o Vox
Metria.
Na figura 8 é exposta a comparação de (em azul) e a intensidade (em verde) do som
para os falantes FM2 e FF3. Esta imagem facilita o entendimento dos sons analisados, pois
para intensidades parecidas, as frequências se mostraram bastante distintas, revelando na
imagem a esquerda um som mais grave e a direita mais agudo, corroborando com a afirmação
de que são falantes distintos.
Nas figuras 9 e 10, são mostradas as curvas de energia e de LPC, produzidas pelo
mesmo falante sendo que na primeira a comparação é feita com enunciados iguais e na
segunda com enunciados distintos. Para a imagens com os enunciados iguais se observa muita
semelhança tanto na curva de energia quanto na de LPC em especifico na região dos
formantes como mostra as imagens, e na figura 11 é mostrada a curva de LPC com os valores
dos formantes.
29
Figura 9 – Gráficos comparativos entre FM1 e FM2 do espectro de energia e curva de LPC obtidos com o Vox
Metria.
Figura 10 – Gráficos comparativos entre FM1 e FF3 do espectro de energia e curva de LPC obtidos com o Vox
Metria.
30
Figura 11 – Gráficos da curva de LPC com os valores dos formantes obtido com o Vox Metria.
9. CONCLUSÃO
A necessidade de atribuir um fone a um indivíduo de maneira confiável e científica, só
é possível graças às grandes evoluções tecnológicas sofridas pelo mundo nas últimas décadas,
em especial as da informática, pois o processo de quantificação de falas só é possível de
maneira computacional.
Durante as pesquisas para a confecção deste trabalho, foi observado que os peritos que
trabalham com a fonética forense, na produção de seus laudos, não se prendem a avaliações
minuciosas de características isoladas e sim na visão geral do conjunto de dados passíveis de
confronto, tanto objetivos quanto subjetivos. E na mesma linha este trabalho pretendeu seguir
mostrando um pouco dos conhecimentos físicos envolvidos na identificação de falantes,
embora tenha havido a necessidade de explanações que envolvem outras áreas do
conhecimento humano, expondo assim umas das mais fortes características da criminalística,
que é a interdisciplinaridade em seu objeto de estudo.
Conclui-se que a análise dos fones humanos permite calcular várias grandezas físicas e
sua evolução no tempo, essenciais na caracterização do fone e que estes dados devem ser
unidos aos obtidos pela audição do perito e assim compor um laudo com uma grande
diversidade de parâmetros comparativos.
Os principais conhecimentos para um perito trabalhar com a verificação de locutor e
edição são os de processamento digital de sinais, física acústica, fonética articulatória,
fonética acústica e fonologia do português (RIBEIRO; MORISSON; RICARDO; SAMPAIO,
2008). E isto mostra o quanto pode ser complexa e especializada é a atividade pericial.
31
Os dados gravados para analise neste trabalho foram gentilmente cedidos por
voluntários e em seguida tratados com os softwares obtidos na internet de forma gratuita.
Portanto nem sempre os mesmos se adequaram a todas as especificações exigidas para esta
finalidade.
Houve alguns eventos que podem ter influenciado nos resultados, um deles foi com o
Vox Metria, que por ele ser um software de domínio privado, ou seja, deve-se comprar uma
licença para usá-lo, foi preciso trabalhar com ele em sua versão de testes, disponível por sete
dias e isso exigiu um maior planejamento das atividades a serem desenvolvidas no momento
mais oportuno. Outro fator que pode ter influenciado os dados, foi a maneira e o tempo entre
as duas gravações que os falantes produziram seus fones, pois as falas foram um pouco
diferentes de suas falas naturais e o tempo entre uma gravação e outra foi da ordem de
minutos.
Portanto as análises dos fones foram possíveis graças a alguns conhecimentos da física
acústica adquiridos no curso de física e ao uso de algumas ferramentas computacionais hoje
disponíveis.
32
REFERENCIAS
BUTKOV, Eugene. Física matemática. Rio de Janeiro: LTC, 1988.
MASTER, Suely; BIASE,Noemi de; PEDROSA, Vanessa; CHIARI,Brasí Maria. O espectro
médio de longo termo na pesquisa e na clínica fonoaudiológica. Disponível em:
<http://www.scielo.br/scielo.php?pid=s0104-56872006000100013&script=sci_arttext>.
Acesso em 30 de maio. 2010
MORISSON, André Luiz da Costa. Identificação Humana pela voz. Disponível em:
<http://www.apcesp.com.br/idvoice.htm>. Acesso em 10 de maio. 2010.
NEGRINI NETO, Osvaldo. Soluções Eletrônicas para Cálculos de Velocidade em
Acidentes de Trânsito. Disponível em:
< http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0102-47442002000200007>.
Acesso em 09 de maio. 2010.
PCDF – Polícia Civil do Distrito Federal. Unidade Policiais; Instituto de Criminalística.
Disponível em:
<http://www.pcdf.df.gov.br/pgUnidadesPoliciais/pgInstitutoCriminalistica.aspx>. Acesso em
17 de fev. 2010.
PCI CONCURSOS. Concursos. Polícia civil DF. Brasília, 17 dez. 2007. Disponível em:
<http://www.pciconcursos.com.br/concurso/policia-civil-df-40-vagas>. Acesso em 09 maio.
2010.
RIBEIRO, Joel F.; MORISSON, André Luiz da Costa; RICARDO, Jabes de Lima;
SAMPAIO, José Fabrizio.
Exames periciais em fonética forense: Recomendações técnicas para a padronização de
procedimento em metodologias. Disponível em:
<http://www.abcperitosoficiais.org.br/hotsites/seminariopara/Criminal-12-fonetica.pdf>.
Acesso em 29 de maio. 2010.
SOUND RULER. Análises acústicas.
Disponível em: <http://soundruler.sourceforge.net/oldsite/index-br.htm>
TIPLER, Paul; MOSCA, Gene; Física para cientistas e engenheiros – v. 1 –mecânica,
oscilações e ondas, termodinâmica. 5ª edição, LTC, Rio de Janeiro, 2006. p. 463.