Post on 17-Nov-2020
Vozes de Celebridades
Paulo Eduardo dos Santos Veloso Braga
Dissertação para obtenção do Grau de Mestre em
Engenharia Electrotécnica e de Computadores
Júri:
Presidente: Doutor Carlos Filipe Gomes Bispo
Orientador: Doutora Isabel Maria Martins Trancoso
Co-Orientador: Doutor Hugo Daniel dos Santos Meinedo
Vogal: Doutor Jorge dos Santos Salvador Marques
Outubro de 2011
ii
iii
Agradecimentos
Gostaria de agradecer às diversas pessoas que contribuíram para a realização desta Dissertação de
Mestrado.
Em primeiro lugar quero agradecer à Professora Isabel Trancoso pela sua orientação, conselhos e
oportunidade de realizar este trabalho.
Agradeço também ao Hugo Meinedo por toda a ajuda, colaboração e disponibilidade ao longo da
realização deste trabalho que me permitiram ultrapassar algumas dificuldades.
Gostaria também de agradecer a todos do L2F do INESC-ID, em especial ao Alberto Abad, pela
ajuda e disponibilidade sempre que necessário.
Por fim, também gostaria de agradecer à minha namorada e família por toda a motivação e apoio.
iv
v
Resumo
Esta dissertação descreve um sistema de verificação do orador independente do texto utilizado para
encontrar vozes de celebridades em programas noticiosos televisivos. Dois classificadores diferentes
foram treinados e testados com segmentos manualmente identificados por anotadores. Nestas
condições, o classificador SVM-GSV obteve um melhor desempenho do que o classificador GMM-
UBM, particularmente para segmentos de maior duração. Devido à diferença de desempenho para
segmentos de menor e maior duração, foi criado o sistema GMM-UBM+SVM-GSV que classifica um
segmento através de um dos dois classificadores, dependendo da duração do segmento de teste.
Este sistema foi utilizado para encontrar oradores a identificar em programas noticiosos televisivos
recentes, onde os segmentos foram identificados automaticamente por um módulo de Pré-
Processamento Áudio. O desempenho do sistema GMM-UBM+SVM-GSV foi menor, mas após alguns
ajustamentos foi possível melhorar os resultados obtidos. O resultados são integrados no sistema de
monitorização de média existente e apresentados numa página de internet, onde é possível visualizar
os vídeos dos segmentos atribuídos a cada orador identificado pelo sistema. Devido às diferenças
existentes entre o tempo de treino dos diferentes oradores e a duração dos segmentos de teste,
existe uma maior dificuldade neste trabalho quando comparado com os tradicionais sistemas de
verificação do orador, onde os modelos oradores são treinados com o mesmo tempo de treino e os
segmentos de teste têm a mesma duração.
Palavras-chave
Reconhecimento do Orador
Verificação do Orador Independente do Texto
Vozes de Celebridades
Modelos de Misturas Gaussianas
Máquina de Suporte Vectorial
Supervector
Programas Noticiosos
vi
vii
Abstract
This dissertation described a text-independent speaker verification system applied to finding voices of
well-known persons in broadcast news shows. Two different classifiers were trained and tested with
segments manually defined by annotators. In these conditions, the SVM-GSV classifier performed
better than the GMM-UBM one, particularly for longer segments. The performance difference for short
and long segments led us to create a GMM-UBM+SVM-GSV system which classifies a test segment
using one of two classifiers, depending on the duration of the test segment. This system was used to
identify target speakers in recent news shows, for which segments were automatically defined by an
Audio Pre-Processing module. The performance of the GMM-UBM+SVM-GSV system was lower,
which led to new successful experiments with further tuning. The results obtained are integrated into
the existing media monitoring system and presented in a web page, where it is possible to view a
video of each segment assigned to each speaker identified by the system. Due to differences between
each speaker training time and duration of test segments, there is greater difficulty in this task when
compared to traditional speaker verification systems, where the speaker models are trained with same
trained time and test segments have the same duration.
Keywords
Speaker Recognition
Text-independent Speaker Verification
Celebrity Voices
Gaussian Mixture Models
Support Vector Machines
Supervector
News Shows
viii
ix
Índice
Agradecimentos ................................................................................................................................. iii
Resumo .............................................................................................................................................. v
Abstract ............................................................................................................................................ vii
Índice ................................................................................................................................................. ix
Lista de Figuras ................................................................................................................................. xi
Lista de Tabelas .............................................................................................................................. xiii
Lista de Acrónimos ........................................................................................................................... xv
Capítulo 1: Introdução .........................................................................................................................1
1.1. Enquadramento ...................................................................................................................2
1.2. Objectivos e Contribuições ..................................................................................................4
1.3. Organização ........................................................................................................................5
Capítulo 2: Sistema de Reconhecimento do Orador ............................................................................7
2.1. Introdução ...........................................................................................................................8
2.2. Pré-Processamento Áudio ...................................................................................................8
2.3. Extracção de Características ...............................................................................................9
2.4. Sistemas de Classificação ...................................................................................................9
2.5. Normalização .................................................................................................................... 10
2.5.1. Normalização Z .......................................................................................................... 12
2.5.2. Normalização T .......................................................................................................... 13
2.5.3. Normalização ZT ........................................................................................................ 14
2.6. Métricas ............................................................................................................................. 16
2.6.1. Curva DET ................................................................................................................. 16
2.6.2. EER ........................................................................................................................... 17
2.6.3. DCFmin ....................................................................................................................... 17
2.7. Estado da Arte ................................................................................................................... 18
Capítulo 3: Corpora ........................................................................................................................... 25
3.1. Introdução ......................................................................................................................... 26
3.2. Corpus de Treino ............................................................................................................... 27
3.3. Corpus de Desenvolvimento .............................................................................................. 28
3.4. Corpus de Teste ................................................................................................................ 29
Capítulo 4: Características ................................................................................................................ 31
4.1. Introdução ......................................................................................................................... 32
x
4.2. Pré-Processamento Áudio ................................................................................................. 32
4.3. Coeficientes PLP ............................................................................................................... 33
Capítulo 5: Classificadores ................................................................................................................ 37
5.1. Introdução ......................................................................................................................... 38
5.2. Propriedades do GMM-UBM .............................................................................................. 38
5.3. Propriedades do SVM-GSV ............................................................................................... 47
Capítulo 6: Resultados ...................................................................................................................... 55
6.1. Corpora ............................................................................................................................. 56
6.1.1. Treino ........................................................................................................................ 56
6.1.2. Desenvolvimento ....................................................................................................... 57
6.1.3. Teste ......................................................................................................................... 57
6.2. Avaliação do sistema GMM-UBM ....................................................................................... 58
6.2.1. Descrição ................................................................................................................... 58
6.2.2. Normalização ............................................................................................................. 59
6.2.3. Resultados ................................................................................................................. 61
6.3. Avaliação do sistema SVM-GSV ........................................................................................ 66
6.3.1. Descrição ................................................................................................................... 66
6.3.2. Normalização ............................................................................................................. 67
6.3.3. Resultados ................................................................................................................. 68
6.4. Comparação entre os sistemas GMM-UBM e SVM-GSV ................................................... 72
6.5. Avaliação do sistema GMM-UBM+SVM-GSV..................................................................... 74
6.5.1. Descrição ................................................................................................................... 74
6.5.2. Resultados ................................................................................................................. 75
Capítulo 7: Interface Web .................................................................................................................. 81
7.1. Introdução ......................................................................................................................... 82
7.2. Descrição .......................................................................................................................... 82
7.3. Corpora ............................................................................................................................. 83
7.4. Resultados ........................................................................................................................ 86
Capítulo 8: Conclusões e Trabalho Futuro......................................................................................... 91
8.1. Conclusões........................................................................................................................ 92
8.2. Trabalho Futuro ................................................................................................................. 95
Referências ...................................................................................................................................... 97
xi
Lista de Figuras
Figura 1.1: Diferentes áreas do processamento de fala. ......................................................................3
Figura 2.1: Sistema genérico de reconhecimento do orador. ...............................................................8
Figura 2.2: Exemplo de distribuições de resultados obtidos por dois modelos oradores quando
testados com segmentos autênticos (linha a cheio) e impostores (linha a tracejado). ........................ 11
Figura 2.3: Exemplo de distribuições de resultados obtidos por dois modelos oradores quando
testados com segmentos autênticos (linha a cheio) e impostores (linha a tracejado) após
normalização. ................................................................................................................................... 12
Figura 2.4: Diagrama de blocos da normalização Z durante a fase de teste....................................... 13
Figura 2.5: Diagrama de blocos da normalização T durante a fase de teste....................................... 14
Figura 2.6: Diagrama de blocos da normalização ZT antes da fase de teste. ..................................... 15
Figura 2.7: Diagrama de blocos da normalização ZT durante a fase de teste. ................................... 15
Figura 2.8: Exemplo de uma curva DET. ........................................................................................... 17
Figura 2.9: Exemplo de uma curva DET com o valor do DCFmin. ........................................................ 18
Figura 2.10: Desempenho do sistema em relação ao número de oradores presentes no UBM
(adaptado de [Hasan and Hansen, 2010]). ........................................................................................ 20
Figura 2.11: Desempenho do sistema em relação ao tempo de treino presente no UBM (adaptado de
[Hasan and Hansen, 2010])............................................................................................................... 20
Figura 2.12: Valores do EER e do DCFmin obtidos por diferentes sistemas de reconhecimento do
orador (adaptado de [Fauve et al., 2007b]). ....................................................................................... 22
Figura 2.13: Desempenho dos sistemas para modelos treinados com 2,5 minutos e testados com 2,5
minutos. ............................................................................................................................................ 22
Figura 2.14: Desempenho dos sistemas para modelos treinados com 20 minutos e testados com 2,5
minutos. ............................................................................................................................................ 23
Figura 4.1: Diagrama de blocos do pré-processamento áudio (adaptado de [Meinedo, 2008]). ......... 32
Figura 5.1: Representação de um modelo de misturas Gaussianas. .................................................. 39
Figura 5.2: Histograma de um único coeficiente extraído se um segmento de fala. ............................ 40
Figura 5.3: Exemplo de um GMM. ..................................................................................................... 40
Figura 5.4: Treino do UBM com todos os dados de treino.................................................................. 42
Figura 5.5: Treino de UBMs individuais e posterior combinação. ....................................................... 42
Figura 5.6: Método de adaptação de um GMM do orador (adaptado de [Reynolds, 1995] ) a) Modelo
do UBM e características do orador b) GMM do orador obtido por adaptação. .................................. 43
Figura 5.7: Sistema de reconhecimento com K modelos impostores.................................................. 46
Figura 5.8: Sistema de reconhecimento com o UBM como único modelo impostor. ........................... 46
Figura 5.9: Conceito geral do treino de um classificador. ................................................................... 48
xii
Figura 5.10: Dados de treino separados por um hiperplano de margem máxima. .............................. 48
Figura 5.11: Mapeamento não linear realizado pelo classificador SVM. ............................................. 50
Figura 5.12: Conceito de um supervector GMM (adaptado de [Campbell et al., 2006b]). ................... 51
Figura 5.13: Estrutura de um sistema SVM-GSV. .............................................................................. 53
Figura 6.1: Distribuição de resultados dos modelos oradores quando testados com segmentos
autênticos (vermelho) e segmentos impostores (azul). ...................................................................... 62
Figura 6.2: Curva DET do sistema GMM-UBM. ................................................................................. 65
Figura 6.3: Distribuição de resultados dos modelos oradores quando testados com segmentos
autênticos (vermelho) e segmentos impostores (azul). ...................................................................... 68
Figura 6.4: Curva DET do sistema SVM-GSV.................................................................................... 71
Figura 6.5: Comparação entre os resultados médios obtidos pelos sistemas GMM-UBM e SVM-GSV
em função da duração dos segmentos impostores. ........................................................................... 73
Figura 6.6: Comparação entre os resultados médios obtidos pelos sistemas GMM-UBM e SVM-GSV
em função da duração dos segmentos autênticos. ............................................................................ 73
Figura 6.7: Distribuição de resultados dos modelos oradores quando testados com segmentos
autênticos (vermelho) e segmentos impostores (azul). ...................................................................... 75
Figura 6.8: Comparação das curva DET dos sistemas GMM-UBM, SVM-GSV .................................. 79
Figura 6.9: EER e DCF mínimo dos sistemas GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV. ....... 79
Figura 7.1: Distribuição de resultados dos modelos oradores quando testados com os segmentos
autênticos (vermelho) e segmentos impostores (azul). ...................................................................... 86
Figura 7.2: Curva DET do sistema GMM-UBM+SVM-GSV. ............................................................... 88
Figura 7.3: Página HTML com os segmentos pertencentes a cada orador. ........................................ 89
xiii
Lista de Tabelas
Tabela 3.1: Conjuntos disponíveis de treino, desenvolvimento e teste. .............................................. 26
Tabela 3.2: Conjunto de treino. ......................................................................................................... 27
Tabela 3.3: Conjunto de programas presentes no corpus de treino.................................................... 27
Tabela 3.4: Conjuntos de desenvolvimento. ...................................................................................... 28
Tabela 3.5: Conjunto de programas presentes no corpus de desenvolvimento. ................................. 28
Tabela 3.6: Conjuntos de teste. ......................................................................................................... 29
Tabela 3.7: Conjunto de programas presentes no corpus de teste. .................................................... 29
Tabela 6.1: Oradores treinados e respectivo tempo de treino. ........................................................... 57
Tabela 6.2: Número e duração média dos segmentos dos oradores. ................................................. 58
Tabela 6.3: Média e desvio padrão de cada modelo orador para o sistema GMM-UBM. .................... 61
Tabela 6.4: Média e desvio padrão dos resultados dos segmentos impostores.................................. 63
Tabela 6.5: Média e desvio padrão dos resultados dos segmentos autênticos. .................................. 63
Tabela 6.6: Média dos resultados obtidos em função da duração dos segmentos impostores............ 64
Tabela 6.7: Média dos resultados obtidos em função da duração dos segmentos autênticos. ............ 64
Tabela 6.8: Média e desvio padrão de cada modelo orador para o sistema SVM-GSV. ..................... 67
Tabela 6.9: Média e desvio padrão dos resultados dos segmentos impostores.................................. 69
Tabela 6.10: Média e desvio padrão dos resultados dos segmentos impostores. ............................... 70
Tabela 6.11: Média dos resultados obtidos em função da duração dos segmentos impostores. ......... 70
Tabela 6.12: Média dos resultados obtidos em função da duração dos segmentos autênticos. .......... 71
Tabela 6.13: Resultados médios dos sistemas GMM-UBM e SVM-GSV para segmentos autênticos. 74
Tabela 6.14: Média e desvio padrão das distribuições de resultados impostores obtidos pelos
sistemas GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV. ............................................................... 76
Tabela 6.15: Média e desvio padrão das distribuições de resultados autênticos obtidos pelos sistemas
GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV. ............................................................................. 76
Tabela 6.16: Média e desvio padrão dos resultados dos segmentos impostores. ............................... 77
Tabela 6.17: Média e desvio padrão dos resultados dos segmentos autênticos. ................................ 77
Tabela 6.18: Média dos resultados obtidos em função da duração dos segmentos impostores. ......... 78
Tabela 6.19: Média dos resultados obtidos em função da duração dos segmentos autênticos. .......... 78
Tabela 7.1: Conjunto de programas noticiosos analisados. ............................................................... 84
Tabela 7.2: Número e duração média dos segmentos após o APP. ................................................... 84
Tabela 7.3: Número e duração média de todos os segmentos obtidos após concatenação. .............. 85
Tabela 7.4: Número e duração média dos segmentos autênticos obtidos após concatenação. .......... 85
Tabela 7.5: Média e desvio padrão dos resultados dos segmentos impostores.................................. 87
Tabela 7.6: Média e desvio padrão dos resultados dos segmentos autênticos. .................................. 87
xiv
Tabela 7.7: EER e DCF mínimo dos programas noticiosos analisados. ............................................. 87
Tabela 7.8: Desempenho dos oradores presentes no programa 2011_04_04-Telejornal-1. ............... 89
Tabela 7.9: Desempenho dos modelos oradores presentes no programa 2011_05_06-Telejornal-1. . 90
Tabela 7.10: Desempenho dos modelos oradores presentes no programa 2011_05_12-Telejornal-1.
......................................................................................................................................................... 90
Tabela 7.11: Desempenho dos modelos oradores presentes no programa 2011_05_25-Telejornal-1.
......................................................................................................................................................... 90
xv
Lista de Acrónimos
ADN Ácido desoxirribonucleico
DET Detection Error Trade-off
DCF Detection Cost Function
EM Expectation Maximization
ERR Equal Error Rate
FN Falsos negativos
FP Falsos positivos
GLDS Generalized Linear Discriminant Sequence Kernel
GMM Gaussian Mixture Model
GSL Gaussian Supervector Linear
GSV Gaussian Supervector
HMM Hidden Markov Model
HTML HyperText Markup Language
KL Kullback-Leibler
L2F Laboratório de sistemas de Língua Falada
RASTA Logaritmic Relative Spectral Transform
MFCC Mel Frequency Cepstral Coefficients
NIST National Institute of Standards and Technology
PLP Perceptual Linear Predictive
RN Redes Neuronais
SVM Support Vector Machine
UBM Universal Background Model
VQ Vector Quantization
XML Extended Markup Language
xvi
1
Capítulo 1
Capítulo 1: Introdução
2
1.1. Enquadramento
Com o aumento das aplicações que tiram partido do recente desenvolvimento na área das
telecomunicações e da internet, surge também o aumento da necessidade de reconhecer uma
pessoa através das suas características físicas como forma de a identificar unicamente. Este
interesse acontece em diferentes áreas do reconhecimento, tais como: controlo de acesso a sistemas
informáticos [Naik and Doddington, 1987], autenticação para chamadas de longa distância ou de
acesso ao banco [Naik et al., 1989], respostas personalizadas por parte de atendedores automáticos
[Schmandt and Arons, 1984], reconhecimento automático de oradores em grandes quantidades de
ficheiros gravados [Wilcox et al., 1994] , aplicações forenses [Campbell et al., 2005], etc.
A voz é uma das características que pode ser usada na identificação de um ser humano uma vez que
cada pessoa possui características únicas [Doddington, 1985]. Outras características biométricas, por
princípio pessoais e intransmissíveis, podem também ser usadas para identificar ou autenticar uma
pessoa, nomeadamente, a impressão digital, a retina, a face, a assinatura escrita ou o ADN. Em
qualquer destes casos, a identificação é realizada através da comparação das características
recolhidas com outras armazenadas previamente. Uma forma de aumentar a segurança de uma
aplicação que requer a autenticação de uma pessoa através da sua voz passa por implementar
outros sistemas de segurança, tais como, a utilização de uma senha ou a identificação de outras
características biométricas.
Numa sociedade em que a identificação de uma pessoa se torna cada vez mais necessária e
imprescindível, a comunidade científica tem procurado nos últimos anos criar sistemas de
reconhecimento de oradores cada vez mais rápidos e com desempenhos superiores. No entanto,
ainda existem problemas por resolver nesta área.
Um sinal de voz é geralmente composto por palavras que juntas formam a frase que se pretende
transmitir, no entanto, informações acerca da identidade do orador também podem ser analisadas. É
precisamente na extracção e análise das características presentes num segmento de fala que se
baseia o reconhecimento do orador.
Diversas variações podem ocorrer na voz de um orador quando este se encontra em diferentes
situações ou estados, provocando alterações que dificultam a tarefa de verificação do orador [Kenny
et al., 2007]. Assim, o desempenho de um sistema de reconhecimento do orador pode variar de
acordo com:
Estado de saúde, estado emocional e ambiente;
3
Fisiologia, língua e dialecto/sotaque;
Tipo de fala: leitura ou espontânea, formal ou casual;
Distorções acústicas devido a:
o Meios de gravação diferentes;
o Meios de transmissão diferentes;
o Ruídos aditivos.
O processamento de fala encontra-se dividido em três grandes áreas: a síntese, a codificação e o
reconhecimento. A síntese de voz é a produção artificial de voz humana, geralmente a partir de texto
ou de uma representação linguística simbólica. A codificação é uma técnica que lida com a
capacidade de codificar sinais de fala que permitam, por exemplo, no caso de uma comunicação
telefónica, obter uma boa qualidade da fala para débitos binários baixos. Por fim, o reconhecimento é
a área responsável por interpretar a fala humana, como por exemplo para transcrição, por determinar
a idioma natural de uma pessoa e por verificar a identidade de um orador através da sua voz.
A Figura 1.1 apresenta as áreas mais importantes do processamento de fala, com destaque para o
reconhecimento do orador.
Figura 1.1: Diferentes áreas do processamento de fala.
Dependendo da aplicação, o reconhecimento do orador encontra-se geralmente dividido em duas
áreas: identificação e verificação. Na identificação, o objectivo é determinar a quem, entre um grupo
de oradores conhecidos, pertence o segmento áudio analisado. Este caso, em conjunto fechado,
acontece quando apenas oradores de um grupo conhecido podem ser identificados. A segunda
vertente, a verificação, consiste em determinar se um segmento áudio pertence ou não a um orador.
Processamento de Fala
Sintese Reconhecimento
Fala Orador
Identificação Verificação
Idioma
Codificação
4
Este problema, em conjunto aberto, ocorre quando é necessário distinguir se um segmento áudio
pertence a um orador a identificar pelo sistema ou se terá sido pronunciado por alguém de um
conjunto de oradores não reconhecidos.
Um sistema de reconhecimento do orador pode ainda ser dependente ou independente do texto,
tendo em conta o tipo de dados usados para treino e teste. No caso de ser independente do texto,
significa que frases diferentes das usadas para treino podem ser usadas para teste. Os sistemas
dependentes do texto [Hébert, 2008] estão limitados ao tipo de frases que podem ser pronunciadas
pelos oradores (tal como palavras-chave, dígitos, frases pré-determinadas, etc.) e por isso as frases
usadas para treino devem ser idênticas às usadas para teste [Higgins et al., 1991].
A verificação na vertente independente do texto é a base da generalidade dos sistemas de
reconhecimento do orador tendo uma dificuldade adicional devido ao desafio de não controlar o
comportamento do orador.
1.2. Objectivos e Contribuições
Esta dissertação tem como objectivo implementar um sistema de verificação do orador independente
do texto de forma a encontrar vozes de celebridades em programas noticiosos televisivos. Dois
classificadores diferentes foram treinados e testados, nomeadamente o Gaussian Mixture Model –
Universal Background Model (GMM-UBM) e o Support Vector Machine – Gaussian Supervector
(SVM-GSV), recorrendo à extracção dos coeficientes Perceptual Linear Predictive (PLP) dos
segmentos que contêm fala.
Os classificadores, GMM-UBM e SVM-GSV, começam por ser treinados e testados com segmentos
manualmente identificados por anotadores. É realizada uma comparação entre os resultados obtidos
pelos dois classificadores de forma a obter um sistema que combine os resultados de ambos e
apresente um melhor desempenho. Este sistema, GMM-UBM+SVM-GSV, é usado para pesquisar por
segmentos de fala proferidos por celebridades em programas noticiosos recolhidos recentemente
pelo Laboratório de sistemas de Língua Falada (L2F), INESC-ID, onde os segmentos são
identificados automaticamente por um módulo de Pré-Processamento Áudio. Os resultados são
apresentados numa página de internet onde é possível visualizar os vídeos dos segmentos atribuídos
ao oradores identificados.
Os resultados do sistema de reconhecimento do orador independente do texto desenvolvido nesta
dissertação podem ser integrados no sistema de monitorização de média existente capaz de
identificar e apresentar informação específica contida em programas noticiosos televisivos.
5
1.3. Organização
A dissertação encontra-se organizada da seguinte forma:
O capítulo 2 apresenta os conceitos dos sistemas de reconhecimento do orador e uma visão
geral do estado da arte.
O capítulo 3 descreve os corpora disponíveis para treino, desenvolvimento e teste dos
sistemas de reconhecimento do orador desenvolvidos.
O capítulo 4 incide sobre o pré-processamento áudio e as características extraídas dos
segmentos que contêm fala, utilizadas para caracterizar a voz de um orador.
O capítulo 5 explica detalhadamente os classificadores, GMM-UBM e SVM-GSV, e a sua
aplicação no reconhecimento do orador.
O capítulo 6 descreve os corpora utilizados para treino, desenvolvimento e teste, a
implementação dos sistemas de reconhecimento do orador, os resultados obtidos e a
comparação entre os mesmos. Apresenta-se ainda um novo sistema de reconhecimento,
capaz de obter melhores resultados dependendo da duração do segmento testado.
O capítulo 7 apresenta os resultados obtidos pelo sistema de reconhecimento do orador
desenvolvido quando testado com programas noticiosos televisivos recentes e a integração
desses resultados numa página de internet.
Finalmente, o capítulo 8 apresenta as conclusões e sugestões para trabalhos futuros.
6
7
Capítulo 2
Capítulo 2: Sistema de Reconhecimento do
Orador
8
2.1. Introdução
Um sistema de reconhecimento do orador é geralmente constituído pelos seguintes componentes
principais: extracção de características, sistema de classificação e decisão. A Figura 2.1 apresenta o
esquema genérico de um sistema de reconhecimento do orador.
Figura 2.1: Sistema genérico de reconhecimento do orador.
O sistema começa por extrair as características relevantes do segmento áudio que contém fala. De
seguida, as características extraídas são comparadas com o modelo orador e com os modelos
impostores anteriormente treinados através de um sistema de classificação. Por fim, o resultado é
normalizado e o segmento é classificado como um segmento autêntico, pertencente ao orador a
identificar, ou como um segmento impostor, pertencente a um outro orador.
2.2. Pré-Processamento Áudio
Quando se pretende extrair as características de um sinal de fala apenas se devem processar as
frames que contêm voz, sendo necessário ignorar o silêncio existente no inicio e no final do
segmento, assim como o silêncio existente entre cada palavra. Da mesma forma, quando existem
outros sons, como ruído de fundo ou música, que tornem a voz imperceptível, torna-se necessário
excluir estas frames dos restantes processos. O pré-processamento áudio é efectuado antes da
extracção de características como forma de identificar as frames necessárias para o processamento a
realizar e excluir as frames que devem ser ignoradas.
De uma forma mais geral, o pré-processamento áudio pode também ser utilizado para particionar e
classificar um conjunto de segmentos áudio que posteriormente torne mais fácil o processo de
reconhecimento do orador nesses segmentos. O particionamento pode ser realizado tendo em conta
Aceita ou Rejeita
Sistema de Classificação
Extracção de Características
Sinal de Fala
Modelos Impostores
Modelo Orador
Pré-Processamento
Áudio Normalização
9
alterações de background, como barulho ou música, ou a detecção de fala ou silêncio. A classificação
corresponde a identificar se o orador de um determinado segmento é masculino ou feminino e a
indicar quais os segmentos proferidos pelo mesmo orador.
2.3. Extracção de Características
O objectivo da extracção de características de um sinal é criar uma nova representação num outro
espaço ou dimensão, que pode ser usada para armazenamento, transmissão, síntese ou
reconhecimento. No caso de um segmento áudio que contenha fala, são inúmeras as características
que podem ser extraídas. Estas características podem ser usadas em diferentes tipos de
reconhecimento, apresentando cada característica um melhor ou pior desempenho dependendo da
finalidade. Por exemplo, para a tarefa do reconhecimento do orador pode ser usada a frequência
fundamental, pitch, ou a frequência das formantes, enquanto a energia ou a taxa de cruzamentos por
zeros possibilita o reconhecimento das palavras ou concluir acerca da presença de silêncio.
Procura-se que as características extraídas de um segmento de fala sejam fáceis de determinar,
representem de forma eficiente a informação do orador, sejam estáveis ao longo do tempo e que não
sejam influenciadas pelo ambiente em que foram produzidas.
Algumas das características usadas na detecção de eventos áudio, tais como Perceptual Linear
Predictive (PLP), Mel Frequency Cepstral Coefficients (MFCC) ou Logaritmic Relative Spectral
Transform (RASTA), são também comuns na identificação ou verificação do orador. A análise e o
processamento de sinal tentam de certa forma modelar o sistema auditivo humano retendo as
propriedades necessárias. Este processo pode ser realizado através da introdução de um filtro de
escala Mel, caso dos MFCC [Davis and Mermelstein, 1980], ou de um filtro de escala Bark, caso dos
PLP [Hermansky, 1990]. Desta forma os coeficientes passam a ter em conta informação perceptiva.
2.4. Sistemas de Classificação
O sistema de classificação é o componente mais importante de um sistema de reconhecimento do
orador. A sua função é treinar os modelos oradores a partir das características extraídas de
segmentos de fala proferidos pelos mesmos, para que mais tarde, seja possível realizar uma
verificação dos padrões existentes entre as características extraídas de um segmento de teste e os
modelos treinados de cada orador. O resultado obtido pelo sistema de classificação para um
10
determinado segmento de teste determina a verosimilhança existente entre as características do
segmento e um modelo orador.
Alguns dos modelos mais utilizados no reconhecimento do orador são os Gaussian Mixture Models,
(GMMs), onde cada modelo orador é composto por um conjunto de funções de densidade de
probabilidade Gaussianas, criadas de forma a modelar as várias classes fonéticas de um orador. Este
sistema não tem em consideração a evolução temporal do sinal, pelo que é mais apropriado para
sistemas de reconhecimento independentes do texto.
No caso de os oradores serem reconhecidos com recurso a uma palavra-chave ou uma frase pré-
determinada, é necessário utilizar um modelo que descreva as características variantes no tempo,
como o Hidden Markov Model (HMM).
As Redes Neuronais (RN) também podem ser utilizadas para modelar as características de um
orador através de camadas com várias unidades ligadas entre si e com um determinado peso. Este
sistema utiliza um conjunto de características para ajustar a rede neuronal de cada orador, que é
depois utilizada como modelo.
Por fim, os Support Vector Machines (SVMs) são classificadores recentemente adoptados no
reconhecimento do orador e considerados um dos classificadores mais robustos. Esta popularidade
deve-se à capacidade de classificar dados nunca analisados.
2.5. Normalização
O resultado obtido pelo sistema de classificação necessita de ser normalizado antes de se verificar se
o segmento testado pertence ou não a um orador a identificar pelo sistema. Este ajuste é necessário
devido às diferenças existentes nas condições em que foi recolhido o material de treino e o de teste,
possibilitando também a criação de um limiar de decisão do sistema independente do orador, capaz
de classificar o segmento testado como segmento autêntico (pertencendo ao orador) ou segmento
impostor (não pertencendo ao orador).
O facto de existirem diferenças na duração dos segmentos testados, no tempo de treino de cada
orador, no ruído ambiente ou na forma como são recolhidos os segmentos áudio nas fases de treino
e de teste, provocam variações nos resultados que devem, através de uma normalização, ser
minimizados.
Considerando que um modelo orador é testado com segmentos autênticos e segmentos impostores,
os resultados provenientes do sistema de classificação terão duas distribuições diferentes de
11
resultados. Cada modelo orador apresentará um limiar de decisão diferente capaz de separar as duas
distribuições que minimizará os erros em zonas em que ambas as distribuições se encontram
sobrepostas.
A Figura 2.2 apresenta um exemplo dos limiares de decisão de dois modelos oradores, e e do
sistema de reconhecimento do orador, , para as distribuições de resultados obtidas pelos dois
modelos quando testados com segmentos autênticos e segmentos impostores, representadas na
Figura 2.2 a tracejado e a cheio, respectivamente. É possível deduzir que ao adicionar mais
resultados de modelos oradores diferentes, a variabilidade do limiar de decisão do sistema aumenta,
introduzindo assim mais erros no sistema.
Figura 2.2: Exemplo de distribuições de resultados obtidos por dois modelos oradores quando
testados com segmentos autênticos (linha a cheio) e impostores (linha a tracejado).
Numa situação ideal, o limiar de decisão do sistema seria igual independentemente do número de
oradores reconhecidos, reduzindo desta forma os erros do sistema. No entanto, esta situação é
pouco provável devido às razões já apresentadas anteriormente.
Ao aplicar uma normalização pretende-se que as distribuições dos resultados de todos os oradores
fiquem com média e desvio padrão aproximados, possibilitando desta forma a optimização do limiar
de decisão do sistema. A Figura 2.3 apresenta os resultados obtidos após ser aplicada uma técnica
de normalização.
Modelo Orador 1
Modelo Orador 2
12
Figura 2.3: Exemplo de distribuições de resultados obtidos por dois modelos oradores quando
testados com segmentos autênticos (linha a cheio) e impostores (linha a tracejado) após
normalização.
Verifica-se que depois de aplicada a normalização, as distribuições dos resultados de ambos os
modelos apresentam uma média e um desvio padrão aproximados, com os limiares de decisão dos
modelos oradores mais próximos entre si. Desta forma, a variabilidade do limiar de decisão do
sistema diminui e consequentemente a sua taxa de erro.
As normalizações mais comuns usadas do reconhecimento do orador são a normalização Z, a
normalização T e a normalização ZT.
2.5.1. Normalização Z
Na normalização Z [Li and Porter, 1988, Auckenthaler et al., 2000] é necessário testar o modelo
orador contra um conjunto de N segmentos pertencentes a diferentes impostores, obtendo-se para
o modelo orador uma distribuição de resultados impostores com média e desvio padrão
.
Estes valores são estimados para efectuar a normalização do resultado , obtido pelo teste do
segmento contra o modelo orador .
(2.1)
Modelo Orador 1
Modelo Orador 2
13
A Figura 2.4 apresenta um esquema da normalização Z durante a fase de teste.
Figura 2.4: Diagrama de blocos da normalização Z durante a fase de teste.
Esta normalização apresenta como vantagem o facto do valor da média e do desvio padrão
da
distribuição de resultados impostores poderem ser obtidos antes da realização dos testes.
2.5.2. Normalização T
Baseada na estimação dos mesmos parâmetros da média e do desvio padrão de uma distribuição de
resultados, a normalização T [Auckenthaler et al., 2000] difere da normalização Z ao usar os
resultados obtidos por vários modelos impostores, ao invés dos resultados obtidos por vários
segmentos impostores.
Durante a fase de teste, os resultados obtidos por um conjunto de M modelos impostores para um
segmento de teste caracterizam-se por terem uma distribuição com média e desvio padrão
.
O valor normalizado do segmento quando testado pelo modelo orador é calculado de acordo com
os resultados obtidos pelos M modelos impostores.
(2.2)
A Figura 2.5 apresenta o diagrama de blocos da normalização T.
Ao contrário do que acontece na normalização Z, a normalização T apenas permite calcular o valor
da média e do desvio padrão
durante a fase de teste, implicando por isso um tempo
computacional mais elevado.
Modelo Orador
Segmento Teste
14
Figura 2.5: Diagrama de blocos da normalização T durante a fase de teste.
2.5.3. Normalização ZT
A normalização ZT [Zheng et al., 2005] junta ambos os processos das normalizações anteriores,
conseguindo por isso melhores resultados.
Ainda antes da fase de teste, começa-se por calcular os resultados obtidos pelo
modelo orador quando testado com N segmentos impostores. De seguida, os resultados
são normalizados, através de uma normalização T, usando a média e o desvio
padrão dos resultados obtidos por M modelos impostores quando testados com os mesmos N
segmentos impostores.
(2.3)
(2.4)
Desta forma, obtêm-se os resultados
, de onde é possível estimar a média
e o
desvio padrão dos mesmos.
O esquema da normalização ZT a realizar antes da fase de teste encontra-se na Figura 2.6.
Modelo Orador
Modelo Impostor
Modelo Impostor
.
.
.
. . .
Segmento Teste y
15
Figura 2.6: Diagrama de blocos da normalização ZT antes da fase de teste.
Durante a fase de teste, o segmento de teste y é testado no modelo orador e nos M modelos
impostores, onde são obtidos e , , …, , respectivamente. Novamente é realizada uma
normalização T de onde se obtêm o resultado . Por fim, o resultado final normalizado é obtido
recorrendo aos valores da média e o desvio padrão
calculados anteriormente.
(2.5)
A Figura 2.7 apresenta um diagrama de blocos da normalização ZT durante a fase de teste.
Figura 2.7: Diagrama de blocos da normalização ZT durante a fase de teste.
Modelo Orador
Modelo Impostor
Modelo Impostor
.
.
.
. . .
. . .
. . .
. . .
. . .
Segmento Impostor
(1, …, N)
Modelo Orador
Modelo Impostor
Modelo Impostor
.
.
.
. . .
Segmento Teste y
16
2.6. Métricas
Dois tipos de erros ocorrem num sistema de verificação do orador, nomeadamente a não detecção e
o falso alarme. O primeiro, não detecção ou falso negativo, ocorre quando um segmento autêntico
não é reconhecido quando testado pelo modelo orador correspondente. O segundo, falso alarme ou
falso positivo, acontece quando um segmento impostor ilude um modelo que não é o seu, sendo
classificado como pertencendo ao orador.
Ambos os erros dependem do limiar de decisão do sistema criado como separador para aceitar ou
rejeitar um segmento testado. Com um limiar baixo, o sistema tende a aceitar todos os segmentos
testados fazendo aumentar o número falsos positivos. Por outro lado, um limiar de decisão alto torna
o sistema susceptível a mais falsos negativos e a poucos falsos positivos, existindo por isso uma
maior dificuldade em detectar os segmentos autênticos.
As taxas de falsos positivos (FP) e de falsos negativos (FN) são definidas como o ponto de operação
do sistema e ditam o valor do limiar de decisão escolhido para modo de operação. Na prática, estas
taxas de erro, falsos positivos e falsos negativos, correspondem à percentagem de erros que ocorrem
na fase de teste e podem ser representadas por e , respectivamente.
2.6.1. Curva DET
Uma vez que ambas as taxas são funções do limiar de decisão escolhido, é possível representar o
desempenho do sistema através de um gráfico com em função de .
A curva Detection Error Trade-off (DET) [Martin et al., 1997] conhecida como a característica de
operação do sistema, é monótona e decrescente. Quanto melhor for o desempenho do sistema, mas
perto da origem do gráfico se encontra a curva. Um exemplo de uma curva DET encontra-se na
Figura 2.8.
17
Figura 2.8: Exemplo de uma curva DET.
2.6.2. EER
O EER , Equal Error Rate, é a métrica mais comum e simples de calcular num sistema de verificação
de orador. Para obter o EER é necessário que o limiar de decisão do sistema escolhido iguale a taxa
de FP com a taxa de FN, ou seja, .
Quanto mais baixo for o EER melhor será o desempenho do sistema a separar os segmentos
autênticos dos segmentos impostores.
O valor do EER também pode ser obtido através da Figura 2.8 e corresponde à intercepção da curva
DET com a recta x = y. Nesse exemplo, o limiar de decisão do sistema escolhido iria igualar ambas
as taxas de erro com um valor de aproximadamente 8%.
2.6.3. DCFmin
O DCFmin, Detection Cost Function é uma medida de erro utilizada pelo National Institute of Standards
and Tecnology (NIST) nos várias provas realizadas que avaliam os mais recentes sistemas de
reconhecimento do orador [NIST, 2010]. Este é um método de avaliação que permite atribuir
diferentes custos aos dois tipos de erros existentes, criando uma média ponderada entre FP e os FN:
Falsos Positivos (em %)
Fals
os N
egativos (
em
%)
18
(2.6)
Onde , , e .
O facto de possibilitar que sejam atribuídos diferentes custos aos FP e aos FN torna possível que
seja preferível não identificar correctamente um orador do que ser autenticado um impostor.
Um exemplo de uma curva DET e do respectivo ponto de funcionamento do sistema que permite
obter um determinado DCFmin pode ser observado na Figura 2.9.
Figura 2.9: Exemplo de uma curva DET com o valor do DCFmin.
No exemplo da Figura 2.9, o limiar de decisão do sistema é escolhido de forma a permitir uma taxa de
falsos negativos de 28% e de falsos positivos de apenas 0,6%.
2.7. Estado da Arte
O National Institute of Standards and Technology (NIST) é, para a comunidade científica, uma das
principais referências nas pesquisas e nas últimas tecnologias utilizadas para o reconhecimento do
orador. Desde 1996 que este instituto coordenada e realiza uma prova com regras bem definidas,
Falsos Positivos (em %)
Fals
os N
egativos (
em
%)
19
onde os participantes são convidados a testarem os seus métodos utilizando o mesmo conjunto áudio
disponibilizado pelo próprio NIST. Mais de 40 pesquisadores têm desde então participado nesta
avaliação, sendo ainda convidados novos pesquisadores e universidades todos os anos. Estas
avaliações são uma importante contribuição para a direcção dos esforços de investigação na área do
reconhecimento do orador independente do texto. Têm por isso, como objectivo global, o avanço da
tecnologia utilizada, medir o estado da arte e encontrar as abordagens algorítmicas mais
promissoras. É por este motivo que a maior parte das experiências realizadas na área do
reconhecimento do orador tentam aproximar-se da melhor forma das provas realizadas pelo NIST.
Em [Schmidt-Nilsen and Crystal, 2000] é realizada uma experiência de verificação do orador que
compara o desempenho do ser humano com alguns sistemas de reconhecimento. Uma vez que os
computadores e os humanos têm diferentes limites e capacidades, como a memória ou a resistência
à fadiga, foi necessário realizar alguns ajustes nos testes realizados aos humanos. Os resultados
obtidos mostraram que os humanos conseguem um EER de 8%, igualando o melhor sistema de
reconhecimento usado nas avaliações do NIST da altura. Outros sistemas típicos de reconhecimento
do orador obtêm taxas na ordem dos 12% a 14%. O desempenho dos humanos ainda se mostra ser
mais robusto em gravações com pior qualidade.
Um dos sistemas de reconhecimento do orador mais usado e estudado actualmente é o sistema
Gaussian Mixture Model (GMM). O artigo [Reynolds, 1995] introduziu os modelos de misturas
Gaussianas usados no reconhecimento do orador na vertente independente do texto. Neste
classificador, as componentes Gaussianas de um GMM são usadas para modelar as características
individuais de um orador. Mais tarde, em [Reynolds et al., 2000] os modelos de misturas Gaussianas
dos oradores passaram a ser adaptados de um Universal Background Model (UBM). Este método,
mais eficiente computacionalmente, apresenta uma melhoria nos resultados [Bimbot et al., 2004].
Nesta experiência, desenvolvida de acordo com as regras definidas pelo NIST, foi utilizado o corpus
de 1999 disponibilizado pelo NIST. Foram treinados 11 modelos oradores com 120 segundos e
testados contra segmentos com tamanho entre os 0,5 e os 60 segundos. O UBM, composto por 2048
misturas Gaussianas, foi treinado a partir de todo o conjunto de treino disponível. O EER obtido pelo
sistema foi de aproximadamente 10%.
O estudo [Hasan and Hansen, 2010] foca-se em detalhe no desempenho de um sistema de
verificação do orador quando os dados presentes no UBM do sistema GMM são seleccionados e
alterados de diferentes maneiras, incluído na quantidade de dados de treino e no número de oradores
presentes. Provou-se experimentalmente que aumentar gradualmente o número de oradores
presentes no UBM, sem aumentar o tempo total de treino, origina um sistema com um desempenho
melhor, como apresenta a Figura 2.10. Os oradores foram escolhidos aleatoriamente e o EER foi
calculado através da média de cinco experiencias independentes. Ainda no mesmo estudo, verificou-
se que se os dados de treino do UBM mantiverem a mesma diversidade, então apenas uma parte dos
20
dados são suficientes para treinar o UBM, como mostra a Figura 2.11. Neste teste, o UBM foi treinado
apenas com os primeiros segundos de cada segmento.
Figura 2.10: Desempenho do sistema em relação ao número de oradores presentes no UBM
(adaptado de [Hasan and Hansen, 2010]).
Figura 2.11: Desempenho do sistema em relação ao tempo de treino presente no UBM (adaptado de
[Hasan and Hansen, 2010]).
No mesmo ano em que Reynolds gera os modelos dos oradores a partir de um UBM, um outro
método, [Wan and Campell, 2000], testa a performance dos Support Vector Machines (SVMs) na
tarefa da verificação do orador. Para os autores, esta abordagem parece indicada na verificação do
orador devido a natureza binária das decisões do classificador. Nesta experiência foram
seleccionados 138 oradores da base de dados de YOHO [Campbell, 1995], sendo que 69 oradores
foram seleccionados para treino e teste, enquanto os segmentos dos restantes oradores apenas
foram usados para teste. Na fase de treino foram criados 69 modelos de oradores, onde cada modelo
foi treinado contra os restantes 68 oradores. A utilização de SVM na verificação do orador conseguiu
um EER de 0,59%, um valor aproximado mas não tão bom como os resultados obtidos pelo sistema
GMM que apresentou um EER entre os 0,5% e os 0,6%. Como já afirmado anteriormente, esta
experiência foi realizada com a base de dados de YOHO, que apenas contém palavras-chave, com
por exemplo “67 34 85”, proferidas pelos oradores num ambiente controlado.
Dados de Treino do UBM (h)
Número de oradores no UBM
EE
R
EE
R
21
Um dos aspectos importantes na utilização dos SVM é a escolha do kernel usado para separar os
dados de entrada em classes através de um hiperplano. Em [Campbell et al., 2006a] é introduzido um
novo kernel, denominado Generalized Linear Discriminant Sequence Kernel (GLDS) e comparado
com o sistema GMM.
Em [Campbell et al., 2006b], é apresentada uma nova aplicação das SVM com um kernel linear
através da utilização de Supervectores formados a partir das médias das misturas Gausianas dos
GMM, denominados por isso de Gaussian Supervectores (GSV) ou Gaussian Supervector Linear
(GSL). Os resultados foram obtidos utilizando o corpus de 2005 disponibilizado pelo NIST, com cada
modelo orador, constituído por 2048 misturas Gaussianas, a ser treinado com 20 minutos e testado
com segmentos de 2,5 minutos. O EER do sistema SVM-GSV foi de 4%, enquanto para os mesmos
segmentos de treino e teste o sistema GMM-UBM obteve um EER de 6%.
Desde 2004 que uma das condições impostas pelo NIST para participação nas provas está
relacionada com a obtenção do desempenho dos sistemas de reconhecimento do orador em
conversas telefónicas entre duas pessoas com duração aproximada de 5 minutos. Estas condições
têm por isso recebido mais atenção por parte da comunidade científica. No entanto, em situações
reais, a quantidade de fala disponível é geralmente menor, o que leva a sejam feitos estudos como
em [Fauve et al., 2007a] apenas com 10 segundos de treino e teste, em que se verificam as
limitações e capacidades de diversos métodos de adaptação de modelos. Os resultados mostram
também que a duração do segmento que contém fala é um importante factor no desempenho de um
sistema de reconhecimento.
A evolução verificada no estado da arte do reconhecimento do orador pode ser consultada em [Fauve
et al., 2007b] onde algumas técnicas de verificação do orador são comparadas: GMM-UBM, SVM-
GSV e SVM-GLDS. Os testes foram realizados na plataforma ALIZE [Bonastre et al., 2005], um
software open source, com conjuntos de treino e teste iguais. No caso dos sistemas de fusão, os
pesos aplicados foram iguais. Os resultados obtidos encontram-se na Figura 2.12. É possível
observar que o sistema SVM-GSV obteve o EER e DCFmin mais baixos tendo mesmo superado
sistemas de fusão entre os diferentes métodos de reconhecimento.
Outra comparação entre sistemas de reconhecimento encontra-se descrita em [Reynolds and
Campbell, 2007] onde foram testados os mesmos sistemas de reconhecimento, GMM-UBM, SVM-
GLDS e SVM-GSV, mas com recurso ao áudio disponibilizado pelo NIST. Foi ainda calculado o
desempenho da fusão entre os três sistemas. Realizaram-se duas experiências distintas, com
diferentes condições de treino. Na primeira experiência utilizaram-se 2,5 minutos para treino de cada
orador, enquanto na segunda experiência cada modelo orador foi treinado com 20 minutos de fala.
Em ambos os casos, o tempo de teste foi de 2,5 minutos. O desempenho de cada sistema foi medido
através do EER e do DCFmin. Na primeira experiência, o sistema SVM-GSV obteve um DCFmin de
0,02, o valor mais baixo dos três sistemas. Por outro lado, o sistema SVM-GLDS foi o que apresentou
22
o melhor EER com um valor na ordem dos 5,7%. O sistema GMM-UBM foi o que obteve pior
classificação, com um EER de 7% e DCFmin de 0,024. Na segunda experiência, onde cada orador foi
treinado a partir de 20 minutos de fala, o sistema SVM-GSV obteve novamente o melhor desempenho
a nível do DCFmin ao apresentar um valor de 0,009, muito semelhante ao obtido pelo sistema SVM-
GLDS. O sistema GMM-UBM voltou a apresentar o pior desempenho. Em ambos os casos, a fusão
entre os três sistemas de reconhecimento conseguiu obter melhores resultados quando comparado
com os sistemas individualmente. Nas Figuras 2.13 e 2.14 são apresentados os valores do EER e do
DCFmin obtidos pelos sistemas GMM-UBM, SVM-GLDS, SVM-GSV e fusão quando os modelos são
treinados com 2,5 minutos e 20 minutos, respectivamente.
Figura 2.12: Valores do EER e do DCFmin obtidos por diferentes sistemas de reconhecimento do
orador (adaptado de [Fauve et al., 2007b]).
Figura 2.13: Desempenho dos sistemas para modelos treinados com 2,5 minutos e testados com 2,5
minutos.
0
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
GMM-UBM SVM-GLDS SVM-GSV Fusão
EER
DCFmin
SVM-GSV
GMM-UBM+SVM-GSV
GMM-UBM+SVM-GLDS
GMM-UBM
SVM-GSV+SVM-GLDS
SVM-GLDS
23
Figura 2.14: Desempenho dos sistemas para modelos treinados com 20 minutos e testados com 2,5
minutos.
Os sistemas de reconhecimento do orador evoluíram muito desde as primeiras experiências,
baseadas em associação de padrões, até aos mais recentes sistemas, que incluem um dos sistemas
de classificação mais utilizado, caso do GMM-UBM, e o sistema estado da arte SVM-GSV. Ao longo
do tempo também surgiu a necessidade de aumentar a complexidade do reconhecimento, tendo a
identificação e a verificação do orador cada vez mais oradores para reconhecer.
0
0,01
0,02
0,03
0,04
GMM-UBM SVM-GLDS SVM-GSV Fusão
EER
DCFmin
24
25
Capítulo 3
Capítulo 3: Corpora
26
3.1. Introdução
Neste capítulo são descritos os corpora usados para treino, desenvolvimento e teste. Dele fazem
parte um total de 167 programas televisivos, recolhidos entre os anos 2000 e 2008, amostrados a
16kHz e com 16 bits por amostra. Estes corpus fornecem os recursos fundamentais para o
desenvolvimento de um sistema de reconhecimento do orador.
Os corpus usados neste trabalho são constituídos maioritariamente por programas noticiosos,
nacionais e regionais, transmitidos pela televisão pública Portuguesa (RTP). Foram originalmente
recolhidos para treino e teste de um sistema de reconhecimento de fala e detecção de tópicos [Neto
et al., 2003, Meinedo et al., 2003, Meinedo et al., 2010], tendo sido posteriormente adicionados mais
programas. Devido às audiências elevadas e notícias mais abrangentes, o Telejornal das 20 horas da
RTP foi tido como referência, apresentado por isso uma maior influência.
Todos os segmentos de um programa noticioso que contêm fala encontram-se identificados através
do tempo de inicio, fim e do orador que o pronuncia, sendo possível desta forma identificar quais os
segmentos que podem ser processados. Anotadores foram responsáveis por particionar todos os
programas televisivos, identificando os intervalos que contêm música, fala, silêncio, vozes
sobrepostas e ruído.
Os corpus utilizados encontram-se divididos em 8 conjuntos, um para treino (Train), dois para
desenvolvimento (Devel e Pilot) e cinco para teste (Eval, Jeval, 11march, Rtp07 e Rtp08). A
Tabela 3.1 fornece uma visão geral dos corpus em termos de quantidade, duração, ano de exibição
dos programas e finalidade dos conjuntos.
Conjunto Ano Número Tempo Total Tempo Útil Finalidade
Train 2000 99 60,15 h 46,48 h Treino
Devel 2000 13 8,23 h 6,60 h Desenvolvimento
Pilot 2000 11 5,55 h 4,79 h Desenvolvimento
Eval 2001 12 5,96 h 4,53 h Teste
Jeval 2001 14 15,52 h 13,52 h Teste
11march 2004 7 6,50 h 5,33 h Teste
Rtp07 2007 6 6,22 h 4,79 h Teste
Rtp08 2008 5 5,21 h 3,69 h Teste
Tabela 3.1: Conjuntos disponíveis de treino, desenvolvimento e teste.
27
Depois de removidos os jingles, os intervalos comerciais e os silêncios, é possível observar, através
da Tabela 3.1, que existem aproximadamente 46 horas disponíveis para treino, 11 horas que podem
ser usadas para ajustar o sistema, nomeadamente através de uma normalização, e 32 horas para
avaliar o desempenho do sistema de verificação do orador. As secções seguintes descrevem em
detalhe cada um destes conjuntos.
3.2. Corpus de Treino
Este é o conjunto usado para treinar os diferentes modelos oradores. É composto inteiramente por 99
programas noticiosos transmitidos pela RTP entre Outubro a Novembro do ano 2000. A RTP foi
responsável por recolher a informação nas suas instalações.
A Tabela 3.2 mostra o conjunto, o ano em que foram transmitidos os programas, o tempo total e o
tempo útil após a remoção dos jingles, intervalos comerciais e silêncio.
Conjunto Ano Número Tempo Total Tempo Útil
Train 2000 99 60,15 h 46,48 h
Total 99 60,15 h 46,48 h
Tabela 3.2: Conjunto de treino.
Um resumo dos programas noticiosos que fazem parte deste corpus encontra-se na Tabela 3.3. O
Telejornal da RTP é o programa dominante, com mais de metade da duração total. Este é um
pormenor intencional, uma vez que é o programa noticioso principal e que melhor representa o tipo
de programas analisados.
Programa Número Tempo Total Tempo Útil Tipo
24 Horas 4 1,32 h 1,11 h Notícias das 24 horas
Acontece 9 3,10 h 2,31 h Notícias culturais
Jornal 2 7 4,90 h 4,06 h Notícias da noite
Jornal da Tarde 8 7,93 h 6,22 h Notícias das 13 horas
Notícias 8 0,62 h 0,53 h Notícias da manhã
País Regiões 13 6,73 h 4,80 h Notícias nacionais
País Regiões Lisboa 7 2,28 h 1,93 h Notícias locais
RTP Economia 13 1,89 h 1,23 h Notícias financeiras
Telejornal 30 31,38 h 24,29 h Notícias das 20 horas
Total 99 60,15 h 46,48 h
Tabela 3.3: Conjunto de programas presentes no corpus de treino.
28
Deste corpus fazem parte um total de aproximadamente 1366 oradores diferentes.
3.3. Corpus de Desenvolvimento
Este conjunto permite melhorar o desempenho do sistema de verificação do orador através do ajuste
dos parâmetros do sistema no cálculo dos resultados. Estes parâmetros incluem, por exemplo, os
valores da média e do desvio padrão dos resultados obtidos pelos modelos oradores quando testados
contra segmentos impostores.
O corpus de desenvolvimento é composto por 24 programas noticiosos, gravados em Abril, Junho e
Dezembro do ano 2000. Após a remoção dos jingles, intervalos publicitários e silêncio, o conjunto de
desenvolvimento fica reduzido a cerca de 11 horas. Os valores do tempo total, tempo útil e o número
de programas que fazem parte de cada conjunto encontram-se na Tabela 3.4.
Conjunto Ano Número Tempo Total Tempo Útil
Devel 2000 13 8,23 h 6,60 h
Pilot 2000 11 5,55 h 4,79 h
Total 24 13,78 h 11,39 h
Tabela 3.4: Conjuntos de desenvolvimento.
A Tabela 3.5 apresenta um sumário dos programas televisivos que fazem parte deste conjunto.
Observa-se que a composição do corpus de desenvolvimento é similar ao corpus de treino com o
Telejornal da RTP a ser novamente o programa com maior tempo útil.
Programa Número Tempo Total Tempo Útil Tipo
24 Horas 3 86,96 min 73,67 min Notícias das 24 horas
Acontece 2 40,46 min 31,58 min Notícias culturais
Grande Reportagem 1 69,65 min 57,40 min Entrevistas políticas
Jornal 2 2 95,65 min 79,90 min Notícias da noite
Jornal da Tarde 2 130,77 min 103,27 min Notícias das 13 horas
Notícias 2 18,69 min 16,90 min Notícias da manhã
País Regiões 2 48,92 min 38,35 min Notícias nacionais
País Regiões Lisboa 2 44,89 min 40,93 min Notícias locais
Remate 1 7,53 min 6,81 min Notícias desportivas
RTP Economia 3 20,38 min 14,40 min Notícias financeiras
Telejornal 4 262,84 min 220,35 min Notícias das 20 horas
Total 24 13,78 h 11,39 h
Tabela 3.5: Conjunto de programas presentes no corpus de desenvolvimento.
29
No corpus de desenvolvimento existem aproximadamente 418 oradores diferentes.
3.4. Corpus de Teste
A finalidade do corpus de teste é avaliar o desempenho do sistema de reconhecimento do orador.
Este corpus é composto por 44 programas noticiosos divididos entre 5 conjuntos (Eval, Jeval,
11march, Rtp07 e Rtp08) e contém programas gravados entre o ano 2001 e 2008. A forma com se
encontram divididos os diferentes conjuntos e quais as suas características encontram-se na
Tabela 3.6.
Conjunto Ano Número Tempo Total Tempo Útil
Eval 2001 12 5,96 h 4,53 h
Jeval 2001 14 15,52 h 13,52 h
11march 2004 7 6,50 h 5,33 h
Rtp07 2007 6 6,22 h 4,79 h
Rtp08 2008 5 5,21 h 3,69 h
Total 44 39,41 h 31,86 h
Tabela 3.6: Conjuntos de teste.
A Tabela 3.7 apresenta um sumário dos programas televisivos que fazem parte do corpus de teste.
Programa Número Tempo Total Tempo Útil Tipo
24 Horas 2 38,60 min 32,12 min Notícias das 24 horas
Acontece 1 17,84 min 12,63 min Notícias culturais
Jornal 2 1 38,44 min 26,70 min Notícias da noite
Jornal da Tarde 1 62,99 min 42,98 min Notícias das 13 horas
Notícias 1 10,70 min 8,50 min Notícias da manhã
País Regiões 1 33,78 min 25,42 min Notícias nacionais
País Regiões Lisboa 1 20,20 min 17,64 min Notícias locais
RTP Economia 2 20,00 min 13,79 min Notícias financeiras
Telejornal 34 35,37 h 28,85 h Notícias das 20 horas
Total 44 39,41 h 31,86 h
Tabela 3.7: Conjunto de programas presentes no corpus de teste.
No corpus de teste são possíveis identificar cerca de 1032 oradores diferentes.
30
31
Capítulo 4
Capítulo 4: Características
32
4.1. Introdução
Neste capítulo é abordado qual o conjunto de características relevantes da voz utilizado no
reconhecimento do orador e qual o pré-processamento realizado como forma de eliminar o silêncio
entre palavras.
No presente trabalho optou-se por usar os coeficientes de predição linear perceptiva, devido aos bons
resultados apresentados anteriormente em tarefas de reconhecimento do orador. Foram ainda
utilizados, para além dos coeficientes PLP, a energia e os parâmetros delta e delta-delta.
4.2. Pré-Processamento Áudio
O módulo de pré-processamento áudio usado neste trabalho foi desenvolvido no L2F, INESC-ID,
[Meinedo, 2008] e faz parte do sistema de reconhecimento da fala Audimus. Este módulo tem o
objectivo de particionar e classificar segmentos áudio. Um diagrama do módulo de pré-
processamento áudio é apresentado na Figura 4.1.
Figura 4.1: Diagrama de blocos do pré-processamento áudio (adaptado de [Meinedo, 2008]).
A segmentação áudio é responsável por detectar os locais onde o orador ou as condições de
background se alteram. A classificação fala/não-fala determina se um segmento áudio contém fala ou
não. As condições de background indicam se o background é silencioso, tem ruído ou música. A
distinção entre oradores do género masculino ou feminino é feita pela detecção de género. O
Segmentação Áudio
Alterações Acústicas
Classificação Áudio
Fala
Não Fala
Condições Background
Classificação Orador
Género
Agrupamento
Identificação
Segmento
Áudio Caracterização
33
agrupamento identifica todos os segmentos produzidos pelo mesmo orador. A identificação tem a
tarefa de identificar certos oradores como pivots de telejornais ou personalidades importantes.
A componente de classificação fala/não-fala permite etiquetar de forma automática todos os
segmentos áudio que contêm fala e os que contêm outros sons ou ruídos.
4.3. Coeficientes PLP
Os coeficientes Perceptual Linear Predictive (PLP) são uma das técnicas mais usadas nos sistemas
de reconhecimento do orador.
Esta técnica foi desenvolvida e apresentada em [Hermansky, 1990] usando três conceitos da área
psicofísica do sistema de audição humana (estudo da relação entre estímulos físicos e a sua
percepção de modo a criar um espectro auditivo). O primeiro é a resolução espectral das bandas
críticas, o segundo é a curva de igualização de sonoridade e o terceiro conceito é a lei da potência
intensidade - percepção. Por fim, o espectro auditivo é aproximado por um modelo auto-regressivo de
pólos.
O método começa por aplicar uma janela de Hamming a cada frame com duração de 20ms de acordo
com:
(4.1)
onde N é o tamanho da janela.
A transformada discreta de Fourier é usada para passar o sinal resultante para o domínio da
frequência através da soma do quadrado das componentes real e imaginária do espectro de sinal de
termo curto. Desta forma obtém-se o espectro de potência:
(4.2)
O espectro é distorcido ao longo do seu eixo de frequência para o eixo de frequências Bark
através de:
(4.3)
34
onde é a frequência angular em rad/s. O espectro de potência resultante é convoluído com um
espectro de potência de uma curva de mascaramento de banda crítica com a forma:
(4.4)
Através da convolução discreta de com obtém-se :
(4.5)
A função é uma aproximação da sensibilidade do ouvido humano a diferentes frequências para
valores de aproximadamente 40 db.
(4.6)
Sendo possível calcular posteriormente o sinal:
(4.7)
Por fim, utiliza-se a compressão de amplitude para simular a relação não-linear entre a intensidade de
um som e a percepção pelo ouvido humano.
(4.8)
Na última operação da análise PLP, o sinal é aproximado pelo espectro de um modelo só com
pólos, calculado através da transformada inversa de Fourier, usando o método da auto-correlação.
Os coeficientes do modelo auto-regressivo podem ser posteriormente transformados em parâmetros
de interesse, tais como coeficientes cepstrais ou coeficientes do modelo auto-regressivo.
É prática comum no reconhecimento do orador a realização de cálculos adicionais, nomeadamente o
cálculo das derivadas de primeira e segunda ordem, aumentando desta forma o número de
coeficientes calculados para cada janela do sinal de fala.
Os coeficientes delta e delta-delta obtidos através do cálculo das derivadas de primeira e segunda
ordem dos coeficientes PLP e da energia são utilizados para representar mudanças dinâmicas no
35
espectro de voz de forma a detectar variações dentro do espectro. Os coeficientes delta são
calculados através de:
(4.9)
Os coeficientes delta-delta, segunda derivada dos coeficientes PLP e energia, são obtidos através de:
(4.10)
Finaliza-se desta forma a extracção de características de uma janela do sinal de fala. Torna-se agora
possível efectuar as tarefas de treino e de reconhecimento do orador.
36
37
Capítulo 5
Capítulo 5: Classificadores
38
5.1. Introdução
Neste capítulo são apresentados os sistemas de classificação utilizados desta dissertação para a
verificação do orador na vertente independente do texto. O primeiro sistema de classificação é o
Gaussian Mixture Model - Universal Background Model (GMM-UBM), um modelo estatístico. O
segundo sistema de classificação é o Support Vector Machine - Gaussian Supervector (SVM-GSV).
Na secção 5.2 são apresentadas as propriedades dos Modelos de Misturas Gaussianas e a forma
como podem ser utilizados no reconhecimento do orador. Na secção 5.3, o classificador SVM é
apresentado em conjunto com a aplicação do supervector.
5.2. Propriedades do GMM-UBM
Os modelos de misturas Gaussianas são um dos métodos mais usados no reconhecimento do orador
e em outros problemas de processamento de áudio.
Nas aplicações de reconhecimento de orador independentes do texto, onde não existe um
conhecimento prévio do que o orador pronuncia, a utilização de modelos de misturas Gaussianas tem
apresentado bons resultados. No caso das aplicações onde é conhecido previamente o que o orador
pronuncia (dependentes do texto) recorre-se geralmente à utilização de HMMs.
Um modelo de misturas Gaussianas resulta de combinações lineares de distribuições Gaussianas
[Reynolds, 1995]. Estas combinações são formadas por distribuições mais simples, capazes de
serem representadas por um modelo probabilístico. Este sistema é usado para caracterizar os dados
de treino de cada orador e permite também calcular, posteriormente, a semelhança existente entre os
segmentos de teste e os diferentes modelos oradores treinados.
Um modelo de misturas Gaussianas pode também ser entendido como HMM, de um único estado,
tendo como observações combinações de funções de densidade de probabilidade Gaussianas. Estas
componentes modelam um amplo conjunto de características como forma de modelar a voz de um
orador.
39
A Figura 5.1 representa uma combinação linear de funções densidade de probabilidade Gaussianas.
O vector de características é inserido num modelo de misturas Gaussianas, permitindo o cálculo da
probabilidade ), que corresponde à probabilidade de ocorrência do vector considerando o
modelo .
Figura 5.1: Representação de um modelo de misturas Gaussianas.
Num classificador GMM cada modelo orador , é representado por uma combinação ponderada de
densidades de probabilidade Gaussianas:
(5.1)
Onde é um vector de dimensão , , , representa uma função Gaussiana e onde ,
o peso de cada mistura, corresponde a números positivos em que .
Cada função é uma função densidade de probabilidade Gaussiana de dimensão N da forma:
(5.2)
com vector de média e matriz de covariância . Desta forma, cada modelo é caracterizado por:
(5.3)
onde representa o número de Gaussianas.
.
.
.
+ +
+
40
De referir ainda que as equações que definem funções de densidade de probabilidade, quando
integradas no intervalo de apresentam um resultado unitário.
Existem dois motivos principais para se usar GMMs na representação de um orador. O primeiro
motivo é dado pela noção intuitiva de que a modelação de conjuntos de classes acústicas pode ser
realizada através de componentes individuais. Assume-se por isso que o espaço acústico
correspondente à voz de um orador pode ser caracterizado por um conjunto de classes acústicas que
representam eventos fonéticos. Estas classes acústicas reflectem a dependência do orador em
relação ao seu tracto vocal, úteis para caracterizar a identidade do orador. Desta forma, uma classe
acústica pode ser representada por uma função densidade de probabilidade, distinguida pela média
, e por uma matriz de covariância . O segundo motivo para a utilização de GMMs no
reconhecimento do orador deve-se ao facto de que uma combinação linear de funções de base
Gaussiana ser capaz de representar uma grande classe de distribuições. Um dos atributos dos
GMMs é a sua capacidade de aproximação para modelar densidades de probabilidade
desconhecidas.
A Figura 5.2 apresenta um histograma de uma única característica extraída a partir de um segmento
que contém fala de um orador. Na Figura 5.3, o GMM do orador é composto pela soma ponderada de
um conjunto de três distribuições Gaussianas, onde o peso, , de cada componente Gaussiana é
igual.
Figura 5.2: Histograma de um único coeficiente extraído se um segmento de fala.
Figura 5.3: Exemplo de um GMM.
0
0,01
0,02
0,03
0,04
0,05
-5 -4 -3 -2 -1 0 1 2 3 4 5
0
0,01
0,02
0,03
0,04
-5 -4 -3 -2 -1 0 1 2 3 4 5
41
Uma vez que as misturas Gaussianas actuam em conjunto para modelar a função densidade de
probabilidade, a matriz de covariância completa não é necessária mesmo que os vectores de
características não sejam estatisticamente independentes. A combinação linear das matrizes de
covariância diagonais é capaz de modelar a correlação existente entre os vectores de características.
É por isso computacionalmente mais eficiente a utilização de matrizes de covariância diagonais, sem
que a performance do sistema seja afectada.
Dado um conjunto de características extraídas de segmentos de treino, o objectivo do treino de um
modelo orador é estimar os parâmetros do GMM, que igualem da melhor forma a distribuição dos
vectores de características. Desta forma, cada orador é representado por um GMM com
.
O método que permite o treino do GMM é o algoritmo Expectation Maximization (EM) [Dempster et
al., 1977]. Através deste método, e dada uma sequência de vectores de treino , os
diferentes modelos são aperfeiçoados iterativamente de modo a que . O novo
modelo, , passa a ser o modelo anterior, , na próxima iteração, sendo o processo repetido
até que um limiar de convergência seja alcançado. Desta forma, é garantido que a cada iteração o
modelo obtido é cada vez mais correlacionado com os vectores de características .
Em cada iteração do algoritmo EM, a verosimilhança do modelo aumenta em relação aos vectores de
treino através da aplicação das equações no cálculo do peso, média e variância das misturas.
(5.4)
(5.5)
(5.6)
A probabilidade , para uma classe acústica é dada por:
(5.7)
Dois factores importantes no treino de GMMs são a selecção do número de Gaussianas, , e a
inicialização dos parâmetros anteriormente à aplicação do algoritmo EM. No entanto, não existem
métodos teóricos para a determinação precisa destes parâmetros.
42
O UBM é um modelo criado através de vectores de características de vários oradores e é constituído
por um único modelo de misturas Gaussianas que modela todos os oradores existentes no universo.
Este modelo deve ser treinado com o mesmo tipo de fala e condições que se espera encontrar
durante os testes, nomeadamente em relação às condições e qualidade da voz gravada. O objectivo
é fazer com que este modelo forneça a melhor aproximação a qualquer orador existente, uma vez
que será a partir deste que, por adaptação, os modelos dos oradores serão depois treinados.
Dados os conjuntos de treino do UBM, existem geralmente duas formas que permitem obter o modelo
de misturas Gaussianas final. O mais simples, Figura 5.4, consiste em reunir todos os dados de treino
e treinar o UBM através do algoritmo EM, descrito anteriormente. Os dados de treino devem estar
correctamente balanceados como forma de evitar que o modelo do UBM fique incorrectamente
tendencioso, ou seja, a relação entre homens e mulher, entrevistas no interior e exterior, etc.,
presentes nos dados de treino deve corresponder aquilo que se espera encontrar durante o
reconhecimento.
Figura 5.4: Treino do UBM com todos os dados de treino.
O outro método de treino do UBM consiste em treinar UBMs individuais para cada conjunto de treino,
tal como um para oradores masculinos e outro para oradores femininos, e de seguida combinar os
modelos para formar um só, Figura 5.5. Este método apresenta como vantagem o facto de permitir
usar dados que não estejam correctamente balanceados e controlar a composição final do modelo do
UBM.
Figura 5.5: Treino de UBMs individuais e posterior combinação.
Não existe nenhuma medida objectiva que determine o número de oradores ou a quantidade de
dados necessários para treinar o UBM.
Dados do Conjunto 1
Dados do Conjunto 2
Treino do GMM
Dados do Conjunto 1
1
Dados do Conjunto 2
2
Treino do GMM
Treino do GMM
Combinar Modelos
43
Num sistema GMM-UBM os modelos dos oradores são adaptados a partir do UBM [Reynolds et al.,
2000]. Dada uma sequência de vectores de treino , pertencentes a um orador, o seu
modelo será obtido por adaptação a partir dos parâmetros do UBM por um processo bayesiano ou
máximo à posteriori (MAP) [Gauvain and Lee, 1994].
A ideia básica do método de adaptação é obter o GMM do orador por actualização dos parâmetros já
treinados do UBM através de uma adaptação. Isto permite obter uma maior relação entre o modelo
do orador e o modelo UBM, produzindo também melhores resultados do que modelos treinados
independentemente do UBM [Reynolds, 1997]. O modelo adaptado a partir do UBM torna-se por isso
o modelo final do orador.
A Figura 5.6 mostra dois passos do método de adaptação do GMM do orador a partir do UBM. Os
vectores de treino do orador, representados por “x”, são probabilisticamente mapeados nas misturas
Gaussianas do UBM, Figura 5.6 a). De seguida, na Figura 5.6 b), observa-se que a distribuição dos
vectores de treino “x” e os parâmetros do UBM originam os parâmetros adaptados do modelo do
orador.
Figura 5.6: Método de adaptação de um GMM do orador (adaptado de [Reynolds, 1995] ) a) Modelo
do UBM e características do orador b) GMM do orador obtido por adaptação.
Tal como no método EM, a adaptação encontra-se dividida em dois passos. O primeiro passo
consiste em inicializar o GMM do orador com os parâmetros de cada mistura do UBM. De seguida,
são estimadas as probabilidades dos vectores de treino para cada mistura no modelo, ou seja, a
probabilidade de cada componente , dada por:
(5.8)
De seguida, e são usados para calcular os parâmetros que serão posteriormente usados
no calculo dos peso, média e variância de cada Gaussiana.
X X
X X X
X X X
Dados de treino
do Orador
Modelo do UBM Modelo do Orador
a) b)
44
(5.9)
(5.10)
(5.11)
Finalmente, a adaptação dos parâmetros de cada mistura do modelo orador é realizada, com
recurso aos parâmetros de cada mistura i do UBM e dos parâmetros calculados anteriormente:
(5.12)
(5.13)
(5.14)
Por fim, é calculada novamente a probabilidade de cada componente , pesos, médias e variâncias
de todas as Gaussianas, para os vectores de treino , sendo que o modelo do orador já se encontra
ligeiramente adaptado.
Apesar de ser possível adaptar todos os parâmetros do UBM durante o treino de um modelo orador,
testes mostram que o desempenho do sistema é melhor quando apenas as médias das Gaussianas
do UBM são adaptadas [Reynolds et al., 2000].
O factor de escala é calculado de modo a que o somatório dos pesos das misturas Gaussianas seja
1. O coeficiente de adaptação, , controla o efeito entre cada iteração para cada mistura e define-
se como:
(5.15)
Onde é um factor fixo.
O coeficiente de adaptação permite gerir o nível de adaptação dos parâmetros de uma mistura. Se os
vectores de treino tiverem uma baixa presença numa Gaussiana , então dando menos
importância aos novos parâmetros e realçando os parâmetros antigos, possivelmente melhor
treinados, não sendo por isso registadas adaptações significativas. Por outro lado, se então os
45
vectores de treino têm uma maior probabilidade na Gaussiana, causando que exista uma maior
adaptação dos parâmetros. Por este motivo, nem todos os parâmetros do UBM são adaptados ao
modelo orador.
Um sistema de verificação do orador deve determinar, através de uma decisão binária, se um
segmento de fala pertence ou não a um determinado orador, cujo GMM tenha sido anteriormente
determinado. A escolha, considerando os vectores de características , dever ser feita
entre duas hipóteses, e , onde:
pertence ao orador
não pertence ao orador (5.16)
Para que o sistema decida entre e , torna-se necessário criar um conjunto de modelos
impostores, designado por background, como forma de calcular a razão de verosimilhança entre
ambas as hipóteses. A razão de verosimilhança, para um conjunto de características , entre um
modelo orador a testar e um modelo impostor , é dada por:
(5.17)
A razão de verosimilhança no domínio logaritmo é:
(5.18)
O valor de é comparado com um limiar de decisão do sistema como forma de atribuir ou não o
segmento ao orador. Caso , o segmento é aceite e atribuído ao orador, caso o
segmento é rejeitado e por isso não é atribuído ao orador. A razão de verosimilhança determina o
quão melhor o orador testado se assemelha ao modelo do orador verdadeiro quando comparado com
modelo impostor.
A verosimilhança entre as características extraídas e o GMM de um orador é calculada através de:
(5.19)
Onde é uma sequência de vectores de características e serve para normalizar a
verosimilhança de acordo com o número de vectores de características extraídos. A verosimilhança
obtida pelos modelos impostores é gerada a partir de um conjunto de modelos impostores,
denominado conjunto de background e do qual não faz parte o orador a testar. Este conjunto de
modelos impostores pode ser constituído de duas formas distintas:
46
Através da utilização de GMMs impostores, seleccionados de acordo com certas regras
como, por exemplo, o tempo de treino do modelo ou a forma como e onde foram recolhidos
os segmentos áudios usados para treino dos respectivos GMM. O diagrama de blocos deste
sistema encontra-se representado na Figura 5.7.
Supondo um conjunto de background com impostores e respectivos modelos , a
verosimilhança para os modelos impostores é calculada através de:
(5.20)
O factor é utilizado como forma de normalizar a verosimilhança de acordo com o número
de modelos impostores utilizados em background.
Figura 5.7: Sistema de reconhecimento com K modelos impostores.
Através da utilização de vários oradores para gerar um único GMM. Desta forma, são usadas
as características de diversos oradores para criar um único modelo. Este modelo,
apresentado na Figura 5.8, é designado por UBM.
Figura 5.8: Sistema de reconhecimento com o UBM como único modelo impostor.
Modelo do
Orador
Modelo Universal
de Background
+
-
Modelo
Orador
Modelo
Impostor 1
Modelo
Impostor K
.
.
.
+
+
+
+
-
47
No entanto, a verosimilhança logarítmica pode ainda apresentar um valor mais correcto caso seja
normalizada. Este processo irá tornar o limiar de decisão do sistema mais confiável devido à
diminuição de variações existentes, ou seja, a verosimilhança irá produzir um resultado mais estável
em relação às características do orador e será menos sensível a outro tipo de variações, como a
duração do segmento de fala, qualidade do som, ruído ambiente, etc.
5.3. Propriedades do SVM-GSV
Os Support Vector Machines (SVMs) têm sido usados em diversas aplicações de reconhecimento de
padrões e tarefas de aprendizagem. Estes são poderosos classificadores capazes de classificar
dados numa de duas classes. São por isso uma ferramenta robusta que se adapta na perfeição ao
objectivo da verificação do orador, obtendo ainda um desempenho superior quando combinado com o
classificador GMM [Campbell et al., 2006b].
No reconhecimento do orador, através do classificador SVM [Cristianini and Shawe-Taylor, 2000],
uma classe é definida com um único vector de treino de um orador (exemplo positivo definido como
“+1”) enquanto a outra classe é formada por vectores de treino de outros oradores (exemplos
negativos definidos como “-1”). Através da indicação a que classe pertence cada vector, a função do
classificador SVM é encontrar um hiperplano com uma margem maximizada que separe ambas as
classes, possibilitando o processo de classificação. O conceito geral referente ao treino de um
classificador é apresentado de forma simplificada na Figura 5.9. Os vectores de treino, ,
possuem características, sendo uma representação do orador . A classe , em que
, representa a classe a que o orador pertence. Através dos exemplos de dados e das
respectivas classes a que pertencem, um classificador é treinado de forma a separar as classes
indicadas.
Seja um conjunto de vectores com dados de treino:
(5.21)
Onde define a classe a que pertence o vector de características e . A função de um
classificador SVM é encontrar um hiperplano que divida os dados positivos (etiquetados como “+1”)
dos dados negativos (etiquetados como “-1”) através de um processo de optimização. Para tal, o
conjunto de dados é mapeado no espaço de entrada, sendo o vector classificado numa das
classes de acordo com o valor de , como ilustra a Figura 5.10.
48
Figura 5.9: Conceito geral do treino de um classificador.
Figura 5.10: Dados de treino separados por um hiperplano de margem máxima.
De seguida, o classificador SVM procura maximizar a margem existente entre as duas classes
através da utilização dos multiplicadores de Lagrange . Após a minimização em ordem a , como
forma de maximizar a margem de separação dos dados, este apresenta o valor:
(5.22)
Classe
Dados
Características
Classificador
Treino
Vectores de Suporte
Classe +1 Classe -1
49
Sendo a equação de classificação dada por:
(5.23)
Onde é 0, excepto quando é um vector de suporte obtido por um processo de optimização
[Collobert and Bengio, 2001]. Isto demonstra que apenas os pontos na fronteira das duas classes
(vectores de suporte) é que têm influência na definição da fronteira de decisão.
Os vectores de suporte encontram-se sobre a fronteira da classe a que pertencem e obedecem a:
para
para (5.24)
Os pontos que se encontram equidistantes dos vectores de suporte satisfazem a relação:
(5.25)
Desta equação podemos concluir que a margem do hiperplano separador é .
A classificação numa classe é considerada correcta caso se verifique:
(5.26)
Um problema comum encontrado no reconhecimento com classificador SVM deve-se ao facto de na
prática existirem normalmente dados de classes sobrepostos, não sendo possível uma separação
correcta. Neste caso, os classificadores lineares procuram uma solução que minimize o erro,
permitindo que alguns dados sejam incorrectamente classificados. Neste caso, é necessário
minimizar:
(5.27)
Em que é considerada uma variável de folga e um valor de regularização que permite atribuir um
peso aos erros de treino. Um valor de significa que o vector encontra-se correctamente
classificado, significa que o vector encontra-se sobre a margem, enquanto que se o
vector encontra-se mal classificado. O valor de define um limite dos erros presentes no
classificador. De notar ainda que caso não existam dados mal classificados, a equação a minimizar
resume-se a
, igual a quando todos os dados das classes são linearmente separáveis.
50
)
Os classificadores SVM lineares são eficientes quando os conjuntos de dados são linearmente
separáveis ou enquanto o peso dos erros de classificação for aceitável. Quando não é possível
separar de forma satisfatória os dados de treino das classes a solução passa pelo classificador SVM
mapear os vectores de entrada num espaço de alta dimensão, através de funções não-lineares, de
forma a estes dados serem linearmente separáveis. De seguida, é calculado um hiperplano de forma
a maximizar a margem de separação entre os dados das classes, que no espaço de entrada pode ser
não-linear. Os novos dados podem ser classificados no espaço de entrada. Um exemplo de um
mapeamento não linear encontra-se na Figura 5.11.
Figura 5.11: Mapeamento não linear realizado pelo classificador SVM.
A nova dimensão resultante do mapeamento dos vectores de entrada num espaço de alta dimensão
pode ser de ordem muito elevada. Nesse caso, a necessidade de processamento será maior devido
ao aumento da dimensão dos vectores de treino.
Uma solução passa pelo uso do Kernel Trick. A função kernel foi concebida de forma a poder
ser expressa como , onde é o mapeamento do espaço de entrada para o
espaço de alta dimensão. A função de kernel permite substituir o produto interno de dois vectores,
ficando a equação de classificação com a seguinte forma:
(5.28)
Espaço de Entrada Espaço de Características
Espaço de Entrada Espaço de Entrada
51
Este hiperplano permite que a classificação dos dados continue a ser realizada no espaço original,
geralmente através de uma função não linear, o que se traduz numa maior eficiência computacional
devido a trabalhar num espaço de dimensão inferior. Ou seja, o uso do kernel permite que os dados
de treino sejam separados linearmente num espaço de dimensão superior através de um hiperplano,
mas a classificação será feita no espaço de entrada de dimensão inferior.
Recentemente a comunidade científica descobriu uma forma robusta de representar as
características de um orador num único vector que pode ser usado num classificador SVM. Este
vector, denominado por supervector Gaussiano, é construído com recurso aos GMMs. Assim, uma
nova forma de utilizar o classificador SVM é combinada com os GMMs, dando origem ao classificador
Support Vector Machine - Gaussian Supervector (SVM-GSV) [Campbell et al., 2006b].
Um supervector é o resultado da combinação de vários vectores de dimensão inferior num único
vector, como forma de criar um vector de maior dimensão. Ao juntar os vectores das médias, , com
dimensão de um GMM com misturas Gaussianas, o resultado será um único supervector de
dimensão . Um supervector torna-se assim uma representação das características de um
determinado segmento que contém fala. É importante que os diferentes supervectores de dimensão
sejam criados a partir da adaptação MAP do mesmo UBM. Desta forma, os diferentes
supervectores podem ser mais facilmente comparados. O conceito da formação de um supervector é
apresentado na Figura 5.12.
Estes supervectores podem ser usados no classificador SVM como forma de modelar as
características de um orador a partir do respectivo GMM [Campbell et al., 2006b].
Figura 5.12: Conceito de um supervector GMM (adaptado de [Campbell et al., 2006b]).
Considerando um UBM com:
(5.29)
Adaptação
do Modelo
UBM
Extracção de
Características
52
Onde é o peso de cada mistura, é uma distribuição Gaussiana e e são a média e a
covariância das Gaussianas, respectivamente. Dado um segmento de treino, as características
extraídas são usadas para treinar um GMM através de uma adaptação MAP apenas das médias
do UBM. Do GMM adaptado, são extraídas e concatenadas todas as médias das Gaussianas,
formando assim um supervector.
Supondo que temos um UBM, definido por e os dois modelos adaptados, a e b,
representados por e
, respectivamente. O Kernel, linear no espaço de
entrada, é baseado na divergência de Kullback-Leibler (KL) entre dois supervectores Gaussianos, e é
representado por:
(5.30)
Do ponto de vista de implementação, isto significa que todas as médias das Gaussianas de cada
GMM necessitam de ser normalizadas com
antes de colocadas num classificador SVM
para treino. Apesar de apenas os vectores das médias do GMM fazerem parte do supervector, a
informação do peso e da variância das Gaussianas está presente na sua normalização. Desta forma,
cada orador terá um supervector criado a partir do respectivo GMM. Para cada segmento de teste
será necessário primeiro obter o GMM por adaptação do UBM e de seguida realizar a normalização
para, por fim, obter-se o respectivo supervector normalizado.
Um classificador SVM é treinado para cada orador dando como exemplo positivo (+1) o supervector
normalizado criado a partir do seu GMM e como exemplos negativos (-1) todos os supervectores
normalizados pertencentes aos modelos impostores de background. Assim, os modelos dos oradores
obtidos através do classificador SVM podem ser compactados como um único modelo supervector.
O resultado do sistema SVM-GSV é obtido através do cálculo do produto interno entre o modelo
orador e o supervector GMM de um segmento de teste de acordo com:
(5.31)
Onde é um supervector Gaussiano normalizado de teste, um supervector modelo normalizado
do orador resultante do treino de um classificador SVM e são as médias das Gaussianas do GMM
do orador. O resultado obtido pode ainda ser melhorado através de uma normalização, onde o
resultado final, , será apurado após uma comparação com os resultados obtidos pelos modelos
impostores de background. O segmento de teste é atribuído a um orador caso o seu resultado
53
normalizado seja superior a um limiar de decisão do sistema. A Figura 5.13 apresenta a estrutura
de um sistema SVM-GSV.
Figura 5.13: Estrutura de um sistema SVM-GSV.
A tarefa de verificação do orador com o classificador SVM-GSV é computacionalmente eficiente, uma
vez que todos os modelos dos oradores e dos segmentos de teste podem ser representados por um
vector, sendo o resultado do classificador obtido através de um simples produto interno de vectores.
Extracção de
Características
Adaptação do
Modelo
Classificador SVM
Modelo Orador
Normalização
Sistema GMM-UBM
Supervector
Modelos de Background
Aceita
Rejeita
54
55
Capítulo 6
Capítulo 6: Resultados
56
6.1. Corpora
Nesta secção encontram-se descritos os dados usados para treino, desenvolvimento e teste dos
modelos oradores que fazem parte do sistema de verificação do orador.
As celebridades a identificar pelo sistema, cujos modelos foram treinados, foram seleccionadas de
forma a estarem presentes nos conjuntos de treino, desenvolvimento e teste. Esta escolha foi
possível uma vez que todos os segmentos que contêm fala foram previamente identificados
manualmente por anotadores indicando o orador a quem pertence a voz presente num determinado
segmento.
Principalmente nas reportagens no exterior, alguns segmentos com fala contêm ruídos de fundo e
outros tipos de sons (como risos, vento, vozes, etc.). Estes segmentos não são excluídos da fase de
treino, desenvolvimento ou teste desde que a voz do orador seja perceptível.
6.1.1. Treino
O corpus Train, com aproximadamente 47 horas de programas noticiosos recolhidos durante o ano
de 2000, foi o conjunto usado para treinar o Universal Background Model (UBM) e os modelos dos
oradores e dos impostores.
O UBM foi treinado a partir de todo o conjunto de treino. Este modelo representa todos os oradores e
será usado para gerar os modelos dos oradores e dos impostores.
A informação acerca de quais as celebridades seleccionadas e o respectivo tempo de treino
encontra-se na Tabela 6.1.
Os modelos dos oradores seleccionados apresentam uma média de aproximadamente 8 minutos de
tempo de treino. Verifica-se que existe uma grande diferença entre o tempo de treino de cada modelo
orador que pode chegar aos 26 minutos, caso do modelo do Paulo Portas, ou usar apenas 1 minuto
de treino, caso do modelo do José Saramago. A variância existente entre os modelos dos oradores
irá permitir verificar a fiabilidade dos métodos desenvolvidos em casos onde existem poucos dados
de treino e em casos onde existe muito material de treino.
57
Modelo Tempo Útil (s)
Almeida Santos 86,04
António Guterres 1415,79
Durão Barroso 1070,33
Ferreira do Amaral 514,08
Freitas do Amaral 107,65
Jaime Gama 151,31
João Vale e Azevedo 974,93
Jorge Coelho 371,63
Jorge Sampaio 783,83
José Mourinho 267,51
José Saramago 51,01
José Sócrates 295,07
Mário Soares 88,38
Paulo Portas 1565,93
Santana Lopes 114,51
Xanana Gusmão 168,48
Tabela 6.1: Oradores treinados e respectivo tempo de treino.
De modo a efectuar a normalização dos resultados obtidos pelos modelos oradores foram ainda
treinados mais 200 modelos impostores. Estes oradores foram escolhidos com base no seu tempo de
treino, apresentando uma média de aproximadamente 8 minutos.
6.1.2. Desenvolvimento
Do corpus de desenvolvimento fazem parte os subconjuntos Devel e Pilot com programas noticiosos
recolhidos no ano 2000. Este conjunto é necessário para realizar a normalização de resultados de
cada modelo orador.
Foram por isso escolhidos do conjunto de desenvolvimento 100 segmentos pertencentes a 100
impostores diferentes, com uma média de 15,56 segundos, que serão testados contra os modelos
dos oradores a identificar pelo sistema de reconhecimento.
6.1.3. Teste
O conjunto de teste é composto por 5 subconjuntos (Eval, Jeval, 11march, Rtp07 e Rtp08) e dele
fazem parte 44 programas noticiosos recolhidos entre os anos de 2001 e 2008. É neste corpus, com
segmentos anotados manualmente por anotadores, que é avaliado o desempenho do sistema de
verificação do orador.
58
Nesta fase, os segmentos consecutivos do mesmo orador que possuem um intervalo de silêncio
inferior a um segundo foram concatenados de modo a aumentar o tamanho do segmento de teste.
Optou-se também por ignorar os segmentos com duração total inferior a 3 segundos, devido a estes
não produzirem resultados aceitáveis.
Desta forma, em aproximadamente 32 horas de tempo útil, existem 6407 segmentos de impostores,
com uma média de 17,43 segundos, e 180 segmentos de oradores, denominados por segmentos
autênticos, com uma média de 20,34 segundos. A Tabela 6.2 apresenta o número de segmentos
pertencentes a cada orador e a respectiva duração média.
Orador Tempo (s) Segmentos Duração Média (s)
Almeida Santos 37,61 3 12,54
António Guterres 321,98 13 24,77
Durão Barroso 568,63 27 21,06
Ferreira do Amaral 133,75 11 12,16
Freitas do Amaral 11,85 1 11,85
Jaime Gama 217,29 7 31,04
João Vale e Azevedo 95,07 7 13,58
Jorge Coelho 51,07 3 17,02
Jorge Sampaio 442,78 22 20,13
José Mourinho 198,53 7 28,36
José Saramago 94,02 4 23,51
José Sócrates 625,91 35 17,88
Mário Soares 137,02 3 45,67
Paulo Portas 363,75 21 17,32
Santana Lopes 248,76 15 16,58
Xanana Gusmão 11,92 1 11,92
Total 3559,94 180 20,34
Tabela 6.2: Número e duração média dos segmentos dos oradores.
Cada modelo de orador é testado com os seus próprios segmentos e com os 6407 segmentos
pertencentes aos impostores.
6.2. Avaliação do sistema GMM-UBM
6.2.1. Descrição
O classificador GMM-UBM foi o primeiro sistema a ser implementado e testado no reconhecimento do
orador em programas noticiosos.
59
O UBM foi inicializado através do algoritmo VQ e treinado com o algoritmo EM a partir de
características extraídas de todo o conjunto de treino, com um total de 47 horas. As características
usadas no treino dos 16 modelos oradores a identificar pelo sistema foram extraídas de segmentos
com uma duração total indicada na Tabela 6.1. Já cada modelo impostor foi, em média, treinado a
partir de características extraídas de 8 minutos de fala. Os 16 modelos das celebridades a identificar
pelo sistema, e os 200 modelos impostores, necessários para a normalização de resultados, foram
gerados apenas por adaptação MAP das médias das misturas Gaussianas do UBM. Assim, o peso e
as variâncias que caracterizam cada mistura Gaussiana de um modelo, orador ou impostor, vão ser
iguais às do UBM. Tanto o UBM como os modelos dos oradores e dos impostores são constituídos
por 1024 misturas Gaussianas e apenas pelas diagonais das matrizes de covariância.
As características extraídas de um segmento de fala consistem em 19 coeficientes PLP e 1 de
energia a cada janela com duração de 20ms e espaçadas entre si em 10ms. Foram também
calculadas as respectivas derivadas de primeira e segunda ordem (delta e delta-delta), perfazendo
assim um vector de dimensão 60. Um detector de fala foi o responsável por excluir do treino e do
teste todas as zonas de um segmento que não contêm fala.
Para avaliar o desempenho do sistema GMM-UBM, os resultados obtidos pelos modelos oradores
são testados com segmentos do conjunto de teste e normalizados através de uma normalização ZT.
Assim, foi necessário, antes da fase de teste, testar com 100 segmentos impostores do conjunto de
desenvolvimento os modelos oradores e impostores. Os valores obtidos permitem calcular na fase de
teste os resultados normalizados obtidos por cada modelo orador.
Para verificar o desempenho do sistema, são utilizados do conjunto de teste 6407 segmentos
impostores, com média de 17,43 segundos, e 180 segmentos autênticos, descritos na Tabela 6.2.
Por fim, o limiar do sistema de reconhecimento do orador foi escolhido com base no EER obtido pelo
sistema GMM-UBM.
6.2.2. Normalização
Os resultados obtidos pelo classificador GMM-UBM necessitam de ser normalizados de modo a
minimizar as diferenças existentes entre as condições de treino e de teste dos modelos oradores. São
também uma forma de lidar com as diferenças existentes entre o tempo de treino de cada orador e
com a diferença entre os tamanhos dos segmentos a testar.
Neste trabalho aplicou-se uma normalização ZT aos resultados obtidos por cada orador a identificar
pelo sistema GMM-UBM. Como forma de implementar esta normalização foram treinados 200
60
modelos impostores a partir do conjunto de treino e seleccionados 100 segmentos impostores do
conjunto de desenvolvimento.
Num primeiro passo, realizado antes da fase de teste, foi calculada a média e o desvio padrão
dos resultados obtidos pelos 200 modelos impostores quando testados com os
100 segmentos impostores. De seguida, os resultados , obtidos pelo modelo orador
quando testado com os mesmos 100 segmentos impostores, foram normalizados com a média e
o desvio padrão . Por fim, a média
e o desvio padrão , obteve-se a partir dos resultados
anteriormente calculados.
O valor da média e do desvio padrão
são indicadores da diferença existente entre os
resultados do modelo orador e os resultados dos modelos impostores. Quanto menores forem estes
valores, menor é a diferença entre os resultados obtidos por todos os modelos quando testados por
um segmento impostor. Caso os valores sejam altos, a adaptação dos resultados do modelo orador
será maior, indicando que o modelo apresenta geralmente resultados afastados quando comparado
com os resultados dos modelos impostores.
Os valores da média e do desvio padrão
de cada modelo orador obtidos na normalização de
resultados do classificador GMM-UBM são apresentados na Tabela 6.3.
Para este sistema, a média mais alta foi obtida pelo modelo do José Saramago e o desvio padrão
mais alto pertence ao modelo do Paulo Portas. De notar que o modelo do José Saramago é o
modelo com o menor tempo de treino, enquanto o modelo do Paulo Portas é o modelo com maior
tempo de treino do sistema.
O valor médio da média e do desvio padrão
para os oito modelos oradores com menor tempo
de treino é de 0,364 e 0,513, respectivamente. Para os oito modelos com maior tempo de treino, o
valor médio da média e do desvio padrão
é de 0,162 e 0,982, respectivamente. Isto significa
que os modelos com menor tempo de treino têm uma maior dificuldade em classificar segmentos
impostores, enquanto os modelos com mais tempo de treino apresentam uma maior variação dos
seus resultados.
Durante a fase de teste do sistema de reconhecimento GMM-UBM a normalização de resultados é
efectuada através da média e do desvio padrão
obtido pelo modelo orador .
61
Orador Média Desvio Padrão
Almeida Santos 0,244 0,659
António Guterres 0,240 1,363
Durão Barroso 0,392 0,944
Ferreira do Amaral 0,114 0,857
Freitas do Amaral 0,501 0,528
Jaime Gama 0,466 0,558
João Vale e Azevedo 0,190 1,102
Jorge Coelho 0,302 0,649
Jorge Sampaio -0,171 0,931
José Mourinho 0,331 0,549
José Saramago 1,096 0,431
José Sócrates 0,188 0,678
Mário Soares -0,012 0,366
Paulo Portas 0,042 1,330
Santana Lopes 0,008 0,518
Xanana Gusmão 0,279 0,497
Média 0,236 0,748
Tabela 6.3: Média e desvio padrão de cada modelo orador para o sistema GMM-UBM.
6.2.3. Resultados
De forma a verificar o desempenho do sistema GMM-UBM cada modelo orador é testado contra 6407
segmentos impostores e contra os respectivos segmentos autênticos. Os resultados normalizados
obtidos por todos os modelos oradores apresentam duas distribuições diferentes, dependendo se o
segmento testado é impostor ou autêntico. Caso as duas distribuições não tenham resultados
sobrepostos o sistema terá um desempenho perfeito, sendo capaz de separar correctamente, através
de um determinado limiar de decisão, os segmentos autênticos dos segmentos impostores. O facto
de as distribuições apresentarem uma área sobreposta, significa que o sistema terá erros na decisão,
ocorrendo por isso falsos positivos e falsos negativos.
As distribuições dos resultados normalizados obtidos pelos modelos oradores a identificar pelo
sistema GMM-UBM encontram-se ilustrados na Figura 6.1. A distribuição de resultados obtida pelos
modelos oradores quando testados com segmentos autênticos e segmentos impostores encontra-se
representada a vermelho e azul, respectivamente. Um resultado mais elevado significa que existe
uma maior verosimilhança entre o segmento de teste e o modelo do orador. Por outro lado, se o
segmento testado obtém um resultado baixo, então existe uma menor probabilidade de o mesmo ter
sido proferido pelo orador, já que revela uma menor semelhança.
62
Figura 6.1: Distribuição de resultados dos modelos oradores quando testados com segmentos
autênticos (vermelho) e segmentos impostores (azul).
Para este sistema, os resultados dos segmentos impostores, representados na Figura 6.1 a azul,
apresentam uma média de -0,036 e um desvio padrão de 1,039. Estes valores encontram-se de
acordo com os valores esperados (média de 0 e desvio padrão de 1) para segmentos impostores
quando obtidos através de uma normalização ZT. A distribuição de resultados dos segmentos
autênticos, representados na Figura 6.1 a vermelho, possui uma média de 2,920 e um desvio padrão
de 1,475.
Verifica-se também que 17% dos resultados obtidos por segmentos impostores são superiores a 1 e
apenas 2% dos resultados são superiores a 2. Por outro lado, 6% dos resultados obtidos por
segmentos autênticos são inferiores a 1, enquanto 19% dos resultados se situam num valor inferior a
2. Caso o limiar do sistema seja escolhido com base no EER, ou seja, na percentagem de falsos
positivos que iguala a percentagem de falsos negativos, então o limiar do sistema deve situar-se no
intervalo entre 1 e 2.
A distribuição de resultados dos segmentos impostores da Figura 6.1 é composta pelos resultados
obtidos por cada modelo orador quando testado contra 6407 segmentos impostores. A Tabela 6.4
apresenta a média e o desvio padrão dos resultados normalizados obtidos por cada modelo orador.
Comparando o valor da média e do desvio padrão das distribuições de resultados dos segmentos
impostores apresentados na Tabela 6.4 com os valores da Tabela 6.3, verifica-se que a normalização
permitiu uniformizar o valor da média e do desvio padrão obtido por todos os modelos oradores.
0
5
10
15
20
25
30
35
40
45
50
-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Fre
quência
Rela
tiva (em
%)
Resultado
Impostores
Oradores
63
Orador Média Desvio Padrão
Almeida Santos 0,04 1,01
António Guterres -0,05 1,06
Durão Barroso -0,16 1,05
Ferreira do Amaral 0,01 1,11
Freitas do Amaral 0,04 0,99
Jaime Gama 0,03 0,97
João Vale e Azevedo -0,03 0,95
Jorge Coelho -0,11 0,88
Jorge Sampaio 0,05 1,12
José Mourinho -0,16 1,05
José Saramago 0,04 1,13
José Sócrates -0,11 0,90
Mário Soares 0,07 1,14
Paulo Portas -0,01 1,09
Santana Lopes -0,13 1,03
Xanana Gusmão -0,08 1,06
Tabela 6.4: Média e desvio padrão dos resultados dos segmentos impostores.
Para se obter a distribuição de resultados autênticos, cada modelo de orador é testado com os seus
respectivos segmentos. A Tabela 6.5 mostra o número de segmentos autênticos testados por cada
modelo orador e a média e o desvio padrão dos resultados normalizados obtidos.
Orador Segmentos Média Desvio Padrão
Almeida Santos 3 0,17 0,33
António Guterres 13 2,30 0,37
Durão Barroso 27 3,42 0,98
Ferreira do Amaral 11 2,65 0,88
Freitas do Amaral 1 0,26 0,00
Jaime Gama 7 2,57 1,04
João Vale e Azevedo 7 2,81 0,41
Jorge Coelho 3 3,09 0,66
Jorge Sampaio 22 2,99 0,46
José Mourinho 7 3,71 2,15
José Saramago 4 -0,17 0,34
José Sócrates 35 2,38 0,72
Mário Soares 3 1,95 2,78
Paulo Portas 21 2,66 0,44
Santana Lopes 15 5,78 1,94
Xanana Gusmão 1 3,67 0,00
Tabela 6.5: Média e desvio padrão dos resultados dos segmentos autênticos.
Observa-se que os resultados mais baixos foram obtidos pelos modelos com menor tempo de treino,
nomeadamente os modelos do José Saramago, Almeida Santos, Freitas do Amaral e Mário Soares.
64
São também estes os únicos modelos responsáveis por todos os resultados obtidos por segmentos
autênticos inferiores a 1 e apresentados na Figura 6.1.
Como forma de verificar se existe uma correlação entre o resultado obtido por um segmento e a sua
duração, são analisadas as variações existentes nos resultados obtidos pelos modelos oradores
quando testados com segmentos de diferentes durações. A Tabela 6.6 mostra que os resultados
obtidos por segmentos impostores não têm qualquer relação com a duração do segmento testado, já
que o valor da média é semelhante. No entanto, para um segmento autêntico o resultado obtido é
geralmente proporcional à sua duração, sendo atribuídos aos segmentos maiores um melhor
resultado, como mostra a Tabela 6.7.
Duração (s) Segmentos Média
3 ≤ t ≤ 5 683 -0,072
5 < t ≤ 10 1634 -0,096
10 < t ≤ 15 1439 -0,020
15 < t ≤ 20 1004 -0,003
20 < t ≤ 25 554 0,039
25 < t ≤ 30 341 0,022
30 < t ≤ 60 563 -0,015
t > 60 189 -0,015
Tabela 6.6: Média dos resultados obtidos em função da duração dos segmentos impostores.
Duração (s) Segmentos Média
3 ≤ t ≤ 5 11 2,765
5 < t ≤ 10 35 2,603
10 < t ≤ 15 29 2,722
15 < t ≤ 20 42 3,008
20 < t ≤ 25 21 3,057
25 < t ≤ 30 10 3,761
30 < t ≤ 60 27 3,049
t > 60 5 2,930
Tabela 6.7: Média dos resultados obtidos em função da duração dos segmentos autênticos.
O desempenho do sistema GMM-UBM pode ser avaliado em relação à taxa de falsos positivos e de
falsos negativos através da curva DET. A curva DET mostra a relação existente entre a percentagem
de falsos positivos e a percentagem de falsos negativos enquanto se varia o limiar de decisão do
sistema. A escolha de um limiar do sistema elevado aumenta o número de falsos negativos e diminui
o número de falsos positivos, enquanto um limiar baixo permite que existam mais falsos positivos e
menos falsos negativos. A percentagem de falsos positivos que iguala a percentagem de falsos
negativos denomina-se por EER. O limiar de decisão do sistema pode também ser escolhido
atribuindo diferentes pesos aos dois tipos de erros que podem ocorrer. Neste caso é calculado o
65
DCFmin, que corresponde ao ponto de funcionamento do sistema com um menor custo. A Figura 6.2
apresenta a curva DET do sistema GMM-UBM.
Figura 6.2: Curva DET do sistema GMM-UBM.
O sistema GMM-UBM apresenta um EER de 9,5%. Este valor é obtido quando o limiar do sistema
tem um valor de 1,306, ou seja, o número de resultados obtidos por segmentos autênticos abaixo
deste limiar é igual ao número de resultados obtidos por segmentos impostores superiores a este
limiar. De facto, tal é comprovado na Figura 6.1 onde são apresentadas as duas distribuições de
resultados.
Para um limiar do sistema de 2,198, o sistema apresenta um DCFmin de 0,034. Neste caso, a
percentagem de falsos positivos é 1,1% enquanto a percentagem de falsos negativos é 23,9%.
Falsos Positivos (em %)
Fals
os n
egativos (
em
%)
66
6.3. Avaliação do sistema SVM-GSV
6.3.1. Descrição
O segundo classificador a ser testado foi o SVM-GSV. A avaliação do desempenho deste sistema é
realizada recorrendo aos mesmos conjuntos de treino, desenvolvimento e teste já utilizados para o
sistema GMM-UBM.
Os 16 modelos oradores e os 200 modelos impostores obtidos no sistema GMM-UBM por adaptação
MAP das médias das misturas Gaussianas do UBM foram usados para criar os respectivos
supervectores normalizados, necessários para gerar os modelos dos oradores no classificador SVM-
GSV.
O supervector de cada orador é constituído pelas médias das misturas Gaussianas do modelo obtido
no classificador GMM-UBM. Como cada modelo é definido por 1024 misturas Gaussianas, cada uma
com média de dimensão 60, então cada supervector tem uma dimensão de 61440. Para treinar o
classificador SVM-GSV, e gerar um modelo orador ou impostor, é utilizado um exemplo positivo, o
supervector normalizado do modelo a treinar, e 215 exemplos negativos, os supervectores
normalizados pertencentes aos restantes modelos.
Perante um segmento de teste, o sistema SVM-GSV necessita primeiro de criar o respectivo
supervector. Para isso, começa por extrair os vectores de características de dimensão 60 do
segmento. Estes são usados para criar um modelo por adaptação MAP das médias das misturas
Gaussianas do UBM. Neste caso, o método usado é igual ao adoptado no classificador GMM-UBM
para treino dos modelos oradores e impostores. Do modelo criado, são extraídas as médias das
misturas Gaussianas e é realizada a normalização do supervector.
O resultado obtido por um modelo, quando testado com um segmento, resulta do cálculo do produto
interno entre o modelo orador e o supervector normalizado desse segmento.
A normalização dos resultados foi efectuada através de uma normalização ZT. Foram utilizados os
mesmos 100 segmentos impostores usados no sistema GMM-UBM para obter a média e o desvio
padrão dos resultados obtidos por cada modelo orador. Estes valores permitem calcular os resultados
normalizados dos modelos oradores durante a fase de teste.
Na fase de teste, cada modelo orador do sistema SVM-GSV é testado contra os mesmos segmentos
usados para verificar o desempenho do sistema GMM-UBM. Por isso, foram novamente utilizados os
4607 segmentos impostores e os 180 segmentos autênticos, descritos na Tabela 6.2, presentes no
conjunto de teste.
67
O desempenho do sistema SVM-GSM é avaliado de acordo com o valor do EER e do DCFmin, sendo
o limiar de decisão do sistema escolhido com base no EER obtido.
6.3.2. Normalização
Os resultados do classificador SVM-GSV foram normalizados através da normalização ZT, tal como
no classificador GMM-UBM.
O processo utilizado foi igual ao adoptado, antes da fase de teste, no classificador GMM-UBM, pelo
que cada modelo orador foi testado contra 100 segmentos impostores e estes resultados
normalizados com a média e o desvio padrão dos resultados obtidos pelos 200 modelos impostores.
No classificador SVM-GSV, a normalização dos resultados do modelo orador permitiu calcular os
valores da média e do desvio padrão
apresentados na Tabela 6.8.
Orador Média Desvio Padrão
Almeida Santos 1,027 0,443
António Guterres 0,298 0,497
Durão Barroso 0,225 0,441
Ferreira do Amaral -0,059 0,465
Freitas do Amaral 0,689 0,590
Jaime Gama 0,808 0,591
João Vale e Azevedo -0,386 0,571
Jorge Coelho 0,177 0,436
Jorge Sampaio -0,579 0,598
José Mourinho -0,119 0,615
José Saramago 1,099 0,630
José Sócrates 0,100 0,396
Mário Soares 0,455 0,396
Paulo Portas 0,215 0,439
Santana Lopes 0,508 0,594
Xanana Gusmão 0,542 0,572
Média 0,313 0,517
Tabela 6.8: Média e desvio padrão de cada modelo orador para o sistema SVM-GSV.
Assim como no classificador GMM-UBM, o modelo com a média mais elevada foi o modelo do
José Saramago. Em relação ao desvio padrão , neste sistema todos os oradores apresentaram
um valor idêntico, muito diferente do obtido no classificador GMM-UBM.
Repetindo o cálculo do valor médio da média e do desvio padrão
para os oitos modelos com
menor tempo de treino, verifica-se que estes apresentam um valor de 0,626 e 0,554,
68
respectivamente. Os restantes modelos oradores, com maior tempo de treino, apresentam um valor
médio da média e do desvio padrão
de -0,001 e 0,480, respectivamente.
A média e o desvio padrão
da distribuição de resultados do modelo orador será usada
durante o processo de teste do sistema SVM-GSV.
6.3.3. Resultados
Os testes efectuados para avaliar o desempenho do sistema SVM-GSV têm como principal objectivo
a comparação com o sistema GMM-UBM. Por este motivo, os modelos dos oradores treinados são
confrontados exactamente com os mesmos 6407 segmentos impostores e com os respectivos
segmentos autênticos já anteriormente utilizados para verificar o desempenho do sistema GMM-UBM.
Cada modelo orador começou por ser testado contra os 6407 segmentos impostores sendo os
resultados normalizados de acordo com o valor da média e o desvio padrão dos resultados obtidos
pelos 200 modelos impostores usados como modelo de background. Os resultados finais obtidos pelo
modelo orador resultam da normalização realizada através dos valores da Tabela 6.8. De seguida, o
mesmo procedimento foi repetido para os segmentos autênticos proferidos pelos oradores. Os
resultados obtidos por todos os modelos oradores permitem obter as distribuições de resultados da
Figura 6.3.
Figura 6.3: Distribuição de resultados dos modelos oradores quando testados com segmentos
autênticos (vermelho) e segmentos impostores (azul).
0
5
10
15
20
25
30
35
40
45
50
-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Fre
quência
Rela
tiva (em
%)
Resultado
Impostores
Oradores
69
A distribuição de resultados para segmentos impostores, representada na Figura 6.3 a azul,
apresenta uma média de -0,088 e um desvio padrão de 1,004. Estes valores, tal como no sistema
GMM-UBM, encontram-se dentro dos valores esperados. Já os resultados obtidos pelos segmentos
autênticos, representados na Figura 6.3 a vermelho, apresentam uma distribuição com média de
4,306 e desvio padrão de 2,392.
Através da análise da Figura 6.3, verifica-se que de modo a classificar um segmento como impostor
ou como autêntico, o limiar do sistema deve-se situar entre 0 e 3. Um limiar que se situe neste
intervalo terá de igualar a taxa de falsos positivos com a taxa de falsos negativos. De facto, a
percentagem de segmentos impostores classificados acima de 1 é de 12% e superior a 2 é de 3%,
enquanto a percentagem de segmentos autênticos inferiores a 2 é de 17% e classificados abaixo de 1
é de 7%. Logo, como forma de igualar as taxas dos dois tipos de erros, o limiar do sistema estará
situado entre 1 e 2.
A média e o desvio padrão dos resultados normalizados obtidos por cada modelo orador quando
testado contra 6407 segmentos impostores encontra-se na Tabela 6.9.
Orador Média Desvio Padrão
Almeida Santos 0,22 1,03
António Guterres -0,06 1,00
Durão Barroso -0,25 0,97
Ferreira do Amaral -0,15 1,00
Freitas do Amaral 0,02 0,97
Jaime Gama 0,09 0,99
João Vale e Azevedo -0,09 0,96
Jorge Coelho -0,17 0,99
Jorge Sampaio -0,28 1,10
José Mourinho -0,21 0,99
José Saramago -0,03 0,92
José Sócrates -0,25 0,98
Mário Soares -0,10 1,10
Paulo Portas 0,06 0,97
Santana Lopes -0,07 0,99
Xanana Gusmão -0,12 0,94
Tabela 6.9: Média e desvio padrão dos resultados dos segmentos impostores.
Verifica-se novamente que, tal como no sistema GMM-UBM, a normalização de resultados permitiu
reduzir a diferença entre a média e o desvio padrão de todos os oradores verificada na Tabela 6.8.
A Tabela 6.10 apresenta a média e o desvio padrão dos resultados normalizados obtidos pelos
modelos oradores quando testados apenas com segmentos autênticos.
70
Orador Segmentos Média Desvio Padrão
Almeida Santos 3 3,28 1,60
António Guterres 13 5,15 1,97
Durão Barroso 27 5,14 3,00
Ferreira do Amaral 11 3,06 1,81
Freitas do Amaral 1 2,14 0,00
Jaime Gama 7 4,78 0,84
João Vale e Azevedo 7 3,91 1,42
Jorge Coelho 3 3,95 1,46
Jorge Sampaio 22 3,94 2,47
José Mourinho 7 5,72 3,40
José Saramago 4 0,66 0,32
José Sócrates 35 3,61 2,07
Mário Soares 3 2,47 1,31
Paulo Portas 21 4,62 1,88
Santana Lopes 15 5,84 2,33
Xanana Gusmão 1 3,27 0,00
Tabela 6.10: Média e desvio padrão dos resultados dos segmentos impostores.
Tal como no sistema GMM-UBM, os modelos do José Saramago, Freitas do Amaral e Mário Soares
foram os modelos que apresentaram o pior desempenho quando testados com segmentos autênticos.
Para verificar se o desempenho do sistema SVM-GSV é afectado pela duração dos segmentos
testados foram calculadas as médias dos resultados obtidos por segmentos impostores e segmentos
autênticos para diferentes intervalos de tempo. A Tabela 6.11 mostra que a média dos resultados
obtidos é inversamente proporcional à duração dos segmentos impostores, pelo que o sistema é
capaz de classificar melhor os segmentos impostores com maior duração.
Duração (s) Segmentos Média
3 ≤ t ≤ 5 683 0,073
5 < t ≤ 10 1634 0,004
10 < t ≤ 15 1439 -0,076
15 < t ≤ 20 1004 -0,137
20 < t ≤ 25 554 -0,097
25 < t ≤ 30 341 -0,205
30 < t ≤ 60 563 -0,306
t > 60 189 -0,401
Tabela 6.11: Média dos resultados obtidos em função da duração dos segmentos impostores.
As médias dos resultados dos segmentos autênticos em função da sua duração são apresentadas na
Tabela 6.12. Observa-se que para os segmentos com uma maior duração, a média dos resultados
obtidos pelos modelos oradores também aumenta, pelo que um modelo orador tem mais facilidade
em detectar um segmento autêntico quanto maior este for.
71
Intervalo (s) Segmentos Média
3 ≤ t ≤ 5 11 1,656
5 < t ≤ 10 35 2,372
10 < t ≤ 15 29 3,709
15 < t ≤ 20 42 4,578
20 < t ≤ 25 21 5,168
25 < t ≤ 30 10 6,280
30 < t ≤ 60 27 6,113
t > 60 5 7,529
Tabela 6.12: Média dos resultados obtidos em função da duração dos segmentos autênticos.
Na Figura 6.4 é apresentada a curva DET do sistema SVM-GSV a partir da relação existente entre a
taxa de falsos negativos e a taxa de falsos positivos.
Figura 6.4: Curva DET do sistema SVM-GSV.
Quando o limiar de decisão do sistema é 1,262, a taxa de falsos positivos é igual à taxa de falsos
negativos com um valor de 8,3%. Neste caso, qualquer segmento que obtenha um resultado inferior a
1,262 é considerado impostor enquanto um segmento com um resultado superior ao limiar de 1,262 é
considerado autêntico.
Fals
os N
egativos (
em
%)
Falsos Positivos (em %)
72
Quando os dois tipos de erros, falsos positivos e falsos negativos, têm custos diferentes, o sistema
apresenta um DCFmin de 0,033. Esta situação acontece quando a taxa de falsos positivos é 0,7% e a
taxa de falsos negativos é 27%.
6.4. Comparação entre os sistemas GMM-UBM e SVM-GSV
Os testes anteriores foram realizados para verificar o desempenho de ambos os sistemas e de forma
a ser possível uma comparação entre eles. Por este motivo, todos os modelos do sistema, 16
modelos oradores e 200 modelos impostores de background, foram treinados com os mesmos dados
de treino e testados contra os mesmos segmentos.
As Figuras 6.1 e 6.3 permitem concluir que o sistema GMM-UBM apresenta, em comparação com o
sistema SVM-GSV, uma maior dificuldade em classificar segmentos impostores ao apresentar cerca
de 30% dos resultados impostores no intervalo de [-0,5;0,5], contra os 40% do sistema SVM-GSV. No
entanto, para segmentos autênticos, o sistema SVM-GSV dispersa mais os resultados, com cerca de
70% dos resultados a serem classificados no intervalo [2;7] enquanto o sistema GMM-UBM concentra
aproximadamente 70% dos seus resultados no intervalo [1,5;4,5].
No entanto, a maior diferença entre os dois sistemas encontra-se na média dos resultados obtidos
para segmentos com durações diferentes. A comparação entre os resultados médios obtidos pelos
dois sistemas para segmentos impostores encontra-se na Figura 6.5, sendo os resultados
provenientes das Tabelas 6.6 e 6.11. Verifica-se, tal como referido anteriormente, que o sistema
GMM-UBM não mostra qualquer relação entre o resultado médio obtido e a duração dos segmentos
impostores testados, ao contrário do sistema SVM-GSV, que melhora a classificação atribuída quanto
maior for o segmento testado. Para segmentos impostores de menor duração, nomeadamente entre 3
e 5 segundos, o sistema GMM-UBM consegue um melhor desempenho que o sistema SVM-GSV.
Para segmentos impostores superiores a 10 segundos, observa-se que é o sistema SVM-GSV a
obter um melhor resultado médio. Quando testados com segmentos autênticos, ambos os sistemas
apresentam resultados melhores quanto maior for a duração do segmento, sendo essas melhorias
mais notórias para o sistema SVM-GSV. A Figura 6.6, obtida através das Tabelas 6.7 e 6.12, permite
comparar a diferença nos resultados médios obtidos por ambos os sistemas para segmentos
impostores. Para segmentos entre 3 a 5 segundos, o sistema GMM-UBM apresenta novamente
melhores resultados, enquanto para segmentos superiores a 10 segundos é o sistema SVM-GSV que
consegue um melhor desempenho.
73
Figura 6.5: Comparação entre os resultados médios obtidos pelos sistemas GMM-UBM e SVM-GSV
em função da duração dos segmentos impostores.
Figura 6.6: Comparação entre os resultados médios obtidos pelos sistemas GMM-UBM e SVM-GSV
em função da duração dos segmentos autênticos.
De acordo com as Figuras 6.5 e 6.6, torna-se claro que o sistema SVM-GSV apresenta um melhor
desempenho quanto maior for a duração do segmento testado. No entanto, para segmentos mais
pequenos é o sistema GMM-UBM que consegue uma melhor classificação.
-0,5
-0,4
-0,3
-0,2
-0,1
0
0,1
3 - 5 5 - 10 10 - 15 15 - 20 20 - 25 25 - 30 30 - 60 + 60
Res
ult
ado
Mé
dio
Tempo (Segundos)
GMM-UBM
SVM-GSV
0
1
2
3
4
5
6
7
8
3 - 5 5 - 10 10 - 15 15 - 20 20 - 25 25 - 30 30 - 60 + 60
Res
ult
ado
Mé
dio
Tempo (Segundos)
GMM-UBM
SVM-GSV
74
Com base na comparação realizada nas Figuras 6.5 e 6.6, uma forma de melhorar o desempenho do
sistema de reconhecimento do orador consiste em classificar os segmentos de menor duração com o
classificador GMM-UBM e os de maior duração com o classificador SVM-GSV. Assim, recorre-se ao
conjunto de desenvolvimento de forma a encontrar um limite de duração que permita obter melhores
resultados ao combinar os dois sistemas de classificação.
A Tabela 6.13 mostra os resultados normalizados médios obtidos pelos modelos oradores quando
testados contra segmentos autênticos presentes no conjunto de desenvolvimento.
Duração (s) Segmentos GMM-UBM SVM-GSV
3 ≤ t ≤ 4 3 2,748 1,258
4 < t ≤ 5 5 2,535 1,629
5 < t ≤ 6 7 2,858 2,069
6 < t ≤ 7 5 2,437 2,255
7 < t ≤ 8 2 2,074 2,075
8 < t ≤ 9 2 2,878 3,884
9 < t ≤ 10 5 2,696 3,581
Tabela 6.13: Resultados médios dos sistemas GMM-UBM e SVM-GSV para segmentos autênticos.
De acordo com a Tabela 6.13, o sistema SVM-GSV começa a apresentar melhores resultados para
segmentos superiores a 8 segundos de duração. Assim, um segmento de duração inferior a 8
segundos será classificado pelo sistema GMM-UBM, enquanto um segmento superior a 8 segundos
será classificado pelo sistema SVM-GSV.
Desta forma espera-se melhorar o desempenho do sistema de reconhecimento do orador, ao
apresentar um sistema que combina os resultados dos dois classificadores dependendo da duração
do segmento a testar.
6.5. Avaliação do sistema GMM-UBM+SVM-GSV
6.5.1. Descrição
O sistema GMM-UBM+SVM-GSV resulta da combinação dos resultados obtidos pelos classificadores
GMM-UBM e SVM-GSV. Este sistema foi implementado de forma a optimizar os resultados obtidos
pelos dois sistemas, dependendo da duração do segmento de teste.
Como os sistemas GMM-UBM e SVM-GSV apresentam diferentes desempenhos dependendo da
duração dos segmentos de teste, optou-se por classificar os segmentos com uma duração inferior a 8
75
segundos com o sistema GMM-UBM e os segmentos com mais de 8 segundos com o sistema SVM-
GSV. Os sistemas GMM-UBM e SVM-GSV mantêm todas as características anteriormente
implementadas, não sendo efectuadas alterações à forma como são calculados os resultados.
De forma a comparar o desempenho do sistema GMM-UBM+SVM-GSV com os dois sistemas
anteriormente analisados, utilizaram-se os mesmos 6407 segmentos impostores e os 180 segmentos
autênticos do conjunto de teste.
O EER obtido pelo sistema GMM-UBM+SVM-GSV foi novamente a medida de erro usada para
calcular o limiar de decisão do sistema.
6.5.2. Resultados
Os resultados obtidos pelo sistema GMM-UBM+SVM-GSV resultam da combinação de resultados
obtidos pelos dois sistemas. Um segmento com duração inferior a 8 segundos será classificado pelo
sistema GMM-UBM, enquanto um segmento com duração superior será classificado pelo sistema
SVM-GSV. Este processo visa colmatar o fraco desempenho alcançado pelo sistema SVM-GSV
quando testado com segmentos de menor duração.
A Figura 6.7 apresenta a distribuição de resultados obtida pelo sistema GMM-UBM+SVM-GSV.
Figura 6.7: Distribuição de resultados dos modelos oradores quando testados com segmentos
autênticos (vermelho) e segmentos impostores (azul).
0
5
10
15
20
25
30
35
40
45
50
-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Freq
uên
cia
Rel
ativ
a (e
m %
)
Resultado
Impostores
Oradores
76
Verifica-se na Figura 6.7 que a frequência de resultados inferiores a 1 obtidos pelos modelos
oradores quando testados com segmentos autênticos diminuiu quando comparado com as mesmas
distribuições das Figuras 6.1 e 6.3. Por outro lado, a distribuição dos resultados obtidos por
segmentos impostores, representada na Figura 6.7 a azul, apresenta uma maior semelhança com a
distribuição obtida pelo sistema SVM-GSV da Figura 6.3, reduzindo apenas a frequência de
resultados no intervalo [-0,5;0,5].
A média e o desvio padrão das distribuições de resultados dos sistemas GMM-UBM, SVM-GSV e
GMM-UBM+SVM-GSV para segmentos impostores e segmentos autênticos encontram-se nas
Tabelas 6.14 e 6.15, respectivamente. Verifica-se que o sistema GMM-UBM+SVM-GSV apresenta
um maior distanciamento entre as distribuições de resultados impostores e autênticos quando
comparados os três sistemas de classificação.
Sistema Média Desvio Padrão
GMM-UBM -0,036 1,039
SVM-GSV -0,088 1,004
GMM-UBM+SVM-GSV -0,122 1,084
Tabela 6.14: Média e desvio padrão das distribuições de resultados impostores obtidos pelos
sistemas GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV.
Sistema Média Desvio Padrão
GMM-UBM 2,920 1,475
SVM-GSV 4,306 2,392
GMM-UBM+SVM-GSV 4,446 2,327
Tabela 6.15: Média e desvio padrão das distribuições de resultados autênticos obtidos pelos sistemas
GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV.
A média e o desvio padrão dos resultados normalizados obtidos por cada modelo orador quando
testado contra os 6407 segmentos impostores encontram-se na Tabela 6.16.
Ao comparar os valores da média e do desvio padrão da Tabela 6.16 com os mesmos valores obtidos
pelos sistemas GMM-UBM e SVM-GSV das Tabela 6.4 e 6.9, verifica-se que o sistema GMM-
UBM+SVM-GSV não alterou de forma significativa o desvio padrão de cada modelo orador, no
entanto conseguiu melhorar a média dos resultados obtidos por 12 oradores, no caso de se comparar
com o sistema GMM-UBM, e 10 oradores, quando comparado com o sistema SVM-GSV.
77
Orador Média Desvio Padrão
Almeida Santos 0,09 1,09
António Guterres -0,05 1,08
Durão Barroso -0,23 1,06
Ferreira do Amaral -0,13 1,10
Freitas do Amaral -0,03 1,05
Jaime Gama 0,02 1,06
João Vale e Azevedo -0,07 1,03
Jorge Coelho -0,23 1,05
Jorge Sampaio -0,25 1,19
José Mourinho -0,22 1,09
José Saramago -0,12 1,03
José Sócrates -0,26 1,04
Mário Soares -0,22 1,19
Paulo Portas 0,07 1,06
Santana Lopes -0,16 1,08
Xanana Gusmão -0,17 1,04
Tabela 6.16: Média e desvio padrão dos resultados dos segmentos impostores.
A Tabela 6.17 apresenta a média e o desvio padrão dos resultados obtidos pelos modelos oradores
quando testados com segmentos autênticos.
Orador Segmentos Média Desvio Padrão
Almeida Santos 3 2,43 2,38
António Guterres 13 5,23 1,81
Durão Barroso 27 5,28 2,86
Ferreira do Amaral 11 3,24 1,60
Freitas do Amaral 1 2,14 0,00
Jaime Gama 7 4,78 0,84
João Vale e Azevedo 7 4,00 1,06
Jorge Coelho 3 3,95 1,46
Jorge Sampaio 22 4,25 2,20
José Mourinho 7 5,61 3,61
José Saramago 4 0,67 0,31
José Sócrates 35 3,72 1,97
Mário Soares 3 2,47 1,31
Paulo Portas 21 4,71 1,74
Santana Lopes 15 6,41 2,20
Xanana Gusmão 1 3,27 0,00
Tabela 6.17: Média e desvio padrão dos resultados dos segmentos autênticos.
A Tabela 6.18 apresenta os resultados médios obtidos pelo sistema GMM-UBM+SVM-GSV para
segmentos impostores com diferentes durações.
78
Intervalo (s) Segmentos Média
3 ≤ t ≤ 5 683 -0,072
5 < t ≤ 10 1634 -0,070
10 < t ≤ 15 1439 -0,076
15 < t ≤ 20 1004 -0,137
20 < t ≤ 25 554 -0,097
25 < t ≤ 30 341 -0,205
30 < t ≤ 60 563 -0,306
t > 60 189 -0,401
Tabela 6.18: Média dos resultados obtidos em função da duração dos segmentos impostores.
Estes resultados são uma combinação dos resultados obtidos pelos sistemas GMM-UBM e SVM-
GSV, onde os resultados dos segmentos inferiores a 5 segundos e superiores a 10 segundos provêm
das Tabelas 6.6 e 6.11, respectivamente. O resultado médio para segmentos com duração entre 5 a
10 segundos é -0,070, um resultado melhor em 0,074 do que o obtido pelo sistema SVM-GSV, mas
inferior em 0,026 ao obtido pelo GMM-UBM.
Para resultados obtidos por segmentos autênticos, o sistema GMM-UBM+SVM-GSV obteve um
resultado superior em 0,138 e 0,369 para segmentos entre 5 a 10 segundos quando comparado com
os sistemas GMM-UBM e SVM-GSV, respectivamente. As restantes médias são a combinação das
Tabelas 6.7 e 6.12. A média dos resultados obtidos para o sistema GMM-UBM+SVM-GSV encontra-
se na Tabela 6.19.
Intervalo (s) Segmentos Média
3 ≤ t ≤ 5 11 2,765
5 < t ≤ 10 35 2,741
10 < t ≤ 15 29 3,709
15 < t ≤ 20 42 4,578
20 < t ≤ 25 21 5,168
25 < t ≤ 30 10 6,280
30 < t ≤ 60 27 6,113
t > 60 5 7,529
Tabela 6.19: Média dos resultados obtidos em função da duração dos segmentos autênticos.
A distância existente entre as curvas DET representa o desempenho entre os sistemas de
reconhecimento do orador. Observa-se na Figura 6.8 o desempenho do sistema GMM-UBM+SVM-
GSV, representado a azul, e dos sistemas GMM-UBM e SVM-GSV, reapresentados a vermelho e
verde, respectivamente.
79
Figura 6.8: Comparação das curva DET dos sistemas GMM-UBM, SVM-GSV
e GMM-UBM+SVM-GSV.
Verifica-se que o sistema GMM-UBM+SVM-GSV obtém geralmente melhores resultados,
independentemente do limiar de decisão escolhido. Este sistema obteve um EER de 6,7% e um
DCFmin de 0,030, valores inferiores aos valores obtidos pelos sistemas GMM-UBM e SVM-GSV, como
se mostra na Figura 6.9.
Figura 6.9: EER e DCF mínimo dos sistemas GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV.
0,094 0,083
0,067
0,034 0,033 0,030
0
0,02
0,04
0,06
0,08
0,1
GMM-UBM SVM-GSV GMM-UBM+SVM-GSV ERR DCF
Falsos Positivos (em %)
Fals
os N
egativos (
em
%)
80
Para um limiar de decisão de 1,50, o sistema apresenta uma igualdade entre a taxa de erro dos
falsos positivos e dos falsos negativos. O DCFmin de 0,30 é obtido quando as taxas de falsos positivos
e falsos negativos são 1% e 20,6%, respectivamente. Neste caso o limiar de decisão do sistema é
2,59.
81
Capítulo 7
Capítulo 7: Interface Web
82
7.1. Introdução
Neste capítulo o sistema de reconhecimento do orador desenvolvido anteriormente e que apresentou
melhores resultados é testado em condições reais e com programas noticiosos de 2011. Os
programas noticiosos de teste, que anteriormente foram particionados e classificados manualmente
por anotadores, passam agora a ser segmentados e identificados de forma automática através do
módulo de pré-processamento áudio desenvolvido em [Meinedo, 2008]. O sistema GMM-UBM+SVM-
GSV deve analisar cada um dos segmentos gerados e decidir se o atribui a uma das celebridades a
identificar pelo sistema.
Os resultados obtidos pelo sistema para cada programa noticioso analisado são apresentados numa
página de internet. Podem ser visualizados todos os segmentos atribuídos aos oradores, assim como
as informações acerca da duração do segmento e do respectivo resultado obtido pelo modelo orador.
A correcta atribuição de um segmento a uma celebridade pode ser comprovada visualmente, já que é
possível ver o vídeo de cada segmento analisado ou de todo o programa televisivo.
7.2. Descrição
Os programas noticiosos recolhidos no L2F são processados por diferentes módulos de forma a, por
exemplo, separar as diferentes notícias por tópicos ou apresentar sobre a forma de legendas o que é
dito pelos oradores. Os resultados podem ser visualizados através de uma página de internet, na qual
também são exibidos os vídeos dos diferentes programas noticiosos recolhidos diariamente. Desde o
processo inicial, que consiste em verificar na programação de um dado canal televisivo a que horas
tem inicio um programa, até à apresentação dos resultados na página de internet, são necessárias
várias etapas, que incluem a identificação dos segmentos que contêm fala e a atribuição a cada
segmento de um número de representa o orador que o pronunciou. É nesta fase que é obtido o
corpus que será usado para verificar o desempenho do sistema GMM-UBM+SVM-GSV e identificar
os segmentos pronunciados pelos oradores a reconhecer pelo sistema.
Desta forma, cada modelo orador do sistema GMM-UBM+SVM-GSV é testado com os segmentos
obtidos pelo módulo de pré-processamento áudio (APP), que fornece a informação acerca do tempo
de inicio e fim de cada segmento. Existe também a informação de quais os segmentos de fala que
foram pronunciados pelo mesmo orador, pelo que, e de forma a aumentar a duração média dos
segmentos obtidos, foi necessário concatenar todos os segmentos classificados como pertencentes
83
ao mesmo orador que tenham entre si um intervalo de silêncio inferior a 2,5 segundos. O objectivo foi
aproximar a duração média de cada segmento obtido pelo módulo de APP, com a duração média dos
segmentos com que os sistemas foram desenvolvidos e testados no capítulo 6.
Não existe qualquer alteração realizada no sistema GMM-UBM+SVM-GSV utilizado neste capítulo,
pelo que a classificação obtida por cada modelo orador quando testado por um segmento é realizada
por um dos sistemas de classificação, GMM-UBM ou SVM-GSV, dependendo se da duração do
segmento testado é inferior ou superior a 8 segundos. A normalização dos resultados é efectuada
através da normalização ZT com os valores da média e do desvio padrão obtidos no capítulo anterior.
O limiar de decisão do sistema, que define se um segmento pertence ou não a um orador, foi
calculado com base no EER obtido na secção 6.5.2. Desta forma, um segmento é atribuído a uma
celebridade a identificar se o resultado normalizado obtido pelo seu modelo for superior a 1,5. Caso
um segmento seja identificado como pertencendo a dois ou mais celebridades, o mesmo é atribuído
ao orador que apresente um resultado mais elevado.
Os resultados obtidos pelos modelos oradores quando testados com os segmentos concatenados
permitem avaliar o desempenho do sistema, assim como fornecer a informação acerca de quais os
segmentos pronunciados pelos oradores. É esta a informação que será combinada com os resultados
obtidos pelos módulos do pré-processamento áudio, reconhecimento automático de fala e
segmentação e indexação de tópicos, de forma a corrigir, caso necessário, a informação acerca dos
oradores que pronunciaram os segmentos.
A página de internet é gerada a partir um ficheiro XML que contém diversas informações sobre o
programa noticioso analisado, entre as quais, se um segmento foi pronunciado por uma celebridade
ou por qualquer outro orador. É possível visualizar o vídeo completo do programa televisivo, assim
como os segmentos atribuídos a cada celebridade. A informação acerca da duração e da
classificação obtida pelo modelo orador ao qual foi atribuído o segmento também é apresentada.
7.3. Corpora
Os programas noticiosos usados para testar o sistema GMM-UBM+SVM-GSV em condições reais
foram recolhidos no L2F, INESC-ID, através de um serviço de televisão por cabo. De forma a
existirem dados suficientes para verificar o desempenho do sistema, foram escolhidos os programas
noticiosos do ano 2011 que contêm fala de pelo menos 3 oradores diferentes a identificar pelo
sistema.
84
A Tabela 7.1 mostra o conjunto de programas televisivos seleccionados, a data de transmissão e o
respectivo tempo total.
Programa Data Tempo Total
2011_04_04-Telejornal-1 2011-04-04 65 min
2011_05_06-Telejornal-1 2011-05-06 63 min
2011_05_12-Telejornal-1 2011-05-12 61 min
2011_05_25-Telejornal-1 2011-05-25 65 min
Tabela 7.1: Conjunto de programas noticiosos analisados.
Cada programa noticioso analisado é particionado pelo módulo de APP em segmentos que contêm
intervalos comerciais, silêncio, música, vozes sobrepostas, ruído e fala. Todos os segmentos que são
identificados como fala são testados pelo sistema de reconhecimento do orador enquanto os
restantes são ignorados.
O número e a duração média dos segmentos de fala de um programa obtidos após este ser
particionado pelo módulo de APP encontram-se na Tabela 7.2.
Programa Segmentos Duração Média
2011_04_04-Telejornal-1 991 3,11 s
2011_05_06-Telejornal-1 1022 3,02 s
2011_05_12-Telejornal-1 874 3,40 s
2011_05_25-Telejornal-1 956 3,14 s
Tabela 7.2: Número e duração média dos segmentos após o APP.
Verifica-se que cada programa foi particionado em segmentos de pequena duração quando
comparados com os segmentos utilizados na fase de desenvolvimento (os 100 segmentos impostores
usados para a normalização dos resultados têm média de 15,56 segundos) e de teste (os segmentos
impostores e autênticos apresentam uma média de 17,43 e 20,34 segundos, respectivamente).
Assim, foi necessário concatenar todos segmentos consecutivos identificados pelo módulo de APP
como pertencendo ao mesmo orador e separados entre si por um intervalo de silêncio inferior a 2,5
segundos. Este método permitiu serem obtidos segmentos com uma duração superior. Após aplicar
este método, todos os segmentos que ainda apresentem uma duração inferior a 3 segundos são
excluídos da fase de verificação, tal como aconteceu no teste dos sistemas do capítulo 6.
A Tabela 7.3 apresenta o número total e a duração média dos segmentos analisados para cada
programa após juntar os segmentos consecutivos do mesmo orador e excluir todos os segmentos
inferiores a 3 segundos.
85
Programa Segmentos Duração Média
2011_04_04-Telejornal-1 194 15,90 s
2011_05_06-Telejornal-1 153 20,24 s
2011_05_12-Telejornal-1 211 13,79 s
2011_05_25-Telejornal-1 256 11,27 s
Tabela 7.3: Número e duração média de todos os segmentos obtidos após concatenação.
Apesar de ser possível concatenar segmentos consecutivos identificados como pertencendo ao
mesmo orador que se encontrem separados entre si por um intervalo de silêncio superior a 2,5
segundos, este procedimento poderia afectar o desempenho do sistema, já que aumenta a
percentagem de segmentos que contêm fala de dois ou mais oradores. Este problema não existia
anteriormente durante a fase de teste dos sistemas, já que a identificação dos oradores foi efectuada
manualmente por anotadores.
Para verificar o desempenho obtido pelo sistema em condições reais é necessário verificar o número
de segmentos de cada programa pertencentes aos oradores a identificar pelo sistema. A Tabela 7.4
apresenta o número e a duração média dos segmentos autênticos presentes em cada programa
analisado.
Programa Segmentos Duração Média
2011_04_04-Telejornal-1 15 30,02 s
2011_05_06-Telejornal-1 6 20,81 s
2011_05_12-Telejornal-1 6 24,50 s
2011_05_25-Telejornal-1 19 13,84 s
Tabela 7.4: Número e duração média dos segmentos autênticos obtidos após concatenação.
O módulo de APP por vezes não identifica correctamente alterações do orador, classificando
segmentos consecutivos de oradores diferentes como pertencendo ao mesmo orador. Desta forma,
alguns segmentos apresentam fala de um orador a identificar pelo sistema e também fala de um ou
mais oradores. Nestes casos, é verificado se a voz do orador a identificar está presente em mais de
metade da duração do segmento. Em caso afirmativo, o segmento é considerado um segmento
autêntico, apesar de possuir fala de um ou mais oradores. Em caso negativo, o segmento é
considerado impostor. A Tabela 7.4 apenas apresenta os segmentos em que o orador a identificar
pelo sistema fala durante toda ou em mais de metade da duração do segmento.
86
7.4. Resultados
Nesta secção apresenta-se o desempenho obtido pelo sistema GMM-UBM+SVM-GSV quando
testado com os segmentos dos programas noticiosos gerados de forma automática pelo módulo de
APP.
As distribuições dos resultados obtidas pelos modelos oradores quando testados com todos os
segmentos dos programas noticiosos são apresentados na Figura 7.1.
Figura 7.1: Distribuição de resultados dos modelos oradores quando testados com os segmentos
autênticos (vermelho) e segmentos impostores (azul).
Para o conjunto de segmentos testados, a distribuição dos resultados impostores, representada na
Figura 7.1 a azul, obteve uma média de -0,086 e um desvio padrão de 1,107, enquanto a distribuição
dos resultados autênticos, representados na Figura 7.1 a vermelho, obteve uma média de 3,299 e um
desvio padrão de 1,714.
Verifica-se que devido à normalização realizada, a distribuição dos resultados impostores é idêntica à
distribuição obtida por este sistema na secção 6.5.2. No entanto, a distribuição de resultados
autênticos apresenta uma maior frequência de resultados inferiores a 1,5, indicando que existem
segmentos autênticos que não vão ser atribuídos ao respectivo modelo orador.
0
10
20
30
40
50
-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Freq
uên
cia
Rel
ativ
a (e
m %
)
Resultado
Impostores
Oradores
87
Os modelos oradores foram testados com todos os segmentos de cada programa noticioso, sendo
calculados os valores da média e do desvio padrão dos resultados obtidos pelos segmentos
impostores e autênticos, apresentados nas Tabelas 7.5 e 7.6, respectivamente.
Programa Resultados Média Desvio Padrão
2011_04_04-Telejornal-1 3089 -0,192 1,181
2011_05_06-Telejornal-1 3442 -0,090 1,171
2011_05_12-Telejornal-1 3370 -0,043 1,040
2011_05_25-Telejornal-1 4077 -0,038 1,018
Tabela 7.5: Média e desvio padrão dos resultados dos segmentos impostores.
Programa Segmentos Média Desvio Padrão
2011_04_04-Telejornal-1 15 3,862 1,503
2011_05_06-Telejornal-1 6 3,526 1,707
2011_05_12-Telejornal-1 6 3,356 1,807
2011_05_25-Telejornal-1 19 2,764 1,812
Tabela 7.6: Média e desvio padrão dos resultados dos segmentos autênticos.
A Tabela 7.7 apresenta os resultados individuais do EER e do DCFmin obtidos por cada programa
analisado. Os valores do EER obtidos pelos programas 2011_05_06-Telejornal-1 e 2011_05_12-
Telejornal-1 correspondem aos valores máximos devido a existirem poucos segmentos autênticos.
Programa EER DCFmin
2011_04_04-Telejornal-1 0,067 0,028
2011_05_06-Telejornal-1 0,167 0,023
2011_05_12--Telejornal-1 0,139 0,038
2011_05_25-Telejornal-1 0,105 0,052
Tabela 7.7: EER e DCF mínimo dos programas noticiosos analisados.
O desempenho do sistema GMM-UBM+SVM-GSV para segmentos obtidos automaticamente através
do módulo de APP é apresentado na curva DET da Figura 7.2.
Para segmentos particionados e classificados pelo módulo de APP, o sistema GMM-UBM+SVM-GSV
apresenta um EER de 0,087 e um DCFmin de 0,046. A decisão se um segmento pertence a uma
celebridade é realizada com base no limiar de decisão de 1,5 escolhido através do EER de 0,067
obtido pelo sistema GMM-UBM+SVM-GSV na secção 6.5.2. No entanto, quando testado com
segmentos gerados pelo módulo de APP, a diferença no desempenho do sistema influencia as taxas
88
de falsos positivos e de falsos negativos, que deixam de ser iguais. Por isso, para um limiar de
decisão de 1,5 este sistema apresentará uma taxa de falsos positivos de 7,0% e uma taxa de falsos
negativos de 15,2%.
Figura 7.2: Curva DET do sistema GMM-UBM+SVM-GSV.
A interface Web consiste numa página HTML onde são apresentados para cada orador, todos os
segmentos que obtiveram uma classificação superior ao limiar de decisão do sistema. Esta página
utiliza o mesmo estilo da interface Web desenhada para a disseminação selectiva de informação
multimédia [Neto et al., 2003, Meinedo, 2008]. Cada segmento possui um vídeo flash que pode ser
visualizado de forma a confirmar se o segmento de fala pertence ao orador. Existe ainda a
informação do resultado obtido pelo sistema GMM-UBM+SVM-GSV e da duração de cada segmento.
A Figura 7.3 apresenta uma página HTML gerada após um programa noticioso ser analisado.
O desempenho obtido por cada orador presente nos programas noticiosos analisados neste capítulo
é calculado através da percentagem de tempo dos segmentos autênticos incorrectamente não
atribuídos (EOrador) e da percentagem de tempo dos segmentos impostores incorrectamente atribuídos
(EFP) a um orador.
(7.1)
Fals
os N
egativos (
em
%)
Falsos Positivos (em %)
89
(7.2)
Em que DFN é a duração dos segmentos não atribuídos, TOrador é a duração dos segmentos
autênticos, DFP é a duração dos segmentos incorrectamente atribuídos e TTotal é a duração total dos
segmentos analisados.
Figura 7.3: Página HTML com os segmentos pertencentes a cada orador.
As Tabelas 7.8, 7.9, 7.10 e 7.11 apresentam o desempenho dos modelos oradores presentes nos
programas 2011_04_04-Telejornal-1, 2011_05_06-Telejornal-1, 2011_05_12-Telejornal-1 e
2011_05_25-Telejornal-1, respectivamente, assim como o número e a duração média dos segmentos
autênticos de cada orador.
Orador Segmentos Duração Média EOrador (%) EFP (%)
José Mourinho 2 20 s 0 0
José Sócrates 11 33 s 9,8 3,7
Paulo Portas 2 26 s 0 9,6
Tabela 7.8: Desempenho dos oradores presentes no programa 2011_04_04-Telejornal-1.
90
Orador Segmentos Duração Média EOrador (%) EFP (%)
Durão Barroso 1 32 s 100 3,7
José Mourinho 2 6 s 0 0,1
José Sócrates 3 28 s 34,2 19,9
Tabela 7.9: Desempenho dos modelos oradores presentes no programa 2011_05_06-Telejornal-1.
Orador Segmentos Duração Média EOrador (%) EFP (%)
Durão Barroso 1 8 s 0 0,1
José Sócrates 4 29 s 0 2,3
Paulo Portas 1 23 s 100 9,0
Tabela 7.10: Desempenho dos modelos oradores presentes no programa 2011_05_12-Telejornal-1.
Orador Segmentos Duração Média EOrador (%) EFP (%)
José Mourinho 2 11 s 0 2,7
José Sócrates 13 15 s 13,7 2,8
Paulo Portas 4 12 s 49,4 5,5
Tabela 7.11: Desempenho dos modelos oradores presentes no programa 2011_05_25-Telejornal-1.
91
Capítulo 8
Capítulo 8: Conclusões e Trabalho Futuro
92
8.1. Conclusões
Neste trabalho começaram por ser avaliados os desempenhos dos sistemas GMM-UBM e SVM-GSV
quando testados com segmentos de programas noticiosos particionados e identificados manualmente
por anotadores. Os modelos dos oradores e impostores dos dois classificadores foram treinados a
partir do mesmo corpus e testados com os mesmos segmentos para que seja possível uma
comparação entre os resultados e os desempenhos obtidos pelos sistemas. A tarefa de cada sistema
consiste em identificar quais os segmentos de um programa noticioso que pertencem às celebridades
a identificar pelo sistema de modo a que a taxa de erro entre os falsos positivos e os falsos negativos
fosse igual.
Optou-se de início por apenas se efectuar a extracção dos coeficientes PLP, devido ao tempo
computacional necessário para treinar o UBM e os restantes 216 modelos oradores e impostores.
Mesmo assim, foram necessários cerca de 5 dias para treinar o UBM no classificador GMM-UBM e
cerca de 4 dias para treinar os modelos oradores e impostores nos classificadores GMM-UBM e
SVM-GSV.
O sistema GMM-UBM foi o primeiro sistema a ser analisado. Obteve um EER de 9,5%, significando
que dos segmentos de teste pertencentes aos oradores, 9,5% não seriam detectados, originando
falsos negativos. Por outro lado, a cada orador seriam incorrectamente atribuídos aproximadamente
9,5% dos segmentos analisados de um programa noticioso.
De seguida foi analisado o sistema SVM-GSV. Esperava-se que este sistema conseguisse melhores
resultados, uma vez que se apresenta como sendo um sistema de reconhecimento do orador muito
recente. Assim, quando testado com os mesmos segmentos utilizados para avaliar o desempenho do
sistema GMM-UBM, este conseguiu um EER de 8,3%, reduzindo por isso a taxa de falsos positivos e
falsos negativos para cada programa televisivo.
Por comparação dos resultados dos dois sistemas verificou-se que o sistema SVM-GSV apresentava
mais dificuldade em classificar um segmento de menor duração que o sistema GMM-UBM. Esta
diferença deve-se ao modo como cada classificador obtêm um resultado. O sistema GMM-UBM
verifica a verosimilhança média existente entre os vectores de características extraídas de um
segmento de fala a testar e um modelo orador, sendo por isso capaz de comparar de forma idêntica
segmentos com diferentes durações. Neste classificador, o facto de um segmento ter uma maior
duração, significa que iremos obter uma verosimilhança média a partir de mais resultados. No caso
do sistema SVM-GSV, as características extraídas de um segmento de fala a testar são usadas para
gerar um modelo de misturas Gaussianas a partir do UBM por adaptação MAP. Um segmento de
93
pequena duração poderá não ter vectores de características suficientes para gerar um modelo de
misturas adequado, pelo que será semelhante ao UBM. Como no sistema SVM-GSV, a classificação
de um segmento é obtida através de uma aproximação da medida de distância existente entre o
supervector do modelo orador e o supervector do modelo do segmento testado, se o segmento
testado for de pequena duração, este será mais idêntico ao UBM e por isso classificado
incorrectamente mais facilmente.
Estes resultados são confirmados mais tarde quando é realizada uma comparação entre os
resultados médios normalizados obtidos pelos dois sistemas quando testados com segmentos
autênticos e impostores de durações diferentes. Comprova-se que o sistema SVM-GSV obtém um
desempenho superior ao sistema GMM-UBM quando testado com segmentos superiores a 8
segundos, sendo que para segmentos com duração entre 3 a 8 segundos, é o sistema GMM-UBM
que apresenta melhores resultados.
Verificou-se também que qualquer dos classificadores apresenta piores resultados para os modelos
treinados com menos tempo de treino. Depois de treinados, os modelos com menos tempo de treino
vão ter maiores semelhanças com o UBM, já que possuem menos características de treino. No caso
do classificador SVM-GSV, como cada segmento testado é também adaptado a partir do UBM, é
fácil perceber que existirá uma menor distância entre os modelos com menos tempo de treino e os
segmentos testados. Já para o classificador GMM-UBM, como o UBM foi treinado com fala de todos
os oradores presentes no conjunto de treino, este representa o conjunto de características que se
espera encontrar durante a fase de teste, pelo que os modelos oradores com menos tempo de treino
terão uma maior verosimilhança com as características dos segmentos de teste, apresentado por isso
piores resultados.
Os resultados obtidos individualmente pelos sistemas GMM-UBM e SVM-GSV permitiram
desenvolver um sistema, denominado por GMM-UBM+SVM-GSV, que calcula os resultados obtidos
por cada modelo orador dependendo da duração do segmento a testar. Este sistema, quando testado
novamente com os mesmos segmentos de teste, consegue reduzir o valor do EER para 6,7%. Para
se obter este valor do EER o limiar de decisão do sistema é igual a 1,5. É com base no valor deste
limiar de decisão do sistema que na prática qualquer programa noticioso particionado em segmentos
por um anotador produz uma taxa de falsos positivos e falsos negativos em torno de 6,7%.
O sistema GMM-UBM+SVM-GSV foi por isso utilizado para pesquisar por segmentos autênticos em
programas noticiosos recolhidos durante o ano 2011 no L2F, INESC-ID. Estes programas foram
particionados e classificados de forma automática pelo módulo de APP, que foi o responsável por
identificar e classificar os segmentos que contêm fala.
Quando testado com os segmentos dos programas televisivos do ano 2011, o sistema GMM-
UBM+SVM-GSV obteve um desempenho inferior, apresentando um EER de 8,7%. No entanto, este
94
valor não corresponde ao ponto de funcionamento do sistema, uma vez que o limiar de decisão foi
escolhido com base nos resultados obtidos anteriormente quando o sistema foi testado com
segmentos de programas noticiosos classificados por anotadores. Por isso, para o limiar de decisão
de 1,5 este sistema obtém uma taxa de falsos positivos de 7,0% e uma taxa de falsos negativos de
15,2%. Quer isto dizer que o número de segmentos incorrectamente atribuídos a oradores não sofreu
uma alteração significativa, já que o sistema foi definido por um limiar de decisão que devia
apresentar uma taxa de falsos positivos de 6,7%. No entanto, o sistema apresentou uma maior
dificuldade em detectar segmentos proferidos por oradores a identificar, com a taxa de falsos
negativos a passar dos esperados 6,7% para os 15,2%.
De facto, era esperado que o sistema encontra-se uma maior dificuldade em detectar os segmentos
dos oradores, uma vez que:
Os modelos dos oradores foram treinados com características do orador do ano 2000 e
testados com segmentos recentes, recolhidos durante o ano 2011.
O limiar de decisão do sistema foi escolhido com base dos resultados obtidos pelos oradores
quando testados com segmentos recolhidos durante o ano 2001, 2004, 2007 e 2008, que
representam 56%, 17%, 15% e 12% do tempo útil de teste, respectivamente.
Os segmentos testados foram obtidos através do módulo de APP, que, por vezes, dá origem
a segmentos autênticos que possuem fala do orador a identificar e de um ou mais oradores,
influenciando negativamente o desempenho do sistema.
Os modelos oradores foram treinados com segmentos áudio recolhidos na RTP e testados
com 54% de segmentos recolhidos no INESC-ID através de um serviço de televisão por cabo.
Estes últimos segmentos contêm ruído e outras variações devido à transmissão de sinal não
ser prefeita.
No entanto, nenhum destes problemas se verifica quando o sistema deve determinar quais os
segmentos impostores, justificando o motivo pelo qual a taxa de erro se mantém em cerca de 7%.
Assim:
É indiferente para um modelo orador classificar um segmento impostor do ano 2000 ou 2011.
O limiar de decisão do sistema foi escolhido quando o sistema foi testado com segmentos de
duração média de 18 segundos. A concatenação dos segmentos obtidos pelo módulo de pré-
processamento áudio foi realizada de forma a serem obtidos segmentos com uma duração
média aproximada (15 segundos), pelo que a distribuição de resultados impostores é idêntica.
Um modelo orador continua a classificar da mesma forma um segmento impostor, mesmo
que ele contenha duas ou mais vozes, pelo que o módulo de pré-processamento áudio não
influência um resultado.
O efeito do ruído e outras variações existentes na transmissão de um sinal não produzem
alterações significativas devido aos modelos impostores utilizados na normalização.
95
De notar ainda que este sistema foi capaz de identificar segmentos autênticos de alguns modelos
oradores, caso do José Mourinho ou do Durão Barroso, em programas recentes, mesmo quando os
oradores discursavam noutro idioma, nomeadamente em Castelhano e Inglês, apesar de terem sido
treinados unicamente em Português. Isto significa que foi utilizado um número de coeficientes e
misturas Gaussianas suficientes para representar e modelar de forma eficiente a informação do
orador.
Os sistemas de reconhecimento do orador desenvolvidos neste trabalho foram colocados perante
dificuldades adicionais quando comparados com outros sistemas de reconhecimento comuns devido
a:
Serem testados com segmentos autênticos e impostores de duração variável.
Cada modelo orador é treinado com diferentes tempos de treino, assim como os modelos
impostores usados na normalização de resultados.
Existem segmentos com diferentes tipos de fala, como espontânea ou leitura.
Muitos segmentos possuem diferentes tipos de background, dependendo se o segmento
áudio foi proferido num estúdio de televisão ou durante um concerto de música.
Os modelos oradores são testados com segmentos autênticos e impostores em diferentes
idiomas.
Tendo em conta as dificuldades adicionais existentes, pode-se concluir que os resultados obtidos
pelos sistemas GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV quando testados com programas
televisivos, particionados e classificados por anotadores, foram bons, uma vez que produziram taxas
de erro baixas.
Verificou-se também que existiu uma degradação do desempenho do sistema GMM-UBM+SVM-GSV
quando o sistema foi testado com os segmentos processados pelo módulo APP. No entanto, caso o
limiar da decisão do sistema tenha como referência os resultados obtidos para estes segmentos, é
possível reduzir a taxa de falsos negativos de 15,2% para 8,7%, aumentado apenas a taxa de falsos
positivos em 1,7%.
8.2. Trabalho Futuro
Este trabalho permitiu desenvolver um sistema que combina os resultados obtidos por duas das
principais técnicas de reconhecimento do orador, baseadas nos classificadores GMM-UBM e SVM-
GSV, para verificar se um segmento pertence a alguma das celebridades a identificar pelo sistema.
Foi posteriormente desenvolvido um novo sistema, obtido através da combinação dos resultados dos
dois classificadores.
96
O desempenho do sistema GMM-UBM+SVM-GSV pode ser melhorado se forem usados segmentos
de programas noticiosos recentes, com origem no módulo de APP, para definir o limiar de decisão do
sistema. Torna-se por isso necessário identificar previamente os segmentos autênticos presentes em
todos os programas noticiosos recolhidos e testar o sistema com todos os segmentos desses
programas. Os resultados obtidos permitem reduzir significativamente o número de segmentos
autênticos que não são correctamente identificados em futuros programas televisivos analisados.
Podem também ser extraídas mais características dos segmentos, como MFCC e RASTA, capazes
de modelar um orador e testar cada modelo.
Como o módulo de APP é capaz de classificar cada segmento como pertencendo a um orador
masculino ou feminino, o sistema criado poderia ter em conta esta informação antes de atribuir um
segmento a uma celebridade. Isto leva a que os dados com os quais é treinado o UBM fossem
também analisados. Ou seja, seria interessante criar dois UBMs, um apenas com oradores
masculinos e outro com femininos, e treinar cada modelo orador a partir do UBM correspondente,
como forma da classificação ser realizada tendo também em conta a informação do género do
orador. Neste caso, os modelos impostores usados para normalizar os resultados teriam de ser todos
do mesmo género que o orador.
O texto obtido pelo módulo de reconhecimento de fala, que transcreve o que é dito pelo orador,
também pode ser utilizado para detectar quando é que um orador poderá vir a falar. Por exemplo,
antes de uma notícia que contém segmentos do José Mourinho, o jornalista poderá referir as palavras
“José Mourinho”, “Real Madrid” ou “Vicente Calderón”. A existência destas palavras no que é referido
pelo jornalista, indica uma maior probabilidade dos segmentos seguintes possuírem a voz do José
Mourinho.
Os resultados obtidos pelo sistema de reconhecimento do orador também podem ser combinados
com um sistema de análise e reconhecimento de imagem, capaz de identificar a face de um orador,
uma vez que também se dispõem dos vídeos dos programas televisivos recolhidos.
97
Referências
[Auckenthaler et al., 2000] Auckenthaler R., Carey, M., and Lloyd-Thomas, H. (2000). Score
Normalization for Text-Independent Speaker Verification Systems. In Digital Signal Processing, 10(1-
3):42-54.
[Bimbot et al., 2004] Bimbot, F., Bonastre, J-F., Fredouille, C., Gravier, G., Margin-Chagnolleau I.,
Meignier, S., Merlin, T., Ortega-García, J., Petrovska-Delacretaz, D., and Reynolds, D. (2004). A
Tutorial on Text-Independent Speaker Verification. In EURASIP Journal on Applied Signal Processing,
4:430-451.
[Bonastre et al., 2005] Bonastre, J-F., Wils, F., and Meignier S. (2005). ALIZE, a Free Toolkit for
Speaker Recognition. In Proceedings ICASSP 2005.
[Campbell et al., 2005] Campbell, W., Reynolds, D., Campbell, J., and Brandy K. (2005). Estimating
and Evaluating Confidence for Forensic Speaker Recognition. In Proceedings ICASSP 2005.
[Campbell et al., 2006a] Campbell, W., Campbell, J., Reynolds, D., Singer, E., and Torres-
Carrasquillo, P. (2006). Support Vector Machines for Speaker and Language Recognition. In
Computer, Speech and Language, 20:210-229.
[Campbell et al., 2006b] Campbell, W., Sturim, D., and Reynolds, D. (2006). Support Vector Machines
Using GMM Supervectors for Speaker Verification. In IEEE Signal Processing Letter, 13(5):308-311.
[Campbell, 1995] Campbell J. (1995). Testing with the YOHO CD-ROM Voice Verification Corpus. In
Proceedings ICASSP 1995.
[Collobert and Bengio, 2001] Collobert, R. and Bengio, S. (2001). SVMTorch: Support Vector
Machines for Large-Scale Regression Problems. In Journal of Machine Learning Research 1:143-160.
[Cristianini and Shawe-Taylor, 2000] Cristianini, N. and Shawe-Taylor, J. (2000). Support Vector
Machines. Cambridge University Press.
[Davis and Mermelstein, 1980] Davis, S. and Mermelstein, P. (1980). Comparison of Parametric
Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences. In IEEE
Transactions on Acoustics, Speech, and Signal Processing, 28(4):357-366.
98
[Dempster et al., 1977] Dempster, A., Laird, N., and Rubin, D. (1977). Maximum Likelihood from
Incomplete Data Via the EM Algorithm. In Journal of Royal Statistical Society, 39(1):1-38.
[Doddington, 1985] Doddington, G. (1985). Speaker Recognition – Identifying People by Their Voices.
In Proceedings of the IEEE, 73(11):1651-1664.
[Fauve et al., 2007a] Fauve, B., Evans, N., Pearson, N., Bonastre, J.-F., Mason, J. (2007). Influence of
Task Duration in Text-Independent Speaker Verification". In Proceedings Interspeech 2007.
[Fauve et al., 2007b] Fauve, B., Matrouf, D., Scheffer, N., Bonastre, J-F., and Mason, J. (2007). State-
of-the-Art Performance in Text-Independent Speaker Verification Though Open-Souce Software. In
IEEE Transactions on Audio, Speech, and Language Processing, 15(7):1960-1968.
[Gauvain and Lee, 1994] Gauvain, J. and Lee, C. (1994). Maximum a Posteriori Estimation for
Multivariate Gaussian Mixture Observations of Markov Chains. In IEEE Transactions on Speech and
Audio Processing, 2(2):291-298.
[Hasan and Hansen, 2010] Hasan, T. and Hansen, J. (2010). A Study on Universal Background Model
Training in Speaker Verification. In IEEE Transactions on Audio, Speech, and Language Processing.
[Hébert, 2008] Hébert, M. (2008). Text-Dependent Speaker Recognition. In Springer Handbook of
Speech Processing. Springer-Verlag.
[Hermansky, 1990] Hermansky, H. (1990). Perceptual Linear Prediction (PLP) analysis for Speech. In
Journal of the Acoustic Society of America 87.
[Higgins et al., 1991] Higgins, A., Bahler, L., and Porter, J. (1991). Speaker Verification Using
Randomized Phrase Prompting. In Digital Signal Processing, 1:89-106.
[Kenny et al., 2007] Kenny, P., Ouellet, P., and Dumouchel, P. (2007). Speaker and Session
Variability in GMM-Based Speaker Verification. In IEEE Transactions on Audio, Speech, and
Language Processing, 15(4):1448-1460.
[Li and Porter, 1988] Li, K. and Porter, J. (1988). Normalizations and Selection of Speech Segments
for Speech Recognition Scoring. In Proceedings ICASSP 1988.
[Martin et al., 1997] Martin, A., Doddington, G., Kamm, T., Ordowski, M., and Pryzbock, M., (1997).
The DET Curve in Assessment of Detection Task Performance. In Proceedings European Conference
on Speech Communication and Technology.
99
[Meinedo, 2008] Meinedo, H. (2008). Audio Pre-Processing and Speech Recognition for Broadcast
News. PhD Thesis.
[Meinedo et al., 2003] Meinedo, H., Caseiro, D., Neto, J. P., and Trancoso, I. (2003).
AUDIMUS.media: A Broadcast News Speech Recognition System for the European Portuguese
Language. In PROPOR’2003.
[Meinedo et al., 2010] Meinedo, H., Abad, A., Pellegrini, T., Trancoso, I., Neto, J. P. (2010). The L2F
Broadcast News Speech Recognition System. In Fala2010.
[Naik and Doddington, 1987] Naik, J. and Doddington, G. (1987). Evaluating of a High Performance
Speaker Verification System for Access Control. In Proceedings ICASSP 1987.
[Naik et al., 1989] Naik, J., Netsch, G., and Doddington, G. (1989). Speaker Verification Over Long
Distance Telephone Lines. In Proceedings ICASSP 1989.
[Neto et al., 2003] Neto, J., Meinedo, H., Amaral, R., and Trancoso, I. (2003) A System for Selective
Dissemination of Multimedia Information. In Proceedings of the ISCA MSDR 2003.
[NIST, 2010] NIST (2010). The NIST Year 2010 Speaker Recognition Evaluation Plan.
http://www.itl.nist.gov/iad/mig/tests/sre/2010/index.html.
[Reynolds and Campbell, 2007] Reynolds, D. and Campbell, W. (2007). Text-Independent Speaker
Recognition. Springer Handbook of Speech Processing and Communication. Springer-Verlag.
[Reynolds et al., 2000] Reynolds, D., Quatieri, T., and Dunn R. (2000). Speaker Verification Using
Adapted Gaussian Mixture Models. In Digital Signal Processing, 10(1-3):19-41.
[Reynolds, 1995] Reynolds, D. (1995). Speaker Identification and Verification Using Gaussian Mixture
Speaker Models. In Speech Communication, 17:91-108.
[Reynolds, 1997] Reynolds, D. (1997). Comparison of Background Normalization Methods for Text-
Independent Speaker Verification. In Proceedings European Conference on Speech Communication
and Technology.
[Schmandt and Arons, 1984] Schmandt, C. and Arons, B. (1984). A Conversational Telephone
Messaging System. In IEEE Transactions on Consumer Electronics.
100
[Schmidt-Nilsen and Crystal, 2000] Schmidt-Nielsen, A. and Crystal, T. (2000). Speaker Verification by
Human Listeners: Experiments Comparing Human and Machine Performance Using the NIST 1998
Speaker Evaluation Data. In Digital Signal Processing, 10(1-3): 249-266.
[Wan and Campell, 2000] Wan, V. and Campbell, W. (2000). Support Vector Machines dor Speaker
Verification and Identification. In Proceedings Neural Networks for Signal Processing X, 2:775-784.
[Wilcox et al., 1994] Wilcox, L., Chen, F., Kimber, D., and Balasubramanian, V. (1994). Segmentation
of Speech Using Speaker Identification. In Proceedings ICASSP 1994.
[Zheng et al., 2005] Zheng, R., Zhang, Z., and Xu, B. (2005). A Comparative Study of Feature and
Score Normalization for Speaker Verification. Springer-Verlag.