Vozes de Celebridades · v Resumo Esta dissertação descreve um sistema de verificação do orador...

Vozes de Celebridades

Paulo Eduardo dos Santos Veloso Braga

Dissertação para obtenção do Grau de Mestre em

Engenharia Electrotécnica e de Computadores

Júri:

Presidente: Doutor Carlos Filipe Gomes Bispo

Orientador: Doutora Isabel Maria Martins Trancoso

Co-Orientador: Doutor Hugo Daniel dos Santos Meinedo

Vogal: Doutor Jorge dos Santos Salvador Marques

Outubro de 2011

Agradecimentos

Gostaria de agradecer às diversas pessoas que contribuíram para a realização desta Dissertação de

Mestrado.

Em primeiro lugar quero agradecer à Professora Isabel Trancoso pela sua orientação, conselhos e

oportunidade de realizar este trabalho.

Agradeço também ao Hugo Meinedo por toda a ajuda, colaboração e disponibilidade ao longo da

realização deste trabalho que me permitiram ultrapassar algumas dificuldades.

Gostaria também de agradecer a todos do L2F do INESC-ID, em especial ao Alberto Abad, pela

ajuda e disponibilidade sempre que necessário.

Por fim, também gostaria de agradecer à minha namorada e família por toda a motivação e apoio.

Resumo

Esta dissertação descreve um sistema de verificação do orador independente do texto utilizado para

encontrar vozes de celebridades em programas noticiosos televisivos. Dois classificadores diferentes

foram treinados e testados com segmentos manualmente identificados por anotadores. Nestas

condições, o classificador SVM-GSV obteve um melhor desempenho do que o classificador GMM-

UBM, particularmente para segmentos de maior duração. Devido à diferença de desempenho para

segmentos de menor e maior duração, foi criado o sistema GMM-UBM+SVM-GSV que classifica um

segmento através de um dos dois classificadores, dependendo da duração do segmento de teste.

Este sistema foi utilizado para encontrar oradores a identificar em programas noticiosos televisivos

recentes, onde os segmentos foram identificados automaticamente por um módulo de Pré-

Processamento Áudio. O desempenho do sistema GMM-UBM+SVM-GSV foi menor, mas após alguns

ajustamentos foi possível melhorar os resultados obtidos. O resultados são integrados no sistema de

monitorização de média existente e apresentados numa página de internet, onde é possível visualizar

os vídeos dos segmentos atribuídos a cada orador identificado pelo sistema. Devido às diferenças

existentes entre o tempo de treino dos diferentes oradores e a duração dos segmentos de teste,

existe uma maior dificuldade neste trabalho quando comparado com os tradicionais sistemas de

verificação do orador, onde os modelos oradores são treinados com o mesmo tempo de treino e os

segmentos de teste têm a mesma duração.

Palavras-chave

Reconhecimento do Orador

Verificação do Orador Independente do Texto

Vozes de Celebridades

Modelos de Misturas Gaussianas

Máquina de Suporte Vectorial

Supervector

Programas Noticiosos

Abstract

This dissertation described a text-independent speaker verification system applied to finding voices of

well-known persons in broadcast news shows. Two different classifiers were trained and tested with

segments manually defined by annotators. In these conditions, the SVM-GSV classifier performed

better than the GMM-UBM one, particularly for longer segments. The performance difference for short

and long segments led us to create a GMM-UBM+SVM-GSV system which classifies a test segment

using one of two classifiers, depending on the duration of the test segment. This system was used to

identify target speakers in recent news shows, for which segments were automatically defined by an

Audio Pre-Processing module. The performance of the GMM-UBM+SVM-GSV system was lower,

which led to new successful experiments with further tuning. The results obtained are integrated into

the existing media monitoring system and presented in a web page, where it is possible to view a

video of each segment assigned to each speaker identified by the system. Due to differences between

each speaker training time and duration of test segments, there is greater difficulty in this task when

compared to traditional speaker verification systems, where the speaker models are trained with same

trained time and test segments have the same duration.

Keywords

Speaker Recognition

Text-independent Speaker Verification

Celebrity Voices

Gaussian Mixture Models

Support Vector Machines

Supervector

News Shows

Índice

Agradecimentos ................................................................................................................................. iii

Resumo .............................................................................................................................................. v

Abstract ............................................................................................................................................ vii

Índice ................................................................................................................................................. ix

Lista de Figuras ................................................................................................................................. xi

Lista de Tabelas .............................................................................................................................. xiii

Lista de Acrónimos ........................................................................................................................... xv

Capítulo 1: Introdução .........................................................................................................................1

1.1. Enquadramento ...................................................................................................................2

1.2. Objectivos e Contribuições ..................................................................................................4

1.3. Organização ........................................................................................................................5

Capítulo 2: Sistema de Reconhecimento do Orador ............................................................................7

2.1. Introdução ...........................................................................................................................8

2.2. Pré-Processamento Áudio ...................................................................................................8

2.3. Extracção de Características ...............................................................................................9

2.4. Sistemas de Classificação ...................................................................................................9

2.5. Normalização .................................................................................................................... 10

2.5.1. Normalização Z .......................................................................................................... 12

2.5.2. Normalização T .......................................................................................................... 13

2.5.3. Normalização ZT ........................................................................................................ 14

2.6. Métricas ............................................................................................................................. 16

2.6.1. Curva DET ................................................................................................................. 16

2.6.2. EER ........................................................................................................................... 17

2.6.3. DCFmin ....................................................................................................................... 17

2.7. Estado da Arte ................................................................................................................... 18

Capítulo 3: Corpora ........................................................................................................................... 25

3.1. Introdução ......................................................................................................................... 26

3.2. Corpus de Treino ............................................................................................................... 27

3.3. Corpus de Desenvolvimento .............................................................................................. 28

3.4. Corpus de Teste ................................................................................................................ 29

Capítulo 4: Características ................................................................................................................ 31

4.1. Introdução ......................................................................................................................... 32

4.2. Pré-Processamento Áudio ................................................................................................. 32

4.3. Coeficientes PLP ............................................................................................................... 33

Capítulo 5: Classificadores ................................................................................................................ 37

5.1. Introdução ......................................................................................................................... 38

5.2. Propriedades do GMM-UBM .............................................................................................. 38

5.3. Propriedades do SVM-GSV ............................................................................................... 47

Capítulo 6: Resultados ...................................................................................................................... 55

6.1. Corpora ............................................................................................................................. 56

6.1.1. Treino ........................................................................................................................ 56

6.1.2. Desenvolvimento ....................................................................................................... 57

6.1.3. Teste ......................................................................................................................... 57

6.2. Avaliação do sistema GMM-UBM ....................................................................................... 58

6.2.1. Descrição ................................................................................................................... 58

6.2.2. Normalização ............................................................................................................. 59

6.2.3. Resultados ................................................................................................................. 61

6.3. Avaliação do sistema SVM-GSV ........................................................................................ 66

6.3.1. Descrição ................................................................................................................... 66

6.3.2. Normalização ............................................................................................................. 67

6.3.3. Resultados ................................................................................................................. 68

6.4. Comparação entre os sistemas GMM-UBM e SVM-GSV ................................................... 72

6.5. Avaliação do sistema GMM-UBM+SVM-GSV..................................................................... 74

6.5.1. Descrição ................................................................................................................... 74

6.5.2. Resultados ................................................................................................................. 75

Capítulo 7: Interface Web .................................................................................................................. 81

7.1. Introdução ......................................................................................................................... 82

7.2. Descrição .......................................................................................................................... 82

7.3. Corpora ............................................................................................................................. 83

7.4. Resultados ........................................................................................................................ 86

Capítulo 8: Conclusões e Trabalho Futuro......................................................................................... 91

8.1. Conclusões........................................................................................................................ 92

8.2. Trabalho Futuro ................................................................................................................. 95

Referências ...................................................................................................................................... 97

Lista de Figuras

Figura 1.1: Diferentes áreas do processamento de fala. ......................................................................3

Figura 2.1: Sistema genérico de reconhecimento do orador. ...............................................................8

Figura 2.2: Exemplo de distribuições de resultados obtidos por dois modelos oradores quando

testados com segmentos autênticos (linha a cheio) e impostores (linha a tracejado). ........................ 11

testados com segmentos autênticos (linha a cheio) e impostores (linha a tracejado) após

normalização. ................................................................................................................................... 12

Figura 2.4: Diagrama de blocos da normalização Z durante a fase de teste....................................... 13

Figura 2.5: Diagrama de blocos da normalização T durante a fase de teste....................................... 14

Figura 2.6: Diagrama de blocos da normalização ZT antes da fase de teste. ..................................... 15

Figura 2.7: Diagrama de blocos da normalização ZT durante a fase de teste. ................................... 15

Figura 2.8: Exemplo de uma curva DET. ........................................................................................... 17

Figura 2.9: Exemplo de uma curva DET com o valor do DCFmin. ........................................................ 18

Figura 2.10: Desempenho do sistema em relação ao número de oradores presentes no UBM

(adaptado de [Hasan and Hansen, 2010]). ........................................................................................ 20

Figura 2.11: Desempenho do sistema em relação ao tempo de treino presente no UBM (adaptado de

[Hasan and Hansen, 2010])............................................................................................................... 20

Figura 2.12: Valores do EER e do DCFmin obtidos por diferentes sistemas de reconhecimento do

orador (adaptado de [Fauve et al., 2007b]). ....................................................................................... 22

Figura 2.13: Desempenho dos sistemas para modelos treinados com 2,5 minutos e testados com 2,5

minutos. ............................................................................................................................................ 22

Figura 2.14: Desempenho dos sistemas para modelos treinados com 20 minutos e testados com 2,5

minutos. ............................................................................................................................................ 23

Figura 4.1: Diagrama de blocos do pré-processamento áudio (adaptado de [Meinedo, 2008]). ......... 32

Figura 5.1: Representação de um modelo de misturas Gaussianas. .................................................. 39

Figura 5.2: Histograma de um único coeficiente extraído se um segmento de fala. ............................ 40

Figura 5.3: Exemplo de um GMM. ..................................................................................................... 40

Figura 5.4: Treino do UBM com todos os dados de treino.................................................................. 42

Figura 5.5: Treino de UBMs individuais e posterior combinação. ....................................................... 42

Figura 5.6: Método de adaptação de um GMM do orador (adaptado de [Reynolds, 1995] ) a) Modelo

do UBM e características do orador b) GMM do orador obtido por adaptação. .................................. 43

Figura 5.7: Sistema de reconhecimento com K modelos impostores.................................................. 46

Figura 5.8: Sistema de reconhecimento com o UBM como único modelo impostor. ........................... 46

Figura 5.9: Conceito geral do treino de um classificador. ................................................................... 48

Figura 5.10: Dados de treino separados por um hiperplano de margem máxima. .............................. 48

Figura 5.11: Mapeamento não linear realizado pelo classificador SVM. ............................................. 50

Figura 5.12: Conceito de um supervector GMM (adaptado de [Campbell et al., 2006b]). ................... 51

Figura 5.13: Estrutura de um sistema SVM-GSV. .............................................................................. 53

Figura 6.1: Distribuição de resultados dos modelos oradores quando testados com segmentos

autênticos (vermelho) e segmentos impostores (azul). ...................................................................... 62

Figura 6.2: Curva DET do sistema GMM-UBM. ................................................................................. 65

Figura 6.4: Curva DET do sistema SVM-GSV.................................................................................... 71

Figura 6.5: Comparação entre os resultados médios obtidos pelos sistemas GMM-UBM e SVM-GSV

em função da duração dos segmentos impostores. ........................................................................... 73

em função da duração dos segmentos autênticos. ............................................................................ 73

Figura 6.8: Comparação das curva DET dos sistemas GMM-UBM, SVM-GSV .................................. 79

Figura 6.9: EER e DCF mínimo dos sistemas GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV. ....... 79

Figura 7.1: Distribuição de resultados dos modelos oradores quando testados com os segmentos

Figura 7.2: Curva DET do sistema GMM-UBM+SVM-GSV. ............................................................... 88

Figura 7.3: Página HTML com os segmentos pertencentes a cada orador. ........................................ 89

Lista de Tabelas

Tabela 3.1: Conjuntos disponíveis de treino, desenvolvimento e teste. .............................................. 26

Tabela 3.2: Conjunto de treino. ......................................................................................................... 27

Tabela 3.3: Conjunto de programas presentes no corpus de treino.................................................... 27

Tabela 3.4: Conjuntos de desenvolvimento. ...................................................................................... 28

Tabela 3.5: Conjunto de programas presentes no corpus de desenvolvimento. ................................. 28

Tabela 3.6: Conjuntos de teste. ......................................................................................................... 29

Tabela 3.7: Conjunto de programas presentes no corpus de teste. .................................................... 29

Tabela 6.1: Oradores treinados e respectivo tempo de treino. ........................................................... 57

Tabela 6.2: Número e duração média dos segmentos dos oradores. ................................................. 58

Tabela 6.3: Média e desvio padrão de cada modelo orador para o sistema GMM-UBM. .................... 61

Tabela 6.4: Média e desvio padrão dos resultados dos segmentos impostores.................................. 63

Tabela 6.5: Média e desvio padrão dos resultados dos segmentos autênticos. .................................. 63

Tabela 6.6: Média dos resultados obtidos em função da duração dos segmentos impostores............ 64

Tabela 6.7: Média dos resultados obtidos em função da duração dos segmentos autênticos. ............ 64

Tabela 6.8: Média e desvio padrão de cada modelo orador para o sistema SVM-GSV. ..................... 67

Tabela 6.10: Média e desvio padrão dos resultados dos segmentos impostores. ............................... 70

Tabela 6.11: Média dos resultados obtidos em função da duração dos segmentos impostores. ......... 70

Tabela 6.12: Média dos resultados obtidos em função da duração dos segmentos autênticos. .......... 71

Tabela 6.13: Resultados médios dos sistemas GMM-UBM e SVM-GSV para segmentos autênticos. 74

Tabela 6.14: Média e desvio padrão das distribuições de resultados impostores obtidos pelos

sistemas GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV. ............................................................... 76

Tabela 6.15: Média e desvio padrão das distribuições de resultados autênticos obtidos pelos sistemas

GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV. ............................................................................. 76

Tabela 6.16: Média e desvio padrão dos resultados dos segmentos impostores. ............................... 77

Tabela 6.17: Média e desvio padrão dos resultados dos segmentos autênticos. ................................ 77

Tabela 6.18: Média dos resultados obtidos em função da duração dos segmentos impostores. ......... 78

Tabela 6.19: Média dos resultados obtidos em função da duração dos segmentos autênticos. .......... 78

Tabela 7.1: Conjunto de programas noticiosos analisados. ............................................................... 84

Tabela 7.2: Número e duração média dos segmentos após o APP. ................................................... 84

Tabela 7.3: Número e duração média de todos os segmentos obtidos após concatenação. .............. 85

Tabela 7.4: Número e duração média dos segmentos autênticos obtidos após concatenação. .......... 85

Tabela 7.6: Média e desvio padrão dos resultados dos segmentos autênticos. .................................. 87

Tabela 7.7: EER e DCF mínimo dos programas noticiosos analisados. ............................................. 87

Tabela 7.8: Desempenho dos oradores presentes no programa 2011_04_04-Telejornal-1. ............... 89

Tabela 7.9: Desempenho dos modelos oradores presentes no programa 2011_05_06-Telejornal-1. . 90

Tabela 7.10: Desempenho dos modelos oradores presentes no programa 2011_05_12-Telejornal-1.

......................................................................................................................................................... 90

Lista de Acrónimos

ADN Ácido desoxirribonucleico

DET Detection Error Trade-off

DCF Detection Cost Function

EM Expectation Maximization

ERR Equal Error Rate

FN Falsos negativos

FP Falsos positivos

GLDS Generalized Linear Discriminant Sequence Kernel

GMM Gaussian Mixture Model

GSL Gaussian Supervector Linear

GSV Gaussian Supervector

HMM Hidden Markov Model

HTML HyperText Markup Language

KL Kullback-Leibler

L2F Laboratório de sistemas de Língua Falada

RASTA Logaritmic Relative Spectral Transform

MFCC Mel Frequency Cepstral Coefficients

NIST National Institute of Standards and Technology

PLP Perceptual Linear Predictive

RN Redes Neuronais

SVM Support Vector Machine

UBM Universal Background Model

VQ Vector Quantization

XML Extended Markup Language

Capítulo 1

Capítulo 1: Introdução

1.1. Enquadramento

Com o aumento das aplicações que tiram partido do recente desenvolvimento na área das

telecomunicações e da internet, surge também o aumento da necessidade de reconhecer uma

pessoa através das suas características físicas como forma de a identificar unicamente. Este

interesse acontece em diferentes áreas do reconhecimento, tais como: controlo de acesso a sistemas

informáticos [Naik and Doddington, 1987], autenticação para chamadas de longa distância ou de

acesso ao banco [Naik et al., 1989], respostas personalizadas por parte de atendedores automáticos

[Schmandt and Arons, 1984], reconhecimento automático de oradores em grandes quantidades de

ficheiros gravados [Wilcox et al., 1994] , aplicações forenses [Campbell et al., 2005], etc.

A voz é uma das características que pode ser usada na identificação de um ser humano uma vez que

cada pessoa possui características únicas [Doddington, 1985]. Outras características biométricas, por

princípio pessoais e intransmissíveis, podem também ser usadas para identificar ou autenticar uma

pessoa, nomeadamente, a impressão digital, a retina, a face, a assinatura escrita ou o ADN. Em

qualquer destes casos, a identificação é realizada através da comparação das características

recolhidas com outras armazenadas previamente. Uma forma de aumentar a segurança de uma

aplicação que requer a autenticação de uma pessoa através da sua voz passa por implementar

outros sistemas de segurança, tais como, a utilização de uma senha ou a identificação de outras

características biométricas.

Numa sociedade em que a identificação de uma pessoa se torna cada vez mais necessária e

imprescindível, a comunidade científica tem procurado nos últimos anos criar sistemas de

reconhecimento de oradores cada vez mais rápidos e com desempenhos superiores. No entanto,

ainda existem problemas por resolver nesta área.

Um sinal de voz é geralmente composto por palavras que juntas formam a frase que se pretende

transmitir, no entanto, informações acerca da identidade do orador também podem ser analisadas. É

precisamente na extracção e análise das características presentes num segmento de fala que se

baseia o reconhecimento do orador.

Diversas variações podem ocorrer na voz de um orador quando este se encontra em diferentes

situações ou estados, provocando alterações que dificultam a tarefa de verificação do orador [Kenny

et al., 2007]. Assim, o desempenho de um sistema de reconhecimento do orador pode variar de

acordo com:

Estado de saúde, estado emocional e ambiente;

Fisiologia, língua e dialecto/sotaque;

Tipo de fala: leitura ou espontânea, formal ou casual;

Distorções acústicas devido a:

o Meios de gravação diferentes;

o Meios de transmissão diferentes;

o Ruídos aditivos.

O processamento de fala encontra-se dividido em três grandes áreas: a síntese, a codificação e o

reconhecimento. A síntese de voz é a produção artificial de voz humana, geralmente a partir de texto

ou de uma representação linguística simbólica. A codificação é uma técnica que lida com a

capacidade de codificar sinais de fala que permitam, por exemplo, no caso de uma comunicação

telefónica, obter uma boa qualidade da fala para débitos binários baixos. Por fim, o reconhecimento é

a área responsável por interpretar a fala humana, como por exemplo para transcrição, por determinar

a idioma natural de uma pessoa e por verificar a identidade de um orador através da sua voz.

A Figura 1.1 apresenta as áreas mais importantes do processamento de fala, com destaque para o

reconhecimento do orador.

Figura 1.1: Diferentes áreas do processamento de fala.

Dependendo da aplicação, o reconhecimento do orador encontra-se geralmente dividido em duas

áreas: identificação e verificação. Na identificação, o objectivo é determinar a quem, entre um grupo

de oradores conhecidos, pertence o segmento áudio analisado. Este caso, em conjunto fechado,

acontece quando apenas oradores de um grupo conhecido podem ser identificados. A segunda

vertente, a verificação, consiste em determinar se um segmento áudio pertence ou não a um orador.

Processamento de Fala

Sintese Reconhecimento

Fala Orador

Identificação Verificação

Idioma

Codificação

Este problema, em conjunto aberto, ocorre quando é necessário distinguir se um segmento áudio

pertence a um orador a identificar pelo sistema ou se terá sido pronunciado por alguém de um

conjunto de oradores não reconhecidos.

Um sistema de reconhecimento do orador pode ainda ser dependente ou independente do texto,

tendo em conta o tipo de dados usados para treino e teste. No caso de ser independente do texto,

significa que frases diferentes das usadas para treino podem ser usadas para teste. Os sistemas

dependentes do texto [Hébert, 2008] estão limitados ao tipo de frases que podem ser pronunciadas

pelos oradores (tal como palavras-chave, dígitos, frases pré-determinadas, etc.) e por isso as frases

usadas para treino devem ser idênticas às usadas para teste [Higgins et al., 1991].

A verificação na vertente independente do texto é a base da generalidade dos sistemas de

reconhecimento do orador tendo uma dificuldade adicional devido ao desafio de não controlar o

comportamento do orador.

1.2. Objectivos e Contribuições

Esta dissertação tem como objectivo implementar um sistema de verificação do orador independente

do texto de forma a encontrar vozes de celebridades em programas noticiosos televisivos. Dois

classificadores diferentes foram treinados e testados, nomeadamente o Gaussian Mixture Model –

Universal Background Model (GMM-UBM) e o Support Vector Machine – Gaussian Supervector

(SVM-GSV), recorrendo à extracção dos coeficientes Perceptual Linear Predictive (PLP) dos

segmentos que contêm fala.

Os classificadores, GMM-UBM e SVM-GSV, começam por ser treinados e testados com segmentos

manualmente identificados por anotadores. É realizada uma comparação entre os resultados obtidos

pelos dois classificadores de forma a obter um sistema que combine os resultados de ambos e

apresente um melhor desempenho. Este sistema, GMM-UBM+SVM-GSV, é usado para pesquisar por

segmentos de fala proferidos por celebridades em programas noticiosos recolhidos recentemente

pelo Laboratório de sistemas de Língua Falada (L2F), INESC-ID, onde os segmentos são

identificados automaticamente por um módulo de Pré-Processamento Áudio. Os resultados são

apresentados numa página de internet onde é possível visualizar os vídeos dos segmentos atribuídos

ao oradores identificados.

Os resultados do sistema de reconhecimento do orador independente do texto desenvolvido nesta

dissertação podem ser integrados no sistema de monitorização de média existente capaz de

identificar e apresentar informação específica contida em programas noticiosos televisivos.

1.3. Organização

A dissertação encontra-se organizada da seguinte forma:

O capítulo 2 apresenta os conceitos dos sistemas de reconhecimento do orador e uma visão

geral do estado da arte.

O capítulo 3 descreve os corpora disponíveis para treino, desenvolvimento e teste dos

sistemas de reconhecimento do orador desenvolvidos.

O capítulo 4 incide sobre o pré-processamento áudio e as características extraídas dos

segmentos que contêm fala, utilizadas para caracterizar a voz de um orador.

O capítulo 5 explica detalhadamente os classificadores, GMM-UBM e SVM-GSV, e a sua

aplicação no reconhecimento do orador.

O capítulo 6 descreve os corpora utilizados para treino, desenvolvimento e teste, a

implementação dos sistemas de reconhecimento do orador, os resultados obtidos e a

comparação entre os mesmos. Apresenta-se ainda um novo sistema de reconhecimento,

capaz de obter melhores resultados dependendo da duração do segmento testado.

O capítulo 7 apresenta os resultados obtidos pelo sistema de reconhecimento do orador

desenvolvido quando testado com programas noticiosos televisivos recentes e a integração

desses resultados numa página de internet.

Finalmente, o capítulo 8 apresenta as conclusões e sugestões para trabalhos futuros.

Capítulo 2

Capítulo 2: Sistema de Reconhecimento do

Orador

2.1. Introdução

Um sistema de reconhecimento do orador é geralmente constituído pelos seguintes componentes

principais: extracção de características, sistema de classificação e decisão. A Figura 2.1 apresenta o

esquema genérico de um sistema de reconhecimento do orador.

Figura 2.1: Sistema genérico de reconhecimento do orador.

O sistema começa por extrair as características relevantes do segmento áudio que contém fala. De

seguida, as características extraídas são comparadas com o modelo orador e com os modelos

impostores anteriormente treinados através de um sistema de classificação. Por fim, o resultado é

normalizado e o segmento é classificado como um segmento autêntico, pertencente ao orador a

identificar, ou como um segmento impostor, pertencente a um outro orador.

2.2. Pré-Processamento Áudio

Quando se pretende extrair as características de um sinal de fala apenas se devem processar as

frames que contêm voz, sendo necessário ignorar o silêncio existente no inicio e no final do

segmento, assim como o silêncio existente entre cada palavra. Da mesma forma, quando existem

outros sons, como ruído de fundo ou música, que tornem a voz imperceptível, torna-se necessário

excluir estas frames dos restantes processos. O pré-processamento áudio é efectuado antes da

extracção de características como forma de identificar as frames necessárias para o processamento a

realizar e excluir as frames que devem ser ignoradas.

De uma forma mais geral, o pré-processamento áudio pode também ser utilizado para particionar e

classificar um conjunto de segmentos áudio que posteriormente torne mais fácil o processo de

reconhecimento do orador nesses segmentos. O particionamento pode ser realizado tendo em conta

Aceita ou Rejeita

Sistema de Classificação

Extracção de Características

Sinal de Fala

Modelos Impostores

Modelo Orador

Pré-Processamento

Áudio Normalização

alterações de background, como barulho ou música, ou a detecção de fala ou silêncio. A classificação

corresponde a identificar se o orador de um determinado segmento é masculino ou feminino e a

indicar quais os segmentos proferidos pelo mesmo orador.

2.3. Extracção de Características

O objectivo da extracção de características de um sinal é criar uma nova representação num outro

espaço ou dimensão, que pode ser usada para armazenamento, transmissão, síntese ou

reconhecimento. No caso de um segmento áudio que contenha fala, são inúmeras as características

que podem ser extraídas. Estas características podem ser usadas em diferentes tipos de

reconhecimento, apresentando cada característica um melhor ou pior desempenho dependendo da

finalidade. Por exemplo, para a tarefa do reconhecimento do orador pode ser usada a frequência

fundamental, pitch, ou a frequência das formantes, enquanto a energia ou a taxa de cruzamentos por

zeros possibilita o reconhecimento das palavras ou concluir acerca da presença de silêncio.

Procura-se que as características extraídas de um segmento de fala sejam fáceis de determinar,

representem de forma eficiente a informação do orador, sejam estáveis ao longo do tempo e que não

sejam influenciadas pelo ambiente em que foram produzidas.

Algumas das características usadas na detecção de eventos áudio, tais como Perceptual Linear

Predictive (PLP), Mel Frequency Cepstral Coefficients (MFCC) ou Logaritmic Relative Spectral

Transform (RASTA), são também comuns na identificação ou verificação do orador. A análise e o

processamento de sinal tentam de certa forma modelar o sistema auditivo humano retendo as

propriedades necessárias. Este processo pode ser realizado através da introdução de um filtro de

escala Mel, caso dos MFCC [Davis and Mermelstein, 1980], ou de um filtro de escala Bark, caso dos

PLP [Hermansky, 1990]. Desta forma os coeficientes passam a ter em conta informação perceptiva.

2.4. Sistemas de Classificação

O sistema de classificação é o componente mais importante de um sistema de reconhecimento do

orador. A sua função é treinar os modelos oradores a partir das características extraídas de

segmentos de fala proferidos pelos mesmos, para que mais tarde, seja possível realizar uma

verificação dos padrões existentes entre as características extraídas de um segmento de teste e os

modelos treinados de cada orador. O resultado obtido pelo sistema de classificação para um

determinado segmento de teste determina a verosimilhança existente entre as características do

segmento e um modelo orador.

Alguns dos modelos mais utilizados no reconhecimento do orador são os Gaussian Mixture Models,

(GMMs), onde cada modelo orador é composto por um conjunto de funções de densidade de

probabilidade Gaussianas, criadas de forma a modelar as várias classes fonéticas de um orador. Este

sistema não tem em consideração a evolução temporal do sinal, pelo que é mais apropriado para

sistemas de reconhecimento independentes do texto.

No caso de os oradores serem reconhecidos com recurso a uma palavra-chave ou uma frase pré-

determinada, é necessário utilizar um modelo que descreva as características variantes no tempo,

como o Hidden Markov Model (HMM).

As Redes Neuronais (RN) também podem ser utilizadas para modelar as características de um

orador através de camadas com várias unidades ligadas entre si e com um determinado peso. Este

sistema utiliza um conjunto de características para ajustar a rede neuronal de cada orador, que é

depois utilizada como modelo.

Por fim, os Support Vector Machines (SVMs) são classificadores recentemente adoptados no

reconhecimento do orador e considerados um dos classificadores mais robustos. Esta popularidade

deve-se à capacidade de classificar dados nunca analisados.

2.5. Normalização

O resultado obtido pelo sistema de classificação necessita de ser normalizado antes de se verificar se

o segmento testado pertence ou não a um orador a identificar pelo sistema. Este ajuste é necessário

devido às diferenças existentes nas condições em que foi recolhido o material de treino e o de teste,

possibilitando também a criação de um limiar de decisão do sistema independente do orador, capaz

de classificar o segmento testado como segmento autêntico (pertencendo ao orador) ou segmento

impostor (não pertencendo ao orador).

O facto de existirem diferenças na duração dos segmentos testados, no tempo de treino de cada

orador, no ruído ambiente ou na forma como são recolhidos os segmentos áudio nas fases de treino

e de teste, provocam variações nos resultados que devem, através de uma normalização, ser

minimizados.

Considerando que um modelo orador é testado com segmentos autênticos e segmentos impostores,

os resultados provenientes do sistema de classificação terão duas distribuições diferentes de

resultados. Cada modelo orador apresentará um limiar de decisão diferente capaz de separar as duas

distribuições que minimizará os erros em zonas em que ambas as distribuições se encontram

sobrepostas.

A Figura 2.2 apresenta um exemplo dos limiares de decisão de dois modelos oradores, e e do

sistema de reconhecimento do orador, , para as distribuições de resultados obtidas pelos dois

modelos quando testados com segmentos autênticos e segmentos impostores, representadas na

Figura 2.2 a tracejado e a cheio, respectivamente. É possível deduzir que ao adicionar mais

resultados de modelos oradores diferentes, a variabilidade do limiar de decisão do sistema aumenta,

introduzindo assim mais erros no sistema.

testados com segmentos autênticos (linha a cheio) e impostores (linha a tracejado).

Numa situação ideal, o limiar de decisão do sistema seria igual independentemente do número de

oradores reconhecidos, reduzindo desta forma os erros do sistema. No entanto, esta situação é

pouco provável devido às razões já apresentadas anteriormente.

Ao aplicar uma normalização pretende-se que as distribuições dos resultados de todos os oradores

fiquem com média e desvio padrão aproximados, possibilitando desta forma a optimização do limiar

de decisão do sistema. A Figura 2.3 apresenta os resultados obtidos após ser aplicada uma técnica

de normalização.

Modelo Orador 1

Modelo Orador 2

testados com segmentos autênticos (linha a cheio) e impostores (linha a tracejado) após

normalização.

Verifica-se que depois de aplicada a normalização, as distribuições dos resultados de ambos os

modelos apresentam uma média e um desvio padrão aproximados, com os limiares de decisão dos

modelos oradores mais próximos entre si. Desta forma, a variabilidade do limiar de decisão do

sistema diminui e consequentemente a sua taxa de erro.

As normalizações mais comuns usadas do reconhecimento do orador são a normalização Z, a

normalização T e a normalização ZT.

2.5.1. Normalização Z

Na normalização Z [Li and Porter, 1988, Auckenthaler et al., 2000] é necessário testar o modelo

orador contra um conjunto de N segmentos pertencentes a diferentes impostores, obtendo-se para

o modelo orador uma distribuição de resultados impostores com média e desvio padrão

Estes valores são estimados para efectuar a normalização do resultado , obtido pelo teste do

segmento contra o modelo orador .

Modelo Orador 1

Modelo Orador 2

A Figura 2.4 apresenta um esquema da normalização Z durante a fase de teste.

Figura 2.4: Diagrama de blocos da normalização Z durante a fase de teste.

Esta normalização apresenta como vantagem o facto do valor da média e do desvio padrão

distribuição de resultados impostores poderem ser obtidos antes da realização dos testes.

2.5.2. Normalização T

Baseada na estimação dos mesmos parâmetros da média e do desvio padrão de uma distribuição de

resultados, a normalização T [Auckenthaler et al., 2000] difere da normalização Z ao usar os

resultados obtidos por vários modelos impostores, ao invés dos resultados obtidos por vários

segmentos impostores.

Durante a fase de teste, os resultados obtidos por um conjunto de M modelos impostores para um

segmento de teste caracterizam-se por terem uma distribuição com média e desvio padrão

O valor normalizado do segmento quando testado pelo modelo orador é calculado de acordo com

os resultados obtidos pelos M modelos impostores.

A Figura 2.5 apresenta o diagrama de blocos da normalização T.

Ao contrário do que acontece na normalização Z, a normalização T apenas permite calcular o valor

da média e do desvio padrão

durante a fase de teste, implicando por isso um tempo

computacional mais elevado.

Modelo Orador

Segmento Teste

Figura 2.5: Diagrama de blocos da normalização T durante a fase de teste.

2.5.3. Normalização ZT

A normalização ZT [Zheng et al., 2005] junta ambos os processos das normalizações anteriores,

conseguindo por isso melhores resultados.

Ainda antes da fase de teste, começa-se por calcular os resultados obtidos pelo

modelo orador quando testado com N segmentos impostores. De seguida, os resultados

são normalizados, através de uma normalização T, usando a média e o desvio

padrão dos resultados obtidos por M modelos impostores quando testados com os mesmos N

segmentos impostores.

Desta forma, obtêm-se os resultados

, de onde é possível estimar a média

desvio padrão dos mesmos.

O esquema da normalização ZT a realizar antes da fase de teste encontra-se na Figura 2.6.

Modelo Orador

Modelo Impostor

Segmento Teste y

Figura 2.6: Diagrama de blocos da normalização ZT antes da fase de teste.

Durante a fase de teste, o segmento de teste y é testado no modelo orador e nos M modelos

impostores, onde são obtidos e , , …, , respectivamente. Novamente é realizada uma

normalização T de onde se obtêm o resultado . Por fim, o resultado final normalizado é obtido

recorrendo aos valores da média e o desvio padrão

calculados anteriormente.

A Figura 2.7 apresenta um diagrama de blocos da normalização ZT durante a fase de teste.

Figura 2.7: Diagrama de blocos da normalização ZT durante a fase de teste.

Modelo Orador

Modelo Impostor

Segmento Impostor

(1, …, N)

Modelo Orador

Modelo Impostor

Segmento Teste y

2.6. Métricas

Dois tipos de erros ocorrem num sistema de verificação do orador, nomeadamente a não detecção e

o falso alarme. O primeiro, não detecção ou falso negativo, ocorre quando um segmento autêntico

não é reconhecido quando testado pelo modelo orador correspondente. O segundo, falso alarme ou

falso positivo, acontece quando um segmento impostor ilude um modelo que não é o seu, sendo

classificado como pertencendo ao orador.

Ambos os erros dependem do limiar de decisão do sistema criado como separador para aceitar ou

rejeitar um segmento testado. Com um limiar baixo, o sistema tende a aceitar todos os segmentos

testados fazendo aumentar o número falsos positivos. Por outro lado, um limiar de decisão alto torna

o sistema susceptível a mais falsos negativos e a poucos falsos positivos, existindo por isso uma

maior dificuldade em detectar os segmentos autênticos.

As taxas de falsos positivos (FP) e de falsos negativos (FN) são definidas como o ponto de operação

do sistema e ditam o valor do limiar de decisão escolhido para modo de operação. Na prática, estas

taxas de erro, falsos positivos e falsos negativos, correspondem à percentagem de erros que ocorrem

na fase de teste e podem ser representadas por e , respectivamente.

2.6.1. Curva DET

Uma vez que ambas as taxas são funções do limiar de decisão escolhido, é possível representar o

desempenho do sistema através de um gráfico com em função de .

A curva Detection Error Trade-off (DET) [Martin et al., 1997] conhecida como a característica de

operação do sistema, é monótona e decrescente. Quanto melhor for o desempenho do sistema, mas

perto da origem do gráfico se encontra a curva. Um exemplo de uma curva DET encontra-se na

Figura 2.8.

Figura 2.8: Exemplo de uma curva DET.

2.6.2. EER

O EER , Equal Error Rate, é a métrica mais comum e simples de calcular num sistema de verificação

de orador. Para obter o EER é necessário que o limiar de decisão do sistema escolhido iguale a taxa

de FP com a taxa de FN, ou seja, .

Quanto mais baixo for o EER melhor será o desempenho do sistema a separar os segmentos

autênticos dos segmentos impostores.

O valor do EER também pode ser obtido através da Figura 2.8 e corresponde à intercepção da curva

DET com a recta x = y. Nesse exemplo, o limiar de decisão do sistema escolhido iria igualar ambas

as taxas de erro com um valor de aproximadamente 8%.

2.6.3. DCFmin

O DCFmin, Detection Cost Function é uma medida de erro utilizada pelo National Institute of Standards

and Tecnology (NIST) nos várias provas realizadas que avaliam os mais recentes sistemas de

reconhecimento do orador [NIST, 2010]. Este é um método de avaliação que permite atribuir

diferentes custos aos dois tipos de erros existentes, criando uma média ponderada entre FP e os FN:

Falsos Positivos (em %)

egativos (

Onde , , e .

O facto de possibilitar que sejam atribuídos diferentes custos aos FP e aos FN torna possível que

seja preferível não identificar correctamente um orador do que ser autenticado um impostor.

Um exemplo de uma curva DET e do respectivo ponto de funcionamento do sistema que permite

obter um determinado DCFmin pode ser observado na Figura 2.9.

Figura 2.9: Exemplo de uma curva DET com o valor do DCFmin.

No exemplo da Figura 2.9, o limiar de decisão do sistema é escolhido de forma a permitir uma taxa de

falsos negativos de 28% e de falsos positivos de apenas 0,6%.

2.7. Estado da Arte

O National Institute of Standards and Technology (NIST) é, para a comunidade científica, uma das

principais referências nas pesquisas e nas últimas tecnologias utilizadas para o reconhecimento do

orador. Desde 1996 que este instituto coordenada e realiza uma prova com regras bem definidas,

egativos (

onde os participantes são convidados a testarem os seus métodos utilizando o mesmo conjunto áudio

disponibilizado pelo próprio NIST. Mais de 40 pesquisadores têm desde então participado nesta

avaliação, sendo ainda convidados novos pesquisadores e universidades todos os anos. Estas

avaliações são uma importante contribuição para a direcção dos esforços de investigação na área do

reconhecimento do orador independente do texto. Têm por isso, como objectivo global, o avanço da

tecnologia utilizada, medir o estado da arte e encontrar as abordagens algorítmicas mais

promissoras. É por este motivo que a maior parte das experiências realizadas na área do

reconhecimento do orador tentam aproximar-se da melhor forma das provas realizadas pelo NIST.

Em [Schmidt-Nilsen and Crystal, 2000] é realizada uma experiência de verificação do orador que

compara o desempenho do ser humano com alguns sistemas de reconhecimento. Uma vez que os

computadores e os humanos têm diferentes limites e capacidades, como a memória ou a resistência

à fadiga, foi necessário realizar alguns ajustes nos testes realizados aos humanos. Os resultados

obtidos mostraram que os humanos conseguem um EER de 8%, igualando o melhor sistema de

reconhecimento usado nas avaliações do NIST da altura. Outros sistemas típicos de reconhecimento

do orador obtêm taxas na ordem dos 12% a 14%. O desempenho dos humanos ainda se mostra ser

mais robusto em gravações com pior qualidade.

Um dos sistemas de reconhecimento do orador mais usado e estudado actualmente é o sistema

Gaussian Mixture Model (GMM). O artigo [Reynolds, 1995] introduziu os modelos de misturas

Gaussianas usados no reconhecimento do orador na vertente independente do texto. Neste

classificador, as componentes Gaussianas de um GMM são usadas para modelar as características

individuais de um orador. Mais tarde, em [Reynolds et al., 2000] os modelos de misturas Gaussianas

dos oradores passaram a ser adaptados de um Universal Background Model (UBM). Este método,

mais eficiente computacionalmente, apresenta uma melhoria nos resultados [Bimbot et al., 2004].

Nesta experiência, desenvolvida de acordo com as regras definidas pelo NIST, foi utilizado o corpus

de 1999 disponibilizado pelo NIST. Foram treinados 11 modelos oradores com 120 segundos e

testados contra segmentos com tamanho entre os 0,5 e os 60 segundos. O UBM, composto por 2048

misturas Gaussianas, foi treinado a partir de todo o conjunto de treino disponível. O EER obtido pelo

sistema foi de aproximadamente 10%.

O estudo [Hasan and Hansen, 2010] foca-se em detalhe no desempenho de um sistema de

verificação do orador quando os dados presentes no UBM do sistema GMM são seleccionados e

alterados de diferentes maneiras, incluído na quantidade de dados de treino e no número de oradores

presentes. Provou-se experimentalmente que aumentar gradualmente o número de oradores

presentes no UBM, sem aumentar o tempo total de treino, origina um sistema com um desempenho

melhor, como apresenta a Figura 2.10. Os oradores foram escolhidos aleatoriamente e o EER foi

calculado através da média de cinco experiencias independentes. Ainda no mesmo estudo, verificou-

se que se os dados de treino do UBM mantiverem a mesma diversidade, então apenas uma parte dos

dados são suficientes para treinar o UBM, como mostra a Figura 2.11. Neste teste, o UBM foi treinado

apenas com os primeiros segundos de cada segmento.

Figura 2.10: Desempenho do sistema em relação ao número de oradores presentes no UBM

(adaptado de [Hasan and Hansen, 2010]).

Figura 2.11: Desempenho do sistema em relação ao tempo de treino presente no UBM (adaptado de

[Hasan and Hansen, 2010]).

No mesmo ano em que Reynolds gera os modelos dos oradores a partir de um UBM, um outro

método, [Wan and Campell, 2000], testa a performance dos Support Vector Machines (SVMs) na

tarefa da verificação do orador. Para os autores, esta abordagem parece indicada na verificação do

orador devido a natureza binária das decisões do classificador. Nesta experiência foram

seleccionados 138 oradores da base de dados de YOHO [Campbell, 1995], sendo que 69 oradores

foram seleccionados para treino e teste, enquanto os segmentos dos restantes oradores apenas

foram usados para teste. Na fase de treino foram criados 69 modelos de oradores, onde cada modelo

foi treinado contra os restantes 68 oradores. A utilização de SVM na verificação do orador conseguiu

um EER de 0,59%, um valor aproximado mas não tão bom como os resultados obtidos pelo sistema

GMM que apresentou um EER entre os 0,5% e os 0,6%. Como já afirmado anteriormente, esta

experiência foi realizada com a base de dados de YOHO, que apenas contém palavras-chave, com

por exemplo “67 34 85”, proferidas pelos oradores num ambiente controlado.

Dados de Treino do UBM (h)

Número de oradores no UBM

Um dos aspectos importantes na utilização dos SVM é a escolha do kernel usado para separar os

dados de entrada em classes através de um hiperplano. Em [Campbell et al., 2006a] é introduzido um

novo kernel, denominado Generalized Linear Discriminant Sequence Kernel (GLDS) e comparado

com o sistema GMM.

Em [Campbell et al., 2006b], é apresentada uma nova aplicação das SVM com um kernel linear

através da utilização de Supervectores formados a partir das médias das misturas Gausianas dos

GMM, denominados por isso de Gaussian Supervectores (GSV) ou Gaussian Supervector Linear

(GSL). Os resultados foram obtidos utilizando o corpus de 2005 disponibilizado pelo NIST, com cada

modelo orador, constituído por 2048 misturas Gaussianas, a ser treinado com 20 minutos e testado

com segmentos de 2,5 minutos. O EER do sistema SVM-GSV foi de 4%, enquanto para os mesmos

segmentos de treino e teste o sistema GMM-UBM obteve um EER de 6%.

Desde 2004 que uma das condições impostas pelo NIST para participação nas provas está

relacionada com a obtenção do desempenho dos sistemas de reconhecimento do orador em

conversas telefónicas entre duas pessoas com duração aproximada de 5 minutos. Estas condições

têm por isso recebido mais atenção por parte da comunidade científica. No entanto, em situações

reais, a quantidade de fala disponível é geralmente menor, o que leva a sejam feitos estudos como

em [Fauve et al., 2007a] apenas com 10 segundos de treino e teste, em que se verificam as

limitações e capacidades de diversos métodos de adaptação de modelos. Os resultados mostram

também que a duração do segmento que contém fala é um importante factor no desempenho de um

sistema de reconhecimento.

A evolução verificada no estado da arte do reconhecimento do orador pode ser consultada em [Fauve

et al., 2007b] onde algumas técnicas de verificação do orador são comparadas: GMM-UBM, SVM-

GSV e SVM-GLDS. Os testes foram realizados na plataforma ALIZE [Bonastre et al., 2005], um

software open source, com conjuntos de treino e teste iguais. No caso dos sistemas de fusão, os

pesos aplicados foram iguais. Os resultados obtidos encontram-se na Figura 2.12. É possível

observar que o sistema SVM-GSV obteve o EER e DCFmin mais baixos tendo mesmo superado

sistemas de fusão entre os diferentes métodos de reconhecimento.

Outra comparação entre sistemas de reconhecimento encontra-se descrita em [Reynolds and

Campbell, 2007] onde foram testados os mesmos sistemas de reconhecimento, GMM-UBM, SVM-

GLDS e SVM-GSV, mas com recurso ao áudio disponibilizado pelo NIST. Foi ainda calculado o

desempenho da fusão entre os três sistemas. Realizaram-se duas experiências distintas, com

diferentes condições de treino. Na primeira experiência utilizaram-se 2,5 minutos para treino de cada

orador, enquanto na segunda experiência cada modelo orador foi treinado com 20 minutos de fala.

Em ambos os casos, o tempo de teste foi de 2,5 minutos. O desempenho de cada sistema foi medido

através do EER e do DCFmin. Na primeira experiência, o sistema SVM-GSV obteve um DCFmin de

0,02, o valor mais baixo dos três sistemas. Por outro lado, o sistema SVM-GLDS foi o que apresentou

o melhor EER com um valor na ordem dos 5,7%. O sistema GMM-UBM foi o que obteve pior

classificação, com um EER de 7% e DCFmin de 0,024. Na segunda experiência, onde cada orador foi

treinado a partir de 20 minutos de fala, o sistema SVM-GSV obteve novamente o melhor desempenho

a nível do DCFmin ao apresentar um valor de 0,009, muito semelhante ao obtido pelo sistema SVM-

GLDS. O sistema GMM-UBM voltou a apresentar o pior desempenho. Em ambos os casos, a fusão

entre os três sistemas de reconhecimento conseguiu obter melhores resultados quando comparado

com os sistemas individualmente. Nas Figuras 2.13 e 2.14 são apresentados os valores do EER e do

DCFmin obtidos pelos sistemas GMM-UBM, SVM-GLDS, SVM-GSV e fusão quando os modelos são

treinados com 2,5 minutos e 20 minutos, respectivamente.

Figura 2.12: Valores do EER e do DCFmin obtidos por diferentes sistemas de reconhecimento do

orador (adaptado de [Fauve et al., 2007b]).

Figura 2.13: Desempenho dos sistemas para modelos treinados com 2,5 minutos e testados com 2,5

minutos.

GMM-UBM SVM-GLDS SVM-GSV Fusão

DCFmin

SVM-GSV

GMM-UBM+SVM-GSV

GMM-UBM+SVM-GLDS

GMM-UBM

SVM-GSV+SVM-GLDS

SVM-GLDS

Figura 2.14: Desempenho dos sistemas para modelos treinados com 20 minutos e testados com 2,5

minutos.

Os sistemas de reconhecimento do orador evoluíram muito desde as primeiras experiências,

baseadas em associação de padrões, até aos mais recentes sistemas, que incluem um dos sistemas

de classificação mais utilizado, caso do GMM-UBM, e o sistema estado da arte SVM-GSV. Ao longo

do tempo também surgiu a necessidade de aumentar a complexidade do reconhecimento, tendo a

identificação e a verificação do orador cada vez mais oradores para reconhecer.

GMM-UBM SVM-GLDS SVM-GSV Fusão

DCFmin

Capítulo 3

Capítulo 3: Corpora

3.1. Introdução

Neste capítulo são descritos os corpora usados para treino, desenvolvimento e teste. Dele fazem

parte um total de 167 programas televisivos, recolhidos entre os anos 2000 e 2008, amostrados a

16kHz e com 16 bits por amostra. Estes corpus fornecem os recursos fundamentais para o

desenvolvimento de um sistema de reconhecimento do orador.

Os corpus usados neste trabalho são constituídos maioritariamente por programas noticiosos,

nacionais e regionais, transmitidos pela televisão pública Portuguesa (RTP). Foram originalmente

recolhidos para treino e teste de um sistema de reconhecimento de fala e detecção de tópicos [Neto

et al., 2003, Meinedo et al., 2003, Meinedo et al., 2010], tendo sido posteriormente adicionados mais

programas. Devido às audiências elevadas e notícias mais abrangentes, o Telejornal das 20 horas da

RTP foi tido como referência, apresentado por isso uma maior influência.

Todos os segmentos de um programa noticioso que contêm fala encontram-se identificados através

do tempo de inicio, fim e do orador que o pronuncia, sendo possível desta forma identificar quais os

segmentos que podem ser processados. Anotadores foram responsáveis por particionar todos os

programas televisivos, identificando os intervalos que contêm música, fala, silêncio, vozes

sobrepostas e ruído.

Os corpus utilizados encontram-se divididos em 8 conjuntos, um para treino (Train), dois para

desenvolvimento (Devel e Pilot) e cinco para teste (Eval, Jeval, 11march, Rtp07 e Rtp08). A

Tabela 3.1 fornece uma visão geral dos corpus em termos de quantidade, duração, ano de exibição

dos programas e finalidade dos conjuntos.

Conjunto Ano Número Tempo Total Tempo Útil Finalidade

Train 2000 99 60,15 h 46,48 h Treino

Devel 2000 13 8,23 h 6,60 h Desenvolvimento

Pilot 2000 11 5,55 h 4,79 h Desenvolvimento

Eval 2001 12 5,96 h 4,53 h Teste

Jeval 2001 14 15,52 h 13,52 h Teste

11march 2004 7 6,50 h 5,33 h Teste

Rtp07 2007 6 6,22 h 4,79 h Teste

Rtp08 2008 5 5,21 h 3,69 h Teste

Tabela 3.1: Conjuntos disponíveis de treino, desenvolvimento e teste.

Depois de removidos os jingles, os intervalos comerciais e os silêncios, é possível observar, através

da Tabela 3.1, que existem aproximadamente 46 horas disponíveis para treino, 11 horas que podem

ser usadas para ajustar o sistema, nomeadamente através de uma normalização, e 32 horas para

avaliar o desempenho do sistema de verificação do orador. As secções seguintes descrevem em

detalhe cada um destes conjuntos.

3.2. Corpus de Treino

Este é o conjunto usado para treinar os diferentes modelos oradores. É composto inteiramente por 99

programas noticiosos transmitidos pela RTP entre Outubro a Novembro do ano 2000. A RTP foi

responsável por recolher a informação nas suas instalações.

A Tabela 3.2 mostra o conjunto, o ano em que foram transmitidos os programas, o tempo total e o

tempo útil após a remoção dos jingles, intervalos comerciais e silêncio.

Conjunto Ano Número Tempo Total Tempo Útil

Train 2000 99 60,15 h 46,48 h

Total 99 60,15 h 46,48 h

Tabela 3.2: Conjunto de treino.

Um resumo dos programas noticiosos que fazem parte deste corpus encontra-se na Tabela 3.3. O

Telejornal da RTP é o programa dominante, com mais de metade da duração total. Este é um

pormenor intencional, uma vez que é o programa noticioso principal e que melhor representa o tipo

de programas analisados.

Programa Número Tempo Total Tempo Útil Tipo

24 Horas 4 1,32 h 1,11 h Notícias das 24 horas

Acontece 9 3,10 h 2,31 h Notícias culturais

Jornal 2 7 4,90 h 4,06 h Notícias da noite

Jornal da Tarde 8 7,93 h 6,22 h Notícias das 13 horas

Notícias 8 0,62 h 0,53 h Notícias da manhã

País Regiões 13 6,73 h 4,80 h Notícias nacionais

País Regiões Lisboa 7 2,28 h 1,93 h Notícias locais

RTP Economia 13 1,89 h 1,23 h Notícias financeiras

Telejornal 30 31,38 h 24,29 h Notícias das 20 horas

Total 99 60,15 h 46,48 h

Tabela 3.3: Conjunto de programas presentes no corpus de treino.

Deste corpus fazem parte um total de aproximadamente 1366 oradores diferentes.

3.3. Corpus de Desenvolvimento

Este conjunto permite melhorar o desempenho do sistema de verificação do orador através do ajuste

dos parâmetros do sistema no cálculo dos resultados. Estes parâmetros incluem, por exemplo, os

valores da média e do desvio padrão dos resultados obtidos pelos modelos oradores quando testados

contra segmentos impostores.

O corpus de desenvolvimento é composto por 24 programas noticiosos, gravados em Abril, Junho e

Dezembro do ano 2000. Após a remoção dos jingles, intervalos publicitários e silêncio, o conjunto de

desenvolvimento fica reduzido a cerca de 11 horas. Os valores do tempo total, tempo útil e o número

de programas que fazem parte de cada conjunto encontram-se na Tabela 3.4.

Devel 2000 13 8,23 h 6,60 h

Pilot 2000 11 5,55 h 4,79 h

Total 24 13,78 h 11,39 h

Tabela 3.4: Conjuntos de desenvolvimento.

A Tabela 3.5 apresenta um sumário dos programas televisivos que fazem parte deste conjunto.

Observa-se que a composição do corpus de desenvolvimento é similar ao corpus de treino com o

Telejornal da RTP a ser novamente o programa com maior tempo útil.

24 Horas 3 86,96 min 73,67 min Notícias das 24 horas

Acontece 2 40,46 min 31,58 min Notícias culturais

Grande Reportagem 1 69,65 min 57,40 min Entrevistas políticas

Jornal 2 2 95,65 min 79,90 min Notícias da noite

Jornal da Tarde 2 130,77 min 103,27 min Notícias das 13 horas

Notícias 2 18,69 min 16,90 min Notícias da manhã

País Regiões 2 48,92 min 38,35 min Notícias nacionais

País Regiões Lisboa 2 44,89 min 40,93 min Notícias locais

Remate 1 7,53 min 6,81 min Notícias desportivas

RTP Economia 3 20,38 min 14,40 min Notícias financeiras

Telejornal 4 262,84 min 220,35 min Notícias das 20 horas

Total 24 13,78 h 11,39 h

Tabela 3.5: Conjunto de programas presentes no corpus de desenvolvimento.

No corpus de desenvolvimento existem aproximadamente 418 oradores diferentes.

3.4. Corpus de Teste

A finalidade do corpus de teste é avaliar o desempenho do sistema de reconhecimento do orador.

Este corpus é composto por 44 programas noticiosos divididos entre 5 conjuntos (Eval, Jeval,

11march, Rtp07 e Rtp08) e contém programas gravados entre o ano 2001 e 2008. A forma com se

encontram divididos os diferentes conjuntos e quais as suas características encontram-se na

Tabela 3.6.

Eval 2001 12 5,96 h 4,53 h

Jeval 2001 14 15,52 h 13,52 h

11march 2004 7 6,50 h 5,33 h

Rtp07 2007 6 6,22 h 4,79 h

Rtp08 2008 5 5,21 h 3,69 h

Total 44 39,41 h 31,86 h

Tabela 3.6: Conjuntos de teste.

A Tabela 3.7 apresenta um sumário dos programas televisivos que fazem parte do corpus de teste.

24 Horas 2 38,60 min 32,12 min Notícias das 24 horas

Acontece 1 17,84 min 12,63 min Notícias culturais

Jornal 2 1 38,44 min 26,70 min Notícias da noite

Jornal da Tarde 1 62,99 min 42,98 min Notícias das 13 horas

Notícias 1 10,70 min 8,50 min Notícias da manhã

País Regiões 1 33,78 min 25,42 min Notícias nacionais

País Regiões Lisboa 1 20,20 min 17,64 min Notícias locais

RTP Economia 2 20,00 min 13,79 min Notícias financeiras

Telejornal 34 35,37 h 28,85 h Notícias das 20 horas

Total 44 39,41 h 31,86 h

Tabela 3.7: Conjunto de programas presentes no corpus de teste.

No corpus de teste são possíveis identificar cerca de 1032 oradores diferentes.

Capítulo 4

Capítulo 4: Características

4.1. Introdução

Neste capítulo é abordado qual o conjunto de características relevantes da voz utilizado no

reconhecimento do orador e qual o pré-processamento realizado como forma de eliminar o silêncio

entre palavras.

No presente trabalho optou-se por usar os coeficientes de predição linear perceptiva, devido aos bons

resultados apresentados anteriormente em tarefas de reconhecimento do orador. Foram ainda

utilizados, para além dos coeficientes PLP, a energia e os parâmetros delta e delta-delta.

4.2. Pré-Processamento Áudio

O módulo de pré-processamento áudio usado neste trabalho foi desenvolvido no L2F, INESC-ID,

[Meinedo, 2008] e faz parte do sistema de reconhecimento da fala Audimus. Este módulo tem o

objectivo de particionar e classificar segmentos áudio. Um diagrama do módulo de pré-

processamento áudio é apresentado na Figura 4.1.

Figura 4.1: Diagrama de blocos do pré-processamento áudio (adaptado de [Meinedo, 2008]).

A segmentação áudio é responsável por detectar os locais onde o orador ou as condições de

background se alteram. A classificação fala/não-fala determina se um segmento áudio contém fala ou

não. As condições de background indicam se o background é silencioso, tem ruído ou música. A

distinção entre oradores do género masculino ou feminino é feita pela detecção de género. O

Segmentação Áudio

Alterações Acústicas

Classificação Áudio

Não Fala

Condições Background

Classificação Orador

Género

Agrupamento

Identificação

Segmento

Áudio Caracterização

agrupamento identifica todos os segmentos produzidos pelo mesmo orador. A identificação tem a

tarefa de identificar certos oradores como pivots de telejornais ou personalidades importantes.

A componente de classificação fala/não-fala permite etiquetar de forma automática todos os

segmentos áudio que contêm fala e os que contêm outros sons ou ruídos.

4.3. Coeficientes PLP

Os coeficientes Perceptual Linear Predictive (PLP) são uma das técnicas mais usadas nos sistemas

de reconhecimento do orador.

Esta técnica foi desenvolvida e apresentada em [Hermansky, 1990] usando três conceitos da área

psicofísica do sistema de audição humana (estudo da relação entre estímulos físicos e a sua

percepção de modo a criar um espectro auditivo). O primeiro é a resolução espectral das bandas

críticas, o segundo é a curva de igualização de sonoridade e o terceiro conceito é a lei da potência

intensidade - percepção. Por fim, o espectro auditivo é aproximado por um modelo auto-regressivo de

pólos.

O método começa por aplicar uma janela de Hamming a cada frame com duração de 20ms de acordo

onde N é o tamanho da janela.

A transformada discreta de Fourier é usada para passar o sinal resultante para o domínio da

frequência através da soma do quadrado das componentes real e imaginária do espectro de sinal de

termo curto. Desta forma obtém-se o espectro de potência:

O espectro é distorcido ao longo do seu eixo de frequência para o eixo de frequências Bark

através de:

onde é a frequência angular em rad/s. O espectro de potência resultante é convoluído com um

espectro de potência de uma curva de mascaramento de banda crítica com a forma:

Através da convolução discreta de com obtém-se :

A função é uma aproximação da sensibilidade do ouvido humano a diferentes frequências para

valores de aproximadamente 40 db.

Sendo possível calcular posteriormente o sinal:

Por fim, utiliza-se a compressão de amplitude para simular a relação não-linear entre a intensidade de

um som e a percepção pelo ouvido humano.

Na última operação da análise PLP, o sinal é aproximado pelo espectro de um modelo só com

pólos, calculado através da transformada inversa de Fourier, usando o método da auto-correlação.

Os coeficientes do modelo auto-regressivo podem ser posteriormente transformados em parâmetros

de interesse, tais como coeficientes cepstrais ou coeficientes do modelo auto-regressivo.

É prática comum no reconhecimento do orador a realização de cálculos adicionais, nomeadamente o

cálculo das derivadas de primeira e segunda ordem, aumentando desta forma o número de

coeficientes calculados para cada janela do sinal de fala.

Os coeficientes delta e delta-delta obtidos através do cálculo das derivadas de primeira e segunda

ordem dos coeficientes PLP e da energia são utilizados para representar mudanças dinâmicas no

espectro de voz de forma a detectar variações dentro do espectro. Os coeficientes delta são

calculados através de:

Os coeficientes delta-delta, segunda derivada dos coeficientes PLP e energia, são obtidos através de:

(4.10)

Finaliza-se desta forma a extracção de características de uma janela do sinal de fala. Torna-se agora

possível efectuar as tarefas de treino e de reconhecimento do orador.

Capítulo 5

Capítulo 5: Classificadores

5.1. Introdução

Neste capítulo são apresentados os sistemas de classificação utilizados desta dissertação para a

verificação do orador na vertente independente do texto. O primeiro sistema de classificação é o

Gaussian Mixture Model - Universal Background Model (GMM-UBM), um modelo estatístico. O

segundo sistema de classificação é o Support Vector Machine - Gaussian Supervector (SVM-GSV).

Na secção 5.2 são apresentadas as propriedades dos Modelos de Misturas Gaussianas e a forma

como podem ser utilizados no reconhecimento do orador. Na secção 5.3, o classificador SVM é

apresentado em conjunto com a aplicação do supervector.

5.2. Propriedades do GMM-UBM

Os modelos de misturas Gaussianas são um dos métodos mais usados no reconhecimento do orador

e em outros problemas de processamento de áudio.

Nas aplicações de reconhecimento de orador independentes do texto, onde não existe um

conhecimento prévio do que o orador pronuncia, a utilização de modelos de misturas Gaussianas tem

apresentado bons resultados. No caso das aplicações onde é conhecido previamente o que o orador

pronuncia (dependentes do texto) recorre-se geralmente à utilização de HMMs.

Um modelo de misturas Gaussianas resulta de combinações lineares de distribuições Gaussianas

[Reynolds, 1995]. Estas combinações são formadas por distribuições mais simples, capazes de

serem representadas por um modelo probabilístico. Este sistema é usado para caracterizar os dados

de treino de cada orador e permite também calcular, posteriormente, a semelhança existente entre os

segmentos de teste e os diferentes modelos oradores treinados.

Um modelo de misturas Gaussianas pode também ser entendido como HMM, de um único estado,

tendo como observações combinações de funções de densidade de probabilidade Gaussianas. Estas

componentes modelam um amplo conjunto de características como forma de modelar a voz de um

orador.

A Figura 5.1 representa uma combinação linear de funções densidade de probabilidade Gaussianas.

O vector de características é inserido num modelo de misturas Gaussianas, permitindo o cálculo da

probabilidade ), que corresponde à probabilidade de ocorrência do vector considerando o

modelo .

Figura 5.1: Representação de um modelo de misturas Gaussianas.

Num classificador GMM cada modelo orador , é representado por uma combinação ponderada de

densidades de probabilidade Gaussianas:

Onde é um vector de dimensão , , , representa uma função Gaussiana e onde ,

o peso de cada mistura, corresponde a números positivos em que .

Cada função é uma função densidade de probabilidade Gaussiana de dimensão N da forma:

com vector de média e matriz de covariância . Desta forma, cada modelo é caracterizado por:

onde representa o número de Gaussianas.

De referir ainda que as equações que definem funções de densidade de probabilidade, quando

integradas no intervalo de apresentam um resultado unitário.

Existem dois motivos principais para se usar GMMs na representação de um orador. O primeiro

motivo é dado pela noção intuitiva de que a modelação de conjuntos de classes acústicas pode ser

realizada através de componentes individuais. Assume-se por isso que o espaço acústico

correspondente à voz de um orador pode ser caracterizado por um conjunto de classes acústicas que

representam eventos fonéticos. Estas classes acústicas reflectem a dependência do orador em

relação ao seu tracto vocal, úteis para caracterizar a identidade do orador. Desta forma, uma classe

acústica pode ser representada por uma função densidade de probabilidade, distinguida pela média

, e por uma matriz de covariância . O segundo motivo para a utilização de GMMs no

reconhecimento do orador deve-se ao facto de que uma combinação linear de funções de base

Gaussiana ser capaz de representar uma grande classe de distribuições. Um dos atributos dos

GMMs é a sua capacidade de aproximação para modelar densidades de probabilidade

desconhecidas.

A Figura 5.2 apresenta um histograma de uma única característica extraída a partir de um segmento

que contém fala de um orador. Na Figura 5.3, o GMM do orador é composto pela soma ponderada de

um conjunto de três distribuições Gaussianas, onde o peso, , de cada componente Gaussiana é

igual.

Figura 5.2: Histograma de um único coeficiente extraído se um segmento de fala.

Figura 5.3: Exemplo de um GMM.

-5 -4 -3 -2 -1 0 1 2 3 4 5

Uma vez que as misturas Gaussianas actuam em conjunto para modelar a função densidade de

probabilidade, a matriz de covariância completa não é necessária mesmo que os vectores de

características não sejam estatisticamente independentes. A combinação linear das matrizes de

covariância diagonais é capaz de modelar a correlação existente entre os vectores de características.

É por isso computacionalmente mais eficiente a utilização de matrizes de covariância diagonais, sem

que a performance do sistema seja afectada.

Dado um conjunto de características extraídas de segmentos de treino, o objectivo do treino de um

modelo orador é estimar os parâmetros do GMM, que igualem da melhor forma a distribuição dos

vectores de características. Desta forma, cada orador é representado por um GMM com

O método que permite o treino do GMM é o algoritmo Expectation Maximization (EM) [Dempster et

al., 1977]. Através deste método, e dada uma sequência de vectores de treino , os

diferentes modelos são aperfeiçoados iterativamente de modo a que . O novo

modelo, , passa a ser o modelo anterior, , na próxima iteração, sendo o processo repetido

até que um limiar de convergência seja alcançado. Desta forma, é garantido que a cada iteração o

modelo obtido é cada vez mais correlacionado com os vectores de características .

Em cada iteração do algoritmo EM, a verosimilhança do modelo aumenta em relação aos vectores de

treino através da aplicação das equações no cálculo do peso, média e variância das misturas.

A probabilidade , para uma classe acústica é dada por:

Dois factores importantes no treino de GMMs são a selecção do número de Gaussianas, , e a

inicialização dos parâmetros anteriormente à aplicação do algoritmo EM. No entanto, não existem

métodos teóricos para a determinação precisa destes parâmetros.

O UBM é um modelo criado através de vectores de características de vários oradores e é constituído

por um único modelo de misturas Gaussianas que modela todos os oradores existentes no universo.

Este modelo deve ser treinado com o mesmo tipo de fala e condições que se espera encontrar

durante os testes, nomeadamente em relação às condições e qualidade da voz gravada. O objectivo

é fazer com que este modelo forneça a melhor aproximação a qualquer orador existente, uma vez

que será a partir deste que, por adaptação, os modelos dos oradores serão depois treinados.

Dados os conjuntos de treino do UBM, existem geralmente duas formas que permitem obter o modelo

de misturas Gaussianas final. O mais simples, Figura 5.4, consiste em reunir todos os dados de treino

e treinar o UBM através do algoritmo EM, descrito anteriormente. Os dados de treino devem estar

correctamente balanceados como forma de evitar que o modelo do UBM fique incorrectamente

tendencioso, ou seja, a relação entre homens e mulher, entrevistas no interior e exterior, etc.,

presentes nos dados de treino deve corresponder aquilo que se espera encontrar durante o

reconhecimento.

Figura 5.4: Treino do UBM com todos os dados de treino.

O outro método de treino do UBM consiste em treinar UBMs individuais para cada conjunto de treino,

tal como um para oradores masculinos e outro para oradores femininos, e de seguida combinar os

modelos para formar um só, Figura 5.5. Este método apresenta como vantagem o facto de permitir

usar dados que não estejam correctamente balanceados e controlar a composição final do modelo do

Figura 5.5: Treino de UBMs individuais e posterior combinação.

Não existe nenhuma medida objectiva que determine o número de oradores ou a quantidade de

dados necessários para treinar o UBM.

Dados do Conjunto 1

Dados do Conjunto 2

Treino do GMM

Dados do Conjunto 1

Dados do Conjunto 2

Treino do GMM

Combinar Modelos

Num sistema GMM-UBM os modelos dos oradores são adaptados a partir do UBM [Reynolds et al.,

2000]. Dada uma sequência de vectores de treino , pertencentes a um orador, o seu

modelo será obtido por adaptação a partir dos parâmetros do UBM por um processo bayesiano ou

máximo à posteriori (MAP) [Gauvain and Lee, 1994].

A ideia básica do método de adaptação é obter o GMM do orador por actualização dos parâmetros já

treinados do UBM através de uma adaptação. Isto permite obter uma maior relação entre o modelo

do orador e o modelo UBM, produzindo também melhores resultados do que modelos treinados

independentemente do UBM [Reynolds, 1997]. O modelo adaptado a partir do UBM torna-se por isso

o modelo final do orador.

A Figura 5.6 mostra dois passos do método de adaptação do GMM do orador a partir do UBM. Os

vectores de treino do orador, representados por “x”, são probabilisticamente mapeados nas misturas

Gaussianas do UBM, Figura 5.6 a). De seguida, na Figura 5.6 b), observa-se que a distribuição dos

vectores de treino “x” e os parâmetros do UBM originam os parâmetros adaptados do modelo do

orador.

Figura 5.6: Método de adaptação de um GMM do orador (adaptado de [Reynolds, 1995] ) a) Modelo

do UBM e características do orador b) GMM do orador obtido por adaptação.

Tal como no método EM, a adaptação encontra-se dividida em dois passos. O primeiro passo

consiste em inicializar o GMM do orador com os parâmetros de cada mistura do UBM. De seguida,

são estimadas as probabilidades dos vectores de treino para cada mistura no modelo, ou seja, a

probabilidade de cada componente , dada por:

De seguida, e são usados para calcular os parâmetros que serão posteriormente usados

no calculo dos peso, média e variância de cada Gaussiana.

Dados de treino

do Orador

Modelo do UBM Modelo do Orador

(5.10)

(5.11)

Finalmente, a adaptação dos parâmetros de cada mistura do modelo orador é realizada, com

recurso aos parâmetros de cada mistura i do UBM e dos parâmetros calculados anteriormente:

(5.12)

(5.13)

(5.14)

Por fim, é calculada novamente a probabilidade de cada componente , pesos, médias e variâncias

de todas as Gaussianas, para os vectores de treino , sendo que o modelo do orador já se encontra

ligeiramente adaptado.

Apesar de ser possível adaptar todos os parâmetros do UBM durante o treino de um modelo orador,

testes mostram que o desempenho do sistema é melhor quando apenas as médias das Gaussianas

do UBM são adaptadas [Reynolds et al., 2000].

O factor de escala é calculado de modo a que o somatório dos pesos das misturas Gaussianas seja

1. O coeficiente de adaptação, , controla o efeito entre cada iteração para cada mistura e define-

se como:

(5.15)

Onde é um factor fixo.

O coeficiente de adaptação permite gerir o nível de adaptação dos parâmetros de uma mistura. Se os

vectores de treino tiverem uma baixa presença numa Gaussiana , então dando menos

importância aos novos parâmetros e realçando os parâmetros antigos, possivelmente melhor

treinados, não sendo por isso registadas adaptações significativas. Por outro lado, se então os

vectores de treino têm uma maior probabilidade na Gaussiana, causando que exista uma maior

adaptação dos parâmetros. Por este motivo, nem todos os parâmetros do UBM são adaptados ao

modelo orador.

Um sistema de verificação do orador deve determinar, através de uma decisão binária, se um

segmento de fala pertence ou não a um determinado orador, cujo GMM tenha sido anteriormente

determinado. A escolha, considerando os vectores de características , dever ser feita

entre duas hipóteses, e , onde:

pertence ao orador

não pertence ao orador (5.16)

Para que o sistema decida entre e , torna-se necessário criar um conjunto de modelos

impostores, designado por background, como forma de calcular a razão de verosimilhança entre

ambas as hipóteses. A razão de verosimilhança, para um conjunto de características , entre um

modelo orador a testar e um modelo impostor , é dada por:

(5.17)

A razão de verosimilhança no domínio logaritmo é:

(5.18)

O valor de é comparado com um limiar de decisão do sistema como forma de atribuir ou não o

segmento ao orador. Caso , o segmento é aceite e atribuído ao orador, caso o

segmento é rejeitado e por isso não é atribuído ao orador. A razão de verosimilhança determina o

quão melhor o orador testado se assemelha ao modelo do orador verdadeiro quando comparado com

modelo impostor.

A verosimilhança entre as características extraídas e o GMM de um orador é calculada através de:

(5.19)

Onde é uma sequência de vectores de características e serve para normalizar a

verosimilhança de acordo com o número de vectores de características extraídos. A verosimilhança

obtida pelos modelos impostores é gerada a partir de um conjunto de modelos impostores,

denominado conjunto de background e do qual não faz parte o orador a testar. Este conjunto de

modelos impostores pode ser constituído de duas formas distintas:

Através da utilização de GMMs impostores, seleccionados de acordo com certas regras

como, por exemplo, o tempo de treino do modelo ou a forma como e onde foram recolhidos

os segmentos áudios usados para treino dos respectivos GMM. O diagrama de blocos deste

sistema encontra-se representado na Figura 5.7.

Supondo um conjunto de background com impostores e respectivos modelos , a

verosimilhança para os modelos impostores é calculada através de:

(5.20)

O factor é utilizado como forma de normalizar a verosimilhança de acordo com o número

de modelos impostores utilizados em background.

Figura 5.7: Sistema de reconhecimento com K modelos impostores.

Através da utilização de vários oradores para gerar um único GMM. Desta forma, são usadas

as características de diversos oradores para criar um único modelo. Este modelo,

apresentado na Figura 5.8, é designado por UBM.

Figura 5.8: Sistema de reconhecimento com o UBM como único modelo impostor.

Modelo do

Orador

Modelo Universal

de Background

Modelo

Orador

Modelo

Impostor 1

Modelo

Impostor K

No entanto, a verosimilhança logarítmica pode ainda apresentar um valor mais correcto caso seja

normalizada. Este processo irá tornar o limiar de decisão do sistema mais confiável devido à

diminuição de variações existentes, ou seja, a verosimilhança irá produzir um resultado mais estável

em relação às características do orador e será menos sensível a outro tipo de variações, como a

duração do segmento de fala, qualidade do som, ruído ambiente, etc.

5.3. Propriedades do SVM-GSV

Os Support Vector Machines (SVMs) têm sido usados em diversas aplicações de reconhecimento de

padrões e tarefas de aprendizagem. Estes são poderosos classificadores capazes de classificar

dados numa de duas classes. São por isso uma ferramenta robusta que se adapta na perfeição ao

objectivo da verificação do orador, obtendo ainda um desempenho superior quando combinado com o

classificador GMM [Campbell et al., 2006b].

No reconhecimento do orador, através do classificador SVM [Cristianini and Shawe-Taylor, 2000],

uma classe é definida com um único vector de treino de um orador (exemplo positivo definido como

“+1”) enquanto a outra classe é formada por vectores de treino de outros oradores (exemplos

negativos definidos como “-1”). Através da indicação a que classe pertence cada vector, a função do

classificador SVM é encontrar um hiperplano com uma margem maximizada que separe ambas as

classes, possibilitando o processo de classificação. O conceito geral referente ao treino de um

classificador é apresentado de forma simplificada na Figura 5.9. Os vectores de treino, ,

possuem características, sendo uma representação do orador . A classe , em que

, representa a classe a que o orador pertence. Através dos exemplos de dados e das

respectivas classes a que pertencem, um classificador é treinado de forma a separar as classes

indicadas.

Seja um conjunto de vectores com dados de treino:

(5.21)

Onde define a classe a que pertence o vector de características e . A função de um

classificador SVM é encontrar um hiperplano que divida os dados positivos (etiquetados como “+1”)

dos dados negativos (etiquetados como “-1”) através de um processo de optimização. Para tal, o

conjunto de dados é mapeado no espaço de entrada, sendo o vector classificado numa das

classes de acordo com o valor de , como ilustra a Figura 5.10.

Figura 5.9: Conceito geral do treino de um classificador.

Figura 5.10: Dados de treino separados por um hiperplano de margem máxima.

De seguida, o classificador SVM procura maximizar a margem existente entre as duas classes

através da utilização dos multiplicadores de Lagrange . Após a minimização em ordem a , como

forma de maximizar a margem de separação dos dados, este apresenta o valor:

(5.22)

Classe

Características

Classificador

Treino

Vectores de Suporte

Classe +1 Classe -1

Sendo a equação de classificação dada por:

(5.23)

Onde é 0, excepto quando é um vector de suporte obtido por um processo de optimização

[Collobert and Bengio, 2001]. Isto demonstra que apenas os pontos na fronteira das duas classes

(vectores de suporte) é que têm influência na definição da fronteira de decisão.

Os vectores de suporte encontram-se sobre a fronteira da classe a que pertencem e obedecem a:

para (5.24)

Os pontos que se encontram equidistantes dos vectores de suporte satisfazem a relação:

(5.25)

Desta equação podemos concluir que a margem do hiperplano separador é .

A classificação numa classe é considerada correcta caso se verifique:

(5.26)

Um problema comum encontrado no reconhecimento com classificador SVM deve-se ao facto de na

prática existirem normalmente dados de classes sobrepostos, não sendo possível uma separação

correcta. Neste caso, os classificadores lineares procuram uma solução que minimize o erro,

permitindo que alguns dados sejam incorrectamente classificados. Neste caso, é necessário

minimizar:

(5.27)

Em que é considerada uma variável de folga e um valor de regularização que permite atribuir um

peso aos erros de treino. Um valor de significa que o vector encontra-se correctamente

classificado, significa que o vector encontra-se sobre a margem, enquanto que se o

vector encontra-se mal classificado. O valor de define um limite dos erros presentes no

classificador. De notar ainda que caso não existam dados mal classificados, a equação a minimizar

resume-se a

, igual a quando todos os dados das classes são linearmente separáveis.

Os classificadores SVM lineares são eficientes quando os conjuntos de dados são linearmente

separáveis ou enquanto o peso dos erros de classificação for aceitável. Quando não é possível

separar de forma satisfatória os dados de treino das classes a solução passa pelo classificador SVM

mapear os vectores de entrada num espaço de alta dimensão, através de funções não-lineares, de

forma a estes dados serem linearmente separáveis. De seguida, é calculado um hiperplano de forma

a maximizar a margem de separação entre os dados das classes, que no espaço de entrada pode ser

não-linear. Os novos dados podem ser classificados no espaço de entrada. Um exemplo de um

mapeamento não linear encontra-se na Figura 5.11.

Figura 5.11: Mapeamento não linear realizado pelo classificador SVM.

A nova dimensão resultante do mapeamento dos vectores de entrada num espaço de alta dimensão

pode ser de ordem muito elevada. Nesse caso, a necessidade de processamento será maior devido

ao aumento da dimensão dos vectores de treino.

Uma solução passa pelo uso do Kernel Trick. A função kernel foi concebida de forma a poder

ser expressa como , onde é o mapeamento do espaço de entrada para o

espaço de alta dimensão. A função de kernel permite substituir o produto interno de dois vectores,

ficando a equação de classificação com a seguinte forma:

(5.28)

Espaço de Entrada Espaço de Características

Espaço de Entrada Espaço de Entrada

Este hiperplano permite que a classificação dos dados continue a ser realizada no espaço original,

geralmente através de uma função não linear, o que se traduz numa maior eficiência computacional

devido a trabalhar num espaço de dimensão inferior. Ou seja, o uso do kernel permite que os dados

de treino sejam separados linearmente num espaço de dimensão superior através de um hiperplano,

mas a classificação será feita no espaço de entrada de dimensão inferior.

Recentemente a comunidade científica descobriu uma forma robusta de representar as

características de um orador num único vector que pode ser usado num classificador SVM. Este

vector, denominado por supervector Gaussiano, é construído com recurso aos GMMs. Assim, uma

nova forma de utilizar o classificador SVM é combinada com os GMMs, dando origem ao classificador

Support Vector Machine - Gaussian Supervector (SVM-GSV) [Campbell et al., 2006b].

Um supervector é o resultado da combinação de vários vectores de dimensão inferior num único

vector, como forma de criar um vector de maior dimensão. Ao juntar os vectores das médias, , com

dimensão de um GMM com misturas Gaussianas, o resultado será um único supervector de

dimensão . Um supervector torna-se assim uma representação das características de um

determinado segmento que contém fala. É importante que os diferentes supervectores de dimensão

sejam criados a partir da adaptação MAP do mesmo UBM. Desta forma, os diferentes

supervectores podem ser mais facilmente comparados. O conceito da formação de um supervector é

apresentado na Figura 5.12.

Estes supervectores podem ser usados no classificador SVM como forma de modelar as

características de um orador a partir do respectivo GMM [Campbell et al., 2006b].

Figura 5.12: Conceito de um supervector GMM (adaptado de [Campbell et al., 2006b]).

Considerando um UBM com:

(5.29)

Adaptação

do Modelo

Extracção de

Características

Onde é o peso de cada mistura, é uma distribuição Gaussiana e e são a média e a

covariância das Gaussianas, respectivamente. Dado um segmento de treino, as características

extraídas são usadas para treinar um GMM através de uma adaptação MAP apenas das médias

do UBM. Do GMM adaptado, são extraídas e concatenadas todas as médias das Gaussianas,

formando assim um supervector.

Supondo que temos um UBM, definido por e os dois modelos adaptados, a e b,

representados por e

, respectivamente. O Kernel, linear no espaço de

entrada, é baseado na divergência de Kullback-Leibler (KL) entre dois supervectores Gaussianos, e é

representado por:

(5.30)

Do ponto de vista de implementação, isto significa que todas as médias das Gaussianas de cada

GMM necessitam de ser normalizadas com

antes de colocadas num classificador SVM

para treino. Apesar de apenas os vectores das médias do GMM fazerem parte do supervector, a

informação do peso e da variância das Gaussianas está presente na sua normalização. Desta forma,

cada orador terá um supervector criado a partir do respectivo GMM. Para cada segmento de teste

será necessário primeiro obter o GMM por adaptação do UBM e de seguida realizar a normalização

para, por fim, obter-se o respectivo supervector normalizado.

Um classificador SVM é treinado para cada orador dando como exemplo positivo (+1) o supervector

normalizado criado a partir do seu GMM e como exemplos negativos (-1) todos os supervectores

normalizados pertencentes aos modelos impostores de background. Assim, os modelos dos oradores

obtidos através do classificador SVM podem ser compactados como um único modelo supervector.

O resultado do sistema SVM-GSV é obtido através do cálculo do produto interno entre o modelo

orador e o supervector GMM de um segmento de teste de acordo com:

(5.31)

Onde é um supervector Gaussiano normalizado de teste, um supervector modelo normalizado

do orador resultante do treino de um classificador SVM e são as médias das Gaussianas do GMM

do orador. O resultado obtido pode ainda ser melhorado através de uma normalização, onde o

resultado final, , será apurado após uma comparação com os resultados obtidos pelos modelos

impostores de background. O segmento de teste é atribuído a um orador caso o seu resultado

normalizado seja superior a um limiar de decisão do sistema. A Figura 5.13 apresenta a estrutura

de um sistema SVM-GSV.

Figura 5.13: Estrutura de um sistema SVM-GSV.

A tarefa de verificação do orador com o classificador SVM-GSV é computacionalmente eficiente, uma

vez que todos os modelos dos oradores e dos segmentos de teste podem ser representados por um

vector, sendo o resultado do classificador obtido através de um simples produto interno de vectores.

Extracção de

Características

Adaptação do

Modelo

Classificador SVM

Modelo Orador

Normalização

Sistema GMM-UBM

Supervector

Modelos de Background

Aceita

Rejeita

Capítulo 6

Capítulo 6: Resultados

6.1. Corpora

Nesta secção encontram-se descritos os dados usados para treino, desenvolvimento e teste dos

modelos oradores que fazem parte do sistema de verificação do orador.

As celebridades a identificar pelo sistema, cujos modelos foram treinados, foram seleccionadas de

forma a estarem presentes nos conjuntos de treino, desenvolvimento e teste. Esta escolha foi

possível uma vez que todos os segmentos que contêm fala foram previamente identificados

manualmente por anotadores indicando o orador a quem pertence a voz presente num determinado

segmento.

Principalmente nas reportagens no exterior, alguns segmentos com fala contêm ruídos de fundo e

outros tipos de sons (como risos, vento, vozes, etc.). Estes segmentos não são excluídos da fase de

treino, desenvolvimento ou teste desde que a voz do orador seja perceptível.

6.1.1. Treino

O corpus Train, com aproximadamente 47 horas de programas noticiosos recolhidos durante o ano

de 2000, foi o conjunto usado para treinar o Universal Background Model (UBM) e os modelos dos

oradores e dos impostores.

O UBM foi treinado a partir de todo o conjunto de treino. Este modelo representa todos os oradores e

será usado para gerar os modelos dos oradores e dos impostores.

A informação acerca de quais as celebridades seleccionadas e o respectivo tempo de treino

encontra-se na Tabela 6.1.

Os modelos dos oradores seleccionados apresentam uma média de aproximadamente 8 minutos de

tempo de treino. Verifica-se que existe uma grande diferença entre o tempo de treino de cada modelo

orador que pode chegar aos 26 minutos, caso do modelo do Paulo Portas, ou usar apenas 1 minuto

de treino, caso do modelo do José Saramago. A variância existente entre os modelos dos oradores

irá permitir verificar a fiabilidade dos métodos desenvolvidos em casos onde existem poucos dados

de treino e em casos onde existe muito material de treino.

Modelo Tempo Útil (s)

Almeida Santos 86,04

António Guterres 1415,79

Durão Barroso 1070,33

Ferreira do Amaral 514,08

Freitas do Amaral 107,65

Jaime Gama 151,31

João Vale e Azevedo 974,93

Jorge Coelho 371,63

Jorge Sampaio 783,83

José Mourinho 267,51

José Saramago 51,01

José Sócrates 295,07

Mário Soares 88,38

Paulo Portas 1565,93

Santana Lopes 114,51

Xanana Gusmão 168,48

Tabela 6.1: Oradores treinados e respectivo tempo de treino.

De modo a efectuar a normalização dos resultados obtidos pelos modelos oradores foram ainda

treinados mais 200 modelos impostores. Estes oradores foram escolhidos com base no seu tempo de

treino, apresentando uma média de aproximadamente 8 minutos.

6.1.2. Desenvolvimento

Do corpus de desenvolvimento fazem parte os subconjuntos Devel e Pilot com programas noticiosos

recolhidos no ano 2000. Este conjunto é necessário para realizar a normalização de resultados de

cada modelo orador.

Foram por isso escolhidos do conjunto de desenvolvimento 100 segmentos pertencentes a 100

impostores diferentes, com uma média de 15,56 segundos, que serão testados contra os modelos

dos oradores a identificar pelo sistema de reconhecimento.

6.1.3. Teste

O conjunto de teste é composto por 5 subconjuntos (Eval, Jeval, 11march, Rtp07 e Rtp08) e dele

fazem parte 44 programas noticiosos recolhidos entre os anos de 2001 e 2008. É neste corpus, com

segmentos anotados manualmente por anotadores, que é avaliado o desempenho do sistema de

verificação do orador.

Nesta fase, os segmentos consecutivos do mesmo orador que possuem um intervalo de silêncio

inferior a um segundo foram concatenados de modo a aumentar o tamanho do segmento de teste.

Optou-se também por ignorar os segmentos com duração total inferior a 3 segundos, devido a estes

não produzirem resultados aceitáveis.

Desta forma, em aproximadamente 32 horas de tempo útil, existem 6407 segmentos de impostores,

com uma média de 17,43 segundos, e 180 segmentos de oradores, denominados por segmentos

autênticos, com uma média de 20,34 segundos. A Tabela 6.2 apresenta o número de segmentos

pertencentes a cada orador e a respectiva duração média.

Orador Tempo (s) Segmentos Duração Média (s)

Almeida Santos 37,61 3 12,54

António Guterres 321,98 13 24,77

Durão Barroso 568,63 27 21,06

Ferreira do Amaral 133,75 11 12,16

Freitas do Amaral 11,85 1 11,85

Jaime Gama 217,29 7 31,04

João Vale e Azevedo 95,07 7 13,58

Jorge Coelho 51,07 3 17,02

Jorge Sampaio 442,78 22 20,13

José Mourinho 198,53 7 28,36

José Saramago 94,02 4 23,51

José Sócrates 625,91 35 17,88

Mário Soares 137,02 3 45,67

Paulo Portas 363,75 21 17,32

Santana Lopes 248,76 15 16,58

Xanana Gusmão 11,92 1 11,92

Total 3559,94 180 20,34

Tabela 6.2: Número e duração média dos segmentos dos oradores.

Cada modelo de orador é testado com os seus próprios segmentos e com os 6407 segmentos

pertencentes aos impostores.

6.2. Avaliação do sistema GMM-UBM

6.2.1. Descrição

O classificador GMM-UBM foi o primeiro sistema a ser implementado e testado no reconhecimento do

orador em programas noticiosos.

O UBM foi inicializado através do algoritmo VQ e treinado com o algoritmo EM a partir de

características extraídas de todo o conjunto de treino, com um total de 47 horas. As características

usadas no treino dos 16 modelos oradores a identificar pelo sistema foram extraídas de segmentos

com uma duração total indicada na Tabela 6.1. Já cada modelo impostor foi, em média, treinado a

partir de características extraídas de 8 minutos de fala. Os 16 modelos das celebridades a identificar

pelo sistema, e os 200 modelos impostores, necessários para a normalização de resultados, foram

gerados apenas por adaptação MAP das médias das misturas Gaussianas do UBM. Assim, o peso e

as variâncias que caracterizam cada mistura Gaussiana de um modelo, orador ou impostor, vão ser

iguais às do UBM. Tanto o UBM como os modelos dos oradores e dos impostores são constituídos

por 1024 misturas Gaussianas e apenas pelas diagonais das matrizes de covariância.

As características extraídas de um segmento de fala consistem em 19 coeficientes PLP e 1 de

energia a cada janela com duração de 20ms e espaçadas entre si em 10ms. Foram também

calculadas as respectivas derivadas de primeira e segunda ordem (delta e delta-delta), perfazendo

assim um vector de dimensão 60. Um detector de fala foi o responsável por excluir do treino e do

teste todas as zonas de um segmento que não contêm fala.

Para avaliar o desempenho do sistema GMM-UBM, os resultados obtidos pelos modelos oradores

são testados com segmentos do conjunto de teste e normalizados através de uma normalização ZT.

Assim, foi necessário, antes da fase de teste, testar com 100 segmentos impostores do conjunto de

desenvolvimento os modelos oradores e impostores. Os valores obtidos permitem calcular na fase de

teste os resultados normalizados obtidos por cada modelo orador.

Para verificar o desempenho do sistema, são utilizados do conjunto de teste 6407 segmentos

impostores, com média de 17,43 segundos, e 180 segmentos autênticos, descritos na Tabela 6.2.

Por fim, o limiar do sistema de reconhecimento do orador foi escolhido com base no EER obtido pelo

sistema GMM-UBM.

6.2.2. Normalização

Os resultados obtidos pelo classificador GMM-UBM necessitam de ser normalizados de modo a

minimizar as diferenças existentes entre as condições de treino e de teste dos modelos oradores. São

também uma forma de lidar com as diferenças existentes entre o tempo de treino de cada orador e

com a diferença entre os tamanhos dos segmentos a testar.

Neste trabalho aplicou-se uma normalização ZT aos resultados obtidos por cada orador a identificar

pelo sistema GMM-UBM. Como forma de implementar esta normalização foram treinados 200

modelos impostores a partir do conjunto de treino e seleccionados 100 segmentos impostores do

conjunto de desenvolvimento.

Num primeiro passo, realizado antes da fase de teste, foi calculada a média e o desvio padrão

dos resultados obtidos pelos 200 modelos impostores quando testados com os

100 segmentos impostores. De seguida, os resultados , obtidos pelo modelo orador

quando testado com os mesmos 100 segmentos impostores, foram normalizados com a média e

o desvio padrão . Por fim, a média

e o desvio padrão , obteve-se a partir dos resultados

anteriormente calculados.

O valor da média e do desvio padrão

são indicadores da diferença existente entre os

resultados do modelo orador e os resultados dos modelos impostores. Quanto menores forem estes

valores, menor é a diferença entre os resultados obtidos por todos os modelos quando testados por

um segmento impostor. Caso os valores sejam altos, a adaptação dos resultados do modelo orador

será maior, indicando que o modelo apresenta geralmente resultados afastados quando comparado

com os resultados dos modelos impostores.

Os valores da média e do desvio padrão

de cada modelo orador obtidos na normalização de

resultados do classificador GMM-UBM são apresentados na Tabela 6.3.

Para este sistema, a média mais alta foi obtida pelo modelo do José Saramago e o desvio padrão

mais alto pertence ao modelo do Paulo Portas. De notar que o modelo do José Saramago é o

modelo com o menor tempo de treino, enquanto o modelo do Paulo Portas é o modelo com maior

tempo de treino do sistema.

O valor médio da média e do desvio padrão

para os oito modelos oradores com menor tempo

de treino é de 0,364 e 0,513, respectivamente. Para os oito modelos com maior tempo de treino, o

valor médio da média e do desvio padrão

é de 0,162 e 0,982, respectivamente. Isto significa

que os modelos com menor tempo de treino têm uma maior dificuldade em classificar segmentos

impostores, enquanto os modelos com mais tempo de treino apresentam uma maior variação dos

seus resultados.

Durante a fase de teste do sistema de reconhecimento GMM-UBM a normalização de resultados é

efectuada através da média e do desvio padrão

obtido pelo modelo orador .

Orador Média Desvio Padrão

Almeida Santos 0,244 0,659

António Guterres 0,240 1,363

Durão Barroso 0,392 0,944

Ferreira do Amaral 0,114 0,857

Freitas do Amaral 0,501 0,528

Jaime Gama 0,466 0,558

João Vale e Azevedo 0,190 1,102

Jorge Coelho 0,302 0,649

Jorge Sampaio -0,171 0,931

José Mourinho 0,331 0,549

José Saramago 1,096 0,431

José Sócrates 0,188 0,678

Mário Soares -0,012 0,366

Paulo Portas 0,042 1,330

Santana Lopes 0,008 0,518

Xanana Gusmão 0,279 0,497

Média 0,236 0,748

Tabela 6.3: Média e desvio padrão de cada modelo orador para o sistema GMM-UBM.

6.2.3. Resultados

De forma a verificar o desempenho do sistema GMM-UBM cada modelo orador é testado contra 6407

segmentos impostores e contra os respectivos segmentos autênticos. Os resultados normalizados

obtidos por todos os modelos oradores apresentam duas distribuições diferentes, dependendo se o

segmento testado é impostor ou autêntico. Caso as duas distribuições não tenham resultados

sobrepostos o sistema terá um desempenho perfeito, sendo capaz de separar correctamente, através

de um determinado limiar de decisão, os segmentos autênticos dos segmentos impostores. O facto

de as distribuições apresentarem uma área sobreposta, significa que o sistema terá erros na decisão,

ocorrendo por isso falsos positivos e falsos negativos.

As distribuições dos resultados normalizados obtidos pelos modelos oradores a identificar pelo

sistema GMM-UBM encontram-se ilustrados na Figura 6.1. A distribuição de resultados obtida pelos

modelos oradores quando testados com segmentos autênticos e segmentos impostores encontra-se

representada a vermelho e azul, respectivamente. Um resultado mais elevado significa que existe

uma maior verosimilhança entre o segmento de teste e o modelo do orador. Por outro lado, se o

segmento testado obtém um resultado baixo, então existe uma menor probabilidade de o mesmo ter

sido proferido pelo orador, já que revela uma menor semelhança.

autênticos (vermelho) e segmentos impostores (azul).

Para este sistema, os resultados dos segmentos impostores, representados na Figura 6.1 a azul,

apresentam uma média de -0,036 e um desvio padrão de 1,039. Estes valores encontram-se de

acordo com os valores esperados (média de 0 e desvio padrão de 1) para segmentos impostores

quando obtidos através de uma normalização ZT. A distribuição de resultados dos segmentos

autênticos, representados na Figura 6.1 a vermelho, possui uma média de 2,920 e um desvio padrão

de 1,475.

Verifica-se também que 17% dos resultados obtidos por segmentos impostores são superiores a 1 e

apenas 2% dos resultados são superiores a 2. Por outro lado, 6% dos resultados obtidos por

segmentos autênticos são inferiores a 1, enquanto 19% dos resultados se situam num valor inferior a

2. Caso o limiar do sistema seja escolhido com base no EER, ou seja, na percentagem de falsos

positivos que iguala a percentagem de falsos negativos, então o limiar do sistema deve situar-se no

intervalo entre 1 e 2.

A distribuição de resultados dos segmentos impostores da Figura 6.1 é composta pelos resultados

obtidos por cada modelo orador quando testado contra 6407 segmentos impostores. A Tabela 6.4

apresenta a média e o desvio padrão dos resultados normalizados obtidos por cada modelo orador.

Comparando o valor da média e do desvio padrão das distribuições de resultados dos segmentos

impostores apresentados na Tabela 6.4 com os valores da Tabela 6.3, verifica-se que a normalização

permitiu uniformizar o valor da média e do desvio padrão obtido por todos os modelos oradores.

-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

quência

tiva (em

Resultado

Impostores

Oradores

António Guterres -0,05 1,06

Durão Barroso -0,16 1,05

Ferreira do Amaral 0,01 1,11

João Vale e Azevedo -0,03 0,95

Jorge Coelho -0,11 0,88

Jorge Sampaio 0,05 1,12

José Mourinho -0,16 1,05

José Sócrates -0,11 0,90

Mário Soares 0,07 1,14

Paulo Portas -0,01 1,09

Santana Lopes -0,13 1,03

Xanana Gusmão -0,08 1,06

Tabela 6.4: Média e desvio padrão dos resultados dos segmentos impostores.

Para se obter a distribuição de resultados autênticos, cada modelo de orador é testado com os seus

respectivos segmentos. A Tabela 6.5 mostra o número de segmentos autênticos testados por cada

modelo orador e a média e o desvio padrão dos resultados normalizados obtidos.

Orador Segmentos Média Desvio Padrão

Almeida Santos 3 0,17 0,33

António Guterres 13 2,30 0,37

Durão Barroso 27 3,42 0,98

Ferreira do Amaral 11 2,65 0,88

Freitas do Amaral 1 0,26 0,00

Jaime Gama 7 2,57 1,04

João Vale e Azevedo 7 2,81 0,41

Jorge Coelho 3 3,09 0,66

Jorge Sampaio 22 2,99 0,46

José Mourinho 7 3,71 2,15

José Saramago 4 -0,17 0,34

José Sócrates 35 2,38 0,72

Mário Soares 3 1,95 2,78

Paulo Portas 21 2,66 0,44

Santana Lopes 15 5,78 1,94

Xanana Gusmão 1 3,67 0,00

Tabela 6.5: Média e desvio padrão dos resultados dos segmentos autênticos.

Observa-se que os resultados mais baixos foram obtidos pelos modelos com menor tempo de treino,

nomeadamente os modelos do José Saramago, Almeida Santos, Freitas do Amaral e Mário Soares.

São também estes os únicos modelos responsáveis por todos os resultados obtidos por segmentos

autênticos inferiores a 1 e apresentados na Figura 6.1.

Como forma de verificar se existe uma correlação entre o resultado obtido por um segmento e a sua

duração, são analisadas as variações existentes nos resultados obtidos pelos modelos oradores

quando testados com segmentos de diferentes durações. A Tabela 6.6 mostra que os resultados

obtidos por segmentos impostores não têm qualquer relação com a duração do segmento testado, já

que o valor da média é semelhante. No entanto, para um segmento autêntico o resultado obtido é

geralmente proporcional à sua duração, sendo atribuídos aos segmentos maiores um melhor

resultado, como mostra a Tabela 6.7.

Duração (s) Segmentos Média

3 ≤ t ≤ 5 683 -0,072

5 < t ≤ 10 1634 -0,096

10 < t ≤ 15 1439 -0,020

15 < t ≤ 20 1004 -0,003

20 < t ≤ 25 554 0,039

25 < t ≤ 30 341 0,022

30 < t ≤ 60 563 -0,015

t > 60 189 -0,015

Tabela 6.6: Média dos resultados obtidos em função da duração dos segmentos impostores.

3 ≤ t ≤ 5 11 2,765

5 < t ≤ 10 35 2,603

10 < t ≤ 15 29 2,722

15 < t ≤ 20 42 3,008

20 < t ≤ 25 21 3,057

25 < t ≤ 30 10 3,761

30 < t ≤ 60 27 3,049

t > 60 5 2,930

Tabela 6.7: Média dos resultados obtidos em função da duração dos segmentos autênticos.

O desempenho do sistema GMM-UBM pode ser avaliado em relação à taxa de falsos positivos e de

falsos negativos através da curva DET. A curva DET mostra a relação existente entre a percentagem

de falsos positivos e a percentagem de falsos negativos enquanto se varia o limiar de decisão do

sistema. A escolha de um limiar do sistema elevado aumenta o número de falsos negativos e diminui

o número de falsos positivos, enquanto um limiar baixo permite que existam mais falsos positivos e

menos falsos negativos. A percentagem de falsos positivos que iguala a percentagem de falsos

negativos denomina-se por EER. O limiar de decisão do sistema pode também ser escolhido

atribuindo diferentes pesos aos dois tipos de erros que podem ocorrer. Neste caso é calculado o

DCFmin, que corresponde ao ponto de funcionamento do sistema com um menor custo. A Figura 6.2

apresenta a curva DET do sistema GMM-UBM.

Figura 6.2: Curva DET do sistema GMM-UBM.

O sistema GMM-UBM apresenta um EER de 9,5%. Este valor é obtido quando o limiar do sistema

tem um valor de 1,306, ou seja, o número de resultados obtidos por segmentos autênticos abaixo

deste limiar é igual ao número de resultados obtidos por segmentos impostores superiores a este

limiar. De facto, tal é comprovado na Figura 6.1 onde são apresentadas as duas distribuições de

resultados.

Para um limiar do sistema de 2,198, o sistema apresenta um DCFmin de 0,034. Neste caso, a

percentagem de falsos positivos é 1,1% enquanto a percentagem de falsos negativos é 23,9%.

egativos (

6.3. Avaliação do sistema SVM-GSV

6.3.1. Descrição

O segundo classificador a ser testado foi o SVM-GSV. A avaliação do desempenho deste sistema é

realizada recorrendo aos mesmos conjuntos de treino, desenvolvimento e teste já utilizados para o

sistema GMM-UBM.

Os 16 modelos oradores e os 200 modelos impostores obtidos no sistema GMM-UBM por adaptação

MAP das médias das misturas Gaussianas do UBM foram usados para criar os respectivos

supervectores normalizados, necessários para gerar os modelos dos oradores no classificador SVM-

O supervector de cada orador é constituído pelas médias das misturas Gaussianas do modelo obtido

no classificador GMM-UBM. Como cada modelo é definido por 1024 misturas Gaussianas, cada uma

com média de dimensão 60, então cada supervector tem uma dimensão de 61440. Para treinar o

classificador SVM-GSV, e gerar um modelo orador ou impostor, é utilizado um exemplo positivo, o

supervector normalizado do modelo a treinar, e 215 exemplos negativos, os supervectores

normalizados pertencentes aos restantes modelos.

Perante um segmento de teste, o sistema SVM-GSV necessita primeiro de criar o respectivo

supervector. Para isso, começa por extrair os vectores de características de dimensão 60 do

segmento. Estes são usados para criar um modelo por adaptação MAP das médias das misturas

Gaussianas do UBM. Neste caso, o método usado é igual ao adoptado no classificador GMM-UBM

para treino dos modelos oradores e impostores. Do modelo criado, são extraídas as médias das

misturas Gaussianas e é realizada a normalização do supervector.

O resultado obtido por um modelo, quando testado com um segmento, resulta do cálculo do produto

interno entre o modelo orador e o supervector normalizado desse segmento.

A normalização dos resultados foi efectuada através de uma normalização ZT. Foram utilizados os

mesmos 100 segmentos impostores usados no sistema GMM-UBM para obter a média e o desvio

padrão dos resultados obtidos por cada modelo orador. Estes valores permitem calcular os resultados

normalizados dos modelos oradores durante a fase de teste.

Na fase de teste, cada modelo orador do sistema SVM-GSV é testado contra os mesmos segmentos

usados para verificar o desempenho do sistema GMM-UBM. Por isso, foram novamente utilizados os

4607 segmentos impostores e os 180 segmentos autênticos, descritos na Tabela 6.2, presentes no

conjunto de teste.

O desempenho do sistema SVM-GSM é avaliado de acordo com o valor do EER e do DCFmin, sendo

o limiar de decisão do sistema escolhido com base no EER obtido.

6.3.2. Normalização

Os resultados do classificador SVM-GSV foram normalizados através da normalização ZT, tal como

no classificador GMM-UBM.

O processo utilizado foi igual ao adoptado, antes da fase de teste, no classificador GMM-UBM, pelo

que cada modelo orador foi testado contra 100 segmentos impostores e estes resultados

normalizados com a média e o desvio padrão dos resultados obtidos pelos 200 modelos impostores.

No classificador SVM-GSV, a normalização dos resultados do modelo orador permitiu calcular os

valores da média e do desvio padrão

apresentados na Tabela 6.8.

António Guterres 0,298 0,497

Durão Barroso 0,225 0,441

Ferreira do Amaral -0,059 0,465

Jorge Coelho 0,177 0,436

José Sócrates 0,100 0,396

Mário Soares 0,455 0,396

Santana Lopes 0,508 0,594

Xanana Gusmão 0,542 0,572

Média 0,313 0,517

Tabela 6.8: Média e desvio padrão de cada modelo orador para o sistema SVM-GSV.

Assim como no classificador GMM-UBM, o modelo com a média mais elevada foi o modelo do

José Saramago. Em relação ao desvio padrão , neste sistema todos os oradores apresentaram

um valor idêntico, muito diferente do obtido no classificador GMM-UBM.

Repetindo o cálculo do valor médio da média e do desvio padrão

para os oitos modelos com

menor tempo de treino, verifica-se que estes apresentam um valor de 0,626 e 0,554,

respectivamente. Os restantes modelos oradores, com maior tempo de treino, apresentam um valor

médio da média e do desvio padrão

de -0,001 e 0,480, respectivamente.

A média e o desvio padrão

da distribuição de resultados do modelo orador será usada

durante o processo de teste do sistema SVM-GSV.

6.3.3. Resultados

Os testes efectuados para avaliar o desempenho do sistema SVM-GSV têm como principal objectivo

a comparação com o sistema GMM-UBM. Por este motivo, os modelos dos oradores treinados são

confrontados exactamente com os mesmos 6407 segmentos impostores e com os respectivos

segmentos autênticos já anteriormente utilizados para verificar o desempenho do sistema GMM-UBM.

Cada modelo orador começou por ser testado contra os 6407 segmentos impostores sendo os

resultados normalizados de acordo com o valor da média e o desvio padrão dos resultados obtidos

pelos 200 modelos impostores usados como modelo de background. Os resultados finais obtidos pelo

modelo orador resultam da normalização realizada através dos valores da Tabela 6.8. De seguida, o

mesmo procedimento foi repetido para os segmentos autênticos proferidos pelos oradores. Os

resultados obtidos por todos os modelos oradores permitem obter as distribuições de resultados da

Figura 6.3.

-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

quência

tiva (em

Resultado

Impostores

Oradores

A distribuição de resultados para segmentos impostores, representada na Figura 6.3 a azul,

apresenta uma média de -0,088 e um desvio padrão de 1,004. Estes valores, tal como no sistema

GMM-UBM, encontram-se dentro dos valores esperados. Já os resultados obtidos pelos segmentos

autênticos, representados na Figura 6.3 a vermelho, apresentam uma distribuição com média de

4,306 e desvio padrão de 2,392.

Através da análise da Figura 6.3, verifica-se que de modo a classificar um segmento como impostor

ou como autêntico, o limiar do sistema deve-se situar entre 0 e 3. Um limiar que se situe neste

intervalo terá de igualar a taxa de falsos positivos com a taxa de falsos negativos. De facto, a

percentagem de segmentos impostores classificados acima de 1 é de 12% e superior a 2 é de 3%,

enquanto a percentagem de segmentos autênticos inferiores a 2 é de 17% e classificados abaixo de 1

é de 7%. Logo, como forma de igualar as taxas dos dois tipos de erros, o limiar do sistema estará

situado entre 1 e 2.

A média e o desvio padrão dos resultados normalizados obtidos por cada modelo orador quando

testado contra 6407 segmentos impostores encontra-se na Tabela 6.9.

José Saramago -0,03 0,92

Verifica-se novamente que, tal como no sistema GMM-UBM, a normalização de resultados permitiu

reduzir a diferença entre a média e o desvio padrão de todos os oradores verificada na Tabela 6.8.

A Tabela 6.10 apresenta a média e o desvio padrão dos resultados normalizados obtidos pelos

modelos oradores quando testados apenas com segmentos autênticos.

José Saramago 4 0,66 0,32

Tal como no sistema GMM-UBM, os modelos do José Saramago, Freitas do Amaral e Mário Soares

foram os modelos que apresentaram o pior desempenho quando testados com segmentos autênticos.

Para verificar se o desempenho do sistema SVM-GSV é afectado pela duração dos segmentos

testados foram calculadas as médias dos resultados obtidos por segmentos impostores e segmentos

autênticos para diferentes intervalos de tempo. A Tabela 6.11 mostra que a média dos resultados

obtidos é inversamente proporcional à duração dos segmentos impostores, pelo que o sistema é

capaz de classificar melhor os segmentos impostores com maior duração.

3 ≤ t ≤ 5 683 0,073

5 < t ≤ 10 1634 0,004

10 < t ≤ 15 1439 -0,076

15 < t ≤ 20 1004 -0,137

20 < t ≤ 25 554 -0,097

25 < t ≤ 30 341 -0,205

30 < t ≤ 60 563 -0,306

t > 60 189 -0,401

As médias dos resultados dos segmentos autênticos em função da sua duração são apresentadas na

Tabela 6.12. Observa-se que para os segmentos com uma maior duração, a média dos resultados

obtidos pelos modelos oradores também aumenta, pelo que um modelo orador tem mais facilidade

em detectar um segmento autêntico quanto maior este for.

Intervalo (s) Segmentos Média

3 ≤ t ≤ 5 11 1,656

5 < t ≤ 10 35 2,372

10 < t ≤ 15 29 3,709

15 < t ≤ 20 42 4,578

20 < t ≤ 25 21 5,168

25 < t ≤ 30 10 6,280

30 < t ≤ 60 27 6,113

t > 60 5 7,529

Na Figura 6.4 é apresentada a curva DET do sistema SVM-GSV a partir da relação existente entre a

taxa de falsos negativos e a taxa de falsos positivos.

Figura 6.4: Curva DET do sistema SVM-GSV.

Quando o limiar de decisão do sistema é 1,262, a taxa de falsos positivos é igual à taxa de falsos

negativos com um valor de 8,3%. Neste caso, qualquer segmento que obtenha um resultado inferior a

1,262 é considerado impostor enquanto um segmento com um resultado superior ao limiar de 1,262 é

considerado autêntico.

egativos (

Quando os dois tipos de erros, falsos positivos e falsos negativos, têm custos diferentes, o sistema

apresenta um DCFmin de 0,033. Esta situação acontece quando a taxa de falsos positivos é 0,7% e a

taxa de falsos negativos é 27%.

6.4. Comparação entre os sistemas GMM-UBM e SVM-GSV

Os testes anteriores foram realizados para verificar o desempenho de ambos os sistemas e de forma

a ser possível uma comparação entre eles. Por este motivo, todos os modelos do sistema, 16

modelos oradores e 200 modelos impostores de background, foram treinados com os mesmos dados

de treino e testados contra os mesmos segmentos.

As Figuras 6.1 e 6.3 permitem concluir que o sistema GMM-UBM apresenta, em comparação com o

sistema SVM-GSV, uma maior dificuldade em classificar segmentos impostores ao apresentar cerca

de 30% dos resultados impostores no intervalo de [-0,5;0,5], contra os 40% do sistema SVM-GSV. No

entanto, para segmentos autênticos, o sistema SVM-GSV dispersa mais os resultados, com cerca de

70% dos resultados a serem classificados no intervalo [2;7] enquanto o sistema GMM-UBM concentra

aproximadamente 70% dos seus resultados no intervalo [1,5;4,5].

No entanto, a maior diferença entre os dois sistemas encontra-se na média dos resultados obtidos

para segmentos com durações diferentes. A comparação entre os resultados médios obtidos pelos

dois sistemas para segmentos impostores encontra-se na Figura 6.5, sendo os resultados

provenientes das Tabelas 6.6 e 6.11. Verifica-se, tal como referido anteriormente, que o sistema

GMM-UBM não mostra qualquer relação entre o resultado médio obtido e a duração dos segmentos

impostores testados, ao contrário do sistema SVM-GSV, que melhora a classificação atribuída quanto

maior for o segmento testado. Para segmentos impostores de menor duração, nomeadamente entre 3

e 5 segundos, o sistema GMM-UBM consegue um melhor desempenho que o sistema SVM-GSV.

Para segmentos impostores superiores a 10 segundos, observa-se que é o sistema SVM-GSV a

obter um melhor resultado médio. Quando testados com segmentos autênticos, ambos os sistemas

apresentam resultados melhores quanto maior for a duração do segmento, sendo essas melhorias

mais notórias para o sistema SVM-GSV. A Figura 6.6, obtida através das Tabelas 6.7 e 6.12, permite

comparar a diferença nos resultados médios obtidos por ambos os sistemas para segmentos

impostores. Para segmentos entre 3 a 5 segundos, o sistema GMM-UBM apresenta novamente

melhores resultados, enquanto para segmentos superiores a 10 segundos é o sistema SVM-GSV que

consegue um melhor desempenho.

em função da duração dos segmentos impostores.

em função da duração dos segmentos autênticos.

De acordo com as Figuras 6.5 e 6.6, torna-se claro que o sistema SVM-GSV apresenta um melhor

desempenho quanto maior for a duração do segmento testado. No entanto, para segmentos mais

pequenos é o sistema GMM-UBM que consegue uma melhor classificação.

3 - 5 5 - 10 10 - 15 15 - 20 20 - 25 25 - 30 30 - 60 + 60

Tempo (Segundos)

GMM-UBM

SVM-GSV

3 - 5 5 - 10 10 - 15 15 - 20 20 - 25 25 - 30 30 - 60 + 60

Tempo (Segundos)

GMM-UBM

SVM-GSV

Com base na comparação realizada nas Figuras 6.5 e 6.6, uma forma de melhorar o desempenho do

sistema de reconhecimento do orador consiste em classificar os segmentos de menor duração com o

classificador GMM-UBM e os de maior duração com o classificador SVM-GSV. Assim, recorre-se ao

conjunto de desenvolvimento de forma a encontrar um limite de duração que permita obter melhores

resultados ao combinar os dois sistemas de classificação.

A Tabela 6.13 mostra os resultados normalizados médios obtidos pelos modelos oradores quando

testados contra segmentos autênticos presentes no conjunto de desenvolvimento.

Duração (s) Segmentos GMM-UBM SVM-GSV

3 ≤ t ≤ 4 3 2,748 1,258

4 < t ≤ 5 5 2,535 1,629

5 < t ≤ 6 7 2,858 2,069

6 < t ≤ 7 5 2,437 2,255

7 < t ≤ 8 2 2,074 2,075

8 < t ≤ 9 2 2,878 3,884

9 < t ≤ 10 5 2,696 3,581

Tabela 6.13: Resultados médios dos sistemas GMM-UBM e SVM-GSV para segmentos autênticos.

De acordo com a Tabela 6.13, o sistema SVM-GSV começa a apresentar melhores resultados para

segmentos superiores a 8 segundos de duração. Assim, um segmento de duração inferior a 8

segundos será classificado pelo sistema GMM-UBM, enquanto um segmento superior a 8 segundos

será classificado pelo sistema SVM-GSV.

Desta forma espera-se melhorar o desempenho do sistema de reconhecimento do orador, ao

apresentar um sistema que combina os resultados dos dois classificadores dependendo da duração

do segmento a testar.

6.5. Avaliação do sistema GMM-UBM+SVM-GSV

6.5.1. Descrição

O sistema GMM-UBM+SVM-GSV resulta da combinação dos resultados obtidos pelos classificadores

GMM-UBM e SVM-GSV. Este sistema foi implementado de forma a optimizar os resultados obtidos

pelos dois sistemas, dependendo da duração do segmento de teste.

Como os sistemas GMM-UBM e SVM-GSV apresentam diferentes desempenhos dependendo da

duração dos segmentos de teste, optou-se por classificar os segmentos com uma duração inferior a 8

segundos com o sistema GMM-UBM e os segmentos com mais de 8 segundos com o sistema SVM-

GSV. Os sistemas GMM-UBM e SVM-GSV mantêm todas as características anteriormente

implementadas, não sendo efectuadas alterações à forma como são calculados os resultados.

De forma a comparar o desempenho do sistema GMM-UBM+SVM-GSV com os dois sistemas

anteriormente analisados, utilizaram-se os mesmos 6407 segmentos impostores e os 180 segmentos

autênticos do conjunto de teste.

O EER obtido pelo sistema GMM-UBM+SVM-GSV foi novamente a medida de erro usada para

calcular o limiar de decisão do sistema.

6.5.2. Resultados

Os resultados obtidos pelo sistema GMM-UBM+SVM-GSV resultam da combinação de resultados

obtidos pelos dois sistemas. Um segmento com duração inferior a 8 segundos será classificado pelo

sistema GMM-UBM, enquanto um segmento com duração superior será classificado pelo sistema

SVM-GSV. Este processo visa colmatar o fraco desempenho alcançado pelo sistema SVM-GSV

quando testado com segmentos de menor duração.

A Figura 6.7 apresenta a distribuição de resultados obtida pelo sistema GMM-UBM+SVM-GSV.

-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Resultado

Impostores

Oradores

Verifica-se na Figura 6.7 que a frequência de resultados inferiores a 1 obtidos pelos modelos

oradores quando testados com segmentos autênticos diminuiu quando comparado com as mesmas

distribuições das Figuras 6.1 e 6.3. Por outro lado, a distribuição dos resultados obtidos por

segmentos impostores, representada na Figura 6.7 a azul, apresenta uma maior semelhança com a

distribuição obtida pelo sistema SVM-GSV da Figura 6.3, reduzindo apenas a frequência de

resultados no intervalo [-0,5;0,5].

A média e o desvio padrão das distribuições de resultados dos sistemas GMM-UBM, SVM-GSV e

GMM-UBM+SVM-GSV para segmentos impostores e segmentos autênticos encontram-se nas

Tabelas 6.14 e 6.15, respectivamente. Verifica-se que o sistema GMM-UBM+SVM-GSV apresenta

um maior distanciamento entre as distribuições de resultados impostores e autênticos quando

comparados os três sistemas de classificação.

Sistema Média Desvio Padrão

GMM-UBM -0,036 1,039

SVM-GSV -0,088 1,004

GMM-UBM+SVM-GSV -0,122 1,084

Tabela 6.14: Média e desvio padrão das distribuições de resultados impostores obtidos pelos

sistemas GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV.

Sistema Média Desvio Padrão

GMM-UBM 2,920 1,475

SVM-GSV 4,306 2,392

GMM-UBM+SVM-GSV 4,446 2,327

Tabela 6.15: Média e desvio padrão das distribuições de resultados autênticos obtidos pelos sistemas

GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV.

A média e o desvio padrão dos resultados normalizados obtidos por cada modelo orador quando

testado contra os 6407 segmentos impostores encontram-se na Tabela 6.16.

Ao comparar os valores da média e do desvio padrão da Tabela 6.16 com os mesmos valores obtidos

pelos sistemas GMM-UBM e SVM-GSV das Tabela 6.4 e 6.9, verifica-se que o sistema GMM-

UBM+SVM-GSV não alterou de forma significativa o desvio padrão de cada modelo orador, no

entanto conseguiu melhorar a média dos resultados obtidos por 12 oradores, no caso de se comparar

com o sistema GMM-UBM, e 10 oradores, quando comparado com o sistema SVM-GSV.

Freitas do Amaral -0,03 1,05

José Saramago -0,12 1,03

A Tabela 6.17 apresenta a média e o desvio padrão dos resultados obtidos pelos modelos oradores

quando testados com segmentos autênticos.

José Saramago 4 0,67 0,31

A Tabela 6.18 apresenta os resultados médios obtidos pelo sistema GMM-UBM+SVM-GSV para

segmentos impostores com diferentes durações.

3 ≤ t ≤ 5 683 -0,072

5 < t ≤ 10 1634 -0,070

10 < t ≤ 15 1439 -0,076

15 < t ≤ 20 1004 -0,137

20 < t ≤ 25 554 -0,097

25 < t ≤ 30 341 -0,205

30 < t ≤ 60 563 -0,306

t > 60 189 -0,401

Estes resultados são uma combinação dos resultados obtidos pelos sistemas GMM-UBM e SVM-

GSV, onde os resultados dos segmentos inferiores a 5 segundos e superiores a 10 segundos provêm

das Tabelas 6.6 e 6.11, respectivamente. O resultado médio para segmentos com duração entre 5 a

10 segundos é -0,070, um resultado melhor em 0,074 do que o obtido pelo sistema SVM-GSV, mas

inferior em 0,026 ao obtido pelo GMM-UBM.

Para resultados obtidos por segmentos autênticos, o sistema GMM-UBM+SVM-GSV obteve um

resultado superior em 0,138 e 0,369 para segmentos entre 5 a 10 segundos quando comparado com

os sistemas GMM-UBM e SVM-GSV, respectivamente. As restantes médias são a combinação das

Tabelas 6.7 e 6.12. A média dos resultados obtidos para o sistema GMM-UBM+SVM-GSV encontra-

se na Tabela 6.19.

3 ≤ t ≤ 5 11 2,765

5 < t ≤ 10 35 2,741

10 < t ≤ 15 29 3,709

15 < t ≤ 20 42 4,578

20 < t ≤ 25 21 5,168

25 < t ≤ 30 10 6,280

30 < t ≤ 60 27 6,113

t > 60 5 7,529

A distância existente entre as curvas DET representa o desempenho entre os sistemas de

reconhecimento do orador. Observa-se na Figura 6.8 o desempenho do sistema GMM-UBM+SVM-

GSV, representado a azul, e dos sistemas GMM-UBM e SVM-GSV, reapresentados a vermelho e

verde, respectivamente.

Figura 6.8: Comparação das curva DET dos sistemas GMM-UBM, SVM-GSV

e GMM-UBM+SVM-GSV.

Verifica-se que o sistema GMM-UBM+SVM-GSV obtém geralmente melhores resultados,

independentemente do limiar de decisão escolhido. Este sistema obteve um EER de 6,7% e um

DCFmin de 0,030, valores inferiores aos valores obtidos pelos sistemas GMM-UBM e SVM-GSV, como

se mostra na Figura 6.9.

Figura 6.9: EER e DCF mínimo dos sistemas GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV.

0,094 0,083

0,034 0,033 0,030

GMM-UBM SVM-GSV GMM-UBM+SVM-GSV ERR DCF

egativos (

Para um limiar de decisão de 1,50, o sistema apresenta uma igualdade entre a taxa de erro dos

falsos positivos e dos falsos negativos. O DCFmin de 0,30 é obtido quando as taxas de falsos positivos

e falsos negativos são 1% e 20,6%, respectivamente. Neste caso o limiar de decisão do sistema é

Capítulo 7

Capítulo 7: Interface Web

7.1. Introdução

Neste capítulo o sistema de reconhecimento do orador desenvolvido anteriormente e que apresentou

melhores resultados é testado em condições reais e com programas noticiosos de 2011. Os

programas noticiosos de teste, que anteriormente foram particionados e classificados manualmente

por anotadores, passam agora a ser segmentados e identificados de forma automática através do

módulo de pré-processamento áudio desenvolvido em [Meinedo, 2008]. O sistema GMM-UBM+SVM-

GSV deve analisar cada um dos segmentos gerados e decidir se o atribui a uma das celebridades a

identificar pelo sistema.

Os resultados obtidos pelo sistema para cada programa noticioso analisado são apresentados numa

página de internet. Podem ser visualizados todos os segmentos atribuídos aos oradores, assim como

as informações acerca da duração do segmento e do respectivo resultado obtido pelo modelo orador.

A correcta atribuição de um segmento a uma celebridade pode ser comprovada visualmente, já que é

possível ver o vídeo de cada segmento analisado ou de todo o programa televisivo.

7.2. Descrição

Os programas noticiosos recolhidos no L2F são processados por diferentes módulos de forma a, por

exemplo, separar as diferentes notícias por tópicos ou apresentar sobre a forma de legendas o que é

dito pelos oradores. Os resultados podem ser visualizados através de uma página de internet, na qual

também são exibidos os vídeos dos diferentes programas noticiosos recolhidos diariamente. Desde o

processo inicial, que consiste em verificar na programação de um dado canal televisivo a que horas

tem inicio um programa, até à apresentação dos resultados na página de internet, são necessárias

várias etapas, que incluem a identificação dos segmentos que contêm fala e a atribuição a cada

segmento de um número de representa o orador que o pronunciou. É nesta fase que é obtido o

corpus que será usado para verificar o desempenho do sistema GMM-UBM+SVM-GSV e identificar

os segmentos pronunciados pelos oradores a reconhecer pelo sistema.

Desta forma, cada modelo orador do sistema GMM-UBM+SVM-GSV é testado com os segmentos

obtidos pelo módulo de pré-processamento áudio (APP), que fornece a informação acerca do tempo

de inicio e fim de cada segmento. Existe também a informação de quais os segmentos de fala que

foram pronunciados pelo mesmo orador, pelo que, e de forma a aumentar a duração média dos

segmentos obtidos, foi necessário concatenar todos os segmentos classificados como pertencentes

ao mesmo orador que tenham entre si um intervalo de silêncio inferior a 2,5 segundos. O objectivo foi

aproximar a duração média de cada segmento obtido pelo módulo de APP, com a duração média dos

segmentos com que os sistemas foram desenvolvidos e testados no capítulo 6.

Não existe qualquer alteração realizada no sistema GMM-UBM+SVM-GSV utilizado neste capítulo,

pelo que a classificação obtida por cada modelo orador quando testado por um segmento é realizada

por um dos sistemas de classificação, GMM-UBM ou SVM-GSV, dependendo se da duração do

segmento testado é inferior ou superior a 8 segundos. A normalização dos resultados é efectuada

através da normalização ZT com os valores da média e do desvio padrão obtidos no capítulo anterior.

O limiar de decisão do sistema, que define se um segmento pertence ou não a um orador, foi

calculado com base no EER obtido na secção 6.5.2. Desta forma, um segmento é atribuído a uma

celebridade a identificar se o resultado normalizado obtido pelo seu modelo for superior a 1,5. Caso

um segmento seja identificado como pertencendo a dois ou mais celebridades, o mesmo é atribuído

ao orador que apresente um resultado mais elevado.

Os resultados obtidos pelos modelos oradores quando testados com os segmentos concatenados

permitem avaliar o desempenho do sistema, assim como fornecer a informação acerca de quais os

segmentos pronunciados pelos oradores. É esta a informação que será combinada com os resultados

obtidos pelos módulos do pré-processamento áudio, reconhecimento automático de fala e

segmentação e indexação de tópicos, de forma a corrigir, caso necessário, a informação acerca dos

oradores que pronunciaram os segmentos.

A página de internet é gerada a partir um ficheiro XML que contém diversas informações sobre o

programa noticioso analisado, entre as quais, se um segmento foi pronunciado por uma celebridade

ou por qualquer outro orador. É possível visualizar o vídeo completo do programa televisivo, assim

como os segmentos atribuídos a cada celebridade. A informação acerca da duração e da

classificação obtida pelo modelo orador ao qual foi atribuído o segmento também é apresentada.

7.3. Corpora

Os programas noticiosos usados para testar o sistema GMM-UBM+SVM-GSV em condições reais

foram recolhidos no L2F, INESC-ID, através de um serviço de televisão por cabo. De forma a

existirem dados suficientes para verificar o desempenho do sistema, foram escolhidos os programas

noticiosos do ano 2011 que contêm fala de pelo menos 3 oradores diferentes a identificar pelo

sistema.

A Tabela 7.1 mostra o conjunto de programas televisivos seleccionados, a data de transmissão e o

respectivo tempo total.

Programa Data Tempo Total

2011_04_04-Telejornal-1 2011-04-04 65 min

2011_05_06-Telejornal-1 2011-05-06 63 min

2011_05_12-Telejornal-1 2011-05-12 61 min

2011_05_25-Telejornal-1 2011-05-25 65 min

Tabela 7.1: Conjunto de programas noticiosos analisados.

Cada programa noticioso analisado é particionado pelo módulo de APP em segmentos que contêm

intervalos comerciais, silêncio, música, vozes sobrepostas, ruído e fala. Todos os segmentos que são

identificados como fala são testados pelo sistema de reconhecimento do orador enquanto os

restantes são ignorados.

O número e a duração média dos segmentos de fala de um programa obtidos após este ser

particionado pelo módulo de APP encontram-se na Tabela 7.2.

Programa Segmentos Duração Média

2011_04_04-Telejornal-1 991 3,11 s

2011_05_06-Telejornal-1 1022 3,02 s

2011_05_12-Telejornal-1 874 3,40 s

2011_05_25-Telejornal-1 956 3,14 s

Tabela 7.2: Número e duração média dos segmentos após o APP.

Verifica-se que cada programa foi particionado em segmentos de pequena duração quando

comparados com os segmentos utilizados na fase de desenvolvimento (os 100 segmentos impostores

usados para a normalização dos resultados têm média de 15,56 segundos) e de teste (os segmentos

impostores e autênticos apresentam uma média de 17,43 e 20,34 segundos, respectivamente).

Assim, foi necessário concatenar todos segmentos consecutivos identificados pelo módulo de APP

como pertencendo ao mesmo orador e separados entre si por um intervalo de silêncio inferior a 2,5

segundos. Este método permitiu serem obtidos segmentos com uma duração superior. Após aplicar

este método, todos os segmentos que ainda apresentem uma duração inferior a 3 segundos são

excluídos da fase de verificação, tal como aconteceu no teste dos sistemas do capítulo 6.

A Tabela 7.3 apresenta o número total e a duração média dos segmentos analisados para cada

programa após juntar os segmentos consecutivos do mesmo orador e excluir todos os segmentos

inferiores a 3 segundos.

2011_04_04-Telejornal-1 194 15,90 s

2011_05_06-Telejornal-1 153 20,24 s

2011_05_12-Telejornal-1 211 13,79 s

2011_05_25-Telejornal-1 256 11,27 s

Tabela 7.3: Número e duração média de todos os segmentos obtidos após concatenação.

Apesar de ser possível concatenar segmentos consecutivos identificados como pertencendo ao

mesmo orador que se encontrem separados entre si por um intervalo de silêncio superior a 2,5

segundos, este procedimento poderia afectar o desempenho do sistema, já que aumenta a

percentagem de segmentos que contêm fala de dois ou mais oradores. Este problema não existia

anteriormente durante a fase de teste dos sistemas, já que a identificação dos oradores foi efectuada

manualmente por anotadores.

Para verificar o desempenho obtido pelo sistema em condições reais é necessário verificar o número

de segmentos de cada programa pertencentes aos oradores a identificar pelo sistema. A Tabela 7.4

apresenta o número e a duração média dos segmentos autênticos presentes em cada programa

analisado.

2011_04_04-Telejornal-1 15 30,02 s

2011_05_06-Telejornal-1 6 20,81 s

2011_05_12-Telejornal-1 6 24,50 s

2011_05_25-Telejornal-1 19 13,84 s

Tabela 7.4: Número e duração média dos segmentos autênticos obtidos após concatenação.

O módulo de APP por vezes não identifica correctamente alterações do orador, classificando

segmentos consecutivos de oradores diferentes como pertencendo ao mesmo orador. Desta forma,

alguns segmentos apresentam fala de um orador a identificar pelo sistema e também fala de um ou

mais oradores. Nestes casos, é verificado se a voz do orador a identificar está presente em mais de

metade da duração do segmento. Em caso afirmativo, o segmento é considerado um segmento

autêntico, apesar de possuir fala de um ou mais oradores. Em caso negativo, o segmento é

considerado impostor. A Tabela 7.4 apenas apresenta os segmentos em que o orador a identificar

pelo sistema fala durante toda ou em mais de metade da duração do segmento.

7.4. Resultados

Nesta secção apresenta-se o desempenho obtido pelo sistema GMM-UBM+SVM-GSV quando

testado com os segmentos dos programas noticiosos gerados de forma automática pelo módulo de

As distribuições dos resultados obtidas pelos modelos oradores quando testados com todos os

segmentos dos programas noticiosos são apresentados na Figura 7.1.

Figura 7.1: Distribuição de resultados dos modelos oradores quando testados com os segmentos

Para o conjunto de segmentos testados, a distribuição dos resultados impostores, representada na

Figura 7.1 a azul, obteve uma média de -0,086 e um desvio padrão de 1,107, enquanto a distribuição

dos resultados autênticos, representados na Figura 7.1 a vermelho, obteve uma média de 3,299 e um

desvio padrão de 1,714.

Verifica-se que devido à normalização realizada, a distribuição dos resultados impostores é idêntica à

distribuição obtida por este sistema na secção 6.5.2. No entanto, a distribuição de resultados

autênticos apresenta uma maior frequência de resultados inferiores a 1,5, indicando que existem

segmentos autênticos que não vão ser atribuídos ao respectivo modelo orador.

-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Resultado

Impostores

Oradores

Os modelos oradores foram testados com todos os segmentos de cada programa noticioso, sendo

calculados os valores da média e do desvio padrão dos resultados obtidos pelos segmentos

impostores e autênticos, apresentados nas Tabelas 7.5 e 7.6, respectivamente.

Programa Resultados Média Desvio Padrão

2011_04_04-Telejornal-1 3089 -0,192 1,181

2011_05_06-Telejornal-1 3442 -0,090 1,171

2011_05_12-Telejornal-1 3370 -0,043 1,040

2011_05_25-Telejornal-1 4077 -0,038 1,018

Programa Segmentos Média Desvio Padrão

2011_04_04-Telejornal-1 15 3,862 1,503

2011_05_06-Telejornal-1 6 3,526 1,707

2011_05_12-Telejornal-1 6 3,356 1,807

2011_05_25-Telejornal-1 19 2,764 1,812

A Tabela 7.7 apresenta os resultados individuais do EER e do DCFmin obtidos por cada programa

analisado. Os valores do EER obtidos pelos programas 2011_05_06-Telejornal-1 e 2011_05_12-

Telejornal-1 correspondem aos valores máximos devido a existirem poucos segmentos autênticos.

Programa EER DCFmin

2011_04_04-Telejornal-1 0,067 0,028

2011_05_06-Telejornal-1 0,167 0,023

2011_05_12--Telejornal-1 0,139 0,038

2011_05_25-Telejornal-1 0,105 0,052

Tabela 7.7: EER e DCF mínimo dos programas noticiosos analisados.

O desempenho do sistema GMM-UBM+SVM-GSV para segmentos obtidos automaticamente através

do módulo de APP é apresentado na curva DET da Figura 7.2.

Para segmentos particionados e classificados pelo módulo de APP, o sistema GMM-UBM+SVM-GSV

apresenta um EER de 0,087 e um DCFmin de 0,046. A decisão se um segmento pertence a uma

celebridade é realizada com base no limiar de decisão de 1,5 escolhido através do EER de 0,067

obtido pelo sistema GMM-UBM+SVM-GSV na secção 6.5.2. No entanto, quando testado com

segmentos gerados pelo módulo de APP, a diferença no desempenho do sistema influencia as taxas

de falsos positivos e de falsos negativos, que deixam de ser iguais. Por isso, para um limiar de

decisão de 1,5 este sistema apresentará uma taxa de falsos positivos de 7,0% e uma taxa de falsos

negativos de 15,2%.

Figura 7.2: Curva DET do sistema GMM-UBM+SVM-GSV.

A interface Web consiste numa página HTML onde são apresentados para cada orador, todos os

segmentos que obtiveram uma classificação superior ao limiar de decisão do sistema. Esta página

utiliza o mesmo estilo da interface Web desenhada para a disseminação selectiva de informação

multimédia [Neto et al., 2003, Meinedo, 2008]. Cada segmento possui um vídeo flash que pode ser

visualizado de forma a confirmar se o segmento de fala pertence ao orador. Existe ainda a

informação do resultado obtido pelo sistema GMM-UBM+SVM-GSV e da duração de cada segmento.

A Figura 7.3 apresenta uma página HTML gerada após um programa noticioso ser analisado.

O desempenho obtido por cada orador presente nos programas noticiosos analisados neste capítulo

é calculado através da percentagem de tempo dos segmentos autênticos incorrectamente não

atribuídos (EOrador) e da percentagem de tempo dos segmentos impostores incorrectamente atribuídos

(EFP) a um orador.

egativos (

Em que DFN é a duração dos segmentos não atribuídos, TOrador é a duração dos segmentos

autênticos, DFP é a duração dos segmentos incorrectamente atribuídos e TTotal é a duração total dos

segmentos analisados.

Figura 7.3: Página HTML com os segmentos pertencentes a cada orador.

As Tabelas 7.8, 7.9, 7.10 e 7.11 apresentam o desempenho dos modelos oradores presentes nos

programas 2011_04_04-Telejornal-1, 2011_05_06-Telejornal-1, 2011_05_12-Telejornal-1 e

2011_05_25-Telejornal-1, respectivamente, assim como o número e a duração média dos segmentos

autênticos de cada orador.

Orador Segmentos Duração Média EOrador (%) EFP (%)

José Mourinho 2 20 s 0 0

José Sócrates 11 33 s 9,8 3,7

Paulo Portas 2 26 s 0 9,6

Tabela 7.8: Desempenho dos oradores presentes no programa 2011_04_04-Telejornal-1.

Durão Barroso 1 32 s 100 3,7

José Mourinho 2 6 s 0 0,1

Durão Barroso 1 8 s 0 0,1

José Sócrates 4 29 s 0 2,3

Paulo Portas 1 23 s 100 9,0

José Mourinho 2 11 s 0 2,7

Paulo Portas 4 12 s 49,4 5,5

Capítulo 8

Capítulo 8: Conclusões e Trabalho Futuro

8.1. Conclusões

Neste trabalho começaram por ser avaliados os desempenhos dos sistemas GMM-UBM e SVM-GSV

quando testados com segmentos de programas noticiosos particionados e identificados manualmente

por anotadores. Os modelos dos oradores e impostores dos dois classificadores foram treinados a

partir do mesmo corpus e testados com os mesmos segmentos para que seja possível uma

comparação entre os resultados e os desempenhos obtidos pelos sistemas. A tarefa de cada sistema

consiste em identificar quais os segmentos de um programa noticioso que pertencem às celebridades

a identificar pelo sistema de modo a que a taxa de erro entre os falsos positivos e os falsos negativos

fosse igual.

Optou-se de início por apenas se efectuar a extracção dos coeficientes PLP, devido ao tempo

computacional necessário para treinar o UBM e os restantes 216 modelos oradores e impostores.

Mesmo assim, foram necessários cerca de 5 dias para treinar o UBM no classificador GMM-UBM e

cerca de 4 dias para treinar os modelos oradores e impostores nos classificadores GMM-UBM e

SVM-GSV.

O sistema GMM-UBM foi o primeiro sistema a ser analisado. Obteve um EER de 9,5%, significando

que dos segmentos de teste pertencentes aos oradores, 9,5% não seriam detectados, originando

falsos negativos. Por outro lado, a cada orador seriam incorrectamente atribuídos aproximadamente

9,5% dos segmentos analisados de um programa noticioso.

De seguida foi analisado o sistema SVM-GSV. Esperava-se que este sistema conseguisse melhores

resultados, uma vez que se apresenta como sendo um sistema de reconhecimento do orador muito

recente. Assim, quando testado com os mesmos segmentos utilizados para avaliar o desempenho do

sistema GMM-UBM, este conseguiu um EER de 8,3%, reduzindo por isso a taxa de falsos positivos e

falsos negativos para cada programa televisivo.

Por comparação dos resultados dos dois sistemas verificou-se que o sistema SVM-GSV apresentava

mais dificuldade em classificar um segmento de menor duração que o sistema GMM-UBM. Esta

diferença deve-se ao modo como cada classificador obtêm um resultado. O sistema GMM-UBM

verifica a verosimilhança média existente entre os vectores de características extraídas de um

segmento de fala a testar e um modelo orador, sendo por isso capaz de comparar de forma idêntica

segmentos com diferentes durações. Neste classificador, o facto de um segmento ter uma maior

duração, significa que iremos obter uma verosimilhança média a partir de mais resultados. No caso

do sistema SVM-GSV, as características extraídas de um segmento de fala a testar são usadas para

gerar um modelo de misturas Gaussianas a partir do UBM por adaptação MAP. Um segmento de

pequena duração poderá não ter vectores de características suficientes para gerar um modelo de

misturas adequado, pelo que será semelhante ao UBM. Como no sistema SVM-GSV, a classificação

de um segmento é obtida através de uma aproximação da medida de distância existente entre o

supervector do modelo orador e o supervector do modelo do segmento testado, se o segmento

testado for de pequena duração, este será mais idêntico ao UBM e por isso classificado

incorrectamente mais facilmente.

Estes resultados são confirmados mais tarde quando é realizada uma comparação entre os

resultados médios normalizados obtidos pelos dois sistemas quando testados com segmentos

autênticos e impostores de durações diferentes. Comprova-se que o sistema SVM-GSV obtém um

desempenho superior ao sistema GMM-UBM quando testado com segmentos superiores a 8

segundos, sendo que para segmentos com duração entre 3 a 8 segundos, é o sistema GMM-UBM

que apresenta melhores resultados.

Verificou-se também que qualquer dos classificadores apresenta piores resultados para os modelos

treinados com menos tempo de treino. Depois de treinados, os modelos com menos tempo de treino

vão ter maiores semelhanças com o UBM, já que possuem menos características de treino. No caso

do classificador SVM-GSV, como cada segmento testado é também adaptado a partir do UBM, é

fácil perceber que existirá uma menor distância entre os modelos com menos tempo de treino e os

segmentos testados. Já para o classificador GMM-UBM, como o UBM foi treinado com fala de todos

os oradores presentes no conjunto de treino, este representa o conjunto de características que se

espera encontrar durante a fase de teste, pelo que os modelos oradores com menos tempo de treino

terão uma maior verosimilhança com as características dos segmentos de teste, apresentado por isso

piores resultados.

Os resultados obtidos individualmente pelos sistemas GMM-UBM e SVM-GSV permitiram

desenvolver um sistema, denominado por GMM-UBM+SVM-GSV, que calcula os resultados obtidos

por cada modelo orador dependendo da duração do segmento a testar. Este sistema, quando testado

novamente com os mesmos segmentos de teste, consegue reduzir o valor do EER para 6,7%. Para

se obter este valor do EER o limiar de decisão do sistema é igual a 1,5. É com base no valor deste

limiar de decisão do sistema que na prática qualquer programa noticioso particionado em segmentos

por um anotador produz uma taxa de falsos positivos e falsos negativos em torno de 6,7%.

O sistema GMM-UBM+SVM-GSV foi por isso utilizado para pesquisar por segmentos autênticos em

programas noticiosos recolhidos durante o ano 2011 no L2F, INESC-ID. Estes programas foram

particionados e classificados de forma automática pelo módulo de APP, que foi o responsável por

identificar e classificar os segmentos que contêm fala.

Quando testado com os segmentos dos programas televisivos do ano 2011, o sistema GMM-

UBM+SVM-GSV obteve um desempenho inferior, apresentando um EER de 8,7%. No entanto, este

valor não corresponde ao ponto de funcionamento do sistema, uma vez que o limiar de decisão foi

escolhido com base nos resultados obtidos anteriormente quando o sistema foi testado com

segmentos de programas noticiosos classificados por anotadores. Por isso, para o limiar de decisão

de 1,5 este sistema obtém uma taxa de falsos positivos de 7,0% e uma taxa de falsos negativos de

15,2%. Quer isto dizer que o número de segmentos incorrectamente atribuídos a oradores não sofreu

uma alteração significativa, já que o sistema foi definido por um limiar de decisão que devia

apresentar uma taxa de falsos positivos de 6,7%. No entanto, o sistema apresentou uma maior

dificuldade em detectar segmentos proferidos por oradores a identificar, com a taxa de falsos

negativos a passar dos esperados 6,7% para os 15,2%.

De facto, era esperado que o sistema encontra-se uma maior dificuldade em detectar os segmentos

dos oradores, uma vez que:

Os modelos dos oradores foram treinados com características do orador do ano 2000 e

testados com segmentos recentes, recolhidos durante o ano 2011.

O limiar de decisão do sistema foi escolhido com base dos resultados obtidos pelos oradores

quando testados com segmentos recolhidos durante o ano 2001, 2004, 2007 e 2008, que

representam 56%, 17%, 15% e 12% do tempo útil de teste, respectivamente.

Os segmentos testados foram obtidos através do módulo de APP, que, por vezes, dá origem

a segmentos autênticos que possuem fala do orador a identificar e de um ou mais oradores,

influenciando negativamente o desempenho do sistema.

Os modelos oradores foram treinados com segmentos áudio recolhidos na RTP e testados

com 54% de segmentos recolhidos no INESC-ID através de um serviço de televisão por cabo.

Estes últimos segmentos contêm ruído e outras variações devido à transmissão de sinal não

ser prefeita.

No entanto, nenhum destes problemas se verifica quando o sistema deve determinar quais os

segmentos impostores, justificando o motivo pelo qual a taxa de erro se mantém em cerca de 7%.

Assim:

É indiferente para um modelo orador classificar um segmento impostor do ano 2000 ou 2011.

O limiar de decisão do sistema foi escolhido quando o sistema foi testado com segmentos de

duração média de 18 segundos. A concatenação dos segmentos obtidos pelo módulo de pré-

processamento áudio foi realizada de forma a serem obtidos segmentos com uma duração

média aproximada (15 segundos), pelo que a distribuição de resultados impostores é idêntica.

Um modelo orador continua a classificar da mesma forma um segmento impostor, mesmo

que ele contenha duas ou mais vozes, pelo que o módulo de pré-processamento áudio não

influência um resultado.

O efeito do ruído e outras variações existentes na transmissão de um sinal não produzem

alterações significativas devido aos modelos impostores utilizados na normalização.

De notar ainda que este sistema foi capaz de identificar segmentos autênticos de alguns modelos

oradores, caso do José Mourinho ou do Durão Barroso, em programas recentes, mesmo quando os

oradores discursavam noutro idioma, nomeadamente em Castelhano e Inglês, apesar de terem sido

treinados unicamente em Português. Isto significa que foi utilizado um número de coeficientes e

misturas Gaussianas suficientes para representar e modelar de forma eficiente a informação do

orador.

Os sistemas de reconhecimento do orador desenvolvidos neste trabalho foram colocados perante

dificuldades adicionais quando comparados com outros sistemas de reconhecimento comuns devido

Serem testados com segmentos autênticos e impostores de duração variável.

Cada modelo orador é treinado com diferentes tempos de treino, assim como os modelos

impostores usados na normalização de resultados.

Existem segmentos com diferentes tipos de fala, como espontânea ou leitura.

Muitos segmentos possuem diferentes tipos de background, dependendo se o segmento

áudio foi proferido num estúdio de televisão ou durante um concerto de música.

Os modelos oradores são testados com segmentos autênticos e impostores em diferentes

idiomas.

Tendo em conta as dificuldades adicionais existentes, pode-se concluir que os resultados obtidos

pelos sistemas GMM-UBM, SVM-GSV e GMM-UBM+SVM-GSV quando testados com programas

televisivos, particionados e classificados por anotadores, foram bons, uma vez que produziram taxas

de erro baixas.

Verificou-se também que existiu uma degradação do desempenho do sistema GMM-UBM+SVM-GSV

quando o sistema foi testado com os segmentos processados pelo módulo APP. No entanto, caso o

limiar da decisão do sistema tenha como referência os resultados obtidos para estes segmentos, é

possível reduzir a taxa de falsos negativos de 15,2% para 8,7%, aumentado apenas a taxa de falsos

positivos em 1,7%.

8.2. Trabalho Futuro

Este trabalho permitiu desenvolver um sistema que combina os resultados obtidos por duas das

principais técnicas de reconhecimento do orador, baseadas nos classificadores GMM-UBM e SVM-

GSV, para verificar se um segmento pertence a alguma das celebridades a identificar pelo sistema.

Foi posteriormente desenvolvido um novo sistema, obtido através da combinação dos resultados dos

dois classificadores.

O desempenho do sistema GMM-UBM+SVM-GSV pode ser melhorado se forem usados segmentos

de programas noticiosos recentes, com origem no módulo de APP, para definir o limiar de decisão do

sistema. Torna-se por isso necessário identificar previamente os segmentos autênticos presentes em

todos os programas noticiosos recolhidos e testar o sistema com todos os segmentos desses

programas. Os resultados obtidos permitem reduzir significativamente o número de segmentos

autênticos que não são correctamente identificados em futuros programas televisivos analisados.

Podem também ser extraídas mais características dos segmentos, como MFCC e RASTA, capazes

de modelar um orador e testar cada modelo.

Como o módulo de APP é capaz de classificar cada segmento como pertencendo a um orador

masculino ou feminino, o sistema criado poderia ter em conta esta informação antes de atribuir um

segmento a uma celebridade. Isto leva a que os dados com os quais é treinado o UBM fossem

também analisados. Ou seja, seria interessante criar dois UBMs, um apenas com oradores

masculinos e outro com femininos, e treinar cada modelo orador a partir do UBM correspondente,

como forma da classificação ser realizada tendo também em conta a informação do género do

orador. Neste caso, os modelos impostores usados para normalizar os resultados teriam de ser todos

do mesmo género que o orador.

O texto obtido pelo módulo de reconhecimento de fala, que transcreve o que é dito pelo orador,

também pode ser utilizado para detectar quando é que um orador poderá vir a falar. Por exemplo,

antes de uma notícia que contém segmentos do José Mourinho, o jornalista poderá referir as palavras

“José Mourinho”, “Real Madrid” ou “Vicente Calderón”. A existência destas palavras no que é referido

pelo jornalista, indica uma maior probabilidade dos segmentos seguintes possuírem a voz do José

Mourinho.

Os resultados obtidos pelo sistema de reconhecimento do orador também podem ser combinados

com um sistema de análise e reconhecimento de imagem, capaz de identificar a face de um orador,

uma vez que também se dispõem dos vídeos dos programas televisivos recolhidos.

Referências

[Auckenthaler et al., 2000] Auckenthaler R., Carey, M., and Lloyd-Thomas, H. (2000). Score

Normalization for Text-Independent Speaker Verification Systems. In Digital Signal Processing, 10(1-

3):42-54.

[Bimbot et al., 2004] Bimbot, F., Bonastre, J-F., Fredouille, C., Gravier, G., Margin-Chagnolleau I.,

Meignier, S., Merlin, T., Ortega-García, J., Petrovska-Delacretaz, D., and Reynolds, D. (2004). A

Tutorial on Text-Independent Speaker Verification. In EURASIP Journal on Applied Signal Processing,

4:430-451.

[Bonastre et al., 2005] Bonastre, J-F., Wils, F., and Meignier S. (2005). ALIZE, a Free Toolkit for

Speaker Recognition. In Proceedings ICASSP 2005.

[Campbell et al., 2005] Campbell, W., Reynolds, D., Campbell, J., and Brandy K. (2005). Estimating

and Evaluating Confidence for Forensic Speaker Recognition. In Proceedings ICASSP 2005.

[Campbell et al., 2006a] Campbell, W., Campbell, J., Reynolds, D., Singer, E., and Torres-

Carrasquillo, P. (2006). Support Vector Machines for Speaker and Language Recognition. In

Computer, Speech and Language, 20:210-229.

[Campbell et al., 2006b] Campbell, W., Sturim, D., and Reynolds, D. (2006). Support Vector Machines

Using GMM Supervectors for Speaker Verification. In IEEE Signal Processing Letter, 13(5):308-311.

[Campbell, 1995] Campbell J. (1995). Testing with the YOHO CD-ROM Voice Verification Corpus. In

Proceedings ICASSP 1995.

[Collobert and Bengio, 2001] Collobert, R. and Bengio, S. (2001). SVMTorch: Support Vector

Machines for Large-Scale Regression Problems. In Journal of Machine Learning Research 1:143-160.

[Cristianini and Shawe-Taylor, 2000] Cristianini, N. and Shawe-Taylor, J. (2000). Support Vector

Machines. Cambridge University Press.

[Davis and Mermelstein, 1980] Davis, S. and Mermelstein, P. (1980). Comparison of Parametric

Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences. In IEEE

Transactions on Acoustics, Speech, and Signal Processing, 28(4):357-366.

[Dempster et al., 1977] Dempster, A., Laird, N., and Rubin, D. (1977). Maximum Likelihood from

Incomplete Data Via the EM Algorithm. In Journal of Royal Statistical Society, 39(1):1-38.

[Doddington, 1985] Doddington, G. (1985). Speaker Recognition – Identifying People by Their Voices.

In Proceedings of the IEEE, 73(11):1651-1664.

[Fauve et al., 2007a] Fauve, B., Evans, N., Pearson, N., Bonastre, J.-F., Mason, J. (2007). Influence of

Task Duration in Text-Independent Speaker Verification". In Proceedings Interspeech 2007.

[Fauve et al., 2007b] Fauve, B., Matrouf, D., Scheffer, N., Bonastre, J-F., and Mason, J. (2007). State-

of-the-Art Performance in Text-Independent Speaker Verification Though Open-Souce Software. In

IEEE Transactions on Audio, Speech, and Language Processing, 15(7):1960-1968.

[Gauvain and Lee, 1994] Gauvain, J. and Lee, C. (1994). Maximum a Posteriori Estimation for

Multivariate Gaussian Mixture Observations of Markov Chains. In IEEE Transactions on Speech and

Audio Processing, 2(2):291-298.

[Hasan and Hansen, 2010] Hasan, T. and Hansen, J. (2010). A Study on Universal Background Model

Training in Speaker Verification. In IEEE Transactions on Audio, Speech, and Language Processing.

[Hébert, 2008] Hébert, M. (2008). Text-Dependent Speaker Recognition. In Springer Handbook of

Speech Processing. Springer-Verlag.

[Hermansky, 1990] Hermansky, H. (1990). Perceptual Linear Prediction (PLP) analysis for Speech. In

Journal of the Acoustic Society of America 87.

[Higgins et al., 1991] Higgins, A., Bahler, L., and Porter, J. (1991). Speaker Verification Using

Randomized Phrase Prompting. In Digital Signal Processing, 1:89-106.

[Kenny et al., 2007] Kenny, P., Ouellet, P., and Dumouchel, P. (2007). Speaker and Session

Variability in GMM-Based Speaker Verification. In IEEE Transactions on Audio, Speech, and

Language Processing, 15(4):1448-1460.

[Li and Porter, 1988] Li, K. and Porter, J. (1988). Normalizations and Selection of Speech Segments

for Speech Recognition Scoring. In Proceedings ICASSP 1988.

[Martin et al., 1997] Martin, A., Doddington, G., Kamm, T., Ordowski, M., and Pryzbock, M., (1997).

The DET Curve in Assessment of Detection Task Performance. In Proceedings European Conference

on Speech Communication and Technology.

[Meinedo, 2008] Meinedo, H. (2008). Audio Pre-Processing and Speech Recognition for Broadcast

News. PhD Thesis.

[Meinedo et al., 2003] Meinedo, H., Caseiro, D., Neto, J. P., and Trancoso, I. (2003).

AUDIMUS.media: A Broadcast News Speech Recognition System for the European Portuguese

Language. In PROPOR’2003.

[Meinedo et al., 2010] Meinedo, H., Abad, A., Pellegrini, T., Trancoso, I., Neto, J. P. (2010). The L2F

Broadcast News Speech Recognition System. In Fala2010.

[Naik and Doddington, 1987] Naik, J. and Doddington, G. (1987). Evaluating of a High Performance

Speaker Verification System for Access Control. In Proceedings ICASSP 1987.

[Naik et al., 1989] Naik, J., Netsch, G., and Doddington, G. (1989). Speaker Verification Over Long

Distance Telephone Lines. In Proceedings ICASSP 1989.

[Neto et al., 2003] Neto, J., Meinedo, H., Amaral, R., and Trancoso, I. (2003) A System for Selective

Dissemination of Multimedia Information. In Proceedings of the ISCA MSDR 2003.

[NIST, 2010] NIST (2010). The NIST Year 2010 Speaker Recognition Evaluation Plan.

http://www.itl.nist.gov/iad/mig/tests/sre/2010/index.html.

[Reynolds and Campbell, 2007] Reynolds, D. and Campbell, W. (2007). Text-Independent Speaker

Recognition. Springer Handbook of Speech Processing and Communication. Springer-Verlag.

[Reynolds et al., 2000] Reynolds, D., Quatieri, T., and Dunn R. (2000). Speaker Verification Using

Adapted Gaussian Mixture Models. In Digital Signal Processing, 10(1-3):19-41.

[Reynolds, 1995] Reynolds, D. (1995). Speaker Identification and Verification Using Gaussian Mixture

Speaker Models. In Speech Communication, 17:91-108.

[Reynolds, 1997] Reynolds, D. (1997). Comparison of Background Normalization Methods for Text-

Independent Speaker Verification. In Proceedings European Conference on Speech Communication

and Technology.

[Schmandt and Arons, 1984] Schmandt, C. and Arons, B. (1984). A Conversational Telephone

Messaging System. In IEEE Transactions on Consumer Electronics.

[Schmidt-Nilsen and Crystal, 2000] Schmidt-Nielsen, A. and Crystal, T. (2000). Speaker Verification by

Human Listeners: Experiments Comparing Human and Machine Performance Using the NIST 1998

Speaker Evaluation Data. In Digital Signal Processing, 10(1-3): 249-266.

[Wan and Campell, 2000] Wan, V. and Campbell, W. (2000). Support Vector Machines dor Speaker

Verification and Identification. In Proceedings Neural Networks for Signal Processing X, 2:775-784.

[Wilcox et al., 1994] Wilcox, L., Chen, F., Kimber, D., and Balasubramanian, V. (1994). Segmentation

of Speech Using Speaker Identification. In Proceedings ICASSP 1994.

[Zheng et al., 2005] Zheng, R., Zhang, Z., and Xu, B. (2005). A Comparative Study of Feature and

Score Normalization for Speaker Verification. Springer-Verlag.

Vozes de Celebridades · v Resumo Esta dissertação descreve um sistema de verificação do orador...

Documents

Transcript of Vozes de Celebridades · v Resumo Esta dissertação descreve um sistema de verificação do orador...

Chico Bento - O Orador Da Turma

AS CELEBRIDADES COMO EMBLEMA SOCIOLóGICOHaveria uma história das celebridades que remontaria à Antiguidade. Essa é a intenção de Leo Braudy ao refutar a tese de sua emergência

ProgramaMobilidadeUrbana26Fev2013 · Orador, Prof. Engenheiro Rui Loureiro - Presidente da Rede Ferroviária Nacional - REFER Orador, Dr. António Ramalho - Presidente das Estradas

15 Celebridades que talvez não saiba que são gêmeos

Estudo Facebook Page Performance TOP 10 celebridades em Portugal

Método Adeus Rugas – Segredo de várias celebridades

ARTISTAS COLOCAM ROSTOS DE CELEBRIDADES EM PINTURA CLÁSSICA

Diálogos Del Orador, Para Leer

JOGADORES DE FUTEBOL E CELEBRIDADES: Uma análise do …

Celebridades nos media: a construção imagética da morte de …bocc.ufp.pt/pag/santiago-ana-2013-celebridades-nos-media.pdf · 2013. 5. 15. · Celebridades nos media 3 imagem mediática

Ao Orador de Uma Loja

Mike Wittenstein - Kit Para o Orador - Orador Global. Designer de Experiência do Cliente Levada à Prática. Consultor

Das vozes ocultas ás vozes enunciativas: denúncias de uma ...

Celebridades - Estrelas Eternas

comunicmedici1p.files.wordpress.com€¦ · Web viewQUINZE QUALIDADES DO. ORADOR PARA AJUDA LO A. FALAR MELHOR. São inúmeras as qualidades necessárias para que o orador possa

Doc orador c_12474_k-comissao-permanente-ce-20131105_ext059_parte2715_resultado_1383667404284

EGO - Redesenho do Portal de Celebridades da Globo.com

Celebridades Engracadas Cartoons Portaldarte

Metadiscurso do jornalismo de celebridades · Metadiscurso do jornalismo de celebridades ... En este artículo, vamos a ver cómo el periodismo celebridad puede ser estudiado a través

Tradução Do Orador