Avaliação perceptual do codec G729 utilizando algoritmo PESQ

download Avaliação perceptual do codec G729 utilizando algoritmo PESQ

If you can't read please download the document

description

DSP

Transcript of Avaliação perceptual do codec G729 utilizando algoritmo PESQ

  • PONTIFCIA UNIVERSIDADE CATLICA DO RIO GRANDE DO SUL FACULDADE DE ENGENHARIA

    PROGRAMA DE PS GRADUAO EM ENGENHARIA ELTRICA

    FL`VIO LUIS WISNEVSKI.

    CODIFICADOR G729a ORIENTADO AVALIAO DA QUALIDAD E

    PERCEPTUAL DO SINAL DE VOZ

    Porto Alegre Agosto - 2011

  • 2

    FL`VIO LUIS WISNEVSKI

    CODIFICADOR G729a ORIENTADO AVALIAO DA QUALIDAD E PERCEPTUAL DO SINAL DE VOZ

    DISSERTAO APRESENTADA COMO REQUISITO PARCIAL PARA OBTENO DO GRAU DE MESTRE, PELO PROGRAMA DE PS-GRADUAO EM ENGENHARIA ELTRICA DA PONTIFCIA UNIVERSIDADE CATLICA DO RIO GRANDE DO SUL.

    Orientador: Prof. Dr. Rubem Dutra Ribeiro Fagundes

    Porto Alegre Agosto - 2011

  • 3

    CODIFICADOR G729a ORIENTADO AVALIAO DA QUALIDAD E PERCEPTUAL DO SINAL DE VOZ

    FL`VIO LUIS WISNEVSKI

    DISSERTAO APRESENTADA COMO REQUISITO PARCIAL PARA OBTENO DO GRAU DE MESTRE, PELO PROGRAMA DE PS-GRADUAO EM ENGENHARIA ELTRICA DA PONTIFCIA UNIVERSIDADE CATLICA DO RIO GRANDE DO SUL.

    Porto Alegre, 25 de Agosto de 2011.

    _____________________________________________ Prof. Dr. Rubem Dutra Ribeiro Fagundes

    Orientador

    ____________________________________________________

    Prof. Dra. Letcia Maria Bolzani Phls

    Coordenadora do Programa de Ps-Graduao em Engenharia Eltrica PUCRS

    Banca Examinadora:

    ____________________________________________________ Prof. Dr. Miguel Arjona Ramrez EPUSP/USP

    ____________________________________________________

    Prof. Dra. Letcia Maria Bolzani Phls PUCRS

    _____________________________________________ Prof. Dr. Rubem Dutra Ribeiro Fagundes PUCRS

  • 4

    minha esposa Lisiane, meu amor e meu carinho.

  • 5

    AGRADECIMENTOS

    Agradeo Deus pelas oportunidades de vida que tem me proporcionado.

    minha amada Lisiane, por estar sempre comigo, confiando na nossa trajetria em

    construo de uma famlia.

    Agradeo, tambm, minha me, por me lembrar como a vida difcil quando tomamos

    decises erradas.

    Ao professor Rubem, pela sua pacincia em ensinar sem criticar, e pela sua sabedoria em me

    mostrar que sempre existe uma sada no final.

    Aos amigos Lcio e Lucas pelo seu auxlio durante a pesquisa e desenvolvimento deste

    trabalho.

    Ao professor Joo Ernandes, pelos ensinamentos de vida acadmica e profissional.

    Enfim, meu obrigado a todos os que estiveram junto comigo nesta jornada.

  • 6

    Um professor afeta a eternidade; ele

    nunca sabe onde a sua influncia termina.

    Henry Adans

  • 7

    RESUMO

    Esta dissertao apresenta um modelo de codificador da voz que avalia a qualidade

    perceptual, utilizando-se um codificador paramtrico definido pela Recomendao do ITU-T,

    o G729a , conhecido tecnicamente como Conjugate Structure Algebraic Code Excited Linear

    Prediction (CS-ACELP).

    Atualmente, a codificao de voz avaliada por parmetros subjetivos, em que no h

    uma anlise para melhoria perceptual que altere os parmetros dinamicamente. O objetivo

    deste trabalho a melhoria no desempenho do sinal codificado na fonte, considerando as

    limitaes de trabalhar com as variveis escalares do codec.

    Foi realizada uma anlise sobre os sinais de voz para dar subsdios ao leitor,

    possibilitando o entendimento terico e uma descrio sobre o codificador G729a,

    enfatizando os estgios de codificao dos parmetros escalares, objeto deste estudo.

    Programou-se no codificador G729a, o algoritmo PESQ, o qual realiza a anlise

    perceptual do sinal de voz. Tambm foi avaliada recomendao P.862 do ITU-T que descreve

    o algoritmo de avaliao da qualidade perceptual.

    Para validar a metodologia proposta, foram realizados experimentos em sinais de voz

    do banco de dados Timit, em que se estudou o comportamento do sinal de voz e a melhoria

    perceptual devido alterao dos parmetros escalares de codificao do sinal.

    No experimento realizado, foi realizada a modificao no codificador CS-ACELP

    com a utilizao de uma anlise perceptual ponderando a avaliao do algoritmo do PESQ

    para deciso de atuao sobre a codificao, o que resultou em sinais de maior qualidade para

    os usurios, garantindo a estabilidade de 72,41% e melhorando 50,38% dos quadros avaliados

    pelo PESQ. Houve alterao no ganho de pitch, sem a modificao da essncia do codec.

    .

    Palavras-chaves: Codificao de voz, predio linear, anlise perceptual, G729a, PESQ .

  • 8

    ABSTRACT

    This thesis presents a model that evaluates the perceptual quality of the enconding

    voice, using a parametric encoder defined by the ITU-T Recommendation G729a, technically

    known as Conjugate Structure Algebraic Code Excited Linear Prediction (CS-ACELP).

    Currently the voice coding is evaluated by subjective parameters, where there is a

    perceptual analysis to improve the parameters that change dynamically. The objective of this

    study is improvement in the performance of the coded signal source, considering the

    limitations of working with the codec scalar variables.

    An analysis of the speech signals to improve input to the reader, allowing for better

    understanding and a theoretical description of the encoder G729a, emphasizing the stages of

    encoding scalar parameters, object of this study.

    The PESQ algorithm has been inserted into the coder, which by these means performs

    a perceptually based analysis of the speech signal. In so doing, we have also analyzed

    thoroughly ITU-T Recommendation P.862 describing an algorithm for objectively evaluating

    perceptual speech quality.

    To validate the proposed methodology, test were performed for comparison which

    speech signals from the Timit database for studying the improvement in coded speech quality

    after the perceptual improvement algorithm applied to the scalar parameters in coding

    In the experiment, was performed in modified CS-ACELP coder using a perceptual

    analysis considering the evaluation of the PESQ algorithm for decision to operate on the

    encoding, resulting in higher quality signals to users, ensuring the stability of 72.41% and

    50.38% of the frames better evaluated by PESQ. There was change in the pitch gain, without

    changing the essence of the codec.

    Key words: Speech coding, linear prediction, perceptual analysis, G729a, PESQ.

  • 9

    SUM`RIO

    1. Introduo ....................................................................................................................... 15

    1.1. Objetivo ....................................................................................................................15 1.2. Motivao .................................................................................................................16 1.3. Estrutura da Dissertao ...........................................................................................16

    2. Anlise do Aparelho Fonador........................................................................................ 18

    2.1. Processo Fisiolgico de Produo de Voz................................................................18 2.1.1. Trato Vocal .......................................................................................................19 2.1.2. Sistema de produo de voz e as suas formantes .............................................20

    2.2. Modelo de Produo do Sinal de Voz ......................................................................23 2.2.1. Gerador de excitao ........................................................................................23 2.2.2. Modelagem do Trato vocal...............................................................................24 2.2.3. Radiao ...........................................................................................................25 2.2.4. Modelo completo de produo de voz..............................................................26

    3. Codificao de voz em DSP, Processamento Digital de Sinais ................................... 28

    3.1. Sinais e comunicao................................................................................................28 3.1.1. Classificao do sinal para formao de modelos ...........................................29 3.1.2. Amostragem do sinal ........................................................................................29 3.1.3. Quantizao do sinal.........................................................................................29 3.1.4. Codificao do sinal .........................................................................................29 3.1.5. Anlise Homomrfica ou Anlise Cepstral ......................................................30

    3.2. Tipos de codificadores..............................................................................................31 3.2.1. Codificadores de forma de onda .......................................................................31 3.2.2. Codificadores paramtricos ..............................................................................32 3.2.3. Codificadores hbridos......................................................................................32

    3.3. Codificao Preditiva Linear ....................................................................................33 3.3.1. Anlise da Codificao Preditiva Linear ..........................................................33 3.3.2. Line Spectrum Frequency e Line Spectrum Pairs............................................36 3.3.3. Janelamento ......................................................................................................37

    3.4. Quantizao Vetorial ................................................................................................39 3.4.1. Entendendo quantizao vetorial......................................................................39

    4. Anlise da qualidade do sinal de voz ............................................................................ 42

    4.1. Medidas subjetivas de qualidade ..............................................................................43 4.1.1. Mean Opinion Score (MOS).............................................................................43

    4.2. Medidas objetivas de qualidade................................................................................44 4.2.1. Perceptual Speech Quality Mesure (PSQM)....................................................45 4.2.2. Perceptual Analysis Measurament System (PAMS) .......................................46 4.2.3. Perceptual Evaluation of Speech Quality (PESQ) ...........................................46

    5. Codificadores ITU-T ...................................................................................................... 48

    5.1. Codificadores ITU-T utilizados em telefonia ...........................................................48 5.1.1. Recomendao ITU-T G.711 ...........................................................................49 5.1.2. Recomendao ITU-T G.726 ...........................................................................50 5.1.3. Recomendao ITU-T G.728 ...........................................................................51 5.1.4. Recomendao ITU-T G.723.1 ........................................................................52 5.1.5. Recomendao ITU-T G.729 ...........................................................................53

    5.2. CS-ACELP: Conjugate Structure Code-Excited Linear Prediction (G.729a) ..........54

  • 10

    5.2.1. O codificador CS-ACELP - (G.729a)...............................................................54 5.2.2. Codificador .......................................................................................................55 5.2.3. Decodificador ...................................................................................................57

    6. Proposta ........................................................................................................................... 58

    7. Estudo de Caso................................................................................................................ 62

    7.1. Plataforma de experimento (G729a com PESQ) ......................................................62 7.2. Anlise dos parmetros de avaliao........................................................................63

    7.2.1. Limites de frames do PESQ no bloco do codec ...............................................63 7.2.2. Formatao dos arquivos de testes ...................................................................64 7.2.3. Sinais analisados para alterao da codificao ...............................................67 7.2.4. Ajuste da avaliao Perceptual (alteraes significativas) ...............................68

    7.3. Padro de avaliao perceptual proposto..................................................................73 8. Resultados Obtidos ......................................................................................................... 75

    8.1. Testes realizados.......................................................................................................75 8.1.1. Anlise dos parmetros escalares .....................................................................75 8.1.2. Avaliao Perceptual Oradores masculino (Arquivo 01) ..............................77 8.1.3. Avaliao Perceptual Oradores feminino (Arquivo 01) ................................80 8.1.4. Avaliao Perceptual Oradores masculino (Arquivo 02) ..............................83 8.1.5. Avaliao Perceptual Oradores feminino (Arquivo 02) ................................86

    9. Concluses ....................................................................................................................... 89

    9.1. Sugestes para trabalhos futuros ..............................................................................91 10. Referncias Bibliogrficas ............................................................................................. 93

    11. Anexo ............................................................................................................................... 98

    11.1. Arquivos de testes do Banco de dados Timit .......................................................98 12. Apndices....................................................................................................................... 100

    12.1. Apndice A - Resultado do Arquivo1 de Oradores masculinos.........................100 12.2. Apndice B - Resultado do Arquivo1 de Oradores femininos ...........................105 12.3. Apndice C - Resultado do Arquivo2 de Oradores masculinos .........................111 12.4. Apndice D - Resultado do Arquivo2 de Oradores femininos...........................119

  • 11

    LISTA DE FIGURAS

    Figura 2-1 rgos de produo da fala Sistema do Trato Vocal. ......................................19

    Figura 2-2 Segmento sonoro de voz com segmentos surdos de voz sinal irradiado ..........20

    Figura 2-3 Ptch do sinal de voz amostrado............................................................................21

    Figura 2-4 Exemplo de historiograma da frequncia fundamental .......................................22

    Figura 2-5 Diagrama em blocos do modelo para produo de voz. .......................................23

    Figura 2-6 Diagrama em blocos do sinal de excitao para sons sonoros ............................23

    Figura 2-7 (a) Exemplo de dois tubos e trs tubos. ..............................................................24

    Figura 2-8 Modelo completo para produo de voz..............................................................26

    Figura 2-9 Modelo simplificado para produo de voz........................................................27

    Figura 3-1 - Elementos de um sistema de comunicao. .........................................................28

    Figura 3-2 - Classificao do sinal de voz em sons sonoros e surdos ......................................29

    Figura 3-3 Partes bsica de um conversor analgico-digital (A/D) ......................................30

    Figura 3-4 AnliseCepstral do sinal de voz..........................................................................31

    Figura 3-5 Processo de gerao de voz humana num codificador LPC ................................32

    Figura 3-6 Qualidade x Taxa de transmisso dos codificadores ...........................................33

    Figura 3-7 a) Modelo de produo da fala b) Modelo do trato vocal.........................34

    Figura 3-8 Diagrama de blocos do processo de anlise (a) e de sntese (b) .........................36

    Figura 3-9 Anlise das janelas de Hanning e Hamming. ......................................................38

    Figura 3-10 Processo de janelamento ....................................................................................38

    Figura 3-11 Exemplo de quantizao em 1 dimenso..............................................................39

    Figura 3-12 Exemplo de quantizao em 2 dimenses .........................................................40

    Figura 3-13 Exemplo de espao vetorial com centrides de vetores de cdigos ..................41

    Figura 4-1 Comportamento da avaliao MOS para dos diferentes tipos de codificadores..44

    Figura 4-2 Modelo de avaliao objetiva, utilizando o PSQM. ...........................................45

    Figura 5-1 Sistema de codificao de voz. ............................................................................48

    Figura 5-2 Diagrama de blocos da tcnica PCM..................................................................49

    Figura 5-3 Diagrama de blocos do processo de codificao ADPCM (VARY e MARTIN,

    2006).................................................................................................................................50

    Figura 5-4 Diagrama de blocos do processo de codificao LD-CELP (FURUI, 2001).....51

    Figura 5-5 Diagrama de blocos do processo de codificao LD-CELP...............................52

    Figura 5-6 Diagrama de blocos do processo de codificao CS-ACELP ............................55

    Figura 5-7 Diagrama de blocos do processo de decodificao CS-ACELP ........................57

  • 12

    Figura 6-1 Relao do MOS x Taxa de Transferncia dos diversos codificadores..............58

    Figura 6-2 - Diagrama de avaliao perceptual do codec no sinal de origem..........................59

    Figura 6-3 - Diagrama de blocos simplificado de anlise do codec .........................................61

    Figura 7-1 Arquivo01 Oradores masculinos Sinal de voz.....................................................64

    Figura 7-2 Arquivo01 Oradores masculinos Anlise de frequncia de pitch........................65

    Figura 7-3 Arquivo02 Oradores masculinos Sinal de voz.....................................................65

    Figura 7-4 Arquivo02 Oradores masculinos Anlise de frequncia de pitch........................65

    Figura 7-5 Arquivo01 Oradores femininos Sinal de voz.......................................................66

    Figura 7-6 Arquivo01 Oradores femininos Anlise de frequncia de pitch..........................66

    Figura 7-7 Arquivo02 Oradores femininos Sinal de voz.......................................................66

    Figura 7-8 Arquivo02 Oradores femininos Anlise de frequncia de pitch..........................67

    Figura 7-9 Inicializao dos trs primeiros frames e ao da avaliao zero...........................69

    Figura 7-10 Avaliao dos ganhos no arquivo 01 de Oradores Femininos..............................70

    Figura 7-11 Avaliao dos ganhos no arquivo 01 de Oradores Masculinos ............................71

    Figura 7-12 Avaliao dos ganhos no arquivo 02 de Oradores Femininos..............................71

    Figura 7-13 Avaliao dos ganhos no arquivo 02 de Oradores Masculinos ............................72

    Figura 8-1 Grfico da aplicao do ganho no arquivo 01 de Oradores Masculinos ................77

    Figura 8-2 Arquivo1 Oradores masculinos, sinal codificado e decodificado com atuao do

    PESQ ................................................................................................................................79

    Figura 8-3 Arquivo1 Oradores masculinos, anlise da frequncia de pitch .............................79

    Figura 8-4 Grfico da aplicao do ganho no arquivo 01 de Oradores Femininos ..................80

    Figura 8-5 Arquivo1 Oradores femininos, sinal codificado e decodificado com atuao do

    PESQ ................................................................................................................................82

    Figura 8-6 Arquivo1 Oradores femininos, analise da frequncia de pitch ...............................82

    Figura 8-7 Grfico da aplicao do ganho no arquivo 02 de Oradores Masculinos ................83

    Figura 8-8 Arquivo2 Oradores masculinos, sinal codificado e decodificado com atuao do

    PESQ ................................................................................................................................85

    Figura 8-9 Arquivo2 Oradores masculinos, analise da frequncia de pitch .............................85

    Figura 8-10 Grfico da aplicao do ganho no arquivo 02 de Oradores Femininos ................86

    Figura 8-11 Arquivo2 Oradores femininos, sinal codificado e decodificado com atuao do

    PESQ ................................................................................................................................88

    Figura 8-12 Arquivo2 Oradores femininos, analise da frequncia de pitch .............................88

  • 13

    LISTA DE TABELAS

    Tabela 4-1 Escala de classificao do MOS..........................................................................43

    Tabela 4-2 Comparao de eficincia do Modelo PSQM & PESQ. ....................................47

    Tabela 4-3 Valores de referncia do MOS para os codificadores Standards utilizados em

    telefonia. ...........................................................................................................................47

    Tabela 5-1 Comparao de codecs ITU-T para telefonia......................................................48

    Tabela 5-2 Parmetros codificados pelo G729a (ITU-T G729). ..........................................54

    Tabela 7-1 Avaliao do PESQ para adio de ganho nos sinais de pitch e codificao ....68

    Tabela 7-2 Ganhos avaliados para os arquivos de teste .......................................................70

    Tabela 7-3 Ajuste do controle de ganho para os arquivos de teste.......................................73

    Tabela 8-1 Testes somente com o PESQ inserido no codificador........................................76

    Tabela 8-2 Resultado do programa executado no arquivo1 de Oradores Masculinos .........77

    Tabela 8-3 Avaliao dos parmetros extrados do Arquivo1 de Oradores Masculinos......78

    Tabela 8-4 Resultado do programa executado no arquivo1 de Oradores Femininos...........80

    Tabela 8-5 Avaliao dos parmetros extrados do Arquivo1 de Oradores Femininos .......81

    Tabela 8-6 Resultado do programa executado no arquivo2 de Oradores Masculinos .........83

    Tabela 8-7 Avaliao dos parmetros extrados do Arquivo2 de Oradores Masculinos......84

    Tabela 8-8 Resultado do programa executado no arquivo2 de Oradores Femininos...........86

    Tabela 8-9 Avaliao dos parmetros extrados do Arquivo2 de Oradores Femininos .......87

    Tabela 9-1 Anlise do ganho de pitch sobre a proposta de avaliao ................................90

  • 14

    LISTA DE SIGLAS

    CS-ACELP - Conjugate Structure Algebraic Code Excited Linear Prediction

    PESQ - Perceptual Evaluation of Speech Quality

    MOS - Mean Opinion Score

    ITU-T - Telecomunication Standardization of International Telecomunication Union

    PCM - Pulse Code Modulation

    G.729 - Recomendao ITU-T cdigo de voz 8kbps para CS-ACELP

    G.729.A - Recomendao ITU-T cdigo de voz 8kbps para CS-ACELP Anexo A

    GSM - Global System for Mobile Communications

    RELP - Residual Excited Linear Prediction

    CODEC - Dispositivo de hardware ou software que codifica e decodifica sinais.

    ENCODER - Codificador do sinal de voz amostrado

    DECODER - Decodificador do sinal de voz amostrado

    LSF - Line Spectrum Frequency

    LSP - Line Spectrum Pair

    Timit - Banco de dados de 630 oradores em 8 dialetos do ingls Americano.

    Audacity - Software de anlise e manipulao de sinais de udio.

  • 15

    1. Introduo

    O sistema de telecomunicaes abrange uma gama de sinais e servios e os sinais

    constituem um ingrediente bsico de nossa vida. Uma forma comum de comunicao humana

    o uso de sinais de fala, seja conversao frente a frente ou por canal telefnico. Neste

    trabalho sobre codificao do sinal de voz utilizado em telefonia e redes de pacotes, a anlise

    de qualidade perceptual do sinal codificado na fonte o principal fator de estudo. Embora o

    estudo do sinal de voz e a avaliao perceptual sejam processos amplamente difundidos, a

    pesquisa sobre esses tpicos esto relacionadas com a abordagem do codificador utilizado,

    isto , um algoritmo de avaliao perceptual, tendo como vantagem a anlise do sinal de voz ,

    com alteraes dinmicas em tempo real para melhoria em tempo real.

    1.1. Objetivo

    A anlise de codificao de fala avalia alguns requisitos para busca de um desempenho

    satisfatrio. Um codificador de voz pode ser til por reduzir a taxa de transmisso apesar de

    aumentar a distoro, diminuindo o desempenho mesmo sendo mais eficiente na sua funo.

    O procedimento experimental deste trabalho consiste em avaliar a qualidade perceptual do

    sinal codificado com os experimentos e alteraes realizadas no encoder do codificador CS-

    ACELP (Conjugate Structure Algebraic Code Excited Linear Prediction).

    Os trabalhos de avaliao de qualidade que foram pesquisados durante este projeto,

    enfatizavam o processo de codificar/transmitir/decodificar o sinal e avaliar externamente o

    sinal original de entrada no encoder com o sinal de sada do decoder. A qualidade estava

    associada s alteraes que o sinal sofria quando submetido s aes do meio fsico1. Neste

    trabalho foi avaliada a estrutura do codificador com suas alteraes propostas para melhoria

    perceptual, excluindo-se as variaes do meio de transmisso.

    1 Entende-se por aes do meio fsico toda oscilao que ocorre no sinal de voz: degradao, perda, variao e atraso.

  • 16

    1.2. Motivao

    Avaliar as caractersticas do sinal de voz amostrado no bloco do codificador, atravs

    da implementao do algoritmo do PESQ (Perceptual Evaluation of Speech Quality) no

    cdigo fonte do codificador G729a possibilitando, assim, a avaliao perceptual do sinal,

    independente das variaes do meio de transmisso entre os blocos encoder e decoder.

    Implantar um modelo de treinamento para os padres do algoritmo PESQ sobre o

    bloco do codificador, fazendo com que exista coerncia no valor dos resultados do MOS

    (Mean Opinion Score), tendo como base as especificaes da recomendao P.862 do ITU-T,

    a qual descreve o tamanho da amostra em relao ao tempo de envio dos pacotes.

    Propor alteraes na estrutura do bloco encoder do codificador CS-ACELP para obter

    uma melhoria do sinal codificado analisado pelo algoritmo PESQ.

    Avaliar a codificao do sinal de voz e a sua qualidade perceptual baseado nos

    parmetros restritos ao codificador, ou seja, o objetivo melhorar qualidade perceptual nos

    frames codificados.

    1.3. Estrutura da Dissertao

    Esta dissertao de mestrado foi estruturada em trs grandes partes compostas por

    captulos conforme abaixo:

    Parte I Fundamentos Tericos

    Captulos: 2 ,3,4 e 5

    Esses captulos abordam a fisiologia do aparelho fonador, o modelo de produo de

    voz, princpios de codificao do sinal de voz, modelo que quantizao e anlise para

    mensurar a qualidade do sinal de voz. So descritos os conceitos relacionados arquitetura

    dos codificadores, introduz a codificao de sinais e aborda o codec G729a e os parmetros

    especficos para anlise desta pesquisa.

  • 17

    Parte II Metodologia

    Captulos: 6 e 7

    Esses captulos detalham a proposta de avaliao dos parmetros escalares do G729a,

    bem como a implementao do algoritmo PESQ, enfatizando as particularidades e limitaes

    para anlise dos frames de voz. Assim, com a metodologia aplicada pretende-se obter uma

    qualidade perceptual atravs do estudo do comportamento dos parmetros escalares, que

    atuam sobre o sinal de voz codificado.

    Parte III Resultados e Concluses

    Captulos: 8 e 9

    Esses captulos identificam os objetivos de melhoria perceptual sobre as alteraes

    passveis de modificao da estrutura do codec. Tambm so apresentadas as especificaes

    para obteno dos resultados, descrevendo possveis desenvolvimentos de trabalhos futuros

    sobre a proposta da tcnica apresentada nesta dissertao.

  • 18

    2. Anlise do Aparelho Fonador

    O processo de produo da fala utilizado para a comunicao entre os interlocutores

    d-se atravs das ondas acsticas que so formadas e emitidas pelo sistema vocal. Este

    processo tem como fonte a variao de presso gerando, assim, um sinal variante no tempo

    em que altera suas caractersticas quando o sistema vocal tem sua dimenso e forma alterada.

    2.1. Processo Fisiolgico de Produo de Voz

    O sistema de produo de voz formado pelos rgos da fala: pulmes, laringe,

    traquia, faringe, cavidade nasal e cavidade oral. Na figura 2.1 podemos verificar os rgos

    que integram o sistema vocal ( FURUI, 2001). Esta diviso feita em trs grandes grupos:

    pulmes, laringe e trato vocal.

    O sinal de voz originado pelo fluxo de ar dos pulmes, esse fluxo percorrido pela

    traquia at a laringe.

    A laringe formada por quatro cartilagens, possui as cordas vocais na parte superior,

    um par de estruturas elsticas de tendo e msculos. A movimentao destes msculos da

    laringe faz com que as cordas vocais possam variar de comprimento e espessura, tendo

    diferentes configuraes. Durante esse processo de respirao, a glote est normalmente

    aberta. Quando a glote se fecha ocorre obstruo do fluxo de ar que vem dos pulmes. Neste

    instante que ocorre a vibrao das cordas vocais. Quando a glote est aberta, a passagem de

    ar e as cordas vocais no vibram.

    Durante esse processo, o ar originado nos pulmes tendo sua variao de presso na

    laringe, chega at a faringe e a cavidade oral, o que forma o trato vocal, o qual inicia na glote

    e vai at a irradiao dos lbios. Existe uma cavidade auxiliar, a cavidade nasal, a qual

    acoplada ao trato vocal para a produo de sons nasais.

    O aparelho fonador humano composto pelos rgos responsveis pela gerao dos

    sons da voz, em que cada rgo efetua seu trabalho de forma dinmica e simultnea durante o

    processo da fala.

  • 19

    2.1.1. Trato Vocal

    A descrio do trato vocal (OSHAUGHNESSY, 1999) relata que os pulmes so

    responsveis por fornecer o fluxo de ar e presso para o processo de fala. As cordas vocais

    geralmente modulam o fluxo de ar para criar um som, mas o trato vocal o componente mais

    importante na produo da fala.

    Uma passagem tubular composta de tecidos musculares e sseos, o trato vocal,

    fornece os meios para produzir os sons diversos que caracterizam a linguagem falada.

    O trato vocal tem duas funes:

    - pode modificar a distribuio espectral de energia das ondas sonoras da glote;

    - pode contribuir para a gerao de som obstrudo (fricativos).

    Diferentes sons so distinguidos principalmente por suas caractersticas:

    periodicidade (fala ou silncio), forma espectral (frequncias com seus nveis de

    energia) e a durao. As cordas vocais especificam a caracterstica sonora e durao

    de um som, so resultados das aes sincronizadas, mas a diviso principal do sinal de

    voz realizada pelo trato vocal via filtragem espectral.

  • 20

    2.1.2. Sistema de produo de voz e as suas formantes

    O sistema de produo de voz formado por um conjunto de frequncias de

    ressonncia e anti-ressonncia e estas dependem do formato do trato vocal. O trato vocal um

    tubo acstico com rea e seco transversal no uniforme e varivel com o tempo, em que as

    frequncias de ressonncia do tubo so classificadas como formantes.

    O movimento dos rgos de produo da fala, quando irradiados para o espao livre,

    tanto pelos lbios quanto pelas narinas, alteram a forma do tubo acstico, consequentemente

    alteram a resposta em frequncia. Cada forma do trato vocal representada por um conjunto

    de formantes. Diferentes sons irradiados variam a frequncia de ressonncia e as suas

    formantes. Abaixo, na figura 2.2, o sinal de voz e, na figura 2.3, as formantes deste sinal

    distribudas no tempo.

    Abaixo a anlise do espectro de frequncia de pitch realizada no sinal da figura 2.2.

    Os valores mais escuros (em vermelho) representam as formantes do sinal de voz, sendo a

    primeira formante a frequncia fundamental ou perodo de pitch.

    Na figura 2.3, o arquivo formatado possui sentenas com o sinal de voz elaborado por

    seis oradores do gnero masculino. Observa-se na primeira formante que a oscilao do sinal

    associada com a frequncia de pitch do orador.

  • 21

    !"

    O sistema vocal, conforme excitao do trato vocal, classifica-se em trs categorias:

    sonoros, fricativos e explosivos.

    Sons Sonoros (voclicos)

    Ocorre quanto a presso de ar aumenta nos pulmes e fora a passagem do ar pela

    glote, fazendo com que as cordas vocais que esto tensionadas, entrem em vibrao. Isso

    porque a passagem de fluxo de ar, quase peridico, gera a excitao do trato vocal, os

    chamados pulsos glotais, os sons vocais so recorrentes em intervalos espaados igualmente.

    A frequncia fundamental ou frequncia de pitch a taxa de vibrao das cordas vocais, a

    qual depende da presso do ar na traqueia e da variao de espessura e comprimento das

    cordas vocais. A variao das cordas vocais, o tom, so os valores entre 50Hz e 500Hz. Um

    exemplo a sonoridade da vogal a.

    Sons Fricativos (no voclicos):

    Esses sons ocorrem quando existe o estreitamento criado pelos rgos de produo de

    fala em algum ponto do trato vocal, e o ar dos pulmes tem velocidade suficiente para

    produzir uma turbulncia. A localizao da compresso do ar no trato vocal que produz o

  • 22

    som fricativo. Um exemplo a produo do som da vogal f (compresso do trato vocal

    com o a articulao dos lbios).

    Sons Plosivos:

    Esse tipo de som resultante do fechamento completo de algum ponto do trato vocal,

    em que o ar originado pelos pulmes interrompido, fazendo uma presso atrs da obstruo.

    Quando o trato vocal desobstrudo, resulta em um abrupto relaxamento de presso, gerando

    um som com baixa energia. Exemplos de som explosivo so as letra p e b .

    O sistema de produo de voz formado por frequncias de ressonncia e anti-

    ressonncia, dependendo do formato do trato vocal. Os diversos sons produzidos no processo

    de fala so consequncias da utilizao das trs formas de excitao do trato vocal.

    As formantes, quando identificadas, podem detectar o gnero do orador atravs das

    frequncias fundamentais dos sinais avaliados, em que o sinal produzido por mulheres e

    crianas mais elevado do que o sinal produzido por homens.

    #$%"&

  • 23

    2.2. Modelo de Produo do Sinal de Voz

    Para a produo de voz existe um modelo representado pelas fontes de excitao e

    pelo trato vocal que possuem uma independncia. O sistema de produo de voz pode ser

    representado por um modelo linear invariante no tempo e um gerador de excitao, segundo

    (RABINER e SCHAFER, 1978).

    O sistema modela as ressonncias do trato vocal e os efeitos da radiao dos lbios.

    Essa representao pode ser modelada por tubos acsticos ou pelos filtros digitais.

    ()*

    2.2.1. Gerador de excitao

    Quando excitamos o trato vocal com um trem de impulsos quase peridico (pitch), os

    sons sonoros so gerados. Esse modelo de gerao de excitao pode ser representado

    conforme figura abaixo.

    +)*%

    Para representar a frequncia fundamental do sinal, um gerador de impulso produz o

    trem de impulsos unitrios, que excitam o sistema linear com uma resposta impulsiva que a

    forma de onda dos pulsos glotais, representada pela formulao abaixo:

    g n a

    =12fff B 1@cos

    p B nN 1

    ffffffffffffffffff gH

    J

    I

    K se0 n N 1

    X\

    Z

  • 24

    g n a

    = cosp B n@N1

    b c

    2B N 2fffffffffffffffffffffffffffffffffffffffff

    h

    lj

    i

    mk se N1 n N1 + N 2

    X^\

    ^Z

    (2.1)

    g n a

    = 0 casocontrrio

    A funo g n a

    tem comprimento finito e sua transformada Z apresenta apenas zeros.

    A representao para g n a

    , utilizando um modelo de dois plos, pode ser formulada

    para representar G Z a

    , tendo a seguinte formulao:

    G Z a

    =1

    1@ecB T B Z@1b c2ffffffffffffffffffffffffffffffffffffffffffffffffffffff (2.2)

    No domnio da frequncia, o pulso glotal introduz um efeito passa-baixas, onde a

    intensidade do pulso glotal controlada por um controle de ganho.

    2.2.2. Modelagem do Trato vocal

    O trato vocal pode ser modelado como uma associao de tubos conectados em

    cascatas, tendo variao na rea da seco transversal. Dessa forma, a frequncia de

    ressonncia em cada tubo corresponde a uma formante do espectro do sinal de voz.

    ,-.$%**

    Na figura acima os modelos segundo (OSHAUGHNESSY, 1999) representam vogais

    e consoantes. O modelo de dois tubos com seces A1 e A2 representam uma aproximao

    das vogais, por exemplo a letra a.O tubo estreito (secoA1) representa a abertura da faringe

    e o tubo maior (seco A2) representa a cavidade oral, considerando que do ponto de vista

    tcnico, o sistema de voz um nico tubo acstico entre a glote e a boca, medindo 17cm,

    para representar a vogal a em que temos dois tubos. Iremos considerar comprimentos

    iguais ( l1 = l 2 ) medindo 8,5cm, sendo as formantes mltiplos de 1kHz e devido ao

    acoplamento no se aproximam uma das outras por 200Hz, temos que

    F1 900HzeF2 1100Hz e F3 2900HzeF4 3100Hz . J o modelo de trs tubos com

  • 25

    seces Ab , Ac e A f representa uma aproximao das consoantes, sendo um modelo de

    tubo estreito com constrio do trato vocal, em que a parte traseira (seco Ab) e o tubo do

    meio (seco Ac) so ressonadores de meio comprimento de onda, e o tubo dianteiro (seco

    A f ) um ressonador de quarto de onda, com ressonncias cB i2B lbffffffffffffffff,

    cB i2B l cffffffffffffffff,

    cB 2B i @1 a

    4B l fffffffffffffffffffffffffffffffffffffffffff ,

    para i=1,2,3.... onde c (velocidade do som) e lb ,l c l f so os comprimentos dos tubos,

    gerando ressonncias em mltiplos de 5.333Hz para constries de 3cm em perodos de fala

    com durao tpica, podendo ser desconsiderado em aplicaes que utilizam sinais de voz de

    4 ou 5kHz de largura de banda.

    A funo de transferncia do trato vocal pode ser modelada pela formulao:

    V Z a

    =G

    Yi = 1

    N

    1@pi B Z@1

    b cfffffffffffffffffffffffffffffffffffffffffffffffffffffff (2.3)

    Na equao acima, estamos desprezando os efeitos gerados pela radiao dos lbios.

    Temos o ganho G associado amplitude do sinal de voz e os plos pi , com i sendo o

    ndice de cada plo, variando de 1 at N, esses plos fazem a modelagem da frequncia de

    ressonncia do trato vocal.

    O modelo apresentado uma boa representao do trato vocal, ele modela apenas as

    frequncias de ressonncias, que abrange a maioria dos sons voclicos, pois para

    considerarmos a produo de sons fricativos e nasais, precisamos representar as frequncias

    de anti-ressonncias. Para isso seria necessrio que, na formulao de transferncia do trato

    vocal ( V Z a

    ), tivssemos plos e zeros. Entretanto, uma forma de conseguirmos o efeito dos

    zeros, aumentando o nmero de plos da funo.

    Desta forma, o trato vocal representado por um sistema linear, um sistema estvel,

    formado somente por plos, onde todos os plos de V Z a

    esto dentro do raio de circulo

    unitrio.

    2.2.3. Radiao

    No sistema de produo de fala, temos a atuao dos lbios e das narinas (no caso das

    vogais nasais como avio), que irradiam para o espao livre os sons articulados pelo trato

  • 26

    vocal, ocorrendo uma difrao das ondas sonoras. Esse efeito de radiao pode ser modelado

    como um filtro passa-altas (representa um ganho de 6dB por oitava).

    R Z a

    = Ro 1@Z@1

    b c (2.4)

    2.2.4. Modelo completo de produo de voz

    O sistema vocal para a produo da voz pode ser representado no modelo completo

    abaixo:

    /0

    Pela representao acima (RABINER e SCHAFER, 1978), podemos definir um

    modelo combinando as funes de transferncia do pulso glotal do trato vocal e da radiao,

    em que temos:

    H Z a

    = G Z a

    B V Z a

    B R Z a

    (2.5)

    Com o equacionamento acima, temos um modelo simples de para a produo de voz,

    que pode ser representado por um modelo apenas com plos, onde a funo H Z a

    descrita

    como:

    H Z a

    =G

    1@Xk = 1

    Pak B Z

    @k

    ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff (2.6)

    Para representar o sinal de voz variante no tempo, so atualizados em intervalos

    regulares os coeficientes de H Z a

    e o sinal de excitao, tendo como resposta a produo de

    voz sintetizada.

  • 27

    1 0

    O modelo apresentado na figura 2-9 (RABINER e SCHAFER, 1978) tem uma boa

    representao para sons que possuem variaes lentas, a exemplo das vogais. Entretanto, esse

    modelo no consegue representar fielmente os sons transitrios, a exemplo dos sons plosivos.

    J os sons fricativos sonoros, cuja excitao gerada pela combinao de rudos e pulsos

    peridicos, no so possveis representar a partir desse modelo, pois uma forma de excitao

    (rudo ou pulso peridico) exclui a outra. O som originado nesse processo consegue obter uma

    voz sintetizada com boa qualidade, mas com perda de naturalidade.

  • 28

    3. Codificao de voz em DSP, Processamento Digital de Sinais

    Um sinal definido como uma funo de uma varivel, no caso dos sinais de voz. A

    fala um sinal unidimensional. A amplitude varia com o tempo, dependendo da palavra

    falada e o locutor que fala essa palavra. Esse sinal um veculo de informaes sobre a

    natureza de um fenmeno fsico. (HAYKIN e VEEN, 1999).

    3.1. Sinais e comunicao

    Existem trs elementos fundamentais em todos os sistemas de comunicao: o

    transmissor, o canal e o receptor. Cada um desses elementos possui um sistema de sinais

    prprios associados, a figura 3.1 mostra essa relao.

    $

    O transmissor converte ou codifica o sinal da mensagem produzida por uma fonte de

    informao em um formato apropriado para ser transmitido pelo canal. O canal o meio pelo

    qual o sinal se propaga. medida em que o sinal transmitido, ele sofre distores devido as

    caractersticas fsicas deste canal, tendo tambm a contribuio para degradao do sinal

    transmitido atravs de rudos e interferncias originados de outras fontes. O receptor

    responsvel por receber o sinal codificado, o qual pode ter sido corrompido (alterando a

    informao codificada), sendo este responsvel pelo processamento do sinal convertendo

    (decodificando) o formato recebido pelo canal na informao da mensagem, em que o

    objetivo estimar o sinal original.

  • 29

    3.1.1. Classificao do sinal para formao de modelos

    A produo da fala originada atravs de uma onda sonora gerada pela vibrao das

    cordas vocais, que uma consequncia da propagao de ar emitida pelos pulmes, passando

    por todo trato vocal e irradiada pelos lbios. Esse processo tem como resultado um sinal de

    voz com sons sonoros e sons surdos.

    .

    2

    3.1.2. Amostragem do sinal

    O processo de amostragem importante para a transformao do sinal analgico

    contnuo em amplitude e no tempo, em um sinal discreto no tempo e em amplitude.

    3.1.3. Quantizao do sinal

    Segundo (EMBREE e KIMBLE, 1991), "quantizao o domnio da amplitude de um

    sinal analgico contnuo amostrado em um certo domnio de tempo", ou seja, o processo de

    quantizao , basicamente, a medida discreta da intensidade do sinal. Essa discretizao da

    amplitude usualmente definida em termos de nmero de bits. Uma converso de 8 bits, por

    exemplo, proporciona a representao de 256 nveis de quantizao.

    3.1.4. Codificao do sinal

    O processo de codificao faz a representao do sinal amostrado entre o domnio

    continuo e o domnio discreto. A otimizao de representao desses sinais, a melhoria da

    codificao, est associada quantizao do sinal na origem do processo no domnio discreto.

    Os sinais digitais so representados pela amostragem, quantizao e codificao. O

    ultimo estgio ser tratado na abordagem da melhoria de qualidade perceptual. A converso

    analgico/digital um processo de trs passos(PROAKIS & MANOLAKIS, 2007), conforme

    figura 3.3.

  • 30

    !

    !*34 -56).

    3.1.5. Anlise Homomrfica ou Anlise Cepstral

    Os sinais de voz so formados pelo o sinal de excitao e pela resposta impulsiva do

    trato vocal, conforme vimos no capitulo anterior. Neste contexto, existe uma tcnica que a

    Anlise Homomrfica ou Anlise Cepstral, muito til para desconvoluir os dois sinais. A

    partir do modelo matemtico para a produo de voz temos:

    s t a

    = e t a

    B v t a

    convoluo do sinal (3.1)

    S W a

    = E W a

    AV W a

    sinal no domnio da frequncia (3.2)

    Para realizar a anlise homomrfica aplicada a funo logartmica para separar o

    sinal:

    logS W a

    = log E W a

    AV W ab c

    (3.3)

    logS W a

    = logE W a

    + logV W a

    (3.4)

    Aplicando a transformada inversa nesse sinal, tem-se o cepstrum ou coeficientes

    cepstrais do sinal de voz.

    F@1 logS W aB C

    = F@1 logE W aB C

    + F@1 logV W aB C

    (3.5)

    Com essa manipulao algbrica pode-se obter o sinal de excitao e a resposta

    impulsiva separadamente.

  • 31

    #532

    3.2. Tipos de codificadores

    Um paradigma para os codificadores de voz alcanar a melhor qualidade com a

    menor taxa de bits possvel. Neste processo, h trs classificaes: codificadores de forma de

    onda, codificadores paramtricos e codificadores hbridos. Essas classificaes diferem na

    forma de como a informao transmitida: os codificadores de forma de onda encaminham o

    sinal de voz e suas variaes, os codificadores paramtricos encaminham parmetros

    extrados do sinal de voz original da mensagem e os codificadores hbridos realizam uma

    combinao dos dois casos citados anteriormente.

    3.2.1. Codificadores de forma de onda

    So codificadores de baixa complexidade, com pouco atraso. Esses codificadores

    reproduzem o mais exato possvel a forma de onda analgica, em que o tratamento da

    mensagem fielmente reproduzido incluindo, at mesmo, rudo de fundo. Uma caracterstica

    desse codificador a alta qualidade o sinal que eleva tambm a largura de banda para

  • 32

    transmisso. Um exemplo desse tipo de codificao a recomendao ITU-T G.711 (PCM)

    que utiliza a taxa de transmisso de 64kbps (ITU G711, 1988).

    3.2.2. Codificadores paramtricos

    Esses codificadores avaliam o sinal de voz, no reproduzem a forma de onda original,

    constroem um conjunto de parmetros que so enviados ao decodificador. A codificao de

    predio linear utilizada para obter os parmetros do filtro utilizado, isso causa um aumento

    na complexidade computacional, atraso no tempo de processamento, reduz a qualidade do

    sinal decodificado e, em troca, reduz a largura de banda para transmisso. Portanto, no so

    sinais expressivos para o uso nos sistemas de telefonia.

    Nos codificadores paramtricos temos um gerador de pulsos (sons voclicos), um

    gerador de rudo branco (sons no voclicos). Esses dois parmetros combinados formam a

    excitao e t a

    , a excitao gerada passa por um filtro de plos que representa o trato vocal

    v t a

    e tem como resultado a sada do sinal de voz gerado s n a

    .

    (!" 7!2

    3.2.3. Codificadores hbridos

    So codificadores que utilizam a tcnica de anlise por sntese baseados na predio

    linear.Esses codificadores utilizam as vantagens dos codificadores de forma de onda

    (reproduzir o sinal com alta qualidade) analisando as caractersticas espectrais e temporais do

    sinal, e as vantagens dos codificadores paramtricos (enviar sinal com baixa taxa transmisso)

    que conseguem extrair os parmetros do sinal, o que resulta na mxima dos codificadores de

    voz, fazer mais por menos.

    Ser analisado, no captulo seguinte, a tcnica de codificao CELP (Code-Excited

    Linear Prediction), sobre o estudo do codificador G729a, o qual a base o tema de anlise

    desta dissertao.

  • 33

    Abaixo uma anlise realizada por (GOMES, 2008), descreve os tipos de codificadores

    e a qualidade obtida em relao taxa de transmisso. Podemos observar que os codificadores

    hbridos, por reunirem a caracterstica dos codificadores de forma de onda e paramtricos, so

    os que possuem melhor qualidade com baixas taxas de transmisso (valores aceitveis para o

    sistema de telefonia, otimizando o sinal de voz entre 2kbps e 16kbps) .

    +8%%

    3.3. Codificao Preditiva Linear

    A predio linear um arranjo muito importante na codificao do sinal de voz e sua

    formulao est relacionada produo da fala. uma tcnica comum para a codificao de

    baixa taxa de bits e tambm uma importante ferramenta na anlise do sinal de voz.

    3.3.1. Anlise da Codificao Preditiva Linear

    A codificao linear uma sntese para estimativa da frequncia fundamental,

    realizando uma anlise sobre as funes do trato vocal, representando as formantes, em que se

    deseja estimar o sinal amostrado baseado numa combinao linear utilizando filtros digitais.

  • 34

    Foi verificado, no captulo anterior, o modelo de produo de fala e o modelo do trato

    vocal, conforme figura abaixo:

    ,.0 *.0

    Sabemos que o trato vocal um modelo auto-regressivo (AR), formado por um filtro

    s de plos descrito pela equao:

    s n a

    = b0B u n a

    @Xk@1

    m

    ck B s n@k a

    (3.6)

    Em que s n a

    corresponde ao sinal de voz sintetizado e u n a

    ao sinal de excitao que

    passa pelo filtro H Z a

    . Nesta anlise, existe a modelagem os parmetros reais ck que so

    desconhecidos. Para modelar esses parmetros reais, tenta-se obter uma predio, ou seja,

    uma estimativa de s n a

    atravs da equao:

    s n a

    estimado=X

    k@1

    p

    ak B s n@k a

    (3.7)

    Esse equacionamento modela um filtro no-recursivo (FIR), que um preditor linear

    de ordem p, em que os parmetros ak representam os coeficientes do preditor.

    Para este procedimento considerado que no h uma soluo computacionalmente

    praticvel que modele o filtro de forma totalmente fiel ao sinal original de voz, sendo assim

    iremos utilizar uma quantidade p de amostras passadas de voz para predizer o sinal com o

    menor erro possvel.

  • 35

    O sinal residual r n a

    ou sinal de erro de predio o resultado da diferena entre o

    sinal de voz e a sua aproximao, r n a

    = s n a

    @s n a

    estimado .

    Para que o sinal de voz estimado tenha uma boa aproximao do sinal de voz original,

    devem-se obter valores timos para os coeficientes ak do preditor dentro do intervalo de

    tempo n1 n n2 , esse valor representado por:

    akP Q

    otimo= ArgMin

    akXn = n1

    n2

    r 2 n a

    (3.8)

    Estabelecendo que o sinal de voz obtido pelo s n a

    estimado descrito da equao (3.7),

    e assumindo que p=m, resulta que os coeficientes ak so uma boa estimativa dos

    coeficientes ck descrito na equao (3.6).

    O sinal de erro de predio no domnio tempo descrito por:

    r n a

    = s n a

    @s n a

    estimado= s n

    a@X

    k = 1

    p

    ak B s n@k a

    (3.9)

    Aplicando a transformada Z na expresso, tem-se:

    R z a

    = A z a

    B S z a

    , (3.10)

    Nesta expresso R z a

    e S z a

    so respectivamente a transformada Z do sinal residual

    e a transformada Z do sinal de voz, em que A z a

    um filtro de anlise, formado somente por

    zeros, descrito por:

    A z a

    = 1@Xk = 1

    p

    ak B Z@k (3.11)

    Temos o filtro inverso de A z a

    , que um filtro de sntese, formado somente por

    plos, que representa o comportamento espectral do sinal de voz:

    H z a

    =1

    A z affffffffffffffff=

    1

    1@Xk = 1

    p

    ak B Z@k

    ffffffffffffffffffffffffffffffffffffffffffffffffff (3.12)

    Realizando uma substituio algbrica da equao (3.10) e (3.12), resulta em

    S z a

    = H z a

    B R z a

    (3.13)

    Aplicando inversa da transformada Z na equao acima ou utilizando a equao (3.9),

    obtm-se o modelo, no domnio tempo, o modelo de sntese, representado pela expresso:

    s n a

    =Xk = 1

    p

    ak B s n@k a

    + r n a

    (3.14)

    Com esse desenvolvimento, podemos representar o processo de anlise do sinal de

    voz, equaes (3.9) ou (3.10), e o processo de sntese do sinal de voz equaes (3.13) ou

  • 36

    (3.14) atravs dos diagramas de blocos a e b descritos (RABINER e SCHAFER, 1978), e

    representados na figura 3.8.

    /)*3 -.9-*.

    Os filtros de anlise A z a

    e os filtros de sntese H z a

    so modelados pela relao de

    preciso espectral , complexidade computacional e quantidade de bits transmitir. Neste caso,

    cada formante do espectro do sinal de voz constituda por um par de plos que esto

    separadas, em mdia, a cada 1kHz de banda. Para o sinal amostrado taxa de 8kHz temos

    uma banda inferior a 4 kHz, em que o filtro de sntese utilizado de ordem 10 geralmente,

    que seriam os 8 plos do espaamento espectral de 4kHz mais 2 plos para evitar anti

    ressonncia, aproximando possveis zeros.

    3.3.2. Line Spectrum Frequency e Line Spectrum Pairs

    Para anlise de predio linear so gerados os coeficientes de predio, coeficientes

    LPC. Muito sensveis transmisso do sinal de voz e ao processo de quantizao, uma

    alternativa para a codificao dos coeficientes de predio representar esses em coeficientes

    LSF (Line Spectrum Frequency) e LSP (Line Spectrum Pairs).

    Segundo (OSHAUGHNESSY, 1999), a representao LSF produz uma qualidade de

    voz melhor, pois provem a estabilidade dos coeficientes manipulados e possui propriedades

    adequadas, uma vez que os coeficientes de reflexo so muito sensveis quantizao do

    sinal. Os coeficientes LSP so representados por dois polinmios P z a

    (simtrico) e

    Q z a

    (anti-simtrico), descritos abaixo:

    P z a

    = A z a

    + z@ p + 1b c

    B A z@1b c

    (3.15)

    Q z a

    = A z a

    @z@ p + 1b c

    B A z@1b c

    (3.16)

  • 37

    Como consequncia desta manipulao algbrica, a representao LSF faz com que

    P z a

    e Q z a

    tenham as seguintes propriedades:

    - todas as razes dos polinmios esto sobre o raio de crculo unitrio;

    - as razes dos polinmios P z a

    e Q z a

    esto entrelaadas;

    Esses dois modelos se relacionam com os coeficientes LPC representados pelo

    polinmio A z a

    :

    A z a

    =P z

    a+ Q z

    a

    2ffffffffffffffffffffffffffffffffffffffff (3.17)

    A definio acima originada pelos clculos de converso dos coeficientes LPCs para

    os coeficientes LSFs, essa transformao foi realizada em 1975 por Itakura. Dessa anlise,

    definido que as razes dos polinmios P z a

    e Q z a

    correspondem s frequncias que so os

    coeficientes LFS, esses so extrados do filtro de anlise A z a

    de ordem p. Nesta

    verificao o polinmio P z a

    corresponde anlise do trato vocal com o a glote fechada, em

    que o coeficiente de reflexo K p + 1 = 1 e o polinmio Q z a

    correspondem anlise do trato

    vocal com o a glote aberta, coeficiente de reflexo K p + 1 =@1.

    3.3.3. Janelamento

    No sinal de voz amostrado, utilizado nos codificadores, temos uma gravao finita.

    Utilizamos a tcnica de janelamento para aumentar as caractersticas do sinal amostrado, a

    operao algbrica a multiplicao do sinal de voz s n a

    pelo sinal W n a

    (janela escolhida).

    A aplicao de uma janela sobre o sinal amostrado para definir a durao do tempo de

    observao do sinal, para reduzir a perda espectral e separar sinais com frequncias muito

    prximas e com amplitudes demasiadamente distantes.

    Abaixo a avaliao realizada (FURUI, 2001) para janelamento dos sinais de voz.

  • 38

    Figura 3-9 Anlise das janelas de Hanning e Hamming.

    Para os casos especficos de sinais de voz, devido s caractersticas do sinal e a

    resposta em frequncia que se deseja obter, ser utilizada uma janela de Hamming, pois essa

    produz uma melhor resoluo em frequncia e mais utilizada para o processamento de fala.

    Abaixo, a funo geradora do sinal para a janela de Hamming dada por:

    W n a

    = 0,54@0,46B cos 2p Bn

    N @1ffffffffffffffffff

    d ef g; para0 n N @1 (3.22)

    A 0 paraosdemaiscasos

    Para janelar o sinal de voz de forma a minimizar o erro introduzido pelas amostras dos

    extremos da janela, utiliza-se a sobreposio (overlap) dos intervalos dos frames de s n a

    ,

    onde amostramos o sinal atual e uma parcela de comprimento L do sinal anterior que sero

    consideradas no frame atual.

    :!;

  • 39

    3.4. Quantizao Vetorial

    Quantizao Vetorial (VQ Vector Quantization) o mtodo de compresso de

    dados, em que ocorrem perdas com relao ao sinal original.

    3.4.1. Entendendo quantizao vetorial

    O processo busca codificar um vetor de coeficientes (neste caso os coeficientes do

    filtro LPC) atravs da aproximao que ser realizada com algum vetor de referncia

    previamente calculado. Sendo assim, podemos considerar que a VQ uma aproximao do

    vetor do coeficiente LPC com um dos vetores analisados da tabela de vetores cdigos

    denominada de codebook.

    Um exemplo de aproximao com a utilizao de 1 bits a figura abaixo:

    $%&

    Na figura acima, cada nmero entre -2 e 0 aproximado por -1. Similarmente,

    cada nmero entre +2 e +4 aproximado por +3. Dessa forma, temos uma quantizao

    vetorial de uma dimenso (1-dimensional) e de com taxa de dois bits.

    Um exemplo de quantizao vetorial de 2 dimenses demonstrado na figura 3.12.

    Existem 16 regies, em cada regio h um nico ponto vermelho representado por 4 bits.

  • 40

    $%&

  • 41

    $%4 4

    Os centrides so os vetores cdigos escolhidos, parmetros armazenados no codebook, os

    quais possuem parmetros importantes para realizar a quantizao vetorial.

  • 42

    4. Anlise da qualidade do sinal de voz

    Os codificadores de voz buscam ofertar uma melhoria de qualidade em detrimento da

    taxa de transmisso. Entretanto, existem outros fatores que no so intrnsecos dos

    codificadores de voz, que so os ofensores externos (delay, jitter, eco, perda de pacotes e erro

    no canal de transmisso).

    Para minimizar os problemas de qualidade dos codificadores, diversas tcnicas so

    realizadas. Nesse contexto, avaliaremos, principalmente, os fatores intrnsecos aos

    codificadores de voz, no descrevendo a contribuio, degradao ou melhoria, relacionada

    aos fatores externos do codificador.

    Uma das principais formas de avaliao do sinal de voz, em codificadores de forma de

    onda, a relao sinal rudo, medida SNR, descrita por:

    SNR= 10B log10

    Xn = 0

    M @1

    s n a 2

    Xn = 0

    M @1

    s n a

    @s@ n ab c 2

    fffffffffffffffffffffffffffffffffffffffffffffffffff fffff ff

    H

    LLLLLLJ

    I

    MMMMMMK (4.1)

    A medida SNR tem limitaes, pesa todos os erros domnio do tempo de forma igual.

    Uma medida SNR alta, com resultados indesejveis, pode ser obtido se o trecho da fala

    apresenta alta concentrao de segmentos de voz (segmentos de alta energia), uma vez que o

    rudo tem um maior efeito na percepo de segmentos de baixa energia, tais como sons surdos

    ou fricativos. Uma medida de melhoria da qualidade pode ser obtida se SNR for medida em

    intervalos de tempo curtos e os resultados em mdia. Essa medida chamada relao baseado

    sinal-rudo segmentada(SNRseg) uma expressa por:

    SNRseg= SNR jb cD E

    onde j= intervalo de tempo da anlise SNR (4.2)

  • 43

    Essas anlises so ineficientes para as tcnicas de codificao paramtrica, pois se faz

    necessrio a avaliao perceptual do sinal de voz. Para anlise perceptual, foram criados testes

    objetivos e subjetivos.

    4.1. Medidas subjetivas de qualidade

    Inicialmente, os testes em codificadores de voz utilizados para telefonia eram

    realizados pelo mtodo de avaliao subjetiva, tcnica para a medio atravs da percepo

    do ouvido humano. Esse tipo de medida necessita seguir algumas diretrizes, tais como:

    - analisar um nmero de ouvintes suficiente para assegurar um resultado estatstico

    confivel;

    - garantir que todos os ouvintes tenham uma percepo auditiva normal;

    - garantir que todos os ouvintes efetuem corretamente as respostas dos testes

    mensurados e tabelados;

    - garantir um material abrangente e diversificado. Neste caso, o corpo de dados para os

    testes, um banco de arquivos de voz;

    - garantir que o codificador foi testado em todas as condies;

    - escolher adequadamente as condies em que sero realizados os testes.

    4.1.1. Mean Opinion Score (MOS)

    Os testes efetuados segundo a norma especificada na recomendao (ITU P800, 1996)

    analisam a avaliao perceptual subjetiva e denominado MOS (Mean Opinion Score). Nessa

    recomendao, os ouvintes utilizam uma escala para medir a qualidade do sinal de voz, o qual

    classificado conforme tabela 4.1:

    Pontuao Qualidade da fala Esforo necessrio para a compreenso do significad o

    5 Excelente Relaxamento completo; nenhum esforo necessrio

    4 Boa ateno necessria; no preciso muito esforo

    3 Regular um certo esforo necessrio

    2 Pobre muito esforo necessrio

    1 Pssima Ininteligvel, apesar de qualquer esforo empregado

    *#$0=

  • 44

    Com base no processo de avaliao subjetiva2, os codificadores so analisados tendo como

    referncia a pontuao MOS. A maioria das medidas de qualidade de voz so baseadas em

    uma escala de classificao absoluta (ACR Absolute Category Rating), essa escala

    utilizada para verificao do MOS.

    Abaixo a figura 4.1 (Gomes, A. G., 2008) aput (Jayant e Noll, 1984) mostra a relao

    taxa de bits em detrimento qualidade do sinal de voz amostrado para diferentes tipos de

    codificadores.

    #20=

    4.2. Medidas objetivas de qualidade

    Conforme processo apresentado anteriormente, o mtodo subjetivo de avaliao de

    qualidade demanda tempo. Assim, esse processo criterioso com os parmetros e as

    condies para realizao dos testes conforme especificao da recomendao do ITU-T.

    Contudo, necessrio outro mtodo para anlise da qualidade de voz em telefonia em

    2 Mtodos para determinao subjetiva da qualidade de transmisso so descritos na Recomendao ITU-T P.800, essa recomendao descreve os outros dois mtodos: Degradation Category Rating (DCR) e Comparison Category Rating (CCR).

  • 45

    tempo real. Esse tipo de medida a avaliao objetiva a qual permite a avaliao em tempo

    real, podendo realizar o controle da qualidade do sinal de voz.

    4.2.1. Perceptual Speech Quality Mesure (PSQM)

    O PSQM um mtodo de medio da qualidade de voz baseado na recomendao do

    ITU-T (ITU P861,1998). O PSQM(Objective quality measurement of telephone-band, 300-

    3400Hz, speech codecs) estima a qualidade de voz nos codificadores. Esse algoritmo efetua a

    medida de qualidade por um modelo psicoacstico, o qual tenta reproduzir a qualidade do

    som percebida pelo ouvido humano.

    #0*;> !80

    Na figura 4.2, o modelo analisado tem como base a anlise dos sinais de entrada e

    sada do codificador:

    - o sinal convertido onde ocorre o mapeamento no tempo e em frequncia atravs

    da implementao da FFT utilizando uma janela de Hamming;

  • 46

    - realizada uma alterao de escala de frequncia, utilizando uma escala

    psicoacstica chamada escala de Bark 3, que realiza uma anlise subjetiva do udio, cobrindo

    24 bandas audveis em Hertz;

    - tambm realizada uma alterao da escala de amplitude do sinal, em que efetua

    ajuste da potncia sonora atravs de filtros de ponderao, cujo objetivo o ajuste do som

    percebido pelo ouvido humano.

    4.2.2. Perceptual Analysis Measurament System (PAMS)

    Esse algoritmo foi desenvolvido em 1998, e tambm efetua uma anlise no tempo e

    em na frequncia. O PAMS um algoritmo complementar ao PSQM, ele resolveu um

    problema que ocorria no PSQM, a realizao de sincronismo no tempo.

    4.2.3. Perceptual Evaluation of Speech Quality (PESQ)

    A anlise para este estudo utilizou o algoritmo do PESQ, que a recomendao do

    ITU-T (ITU P862, 2001). Foi desenvolvida para utilizao de redes de pacotes, uma

    evoluo dos algoritmos PSQM e PAMS, e apresenta uma medida de qualidade relacionada

    diretamente com a escala MOS (ITU P800, 1996).

    O PESQ possui os mesmos parmetros e processos do PSQM, entretanto, algumas

    modificaes foram consideradas neste modelo:

    - equalizao dos ganhos dos sinais de entrada (sinal original) e sada (sinal

    degradado) do codificador, os dois sinais so analisados no domnio tempo e no domnio

    frequncia, para que ao final da anlise tenham o mesmo nvel de potncia;

    - os sinais so filtrados para que tenham a mesma caracterstica, e so alinhados no

    tempo, para definir o intervalo de anlise;

    - realiza-se uma converso para o domnio frequncia utilizando uma janela de

    Hamming com 50% de sobreposio em quadros de 32ms.

    3 uma escala psicoacstica proposta por Eberhard Zwicker em 1961. Ela foi nomeada aps Heinrich Barkhausen ter proposto a primeira medio subjetiva de intensidade sonora. A escala varia de 1 24, corresponde a 24 bandas crticas de audio. As frequncias base da escala Bark de audiometria esto no range de 20Hz 15500Hz.

  • 47

    Segundo (MAGRO, 2005), em uma anlise comparativa entre os algoritmos de

    medida de qualidade, o PESQ o modelo de avaliao objetiva, que possui maior exatido

    quando realizado testes cujo resultado correlacionado com a medida subjetiva MOS,

    conforme tabela 4.2 .

    Tipo Coeficiente Correlao PESQ PSQM

    Rede Mvel mdia

    pior_caso 0,962 0,905

    0,924 0,843

    Rede Fixa mdia

    pior_caso 0,942 0,902

    0,881 0,657

    VoIP mdia

    pior_caso 0,918 0,810

    0,674 0,260

    *#20! 80?!$8

    Dentre os diversos codificadores de voz analisados em telecomunicaes, abaixo

    segue um quadro comparativo com valores orientativos, segundo (KONDOZ, 2003). Essas

    medidas de qualidade foram pontuadas atravs de testes subjetivos pontuais, usando material

    de ensaio de literaturas variadas. Esses valores so teis para um parmetro entretanto no

    deve ser tomado como uma indicao definitiva de desempenho do codec.

    Recomendao Ano Algoritmo Taxa (kbits/seg) MOS G.711 1992 PCM 64 4.3 G.726 1991 VBR-ADPCM 16/24/32/40 .-x- G.728 1994 LD-CELP 16 4 G.723.1 1995 A/MP-MLQ CELP 5.3/6.3 .-x- G.729 1995 CS-ACELP 8 4

    *# 0=

  • 48

    5. Codificadores ITU-T

    Neste captulo, realizada uma anlise dos codificadores utilizados comumente em

    redes de telefonia. Em geral os sistemas de codificao de voz possuem o seguinte diagrama,

    segundo (CHU, 2003).

    (

    5.1. Codificadores ITU-T utilizados em

    telefonia

    Abaixo segue uma breve descrio dos codificadores padronizados pelo ITU-T. Os

    mais relevantes descritos segundo (CHU, 2003), utilizados em redes de pacotes, estrutura

    atual das operadoras de telecomunicaes em substituio s redes comutadas por circuito.

    Codificador de voz Taxa

    (kbits/seg) VAD Reduo de rudo Atraso (ms) Ano

    G.711 (A/ -Law PCM) 64 no no 0 1972 G.726 (ADPCM) 16/24/32/40 no no 0,25 1990 G.728 (LD-CELP) 16 no no 1,25 1992 G.723.1 5.3/6.3 sim no 67,5 1995 G.729 (CS-ACELP) 8 sim no 25 1996

    *(2 @A

  • 49

    5.1.1. Recomendao ITU-T G.711

    Ano de aprovao: 1972

    Taxa de codificao: 64kbit/s, pois temos uma frequncia de amostragem de 8000 Hz

    e quantizamos 8bits por amostras.

    Algoritmo de codificao: PCM - Pulse Code Modulation

    Principio do codificador: Realiza a quantizao com escala logartmica. Desta forma,

    obtm a relao sinal rudo (SNR) independente da intensidade. A tcnica de codificao

    PCM obedece ao critrio de um codificador Nyquist, em que a frequncia de amostragem

    igual ou superior ao dobro da maior frequncia presente no espectro:

    f amostragem= 2B f mxima (5.1)

    A codificao em telefonia utiliza uma frequncia de amostragem de 8kHz (8000

    amostras do sinal de voz a cada segundo), as amostras so representadas com 256 nveis de

    quantizao, o que define 8 bits por amostra. Sendo assim, o sinal de voz com a codificao

    PCM possui a taxa padro 64k bits/seg.

    Nesta tcnica de codificao so utilizados dois algoritmos de quantizao que so

    chamados de leis: lei a (alaw) a leim (mlaw), pois o processo da tcnica PCM atribuir um

    valor discreto a amplitude do sinal amostrado. Esse processo gera rudo de quantizao,

    sendo necessrio utilizar uma das leis de quantizao para minimizar o sinal de entrada no

    quantizador com o sinal de sada quantizado.

    ()*B!20

  • 50

    5.1.2. Recomendao ITU-T G.726

    Ano de aprovao: 1990

    Taxa de codificao: varivel 16kbit/s, 24kbit/s, 32kbit/s e 40kbit/s

    Algoritmo de codificao: ADPCM Adaptive Pulse Code Modulation

    Principio do codificador: Este codificador foi desenvolvido com a proposta de

    melhorar a codificao PCM, codificar a voz com a metade da taxa utilizada no PCM,

    mantendo a qualidade do sinal codificado. Essa tcnica de codificao possui um quantizador

    adaptativo, podendo fazer um ajuste no preditor linear com base nas variaes do sinal ser

    codificado. As diferentes taxas de codificao so relativas aos bits utilizados por amostra:

    2,3,4 e 5, tendo respectivamente as taxas: 16kbit/s, 24kbit/s, 32kbit/s e 40kbit/s.

    ( )* 5)!20-@AC,+.-5DE05D@F>::+.

  • 51

    5.1.3. Recomendao ITU-T G.728

    Ano de aprovao: 1992

    Taxa de codificao: 16kbit/s

    Algoritmo de codificao: LD-CELP Low-Delay Code Excited Linear Prediction

    Princpio do codificador: Este codificador reduz o tempo da amostra processada entre

    codificador e o decodificador. Transmite uma nica excitao e possui uma anlise de

    predio capaz de avaliar recurssivamente cinco amostras PCM, sendo essa rotina a base do

    algoritmo implementado para melhoria do atraso de codificao.

    (#)* 7)2$7!-ADA@>::.

  • 52

    5.1.4. Recomendao ITU-T G.723.1

    Ano de aprovao: 2006

    Taxa de codificao: 5,3kbit/s e 6,3kbit/s

    Algoritmo de codificao: MP-MLQ ACELP,

    onde MP-MLQ-Multi-Pulse Maximum Likelihood Quantization

    Princpio do codificador: Codifica o sinal de voz mediante codificao linear de

    anlise por sntese. Foi projetado para videoconferncia e voz sobre IP. um codificador de

    taxa dupla em que codifica taxa de 5.3 kbps utilizando a estrutura ACELP. A codificao

    taxa de 6.3kbps corresponde a codificao MP-MLQ que oferece uma qualidade um pouco

    melhor.

    (()* 7)2$7!

  • 53

    5.1.5. Recomendao ITU-T G.729

    Ano de aprovao: 1996

    Taxa de codificao: 8kbit/s

    Codificao: CS-ACELP ConjugateStructure- Algebraic Code excited

    Linear Prediction

    Principio do codificador: a transmisso do sinal de voz com uma baixa taxa de bits,

    para uso de telefonia. muito utilizado em redes que necessitam compresso de banda.

    Realiza a codificao do sinal em frames de 10ms, efetua uma anlise das amostras futuras de

    5ms, o que resulta num atraso de 15ms para realizar o algoritmo de codificao.

    No item 5.2 faremos uma descrio detalhada do bloco de codificao do sinal de voz,

    pois este codificador a caso de estudo para realizar a avaliao perceptual do sinal de voz.

  • 54

    5.2. CS-ACELP: Conjugate Structure Code-

    Excited Linear Prediction (G.729a)

    O codificador G.729a baseia-se na filtragem do sinal analgico especificado na

    recomendao G712 do ITU-T com a taxa de amostragem a 8000 amostras por segundo,

    codificando os sinais de udio em frames de 10ms.Possui um atraso de 5ms, sendo seu bit rate

    de 8Kbps

    5.2.1. O codificador CS-ACELP - (G.729a)

    . O modelo de codificao baseado algoritmo de codificao CS-ACELP. Efetua a

    predio linear por excitao com cdigo algbrico. Nesse intervalo de tempo, o sinal de voz

    (quase estacionrio) analisado e parametrizado, comparado atravs de uma anlise por

    sntese em busca da melhor excitao do sinal que corresponda ao sinal alvo. Cada frame de

    10ms que analisado, gera 80 amostras do sinal por segundo, em que so extrados os

    parmetros por frame: Coeficientes de predio linear do filtro, ndices do codebook fixo,

    ndices do codebook adaptativo e ganho. Esses parmetros codificados e transmitidos so

    distribudos de acordo com a tabela 5.2, a qual explica a alocao de bit dos 8kb/s do

    algoritmo CS-ACELP em um frame em 10ms:

    Parameter Codeword Sub frame 1 Sub frame 2 Total pe r frame

    Line spectrum pairs L0, L1, L2, L3 18 Adaptive-codebook delay P1, P2 8 5 13 Pitch-delay parity P0 1 1 Fised-codebook index C1, C2 13 13 23 Fixed-codebook sign S1, S2 4 4 8 Codebook gains (stage 1) GA1, GA2 3 3 6 Codebook gains (stage 2) GB1, GB2 4 4 8 Total 80

    *(!GC,1-@ AC,1.

  • 55

    5.2.2. Codificador

    As principais etapas de codificao do sinal de voz so executadas conforme o

    diagrama de blocos abaixo:

    (+ )*2 52$7!

    Descrio dos estgios de codificao do CS-ACELP:

    1) O sinal de entrada passa por um filtro passa alta para eliminao de rudo, pr-

    processado e esse sinal utilizado para as anlises subsequentes da codificao.

  • 56

    2) A anlise de Predio Linear realizada uma vez a cada frame de 10ms calculando-

    se os coeficientes de filtro de Predio Linear. Esses coeficientes so convertidos para Line

    Spectrum Pairs (LSP) e quantizados, Vector Quantization (VQ).

    3) O sinal de excitao escolhido por meio de uma anlise por sntese, procedimento

    de busca em que o erro entre o sinal de voz original e o reconstrudo minimizado de acordo

    com uma medida de distoro perceptualmente ponderada. Isso feito atravs da filtragem

    do sinal de erro com um filtro de ponderao perceptual, cujos coeficientes so derivados da

    Predio Linear no quantizada do filtro.

    4) Os parmetros de excitao (parmetros dos dicionrios fixos e adaptativo) so

    determinados por um subframe de 5ms (40 amostras) cada um. Os coeficientes quantizados e

    no quantizados do filtro de Predio Linear so usados no segundo subframe, enquanto no

    primeiro subframe os coeficientes de predio linear interpolados so usados (ambos

    quantizados e no quantizados).

    5) Um valor do pitch estimado com base no sinal resultante da amostra analisada

    pelo filtro de ponderao, em malha aberta.

    6) Os estados iniciais do filtro so atualizados pela filtragem do erro residual. Calcula-

    se o circuito em malha fechada para estimar o ganho e o valor do dicionrio adaptativo.

    7) Com os valores do dicionrio adaptativo e com as duas estimativas de pitch, busca-

    se no dicionrio fixo um valor para encontrar a soluo tima.

    8) Os ganhos dos dicionrios (fixo e adaptativo) so quantizados, o filtro atualizado

    e o sinal de excitao determinado.

  • 57

    5.2.3. Decodificador

    Na decodificao do sinal, os parmetros do fluxo de bits recebidos so extrados

    conforme diagrama de blocos abaixo:

    (, )* 252$7!

    Descrio dos estgios de decodificao do CS-ACELP:

    1) Os ndices so decodificados para obter os parmetros do codificador

    correspondente a um quadro de fala de 10 ms.

    2) Esses parmetros so os coeficientes LSP, e duas fraes de delay do pitch, dois

    vetores do codebook fixo, e os dois conjuntos de ganhos referente ao codebook adaptativo e o

    codebook fixo;

    3) Efetua-se a sntese de curto prazo: Os coeficientes LSP so interpolados e

    convertidos em coeficientes do filtro de predio linear para cada sub frame.

    4) Efetua-se a sntese de longo prazo: avaliado um subframe de 5ms, em que so

    executadas as seguintes etapas:

    a) A excitao calculada adicionando os vetores do codebook fixo e do codebook

    adaptativo, dimensionado pelos respectivos ganhos

    b) O sinal de fala reconstrudo atravs da filtragem da excitao, realizada pelo

    filtro de sntese de predio linear.

    5) A reconstruo do sinal de fala ocorre aps o estgio de ps filtragem, que inclui

    um filtro adaptativo baseado nos filtros de sntese a curto e longo prazos, seguido por um

    filtro passa-alta que completa a operao de filtragem e dimensionamento da operao.

  • 58

    6. Proposta

    Neste trabalho, foi avaliada a estrutura do codificador com suas alteraes propostas

    para melhoria perceptual, excluindo-se as variaes do meio de transmisso.

    Os codificadores de voz buscam a melhoria de qualidade utilizando uma baixa taxa de

    bits para transmisso. Um exemplo disso o codificador G.729a, padro do ITU-T que

    consegue operar a uma taxa de 8Kbps. Geralmente, se a anlise baseia-se nessa premissa

    (maior qualidade com menor taxa de transmisso), o processo para a garantia de qualidade e a

    decodificao do sinal possuem mecanismos incorporados para tratar os fenmenos inerentes

    ao meio de transmisso (atraso, jitter e perda de pacotes).

    Segundo avaliao da figura 6.1, apresentada abaixo, que se baseia no estudo do codec

    G729a apresentado em (PREGO e NETTO, 2008), os valores de MOS esto dentro do limiar

    aceitvel para experimentos acadmicos e aplicaes prticas implementadas no mercado.

    +D0=%%

  • 59

    Como a anlise neste estudo enfoca a melhoria perceptual no sinal de origem, optou-

    se pela escolha de um codificador que fosse bastante utilizado nos sistemas de

    telecomunicaes, o codec G729a.

    Convm mencionar que a avaliao perceptual foi realizada em trabalhos que

    analisavam o desempenho do codificador mediante a ponderao de qualidade sobre o meio

    de transmisso.

    A proposta obter uma melhora na ausncia do meio de transmisso, o que factvel

    de ser avaliado, uma vez que as caractersticas deste codificador j foram objeto de estudo em

    diversos trabalhos na comunidade acadmica e no meio coorporativo. (MAGRO, 2005),

    (FERNANDES, 2003)

    Neste estudo, foi aplicado o processo proposto, avaliao do sinal na origem do

    codificador com a implementao do algoritmo do PESQ no encoder.

    Para verificao do estudo, foi implementado a recomendao do ITU-T, P.862

    (PESQ), no encoder do codificador CS-ACELP (G729a), com a finalidade de mensurar uma

    ponderao do MOS, pois esta mtrica a atual referncia para avaliao de qualidade do

    sinal de udio percebido nos sistemas de telecomunicaes.

    A proposta deste trabalho realiza uma anlise objetiva baseada em critrios

    perceptuais do sinal de voz, sendo este verificado e analisado no bloco de origem do sinal a

    ser transmitido.

    +)

  • 60

    A produo do sinal de voz tem suas caractersticas variantes no tempo, que

    dependem da variao do trato vocal. Pensando do ponto de vista do orador, se

    consegussemos realizar uma analise das formantes do sinal de voz, mapeando alguns

    parmetros no processo de codificao, seramos capazes de indicar alteraes dinmicas para

    melhorar esse sinal de voz emitido.

    Sendo constantes os avanos nos hardwares de processamento digital de sinais,

    entende-se que a capacidade de processamento no mais o problema, mas a busca por uma

    melhoria contnua no sinal de voz um tema ainda em discusso. Neste cenrio, o tema

    proposto, melhoria da qualidade perceptual do sinal de voz na origem do codificador, pode ter

    uma expressiva contribuio na busca por melhoria contnua.

    Na proposta apresentada, realizada uma heurstica em que o controle perceptual do

    sinal de voz realizado em tempo real. Utilizaremos o codificador G729a e o algoritmo do

    PESQ para avaliao do sinal de voz.

    A anlise foi implementada no bloco do codificador de voz. Neste bloco, foi realizada

    a codificao, decodificao e anlise perceptual do sinal de voz amostrado. Em cada instante

    desta anlise deseja-se obter uma melhoria no sinal codificado. Essa melhoria foi avaliada

    com o algoritmo do PESQ interagindo no processo de codificao do sinal de voz.

    A figura 6.3 abaixo mostra o diagrama do bloco de origem do codificador que efetua a

    anlise do processo de avaliao perceptual durante a transmisso dos dados:

  • 61

    + )* 3

    O objeto de estudo o codificador G729a, em que foram implementados, nesse

    codificador, os blocos relacionados na figura 6.3 conforme descrio abaixo:

    - o bloco do encoder realiza a codificao do sinal, em que foi realizada a

    segmentao para leitura de um nmero especfico de frames do sinal de entrada;

    - o bloco do decoder foi duplicado na estrutura. O bloco D2 para receber o sinal

    de voz que necessita ser decodificado, estrutura normal do codificador (encoder / decoder). O

    bloco D1 decoder inserido na estrutura do codificador responsvel pela decodificao dos

    frames codificados originados no enonder. Esses frames necessitam ser decodificados para

    avaliao perceptual do sinal;

    - o bloco do PESQ responsvel por receber o sinal de referncia da entrada do

    codificador e o sinal que passou pelo encoder e foi codificado para envio e transmisso. Esse

    mesmo sinal passa por um decoder D1 e decodificado para avaliao perceptual;

    - a indicao de MOS, ou seja, a pontuao dos sinais avaliados incide sobre uma ao

    de controle no bloco do encoder, alterando os frames seguintes avaliao presente.

    Os blocos descritos acima, estruturados nesta formatao, compem o estudo de caso

    e anlise desta dissertao. O principal objetivo deste trabalho verificar o sinal do ponto de

    vista perceptual, essa verificao ocorre em tempo real com aes de controle no bloco de

    origem de codificao, o encoder, para garantir e melhorar perceptual os frames codificados.

  • 62

    7. Estudo de Caso

    Para anlise do problema proposto, avaliao perceptual do sinal de voz na origem da

    codificao para obter melhoria perceptual, foram estudadas a codificao e a avaliao do

    sinal codificado. Neste trabalho utilizaram-se os programas:

    1) ITU-T G.729a CS-ACELP Speech Coder ANSI-C Source Code

    Version 1.1 Last modified: September 1996

    Copyright (c): AT&T, France Telecom, NTT, Universite de Sherbrooke

    2) ITU-T P862 PESQ Algorithm Software ANSI-C Source Code

    Version 1.2 Last modified: August 2002

    Copyright (c): Psytechnics Limited e OPTICOM GmbH

    7.1. Plataforma de experimento (G729a com

    PESQ)

    O processo de anlise consiste no bloco do codificador G.279a

    (codificao/decodificao) na origem do interlocutor, sobre o qual foi inserido o algoritmo

    do PESQ para avaliao perceptual do sinal de voz na origem da codificao.

    Nessa formatao, o processo de codificao (extrai os coeficientes LPC, o ganho e os

    ndices dos dicionrios) encaminha o fluxo de bits ao decodificador que foi duplicado no

    bloco do codificador G729. O sinal de entrada, ao mesmo tempo em que codificado na

    origem, tem seu valor decodificado e avaliado pelo algoritmo do PESQ.

    Os arquivos PCM 16Bits, amostrado a 8KHz de entrada e de sada do bloco do

    codificador de origem do interlocutor, so verificados a cada intervalo de tempo. Obtm uma

  • 63

    resposta do algoritmo PESQ para uma anlise curta de frames, de modo que a representao

    seja a mais prxima do tempo real.

    7.2. Anlise dos parmetros de avaliao

    Durante os estudos, foram avaliados os parmetros escalares de ganho de codificao

    e ganho de pitch do codificador G729a. Tambm se avaliou o algoritmo PESQ, que foram

    verificados parmetros intrnsecos do algoritmo. Essa anlise dos parmetros definida no item

    7.3 descreve o processo de anlise dos arquivos codificados e decodificados no bloco do

    encoder para obter uma garantia de melhora perceptual dos frames do sinal de voz.

    7.2.1. Limites de frames do PESQ no bloco do codec

    Para a avaliao perceptual na implementao do algoritmo do PESQ dentro do

    encoder do codificador do G729a