Relatório 1 - Codificação de Voz

8
Experimento 1 - PCM Pedro Ivo da Cruz Professor Dr. Mario Minami Santo André 2013

description

Experimento 1 de comunicações multimídias UFABC sobre codificação de voz

Transcript of Relatório 1 - Codificação de Voz

  • Experimento 1 - PCM

    Pedro Ivo da Cruz

    Professor Dr. Mario Minami

    Santo Andr

    2013

  • 1. Introduo

    A codificao PCM consiste essencialmente de trs processos: a

    amostragem, quantizao e codificao. A amostragem segue regras como a

    de Nyquist, onde a frequncia de amostragem deve ser o dobro da maior

    componente de frequncia de um sinal. A quantizao transforma as

    amplitudes analgicas em amplitudes digitais, de forma que essas possam ser

    representadas por dgitos binrios, e, portanto, armazenadas e trabalhadas por

    processadores.

    Nesse experimento vamos utilizar os conceitos de taxa de amostragem,

    nveis de quantizao e as leis de companso de um sinal, analisando cada um

    dos casos.

    2. Procedimento Experimental

    Primeiramente gravou-se a frase Amigo, entre por esta porta agora.

    Em seguida, criaram-se arquivos em branco para gravaes a uma taxa de

    amostragem de 16 kHz e 16 bits. Separaram-se as vogais da frase e alocou-se

    cada uma em um desses arquivos. Em seguida foram realizadas as anlises

    presentes nesse relatrio.

    3. Questes

    1) Explique qual a diferena entre quantizao linear e no-linear e

    comente sobre a relao sinal-rudo de quantizao em ambos os casos.

    A quantizao linear usa os mesmos intervalos de quantizao para

    todas as amplitudes do sinal. Dessa forma, os sinais de baixa amplitude,

    podem apresentar uma relao sinal-rudo de quantizao maior para sinais de

    baixa amplitude, e menores para sinais de grande amplitude. Como se sabe

    que sinais de amplitude menor so mais frequentes para sinais de voz, convm

    aumentar os sinais menores (expandir) e diminuir os sinais de maior amplitude

    (comprimir). A quantizao no-linear faz com que a relao sinal-rudo fique

    praticamente constante para todos os nveis de amplitude.

  • 2) Pesquise a diferena de desempenho da relao Sinal-Rudo de

    Quantizao entre a lei-A e a lei-.

    A lei- possui um desempenho sinal-rudo de quantizao melhor para

    sinais baixos do que a lei-A. [1].

    3) Quais os significados de cada bit no byte da lei-A? O que so os

    segmentos? Apresente um algoritmo de companso para a lei-A.

    O 1 bit o bit de polaridade do sinal. O 2, 3 e 4 bits so os bits que

    dizem o nmero do segmento. O 5, 6, 7 e 8 bit dizem o nvel de quantizao

    dentro do segmento.

    As curvas de companso so ajustadas por diversos segmentos de reta.

    Cada segmento deve ter o mesmo nmero de nveis. O intervalo entre os

    nveis dentro de um mesmo segmento devem ser iguais. O nmero de

    segmentos depender da lei utilizada [2].

    4) Pesquise as diferenas entre as recomendaes ITU-T G.711 e G711.1.

    Existe alguma preocupao de compatibilidade entre elas?

    A recomendao G711.1 permite uma adio de banda, permitindo

    taxas de 64, 80 ou 98 kbit/s. O G711.1 compatvel com o G711 velocidade

    de 64 kbits/s [3].

    5) Apresente as formas de onda dos sinais de voz que voc gravou, bem

    como das vogais segmentadas.

    A seguir segue as formas de onda dos sinais da frase completa e de

    cada vogal separada.

    Frase completa:

  • Vogal A:

    Vogal E:

    Vogal I:

  • Vogal O:

    6) Apresente todos os resultados dos clculos efetuados.

    Os primeiros clculos representam a companso utilizando a lei-A, com

    A = 87,6. O clculo foi feito pela seguinte equao:

    Se | |

    :

    (| |

    )

    Se

    | |

    :

    (| |

    )

    Onde, se e se .

    O valor de entrada um valor pegado aleatoriamente dentro da vogal,

    e a faixa dinmica a diferena entre a maior e menor amplitude. A tabela 1

    mostra os resultados desses clculos.

    Tabela 1 Resultados da companso atravs de lei-A

    X mximo

    (V) Valor de

    entrada (V) Faixa

    dinmica (V) Valor resultante da

    compansso pela lei-A (V)

    Vogal A 0,32443 0,1991 0,6428 0,2362

    Vogal E 0,62688 0,24296 1,171517 0,51831

    Vogal I 0,35218 0,12613 0,62676 0,30047

    Bocal O 0,1764 0,05823 0,27919 0,14068

  • Nota-se que os valores aumentaram ao se realizar a companso. Isso

    ocorre para sinais muito baixos, tendo em vista que a companso comprime os

    sinais de grande amplitude e expande os sinais de baixa amplitude, de forma a

    fazer que o rudo de quantizao seja praticamente igual para todos os nveis

    de amplitude.

    A tabela 2 mostra os resultados dos clculos para a potncia do sinal de

    cada vogal e da regio do silncio. Tambm mostra, considerando a potncia

    da regio de silncio sendo a potncia do rudo, a SNR de cada vogal, e

    tambm a capacidade de canal de cada uma.

    A potncia foi calculada pela frmula

    , onde V ser os picos de

    cada vogal e R = 4, que a impedncia dos fones de ouvido utilizados. A

    capacidade do canal obtida utilizando-se a frmula de Shannon:

    Onde , para uma taxa de amostragem de 16 kHz.

    Tabela 2 SNR de cada vogal e a capacidade de canal para cada uma.

    X mximo (V) Potencia (W) SNR (W/W) SNR (dB)

    Capacidade de canal (kbits/s)

    Vogal A 0,32443 0,0263137 406,06 26,09 69,35

    Vogal E 0,62688 0,0982446 1516,06 31,81 84,54

    Vogal I 0,35218 0,0310077 478,50 26,80 71,24

    Bocal O 0,1764 0,0077792 120,05 20,79 55,36

    Silncio 0,0161 0,0000648 - - -

    Pode-se calcular a taxa de gravao sabendo a frequncia de

    amostragem e o nmero de bits que so utilizados para a quantizao. No

    nosso caso a frequncia de amostragem 16 kHz e o nmero de bits 16 bits.

    Portanto a taxa de gravao de 256 kbits/s.

    Fazendo uma decimao para 8 kHz, e imaginando uma companso

    PCM (8 bits) obteremos uma taxa de gravao de 64 kbits/s (8 kHZ x 8 bits).

    Para fazer a converso desses sinais para o PCM G711, necessrio

    realizar a companso do sinal de entrada, conforma mostrado na tabela 1. A

  • companso pela lei-A garante uma sada de 8 bits. A tabela 3, mostra as novas

    SNRs para os sinais resultantes da companso. Neste caso, na equao de

    Shannon, B = 4 kHz, para a amostragem de 8kHz.

    Valor resultante da

    compansso pela lei-A (V) Potncia

    (W) SNR

    (W/W) SNR (dB)

    Capacidade de canal (kbits/s)

    Vogal A 0,2362 0,0139476 215,23 23,33 31,03

    Vogal E 0,51831 0,0671613 1036,40 30,16 40,08

    Vogal I 0,30047 0,0225706 348,30 25,42 33,79

    Bocal O 0,14068 0,0049477 76,35 18,83 25,09

    Silncio 0,0161 0,0000648

    7) A estimativa para a capacidade do canal que foi obtida para cada vogal

    segmentada diferente? E com relao a capacidade do canal para o

    sinal original sem segmentao?

    Sim, a capacidade de canal que foi obtida para cada vogal diferente,

    porm, so bem prximas.

    8) Se as gravaes fossem realizadas num ambiente com msica de

    fundo num volume considervel (como numa festa), haveria modificao

    na capacidade do canal calculada? Seria dependente do tipo de msica

    de fundo? E se houvesse muitas pessoas conversando ao seu lado?

    Justifique sua resposta.

    Sim, haveria, pois o resultado do clculo da SNR seria diferente, levando

    em conta que o que nos interessa o sinal de voz e no a msica de fundo,

    sendo essa considerada rudo. No dependeria exatamente do tipo de msica,

    mas da intensidade que essa estaria sendo tocada. Se estivesse muito alta, a

    potncia do rudo seria muito maior. O mesmo ocorre para pessoas falando,

    levando em considerao que s queremos uma voz, e todas as outras sero

    consideradas rudo.

    9) Na codificao PCM padronizada na linha telefnica possvel

    estipular um valor de xmx (ymx) diferente para cada sinal? Justifique

    sua resposta.

  • 10) Existe alguma diferena entre os sinais de vogais e das consoantes?

    Dica: tente reparar em alguma periodicidade.

    Sim, as vogais apresentam um certo tipo de periodicidade que podemos

    observar atravs do Pitch, enquanto as consoantes aparecem somente como

    pequenas excitaes que ocorrem rapidamente.

    4. Concluso

    Nesse experimento foi possvel gerar e analisar sinais de voz. Tambm

    foi possvel realizar a separao das vogais da frase gravada e analisar cada

    uma delas em relao a sua faixa dinmica, SNR, e tambm realizar a

    companso de algumas amostras de sinais de cada uma das vogais.

    Foi possvel tambm obter as SNRs de cada uma das vogais e a

    capacidade de canal que cada uma delas exige.

    5. Referncias Bibliogrficas

    [1] Pgina na internet sobre codificao de voz da Universidade Federal do Rio

    de Janeiro (acessado em 01/02/2013)

    http://www.gta.ufrj.br/grad/10_1/codec/Tecnicas_de_Codificacao.html

    [2] Alcntara, Pedro Apostila de Telefonia PCM

    [3] Pgina ITU com as recomendaes G.711 (acessado em 01/02/2013)

    http://www.itu.int/rec/T-REC-G.711/en

    http://www.gta.ufrj.br/grad/10_1/codec/Tecnicas_de_Codificacao.htmlhttp://www.itu.int/rec/T-REC-G.711/en