teoria de informacao e codificacao de fontes

20
1-1 1 Teoria da Informação: Codificação de Fonte O estudo de um sistema de comunicações digitais envolve dois aspectos cruciais: 1. a eficiência da representação da informação gerada pela fonte; 2. a taxa de transmissão à qual é possível enviar a informação com fiabilidade através de um canal ruidoso. A teoria da informação estabelece os limites fundamentais associados às questões acima referidas. A saber: I. o número mínimo de unidades de informação binária (bit) por símbolo necessário para representar completamente a fonte; II. o valor máximo da taxa de transmissão que garante fiabilidade da comunicação através de um canal ruidoso. Começaremos por abordar o primeiro dos problemas acima enunciados, isto é, o da codificação de fontes discretas (ou digitais). 1.1 Modelo de uma Fonte Discreta Consideremos, a título de exemplo, uma fonte discreta que gera símbolos binários. Observemos as duas sequências binárias seguintes: A: 0011010110001101… B: 1000100010001000… Enquanto a sequência B parece ser constituída pela repetição periódica do padrão {1000}, a lógica de ocorrência dos símbolos binários na sequência A é imperceptível, tornando difícil ou mesmo impossível predizer as ocorrências futuras. No entanto, ambas as sequências poderiam ter sido geradas pela mesma fonte binária. Por outro lado, no outro extremo do sistema de comunicações o destinatário não tem conhecimento da sequência gerada pela fonte. Estas considerações mostram que a escolha de um modelo determinístico para representar o comportamento da fonte de informação não é o mais adequado. Com efeito, para um observador externo, a saída da fonte digital num dado instante tem sempre associada alguma incerteza. Voltemos ao exemplo das sequências A e B e suponhamos que o observador não tem memória, isto é, observa a saída num dado instante e esquece-a antes que um novo símbolo seja gerado. Suponhamos ainda que o número de ocorrências de "0" e de "1" vai sendo actualizado. Após ter sido observado um número significativo de saídas da fonte, o grau de incerteza associado à ocorrência de cada um dos símbolos binários é naturalmente diferente conforme se considera a sequência A ou a sequência B. Enquanto que em B a incerteza associada à ocorrência de "0" é menor do que a associada à ocorrência de "1", em A o grau de incerteza é igual para ambos os símbolos. O conceito de incerteza associada a um acontecimento está assim intimamente ligado à probabilidade de ocorrência desse acontecimento. Em consequência deste facto, podemos ainda avançar com a seguinte ideia: se a um valor baixo da probabilidade de ocorrência de um acontecimento corresponde um valor elevado da incerteza associada, então da ocorrência desse acontecimento deve resultar um ganho de informação também ele elevado. À luz das ideias anteriores, deve concluir-se que a fonte de informação deve ser representada usando um modelo aleatório.

description

teoria de informacao

Transcript of teoria de informacao e codificacao de fontes

  • 1-1

    1 Teoria da Informao: Codificao de Fonte

    O estudo de um sistema de comunicaes digitais envolve dois aspectos cruciais:

    1. a eficincia da representao da informao gerada pela fonte;2. a taxa de transmisso qual possvel enviar a informao com fiabilidade

    atravs de um canal ruidoso.

    A teoria da informao estabelece os limites fundamentais associados s questes acimareferidas. A saber:

    I. o nmero mnimo de unidades de informao binria (bit) por smbolo necessriopara representar completamente a fonte;

    II. o valor mximo da taxa de transmisso que garante fiabilidade da comunicaoatravs de um canal ruidoso.

    Comearemos por abordar o primeiro dos problemas acima enunciados, isto , o dacodificao de fontes discretas (ou digitais).

    1.1 Modelo de uma Fonte Discreta

    Consideremos, a ttulo de exemplo, uma fonte discreta que gera smbolos binrios.Observemos as duas sequncias binrias seguintes:

    A: 0011010110001101B: 1000100010001000

    Enquanto a sequncia B parece ser constituda pela repetio peridica do padro{1000}, a lgica de ocorrncia dos smbolos binrios na sequncia A imperceptvel,tornando difcil ou mesmo impossvel predizer as ocorrncias futuras. No entanto, ambas assequncias poderiam ter sido geradas pela mesma fonte binria. Por outro lado, no outroextremo do sistema de comunicaes o destinatrio no tem conhecimento da sequnciagerada pela fonte.

    Estas consideraes mostram que a escolha de um modelo determinstico pararepresentar o comportamento da fonte de informao no o mais adequado. Com efeito, paraum observador externo, a sada da fonte digital num dado instante tem sempre associadaalguma incerteza. Voltemos ao exemplo das sequncias A e B e suponhamos que oobservador no tem memria, isto , observa a sada num dado instante e esquece-a antes queum novo smbolo seja gerado. Suponhamos ainda que o nmero de ocorrncias de "0" e de"1" vai sendo actualizado. Aps ter sido observado um nmero significativo de sadas dafonte, o grau de incerteza associado ocorrncia de cada um dos smbolos binrios naturalmente diferente conforme se considera a sequncia A ou a sequncia B. Enquanto queem B a incerteza associada ocorrncia de "0" menor do que a associada ocorrncia de"1", em A o grau de incerteza igual para ambos os smbolos. O conceito de incertezaassociada a um acontecimento est assim intimamente ligado probabilidade de ocorrnciadesse acontecimento. Em consequncia deste facto, podemos ainda avanar com a seguinteideia: se a um valor baixo da probabilidade de ocorrncia de um acontecimento correspondeum valor elevado da incerteza associada, ento da ocorrncia desse acontecimento deveresultar um ganho de informao tambm ele elevado.

    luz das ideias anteriores, deve concluir-se que a fonte de informao deve serrepresentada usando um modelo aleatrio.

  • 1-2

    1.1.1 Fonte Discreta sem Memria

    Consideremos uma fonte digital que gera smbolos de um alfabeto

    { }M,,2,1i,mi == Acom probabilidade { }ii mPrp = tal que:

    .1pM

    1ii =

    =

    (1.1)

    Def. 1.1: Uma fonte discreta sem memria gera ao longo do tempo smbolosestatisticamente independentes.

    De acordo com a definio anterior, a probabilidade de ocorrncia de qualquer sequnciagerada pela fonte dada pelo produto das probabilidades de ocorrncia dos smbolos que aconstituem.

    Exemplo 1.1: Consideremos a sequncia temporal { }3551M1 m,m,m,m,mS = geradapela fonte A. Supondo que esta fonte no tem memria, ento

    { } .ppppSPr 3251M1 =

    1.2 Informao e Entropia

    Consideremos uma sequncia muito longa de K smbolos do alfabeto A gerados pelafonte discreta definida na subseco 1.1.1. Uma maneira possvel de avaliar o contedoinformativo da fonte, isto , a informao prpria, consiste em determinar o nmero total demensagens (ou sequncias) de comprimento K que a fonte pode gerar. Note-se que ainformao prpria da fonte cresce com o nmero de mensagens possveis. Portanto, equivalente usar o nmero de mensagens ou o respectivo logaritmo, uma vez que a funologartmica montona crescente.

    O nmero de mensagens de comprimento K, incluindo 1K ocorrncias do smbolo,m1 2K do smbolo ,m2 etc., MK do smbolo ,mM dado por

    ,

    !K!K!K!K

    M21 = (1.2)

    onde

    .KKM

    1ii

    =

    = (1.3)

    Supondo que K to elevado que qualquer dos iK tambm muito grande, podemos calcularuma aproximao de usando a frmula de Stirling

    ( ) 21KK2

    1 Ke2!K+

    pi

    em (1.2), obtendo-se

  • 1-3

    ( )( )

    .

    Ke2

    Ke2M

    1i21K

    i

    M

    1i

    K2M

    21

    KK21

    ii =

    +

    =

    +

    pi

    pi (1.4)

    Como

    ,KK ,21KK ,

    21KK ,eee

    M

    1i

    KKii

    KKM

    1i

    K i

    M

    1ii

    i =

    =

    =++=

    ==

    de (1.4), vem:

    ( ) ( ) .KK2

    iKM

    1i i

    21M =

    pi

    Aplicando a funo log em ambos os membros da relao anterior, e tendo em conta que aprobabilidade de ocorrncia do smbolo im o nmero ip para o qual converge a razo

    KK i quando + K,K i , vem

    ( ) ( ) ,plogpK2log1M21log

    M

    1iii

    =

    pi

    ou, tendo em conta que o 2 termo se torna dominante para K suficientemente elevado,

    .plogpKlogM

    1iii

    =

    (1.5)

    A frmula anterior d o valor aproximado da informao prpria de uma fonte discreta comM smbolos, ou dito de outra forma, de uma mensagem de comprimento muito longo Kgerada pela mesma fonte.

    Observando a frmula (1.5), verificamos que, em mdia, a informao por smbolo medida pela quantidade

    .plogpK

    log M

    1iii

    =

    (1.6)

    Por outro lado, a quantidade iplog est associada ocorrncia do smbolo im , ou seja, uma varivel aleatria discreta que toma o valor real ( ) ii plogmI = com probabilidade ip .Note-se que o 2 membro de (1.6), no mais do que o valor expectvel (mdia) destavarivel aleatria.

    1.2.1 Medida de Informao

    A discusso anterior sugere ento a seguinte definio para o ganho de informaoassociado ocorrncia de um smbolo:

    Def. 1.2: Considere-se a fonte discreta sem memria introduzida na subseco 1.1.1.A informao associada ocorrncia de um smbolo desta fonte definida por:

    ( ) ( ) M.1,2,i === ,plogp1logmI iii (1.7)

  • 1-4

    Esta medida quantitativa da informao gerada pela ocorrncia de um smbolo na sada deuma fonte discreta foi introduzida por Claude E. Shannon no seu trabalho intitulado TheMathematical Theory of Communication, publicado em 1948 no n de Outubro do BellSystem Technical Journal. interessante notar que, sendo o conceito de informaorelativamente subjectivo, a medida (1.7) d conta de algumas das suas propriedadesqualitativas:

    1. ( ) 1p se 0mI ii == (1.8)2. ( ) 0mI i (1.9)3. ( ) ( ) jiji pp se mImI (1.10)

    ou seja,

    1. o ganho de informao resultante da ocorrncia do acontecimento certo nulo;2. excepto no caso do acontecimento certo, a ocorrncia de um qualquer

    acontecimento conduz a um ganho de informao;3. quanto menor for a probabilidade de ocorrncia de um acontecimento maior o

    ganho de informao que lhe est associado.

    Tendo em conta (1.7), verificamos que a informao associada ocorrncia simultnea dedois acontecimentos estatisticamente independentes

    ( ) { }( )( )

    ( ) ( )jiji

    ji

    jiji

    mImIplogplog

    pplogm,mPrlogm,mI

    +=

    =

    =

    =

    (1.11)

    a soma da informao associada a cada uma das ocorrncias.

    Nas expresses anteriores usual considerar a funo logartmica definida na base 2. Aunidade de medida de informao define-se como se segue.

    Def. 1.3: a unidade binria de informao (bit) a informao prpria associada acada um dos smbolos de uma fonte binria com smbolos equiprovveis:

    ( ) ( ) bit 121log1I0I 2 === (1.12)

    1.2.2 Entropia de uma Fonte Discreta sem Memria

    J foi sublinhado anteriormente que a informao prpria de um smbolo, ver Def. 1.2, uma varivel aleatria discreta em que cada realizao ( ) M,,1,i ,mI i = ocorre comprobabilidade M.,1,i ,pi = Recorde-se que esta distribuio de probabilidade verifica (1.1).

    Def. 1.4: A entropia de uma fonte discreta sem memria o valor expectvel dainformao prpria dos smbolos da fonte:

    ( ) ( ){ } ( ) ==

    ===

    M

    1ii2i

    M

    1iii plogpmIpmIEAH (1.13)

  • 1-5

    Exemplo 1.2: Consideremos uma fonte binria com smbolos equiprovveis. De acordocom (1.13), a entropia desta fonte vale

    ( ) smbolobit121log

    2

    1i2 2

    1-AH ==

    =

    Consideremos agora o caso mais geral em que

    { }{} p11Pr

    p0Pr=

    =

    . (1.14)

    Recorrendo novamente a (1.13), podemos escrever

    ( ) ( ) ( ) smbolo.bitp1logp1plogp 22 AH = (1.15)A entropia da fonte binria, expressa em (1.15), est representada na Figura 1.1 em funo daprobabilidade p .

    0 0.2 0.4 0.6 0.8 10

    0.2

    0.4

    0.6

    0.8

    1

    pFigura 1.1: Entropia da fonte binria

    interessante notar que:

    1. quando 0p = , a entropia ( ) 0=AH , pois 0xquando0xlogx ;2. a entropia ( ) 0=AH quando 1p = ;3. a entropia ( )AH atinge o valor mximo ( ) smbolobit1 AH = quando ,21p = ou

    seja, quando os smbolos so equiprovveis.

    Estas propriedades, inferidas a partir do exemplo anterior so generalizveis para qualquerfonte discreta sem memria.

  • 1-6

    1.2.2.1 Propriedades da Entropia de uma Fonte Discreta sem Memria

    A entropia ( )AH da fonte discreta sem memria A , definida na subseco 1.2.2, limitada de acordo com a seguinte desigualdade:

    ( ) ,Mlog0 2 AH (1.16)onde M o nmero de smbolos do alfabeto A. Podemos mostrar que:

    P1. ( ) 0=AH sse 1pi = para algum i e .M,,1i,1i,,1j,0p j +== O limiar inferior daentropia corresponde portanto ausncia de incerteza sobre a sada da fonte.

    P2. ( ) Mlog 2=AH sse ,M,,1i,M1pi == isto , sse todos os smbolos foremequiprovveis. O limiar superior da entropia corresponde assim ao mximo da incerteza.

    A expresso (1.13) da Def. 1.4 pode escrever-se na forma

    ( ) ( ).p1logpM1i

    i2i=

    =AH (1.17)

    Como 1p0 i , conclui-se que todas as parcelas de (1.17) so no negativas. Portanto,( ) 0=AH sse todas as parcelas forem nulas. Como a distribuio de probabilidade verifica a

    restrio (1.1), conclui-se que o limiar inferior da entropia s atingido na ausncia deincerteza, como se diz em P1.

    O problema da maximizao de (1.17) pode ser formulado do seguinte modo:

    Determinar a distribuio ,M,,1i,pi = que maximiza

    ( ) ( )=

    =

    M

    1ii2i p1logpAH

    sujeita restrio.1p

    M

    1ii =

    =

    Para o resolver podemos usar o mtodo dos multiplicadores de Lagrange. Definindo aLagrangeana

    ( ) ,p1plogpp,,p M1i

    i

    M

    1ii2iM1

    += ==

    L (1.18)

    onde o multiplicador de Lagrange, verificamos que maximizar (1.18) o mesmo quemaximizar ( )AH , pois a segunda parcela de (1.18) sempre nula. Diferenciando ( )L emordem a cada um dos ip , e igualando a zero, obtm-se o seginte sistema de equaes

    1:

    1 Recorda-se que

    x

    12ln

    1dx

    xlogd 2=

  • 1-7

    .M,,1i,2ln

    1plog i2 =+=

    Conclumos assim que, mesmo sem calcular o valor de que garante a restrio, todos os ipso iguais. Portanto, como se diz em P2, a distribuio de probabilidade que maximiza2 aentropia

    .M,,1i,M1pi ==

    Deste modo, o valor mximo da entropia ( ) .MlogMlogM1

    2

    M

    1i2max ==

    =

    AH

    1.2.2.2 Desigualdade Fundamental

    P3. Seja ,M,,1i ,pi = uma distribuio de probabilidade associada aos smbolos.M,,1i,mi = A Obviamente, a restrio (1.1) verificada. Sendo M,,1i,q i = ,

    uma outra distribuio de probabilidade,

    ,1qM

    1ii =

    =

    (1.19)ento

    ,0pqlogp

    M

    1i i

    i2i

    =

    (1.20)

    sendo atingido o valor mximo quando

    .M,,1i,pq ii == (1.21)

    A demonstrao deste facto resulta directamente da resoluo do seguinte problema:

    Sendo M,,1i,pi = , uma distribuio de probabilidade, determinar os valores de,M,,1i ,q i = que maximizam

    ,

    pqlogp

    M

    1i i

    i2i

    =

    (1.22)

    sujeitos restrio

    .1qM

    1ii =

    =

    2 Pode verificar-se que com esta distribuio de probabilidade a segunda derivada da Lagrangeana

    negativa. De facto, .02ln

    Md

    M1p2

    2

    i

  • 1-8

    Usando (1.19) e (1.22) podemos escrever a Lagrangeana( ) .q1plogpqlogpq,,q M

    1ii

    M

    1ii2i

    M

    1ii2iM1

    += ===

    L

    Diferenciando em ordem aos ,M,,1i,q i = e igualando a zero, obtm-se o sistema deequaes

    ( ) .M,,1i ,pq 2ln ii == (1.23)Tendo em conta (1.1) e (1.19) e somando membro a membro todas as equaes do sistema(1.23), conclui-se que .2ln1= Usando este valor em (1.23), obtm-se a distribuio quemaximiza3 (1.22):

    .M,,1i,pq ii == (1.24)

    Usando este resultado, verifica-se facilmente que o mximo de (1.22) nulo e, portanto, adesigualdade (1.20) fica demonstrada.

    A desigualdade (1.20) conhecida por desigualdade fundamental e ser usada maisadiante para obter outros resultados importantes da Teoria da Informao.

    1.3 Codificao de Fonte

    Consideremos o problema da codificao de smbolos pertencentes a um alfabetoestendido de smbolos estatisticamente independentes. Em particular, consideremos umalfabeto de 37 smbolos equiprovveis: 26 letras, o espao em branco, e 10 dgitos.Suponhamos que para codificar estes smbolos dispomos apenas de smbolos binrios (bits4)e, naturalmente por razes de eficincia de representao, pretendemos usar palavras decdigo de comprimento mnimo. Suponhamos, a ttulo de exemplo, que codificamosindividualmente cada um dos 37 smbolos. Como 65 2372

  • 1-9

    1. medida que aumenta a ordem da extenso, vai diminuindo o nmero mdio de bitsnecessrios para codificar cada smbolo do alfabeto original;

    2. esta diminuio no uniforme, embora parea convergir para a entropia do alfabetooriginal.

    ordem daextenso entropia

    comprimentoda palavra de

    cdigo

    comprimentomdio porsmbolo

    1 5.21 6 6.002 10.42 11 5.503 15.63 16 5.334 20.84 21 5.255 26.05 27 5.406 31.26 32 5.337 36.47 37 5.298 41.68 42 5.259 46.89 47 5.2210 52.09 53 5.30

    Tabela 1.1: Eficincia da codificao de alfabetos estendidosEste exerccio, embora no seja conclusivo de um ponto de vista estritamente formal,

    sugere que a eficincia dos cdigos est associado a extenses de ordem superior do alfabetoda fonte discreta.

    1.3.1 Extenso de Fonte

    Def. 1.5: Consideremos a fonte discreta sem memria definida na subseco 1.1.1.A extenso de ordem K desta fonte ainda uma fonte discreta sem memria comalfabeto

    { } ( ) A A ==kK21K iiiiiM21

    K m,m,,m,m,,,, (1.25)

    e distribuio de probabilidade

    { } { } { } { } .M,,2,1i,mPrmPrmPrPrp Kiiiii K21 === (1.26)

    1.3.2 Entropia da Fonte Estendida

    Antes de calcularmos a entropia da fonte KA , extenso de ordem K da fonte A, vamosverificar que a distribuio (1.26) de facto uma distribuio de probabilidade. Em primeirolugar, qualquer dos ip em (1.26) um produto de probabilidades e portanto .1p0 i Notemos ainda que a extenso de ordem K se pode obter da extenso de ordem 1K , isto ,

    ( ) (( )

    ,m,,m

    1Ki

    1K1 iiK

    i

    = )

    M

    2

    1

    m

    m

    m

    , (1.27)

  • 1-10

    cada smbolo da extenso de ordem K1 d origem a M smbolos da extenso de ordem K.Portanto

    ( ){ } ( ){ } { } ( ){ }.PrmPrPrPr 1K1KK M1l

    1Kl

    1

    M

    1ii

    M

    1l

    1Kl

    M

    1i

    Ki

    =

    =

    ==

    =

    ==

    (1.28)

    Prosseguindo o mesmo raciocnio, verificamos que esta igualdade se mantm vlida seja qualfor a ordem da extenso considerada. Em particular,

    ( ){ } { } .1mPrPrKM1i

    M

    1ii

    Ki ==

    = =

    (1.29)

    Por definio, Def. 1.4, eq. (1.13), a entropia da extenso de ordem K da fonte A

    ( ) ( ){ } ( ){ },PrlogPr Ki2M1i

    Ki

    KK

    = =

    AH

    ou seja,

    ( ) ( ){ } { } ( ){ } { }( )( ){ } ( ){ }

    ( ){ }

    ( ){ } { } { }( )

    .mPrlogmPrPr

    mPrPrlogPr

    mPrPrlogmPrPr

    M

    1ii2i

    1

    M

    1l

    1Kl

    1

    M

    1ii

    M

    1l

    1Kl2

    1Kl

    M

    1l

    M

    1ii

    1Kl2i

    1Kl

    K

    1K

    1K

    1K

    1K

    +

    =

    =

    =

    =

    =

    =

    ==

    = =

    AH

    AH

    AH

    Finalmente, podemos escrever

    ( ) ( ) ( ),1KK AHAHAH += e, repetindo argumentos, conclumos que:

    A entropia da extenso de ordem K de uma fonte discreta sem memria igual a Kvezes a entropia da fonte original, isto ,

    ( ) ( ).KK AHAH = (1.30) 1.3.3 Comprimento Mdio do Cdigo

    A codificao de fonte consiste em atribuir uma palavra de cdigo nica a cada uma dasmensagens geradas pela fonte. Aqui a palavra mensagem usada indiscriminadamente paradesignar um smbolo da fonte original ou um smbolo de uma qualquer extenso do alfabetofonte. Como vimos em discusso anterior, a eficincia da codificao est associada parsimnia que se usa na escolha do comprimento das palavras de cdigo. Por outro lado,para uma dada taxa de gerao de smbolos, quanto maior for o comprimento das palavras decdigo maiores sero as necessidades em termos de taxa de transmisso. Como, em geral, ossmbolos do alfabeto fonte no so equiprovveis, razovel pensar em cdigos de

  • 1-11

    comprimento varivel: o comprimento de cada palavra de cdigo dever ser tanto menorquanto maior for a probabilidade de ocorrncia do smbolo correspondente. Esteprocedimento tender a minimizar o comprimento mdio do cdigo (ou das palavras docdigo) sendo, portanto, eficiente.

    O processo de codificao consiste em atribuir rtulos ou smbolos s sadas de umafonte de informao. Temos ento que distinguir entre os smbolos da fonte e os smbolos doalfabeto do cdigo.

    Def. 1.6: Sejam

    { }M1 m,,m =A e { }r,, = 1Cos alfabetos fonte e do cdigo, respectivamente. Nos cdigos de blocos,

    ( ) C, A ji == ,,,,cm:M,,1i il21 iiiii isto , a cada smbolo do alfabeto fonte faz-se corresponder uma e uma s palavrade cdigo, cujo comprimento varivel.

    Obviamente que o problema inverso da codificao tem de ter soluo nica, isto , qualquercdigo de fonte tem de ser univocamente descodificvel. Nos cdigos de comprimento fixobasta que a cada palavra ci do cdigo se faa corresponder uma e uma s mensagem

    Aim para que se garanta a descodificao nica. No entanto, tal no suficiente quando setrata de cdigos de comprimento varivel, sendo necessria uma condio adicional: aestrutura do cdigo deve permitir identificar sem ambiguidade o incio e o fim de cadapalavra de cdigo. Para ilustrar esta ideia consideremos os exemplos de cdigos que semostram na Tabela 1.2.

    smbolofonte

    probabilidadede

    ocorrncia

    cdigoI

    cdigoII

    cdigoIII

    cdigoIV

    m1 0.500 00 00 000 0000m2 0.250 01 11 010 0001m3 0.250 10 00 110 0011m4 0.125 11 11 111 0111

    Tabela 1.2: Exemplos de cdigos de fonte

    O cdigo I um cdigo binrio simples e, portanto, univocamente descodificvel. Nestecaso, o comprimento mdio do cdigo

    =

    =

    M

    1iii lpL (1.31)

    obviamente igual a 2. Os restantes cdigos usam comprimentos variveis, sendo as palavrasmais longas aquelas que correspondem aos smbolos menos provveis. Ao contrrio do queacontece no cdigo IV, nenhuma palavra do cdigo III constitui prefixo de outra. Estescdigos so designados por cdigos de prefixo. Os cdigos de prefixo so sempreunivocamente descodificveis. Com efeito, estes cdigos so completamente descritos poruma estrutura em rvore com um estado inicial e M estados finais, como se pode ver naFigura 1.2 para o caso do cdigo III. Partindo do estado inicial, o descodificador vai descendoao longo da rvore medida que recebe cada bit e at atingir um dos quatro estados terminais.Quando isto acontece, o smbolo foi descodificado e o descodificador retorna ao estado

  • 1-12

    inicial. O comprimento mdio deste cdigo de prefixo vale .75.1L = O cdigo III , comoseria de esperar, mais eficiente do que o cdigo I. O cdigo IV tem comprimento 875.1L = e,embora no sendo um cdigo de prefixo, tambm univocamente descodificvel. Basta notarque nenhuma palavra de cdigo exibe dois bits 0 consecutivos e que todas elas so iniciadaspor 0. Quando detectado um 0 o descodificador sabe que se inicia uma palavra docdigo, bastando contar o nmero de bits 1 consecutivos para identificar o smbolo fontecorrespondente. Finalmente, fcil verificar que o cdigo II, sendo aparentemente o maiseficiente ( )25.1L = , no univocamente descodificvel.

    Figura 1.2: rvore de descodificao de um cdigo de prefixo

    Os cdigos de prefixo, como o cdigo III, so cdigos instantneos pois qualquer palavrade cdigo descodificada assim que a totalidade dos smbolos que a constituem recebida.Ao contrrio, no cdigo IV o smbolo 0 funciona como separador, pelo que cada palavra descodificada com atraso de um bit.

    1.3.4 Desigualdade de Kraft

    Como se conclui da discusso anterior, necessrio impor restries na estrutura de umcdigo instantneo de comprimento varivel de modo a garantir a unicidade dadescodificao.

    A desigualdade de Kraft estabelece uma condio necessria e suficiente de existncia deum cdigo instantneo formado por palavras de comprimento varivel li:

    ,1rM

    1i

    li = =

    (1.32)

    onde r o nmero de smbolos do alfabeto do cdigo. A soma designada por soma deKraft.

    Consideremos o exemplo da Figura 1.2, onde 4M = e 2r = : a soma de Kraft vale12222 3321 =+++= , e portanto a desigualdade de Kraft (1.32) verificada. Este

    facto garante que existe um cdigo binrio instantneo, univocamente descodificvel, e cujadistribuio dos comprimentos das palavras de cdigo o do exemplo. Sublinha-se que averificao da desigualdade de Kraft no define o cdigo, garantindo to somente a suaexistncia.

    Para provar a desigualdade de Kraft podemos usar um raciocnio simples baseado na rvorede codificao. Consideremos uma rvore r ria onde cada n tem r descendentes.Suponhamos ainda que cada ramo representa um smbolo da palavra de cdigo. Por exemplo,

    estado inicial

    1

    1

    1

    0

    0

    0

    m1

    m2

    m3

    m4

  • 1-13

    os r ramos que partem da raz representam os r possveis valores do primeiro smbolo dapalavra de cdigo. Portanto, cada palavra de cdigo corresponde a um n terminal da rvore.O percurso entre a raz e um destes ns terminais identifica os smbolos que fazem parte dapalavra de cdigo. A Figura 1.3 ilustra estas ideias para o caso binrio, r=2.

    Figura 1.3: rvore de codificao para a desigualdade de KraftA condio de o cdigo ser de prefixo implica que nenhuma palavra de cdigo seja

    ascendente de qualquer outra palavra de cdigo na rvore. Assim, cada palavra de cdigoelimina os seus descendentes como possveis palavras do cdigo.

    Seja lmax o comprimento da palavra mais longa do cdigo. Consideremos todos os ns aonvel lmax da rvore. Alguns so palavras de cdigo, outros so descendentes de palavras decdigo e os restantes nem uma coisa nem outra. Qualquer palavra de cdigo ao nvel li ter

    imax llr descendentes no nvel lmax. Estes conjuntos de descendentes tm de ser disjuntos e, por

    outro lado, o nmero total de ns neles includos dever ser inferior ou igual a maxlr . Portanto,somando para todas as palavras de cdigo, tem-se

    ,rr maximaxl

    M

    1i

    ll =

    (1.33)

    ou seja,

    1rM

    1i

    li =

    (1.34)

    que exactamente a desigualdade de Kraft (1.32).Por outro lado, dado um conjunto de comprimentos l1, l2, , lM de palavras do cdigo

    que satisfazem a desigualdade de Kraft, sempre possvel construir uma rvore semelhante da Figura 1.3 de modo a obter um cdigo de prefixo cujas palavras tm os comprimentosespecificados.

    1.3.5 1 Teorema de Shannon

    Consideremos um cdigo instantneo, univocamente descodificvel, para o qual severifica necessariamente a desigualdade de Kraft (1.32). Consideremos ainda as quantidades

    .M,,1i,rq il1i == (1.35)Note-se que

    raz0

    0

    0

    01

    11

    10

    111110

  • 1-14

    1r

    r

    q

    M,,1i1r

    rq0

    M

    1m

    l

    M

    1i

    lM

    1ii

    M

    1m

    l

    l

    i

    m

    i

    m

    i

    ==

    ==

    =

    =

    =

    =

    ou seja, as quantidades qi formam uma distribuio de probabilidade. Ento, sendo pi aprobabilidade de ocorrncia de cada um dos smbolos do alfabeto fonte, podemos afirmar queas distribuies qi e pi, ,M,,1i = verificam a desigualdade fundamental (1.20). Tendo emconta a definio de entropia (1.13), aquela desigualdade pode ser escrita na forma

    ( ) .0qlogpM1i

    ii +=

    AH (1.36)

    Por outro lado, e usando (1.35) e (1.31), podemos escrever

    ( )

    .rlogLlog

    lprloglog

    rlogllogpqlogp

    ii

    ii

    M

    1iii

    ==

    =

    =

    (1.37)

    Usando (1.37) em (1.36), obtm-se

    ( ) .rlogLAH (1.38)Este resultado independente da base da funo logartmica, pelo que se usarmos a funo

    rlog (no caso de um alfabeto de cdigo com r smbolos) conclumos que a entropia constituio limiar inferior do comprimento mdio de qualquer cdigo instantneo univocamentedescodificvel. Este facto, agora demonstrado formalmente, tinha j sido antecipado nasequncia da discusso em torno do exemplo apresentado na Tabela 1.1. Da anlise destemesmo exemplo, verificou-se que, embora de forma no uniforme, o comprimento mdio docdigo parecia convergir para a entropia da fonte medida que se consideravam extenses doalfabeto de ordem crescente.

    Naturalmente, a cada palavra ci do cdigo corresponde uma probabilidade de ocorrncia{ } { },mPrcPrp iii == onde mi um dos M smbolos do alfabeto da fonte A. Suponhamos quecada palavra ci tem um comprimento que obedece s restries

    ,M,,1i,1ploglplog iriir =+ (1.39)

    garantindo-se que aos smbolos menos provveis correspondem palavras de cdigo maislongas. Note-se que (1.39) garante ainda que existe o cdigo instantneo univocamentedescodificvel, pois a desigualdade de Kraft verificada. Com efeito, temos

    M,,1i,rpr iir liplog==

  • 1-15

    e (1.32) resulta imediatamente somando de 1 a M ambos os membros da desigualdadeanterior. Multiplicando por pi todos os termos de (1.39), somando de 1 at M, e tendo emconta (1.13) e (1.31), obtm-se

    ( ) ( ) .1L + AHAH (1.40)Obviamente que, sendo esta desigualdade verificada para a fonte A e para o cdigo queverifica (1.39), ento

    ( ) ( ) ,1L KKK + AHAH (1.41)onde KL o comprimento mdio do cdigo usado para codificar os smbolos da fonte

    KA .Recordando (1.30), de (1.41) obtm-se

    ( ) ( ) .K1

    KLK + AHAH (1.42)

    Este resultado demonstra que existe pelo menos um cdigo instantneo univocamentedescodificvel cujo comprimento mdio KLK arbitrariamente pximo da entropia dafonte A; basta notar que em (1.42) a parcela K1 vai para zero quando K cresce, enquanto

    KLK sempre uma quantidade finita. Portanto a codificao eficiente da fonte discreta semmemria obtm-se considerando extenses de ordem mais elevada. O custo da eficincia temcomo contrapartida a crescente complexidade do cdigo.

    Estamos neste momento em condies de enunciar formalmente o 1 Teorema de Shannonpara a codificao de fonte.

    1 Teorema de Shannon possvel codificar (e descodificar univocamente) uma fonte discreta sem memriacom entropia smbolobit H usando um cdigo instantneo de comprimento mdio

    smbolobitL tal que, para qualquer 0> , .L += H A codificao impossvelno caso em que H.

  • 1-16

    Mais concretamente, o algoritmo de codificao o seguinte:

    1. os smbolos fonte so ordenados por ordem decrescente das respectivasprobabilidades de ocorrncia, sendo atribudos os bits 0 e 1 aos dois smbolos demenor probabilidade;

    2. estes dois smbolos so associados formando um novo smbolo cuja probabilidade deocorrncia a soma das probabilidades dos smbolos associados, reduzindo-se a listade smbolos de uma unidade; a nova lista reordenada por ordem decrescente dasprobabilidades de ocorrncia;

    3. os procedimentos anteriores so repetidos at que se atinja uma lista final comapenas dois smbolos aos quais so atribudos os bits 0 e 1;

    4. a palavra de cdigo associada a cada smbolo original construda seguindo dafrente para trs a sequncia de 0's e 1's que foram sendo atribudos ao referidosmbolo e respectivos sucessores.

    Vamos socorrer-nos de um exemplo para perceber melhor o mecanismo do algoritmo decodificao que acabmos de descrever.

    Exemplo 1.3: Na Tabela 1.3 esto listados os smbolos de uma fonte discreta semmemria e as respectivas probabilidades de ocorrncia.

    m1 m2 m3 m4 m5 m6 m7 m8 m90.200 0.150 0.130 0.120 0.100 0.09 0.08 0.07 0.06

    Tabela 1.3: Estatsticas dos smbolos de uma fonte discreta sem memria

    De acordo com o passo 1. do algoritmo os smbolos esto j ordenados por ordemdecrescente.

    m10.2

    m20.15

    m30.13

    m40.12

    m50.1

    m60.09

    m70.08

    m80.07

    m90.06

    Figura 1.4: rvore de codificao para o cdigo de Huffman

    A Figura 1.4 permite visualizar todos os passos do algoritmo de Huffman atravs darespectiva rvore de codificao. Note-se que por meio das sucessivas associaes o nmerode smbolos vai-se reduzindo at se atingir o estado final com dois smbolos cujasprobabilidades de ocorrncia somam, como no podia deixar de ser, .142.058.0 =+ Os

    0.130

    1

    1

    00.17

    0.221

    0 0.26

    0.321

    0 0.420

    1

    0.5810 1

    0

    0

    1

  • 1-17

    resultados da codificao esto resumidos na Tabela 1.4. Como se pode ver, o cdigoresultante um cdigo de prefixo. Por outro lado, aos smbolos menos provveiscorrespondem as palavras de cdigo mais longas. Pode tambm verificar-se que a entropia dafonte smbolobit0371.3 H = e que o comprimento mdio do cdigo smbolobit1.3L = 5.

    mi ci pi lim1 11 0.2 2m2 001 0.15 3m3 011 0.13 3m4 100 0.12 3m5 101 0.1 3m6 0000 0.09 4m7 0001 0.08 4m8 0100 0.07 4m9 0101 0.06 4

    Tabela 1.4: Resultados da codificao de HuffmanComo se v o comprimento mdio do cdigo, embora superior, tem um valor muito prximoda entropia da fonte. Tal significa que o cdigo obtido tem muito pouca redundncia e, nestecaso, constitui a representao mais eficiente da fonte original. Neste caso e de acordo com(1.43), temos ,9797.01.30371.3 == isto , muito prximo dos 100%. Naturalmente, ecomo foi visto anteriormente, a eficincia da codificao poderia ser melhorada seconsiderssemos extenses da fonte de ordem superior.

    Exemplo 1.4: Consideremos o alfabeto especificado na Tabela 1.5.

    m1 m2 m3

    0.70 0.15 0.15

    Tabela 1.5: Alfabeto fonte

    5 Chama-se a ateno para o facto de as unidades em que se exprimem a entropia e o comprimento

    mdio terem significados diferentes: no primeiro caso bit significa unidade binria de informao,enquanto que no segundo a mesma designao usada com o significado de smbolo binrio.

    mi ci pi lim1 0 0.70 1m2 10 0.15 2m3 11 0.15 2

    Tabela 1.6: Resultados da codificao Figura 1.5: rvore de codificao

    m1

    m2

    m3

    0.7

    0.15

    0.150.3

    0

    1

    0

    1

    1.0

  • 1-18

    Na Figura 1.5 est representada a rvore de codificao e na Tabela 1.6 resumem-se osresultados da codificao. Podemos calcular a entropia ,1813.1H = o comprimento mdio docdigo ,3.1L = e a respectiva eficincia .9087.0=

    Consideremos agora a extenso de 2 ordem do alfabeto original, e determinemos ocorrespondente cdigo de Huffman como se ilustra na Figura 1.6. Os resultados aparecemresumidos na Tabela 1.7.

    Figura 1.6: rvore de codificao da extenso da fonte

    mi ci pi lis1 1 0.4900 1s2 010 0.1050 3s3 001 0.1050 3s4 000 0.1050 3s5 0111 0.1050 4s6 011011 0.0225 6s7 011010 0.0225 6s8 011001 0.0225 6s9 011000 0.0225 6

    Tabela 1.7: Resultados da codificao da extenso da fonte

    A entropia da fonte estendida obviamente dupla da entropia da fonte original. Ocomprimento mdio do cdigo anterior vale 2.395. Portanto, a eficincia deste cdigo

    ,9865.0395.23626.2 == sendo significativamente maior do que a eficincia do cdigo dafonte original.

    Quando se usa o algoritmo de Huffman, deve na fase de reordenao ter-se o cuidado decolocar o mais acima possvel o resultado da associao de dois smbolos. Consegue-se destemodo reduzir a varincia dos comprimentos das palavras de cdigo e, portanto, garantir que o

    m1m1

    m1m2

    s1

    s2

    s3

    m2m2

    m2m1

    s5

    s4m1m3

    m3m1

    s6

    m2m3 s7

    m3m2 s8

    m3m3 s9

    .49

    .105

    .105

    .105

    .105

    .0225

    .0225

    .0225

    .0225

    .0451

    .0451

    0

    0

    .091

    0

    .211

    0

    .1951

    0

    1.01

    0

    .31

    0

    .511

    0

  • 1-19

    tempo gasto na descodificao das palavras de cdigo semelhante para todas elas.Recordemos que a varincia do comprimento das palavras do cdigo vale

    ( ) = .Llp 2ii2l (1.44)

    Mais uma vez vamos socorrer-nos de um exemplo para ilustrar este facto.

    Exemplo 1.5: Consideremos uma fonte discreta sem memria cujo alfabeto e respectivasestatsticas se mostram na Tabela 1.8.

    m1 m2 m3 m4 m5 m6 m7

    0.30 0.20 0.20 0.10 0.10 0.05 0.05

    Tabela 1.8: Alfabeto e estatsticas da fonte

    A entropia desta fonte vale .smbolobit5464.2 H = A Tabela 1.9 apresenta os resultadosobtidos quando se aplica o algoritmo de Huffman tal como nos Exemplos 1.3 e 1.4. Nestecaso, o valor mdio e a varincia do comprimento das palavras do cdigo valem

    smbolobit6.2L = e .44.02l =

    mi ci pi lim1 10 0.30 2m2 00 0.20 2m3 111 0.20 3m4 011 0.10 3m5 010 0.10 3m6 1101 0.05 4m7 1100 0.05 4

    Tabela 1.9: Resultados da codificao

    Vejamos agora a situao em que o resultado de uma associao no colocado o maisacima possvel na tabela de probabilidades, como se mostra na Figura 1.7.

    Figura 1.7: rvore de codificao alternativa

    m1

    m2

    m3

    m4

    m5

    m6

    m7

    0.3

    0.2

    0.2

    0.1

    0.1

    0.05

    0.050

    0

    10.1 0

    10.2

    0

    10.3

    0.40

    10.6

    0

    1

    1

  • 1-20

    A Tabela 1.10 resume os resultados obtidos quando o algoritmo de Huffman aplicadodo modo acima descrito.

    mi ci pi lim1 11 0.30 2m2 01 0.20 2m3 00 0.20 2m4 100 0.10 3m5 1011 0.10 4m6 10101 0.05 5m7 10100 0.05 5

    Tabela 1.10: Resultados da codificao alternativaVerifica-se facilmente que neste caso o comprimento mdio das palavras de cdigo mantm-se, mas a varincia aumenta para .04.12l =

    1.5 Outras Leituras Recomendadas

    [1]- C.E. Shannon, "A Mathematical Theory of Communication," Collected Papers, eds.N.J.A. Sloane e Aaron D. Wyner, IEEE Press, 1993.

    Teoria da Informao: Codificao de FonteModelo de uma Fonte DiscretaFonte Discreta sem Memria

    Informao e EntropiaMedida de InformaoEntropia de uma Fonte Discreta sem MemriaPropriedades da Entropia de uma Fonte Discreta sem MemriaDesigualdade Fundamental

    Codificao de FonteExtenso de FonteEntropia da Fonte EstendidaComprimento Mdio do CdigoDesigualdade de Kraft1 Teorema de Shannon

    Cdigo de HuffmanOutras Leituras Recomendadas