CAV 5 JPEG 2007 Web - img.lx.it.ptfp/cav/ano2006_2007/Slides/CAV_5_JPEG_2007_Web.pdf ·...

Comunicação de Áudio e Vídeo, Fernando Pereira

FOTOGRAFIA DIGITALFOTOGRAFIA DIGITAL

Fernando PereiraFernando Pereira

Instituto Superior TécnicoInstituto Superior Técnico


Imagem Fotográfica Multinível (tons de cinzento ou cores)Imagem FotogrImagem Fotográáfica fica MultinMultiníível vel (tons de cinzento ou cores)(tons de cinzento ou cores)

OBJECTIVOOBJECTIVO

Transmissão e armazenamento eficiente de imagem Transmissão e armazenamento eficiente de imagem fotográfica fotográfica multinívelmultinível


Sonho ou Pesadelo ?Sonho ou Pesadelo ?Sonho ou Pesadelo ?

“Uma imagem vale mais que 1000 palavras” - a informação visual é um meio extremamente

eficiente de expressar uma mensagem ou visualizar qualquer tipo de dados.

Os sistemas de imagem digital geram enormesquantidades de dados, p.e. muitos Megabytes para

uma única imagem.


AplicaçõesAplicaçõesAplicações

� Fotografia e bases de dados pessoais

� Bases de dados profissionais: museus, mapas, esquemas, etc.

� Videotexto fotográfico

� Desktop publishing

� Artes gráficas

� Telecópia a cores

� Imagem médica


Principal ProblemaPrincipal Principal ProblemaProblema

Uma imagem é gerada e consumida como um conjunto de M××××N amostras de luminância e

crominância, com um certo número de bits por amostra o que faz com que

o número de bits

- e logo a banda e memória - necessário para representar digitalmente uma imagem seja

ENORME !!!


Codificação/Compressão de ImagemCodificação/CompressãoCodificação/Compressão de Imagemde Imagem

Trata da representação o mais eficiente possível de uma imagem, satisfazendo o conjunto de requisitos

relevantes.

E os requisitos variam segundo as aplicações e as respectivas funcionalidades ...


Donde vem a Compressão ?Donde vem a Compressão ?Donde vem a Compressão ?

�� REDUNDÂNCIAREDUNDÂNCIA - tem a ver com as semelhanças, correlação e preditabilidade entre as amostras da imagem.

-> a redução de redundância não envolve a perda de informação ou seja a imagem é comprimida sem perdas.

�� IRRELEVÂNCIAIRRELEVÂNCIA - tem a ver com a informação imperceptível ao olho ou insignificante ao cérebro humanos.

-> a redução de irrelevância é um processo irreversível, involvendoperda de informação.


A Norma JPEG

((Joint Photographic Experts GroupJoint Photographic Experts Group-- ISO & ITUISO & ITU-- T)T)


OBJECTIVOOBJECTIVOOBJECTIVO

Definição de uma norma genérica de compressão que considere os requisitos da maior parte das

aplicações usando imagem fotográfica multinível.


Interoperabilidade, logo Normas ! Interoperabilidade, logo Normas ! Interoperabilidade, logo Normas !

� A codificação de imagem é usada em muitas aplicaçõesaudiovisuais para as quais a interoperabilidade é um requisitoessencial.

� O requisito de interoperabilidade é satisfeito através daespecificação de normas de codificação.

� De forma a incentivar a evolução e a competição, as normasdevem oferecer interoperabilidade através da especificação do menor conjunto possível de ferramentas.


Principais Requisitos do JPEGPrincipais Requisitos do JPEGPrincipais Requisitos do JPEG

�� EficiênciaEficiência - Basear-se nas mais eficientes técnicas de compressão, nomeadamente para qualidades classificadas como 'muito boas'; possibilidade de parametrização da qualidade/compressão.

�� Flexibilidade Flexibilidade - Aplicabilidade a qualquer tipo de imagem fotográfica multinível (não binível) sem restricções de resolução, factor de forma, espaço de cores, conteúdo, etc.

�� Baixa complexidadeBaixa complexidade - Complexidade aceitável de forma a permitir a implementação em software numa gama variada de CPU's.

�� Generalidade Generalidade - Considerar vários modos de operação, nomeadamente os modos sequencial, progressivo, sem perdas e hierárquico.


Elementos NormativosElementos NormativosElementos Normativos

�� CODIFICADORCODIFICADOR - A partir das imagens digitais à entrada e das tabelas de especificação gera, através dum conjunto de técnicas, o fluxo de dados comprimidos de saída.

�� FORMATO DE INTERCÂMBIOFORMATO DE INTERCÂMBIO - Representaçãocomprimida dos dados correspondentes à imagem, incluindo as tabelas de especificação.

�� DESCODIFICADORDESCODIFICADOR - Através de um conjunto de técnicas, gera as imagens reconstruídas na saída, a partir do fluxo de dados comprimidos à entrada e das tabelas de especificação.


Elementos NormativosElementos NormativosElementos Normativos

vCodificador Fluxo binário codificado

TabelasInformação original

Fluxo binário codificadoDescodificador

Tabelas

v

Informação descodificada


Norma ITU-R 601Norma ITUNorma ITU--R 601R 601

� Inclui os sistemas de 625 e 525 linhas (25 e 30 Hz) e osformatos 4:3 e 16:9

� Ritmos base de amostragem: 13.5 MHz para a luminânciae 6.75 MHz para as crominâncias

� Quantificação das amostras: 8 bits

Formato Resolução Y Resolução U e V Horizontal Vertical

4:4:4 720 x 576 720 x 576 1:1 1:14:2:2 720 x 576 360 x 576 2:1 1:14:2:0 720 x 576 360 x 288 2:1 2:14:1:1 720 x 576 180 x 576 4:1 1:14:1:0 720 x 576 180 x 144 4:1 4:1


MultiplexagemMultiplexagemMultiplexagem

Uma vez que inúmeras aplicações devem proceder à descodificação e visualização ou impressão sem grande capacidade de memorização, é necessário que as imagens com várias componentes considerem a necessidade de multiplexar a respectiva

informação.

CasoCaso 1: 1: TodasTodas as as componentescomponentes com a com a mesmamesma resoluçãoresolução

Sem multiplexagem (ordem): A1,A2,A3,…,An B1,B2,B3,…,Bn C1,C2,C3,…,CnCom multiplexagem fina (ordem): A1, B1, C1, A2, B2, C2, A3 … An, Bn, Cn


MultiplexagemMultiplexagemMultiplexagem

CasoCaso 2: 2: ComponentesComponentes com com diferentediferente resoluresoluççãoão

Sem multiplexagem (ordem): A1,A2,A3,…,An B1,B2,B3,…,Bn/2 C1,C2,C3,…,Cn/2Com multiplexagem fina (ordem): A1, A2, B1, C1, A3, A4, B2, C2, … An-1, An, Bn/2, Cn/2


Tipos de CodificaçãoTipos de CodificaçãoTipos de Codificação

�� SEM PERDAS (SEM PERDAS (losslesslossless)) - A imagem é reconstruída sem qualquer perda (original e descodificado são matematicamente iguais); factores de compressão mais reduzidos são atingidos (aproximadamente 2:1)

�� COM PERDAS (COM PERDAS (lossylossy)) - A imagem é reconstruída com elevada fidelidade em relação ao original (mas não idêntica), atingindo-se factores de compressão elevados; este tipo de codificação recorre àTransformada de Coseno Discreta (Discrete Cosine Transform - DCT)

O processo de codificação mais simples baseado na DCT é designado por

PROCESSO SEQUENCIAL BASELINEPROCESSO SEQUENCIAL BASELINE

e é suficiente para inúmeras aplicações. Este processo é obrigatório em todos os sistemas JPEG.


Modos de OperaçãoModos de OperaçãoModos de Operação

Os vários modos de operação resultam da exigência de universalidade desta norma e da variedade de aplicações consideradas.

�� SEQUENCIALSEQUENCIAL - Cada componente da imagem é codificada num único varrimento (de cima para baixo e da esquerda para a direita);

�� PROGRESSIVOPROGRESSIVO - A imagem é codificada usando vários varrimentos que oferecem uma imagem sucessivamente de melhor qualidade;

�� SEM PERDASSEM PERDAS - A codificação garante a reconstrução exacta de cada amostra da imagem original;

�� HIERÁRQUICOHIERÁRQUICO - A imagem é codificada em várias resoluções de modo a que resoluções mais baixas possam estar acessíveis sem descodificar a resolução mais elevada.

Para cada modo de operação são especificados um ou mais codecs que se distinguem pela precisão das amostras da imagem ou pelo método de codificação entrópica

usado.


Modo Progressivo versus Modo SequencialModo Progressivo Modo Progressivo versusversus Modo Modo SequencialSequencial


Codificação Baseada na DCTCodificação Codificação BaseadaBaseada na DCTna DCT

Imagemoriginal DCT Quantificação Codific.

entrópica

Transmissãoou

armazenam.

Imagemdescodificada IDCT

Inversão da

quantificaçãoDescodif. entrópica

Tabela de des-quantificação

Tabela de descodificação

Tabela de quantificação

Tabela de codificação



A acção conjunta dos vários blocos do codificador baseline visa reduzir a redundância e irrelevância contidas na imagem.

Enquanto os primeiros blocos visam a geração de uma sinal sem memória (eliminação da redundância espacial) e sem

irrelevância, a codificação entrópica final visa a geração de símbolos equiprováveis como modo de minimizar os dados a

transmitir (eliminação da redundância estatística).


Codificação por TransformadaCodificação por TransformadaCodificação por Transformada

A codificação por transformada envolve a divisão da imagem em blocos de N××××N pixels aos quais é aplicada a transformada, produzindo blocos de N××××N

coeficientes.

� Uma transformada define-se formalmente pelas equações de transformação directa e inversa:

F(u,v) = F(u,v) = Σ Σ Σ Σ Σ Σ Σ Σi=0i=0NN--11 ΣΣΣΣΣΣΣΣ j=0j=0

NN--11 f(i,j) A(i,j,u,v)f(i,j) A(i,j,u,v)

f(i,j) = f(i,j) = Σ Σ Σ Σ Σ Σ Σ Σu=0u=0NN--11 ΣΣΣΣΣΣΣΣ v=0v=0

NN--11 F(u,v) B(i,j,u,v)F(u,v) B(i,j,u,v)

onde

f(i,j) - sinal de entrada (no espaço)

A (i,j,u,v) - núcleo da transformada directa

F(u,v) - coeficientes da transformada

B (i,j,u,v) - núcleo da transformada inversa


Características das Transformadas RelevantesCaracterísticas das Transformadas Características das Transformadas RelevantesRelevantes

Usam-se transformadas unitárias que apresentam as seguintes características:

� Reversibilidade

� Ortogonalidade dos vectores do núcleo da transformada

� Conservação da energia ou seja a energia no domínio espacial é igual à energia no domínio da transformada

Nota 1: Para as transformadas unitárias A*A=AA*=In onde In é a matriz identidade e *

representa a operação conjugada transposta.

Nota 2: A matriz transposta é conseguida quando se permutam as linhas por colunas e vice-

versa ou seja se a matriz original é n×m, a matriz transposta é m×n.

Nota 3: A matriz conjugada obtem-se substituindo cada elemento pelo seu complexo

conjugado (parte imaginária com sinal trocado).


O que se Espera da Transformada ?O que se O que se EsperaEspera da Transformada ?da Transformada ?

�� Incorrelação da InformaçãoIncorrelação da Informação - A transformada ideal deve gerar coeficientes completamente incorrelacionados.

�� Compactação da EnergiaCompactação da Energia - A maior parte da energia do sinal deve sercompactada num número reduzido de coeficientes.

�� Funções de Base do Núcleo da Transformada Independentes da ImageFunções de Base do Núcleo da Transformada Independentes da Imagemm -Uma vez que as imagens apresentam variações estatísticas acentuadas, a transformada óptima depende normalmente da imagem; devido ao peso computacional que representa a procura da transformada óptima para cada imagem, é desejável que cujas funções de base da transformada sejamindependentes da imagem, ainda que isso possa ser pago em desempenho.

�� Rapidez da ImplementaçãoRapidez da Implementação - O elevado número de operações envolvidas justifica a necessidade de encontrar transformadas com implementações rápidas.


Como Interpretar a Transformada ?Como Como InterpretarInterpretar a a Transformada ?Transformada ?

A expressão da transformada inversa

f(i,j) = f(i,j) = Σ Σ Σ Σ Σ Σ Σ Σu=0u=0NN--11 ΣΣΣΣΣΣΣΣ v=0v=0

NN--11 F(u,v) B(i,j,u,v)F(u,v) B(i,j,u,v)

indica que a transformada pode ser interpretada como a decomposição da imagem no espaço num conjunto de componentes básicas - as funções de base da transformada - adequadamente pesadas através dos respectivos

coeficientes.

A Interpretação EspectralA Interpretação Espectral - Como a maior parte das transformadas usa

funções de base com diferentes frequências (em sentido lato), a

decomposição do sinal através dos coeficientes e das funções de base assume

um caracter espectral onde cada coeficiente representa à fracção de energia

na imagem original correspondente à respectiva função de base/frequência.


Os Coeficientes: Como são ?Os Os CoeficientesCoeficientes: Como : Como sãosão ??


Vantagens da Interpretação EspectralVantagens da Interpretação EspectralVantagens da Interpretação Espectral

A interpretação espectral permite introduzir facilmente na codificação as características do sistema visual humano que são imprescindíveis para

uma codificação eficiente.

� O sistema visual humano é menos sensível às altas frequências espaciais

->> codificação mais grosseira dos coeficientes correspondentes

� O sistema visual humano é menos sensível para luminâncias muito baixas ou muito elevadas

->> codificação mais grosseira do coeficiente DC da luminância nessas condições


Porque se Transformam Blocos ?Porque se Transformam Blocos ?Porque se Transformam Blocos ?

� Basicamente a transformada representa o sinal original num outrodomínio onde pode ser mais eficientemente codificado através da exploração da redundância espacial.

� A exploração mais completa da redundância espacial contida na imagem conduz à aplicação da transformada em blocos N××××N tão grandes quanto possível, idealmente toda a imagem.

� O esforço computacional associado à transformada aumenta rapidamente com a dimensão do bloco onde esta é aplicada.

A aplicação da transformada a blocos, normalmente com 8××××8 pixels, resulta do compromisso entre a exploração da redundância espacial e o

esforço computacional associado.


O que se Transforma …O O queque se se TransformaTransforma ……

144 130 112 104 107 98 95 89

145 135 118 107 106 98 99 92

141 133 119 113 97 98 95 88

139 130 122 113 98 94 94 88

147 135 129 116 101 102 88 92

144 131 128 112 105 96 92 86

149 135 129 116 105 101 91 85

155 142 130 118 106 101 89 87

Y =


O Efeito de BlocoO O EfeitoEfeito de de BlocoBloco


Transformada de Karhunen-Loéve (KLT)Transformada de Transformada de KarhunenKarhunen--LoéveLoéve (KLT)(KLT)

A transformada de Karhunen-Loéve é muitas vezes considerada a transformada ideal por conseguir a

MÁXIMA COMPACTAÇÃO DA ENERGIA DO SINALMÁXIMA COMPACTAÇÃO DA ENERGIA DO SINAL

ou seja se apenas um número limitado de coeficientes for transmitido, os coeficientes da KLT serão aqueles que conterão a fracção mais elevada da energia do sinal em comparação com qualquer outra transformada.

As funções de base da KLT baseiamAs funções de base da KLT baseiam--se nos vectores próprios da se nos vectores próprios da matriz de matriz de covariância covariância de blocos da imagem. de blocos da imagem.


Porque não se usa a KLT ?Porque não se usa a KLT ?Porque não se usa a KLT ?

A utilização da KLT em sistemas de compressão de imagem épraticamente nula porque:

� As suas funções de base dependem da imagem a codificar requerendo o cálculo da matriz de covariância.

� Não existem algoritmos bastante rápidos para o seu cálculo.

� Existem outras transformadas sem as desvantagens acima apontadas e com uma eficiência em termos de compactação de energia apenas ligeiramente inferior.


Transformada de Fourier Discreta (DFT)Transformada de Transformada de FourierFourier Discreta (DFT)Discreta (DFT)

A DFT decompõe o sinal do bloco de imagem nas suas componentes espectrais, sendo u e v as frequências espaciais horizontal e vertical

F(u,v) = 1/N F(u,v) = 1/N Σ Σ Σ Σ Σ Σ Σ Σj=0j=0NN--11 ΣΣΣΣΣΣΣΣ k=0k=0

NN--11 f(j,k) f(j,k) expexp [[-- 2 2 ππππππππ i (i (ujuj ++vkvk) / N]) / N]

f(j,k) = 1/N f(j,k) = 1/N Σ Σ Σ Σ Σ Σ Σ Σu=0u=0NN--11 ΣΣΣΣΣΣΣΣ v=0v=0

NN--11 F(u,v) F(u,v) expexp [2 [2 ππππππππ i (i (ujuj + + vkvk) / N]) / N]

com i = √√√√ -1

� É uma transformada separável já que se pode calcular em dois passos: primeiro aplica-se a transformação unidimensional às colunas e depois às linhas do bloco NxN de dados.

� Produz coeficientes complexos o que é uma desvantagem em termos de memorização e manipulação.

� Gera componentes espectrais espúrias devido à periodicidade implícita dos blocos de imagem.


Transformada de Coseno Discreta (DCT)Transformada de Coseno Discreta (DCT)Transformada de Coseno Discreta (DCT)

A DCT é uma das várias transformadas sinusoidais existentes, sendo os seus vectores de base constituídos por amostras de funções

(co)sinusoidais.

A DCT é, sem dúvida, a transformada mais usada em codificação deimagem por o seu desempenho se aproximar do da KLT para sinais

com elevada correlação e por existirem algoritmos rápidos para a sua implementação.

∑∑−

=

−

=

+

+=

1

0

1

0 2

12

2

122 N

j

N

k N

kv

N

jukjfvCuC

NvuF

)(cos

)(cos),()()(),( ππ

∑∑−

=

−

=

+

+=

1

0

1

0 2

12

2

122 N

u

N

v N

kv

N

juvuFvCuC

Nkjf ππ

)(cos

)(cos),()()(),(


Funções de Base da DCT Unidimensional (N=8)Funções de Base da DCT Unidimensional Funções de Base da DCT Unidimensional (N=8)(N=8)


Funções de Base da DCT Bidimensional (N=8)Funções de Base da DCT Bidimensional Funções de Base da DCT Bidimensional (N=8)(N=8)


DCT

KLT


144 130 112 104 107 98 95 89

145 135 118 107 106 98 99 92

141 133 119 113 97 98 95 88

139 130 122 113 98 94 94 88

147 135 129 116 101 102 88 92

144 131 128 112 105 96 92 86

149 135 129 116 105 101 91 85

155 142 130 118 106 101 89 87

DCT

5.6187- 3.9974- 0.5240- 0.1142 0.8696 0.1559 2.3804 3.4688-

0.3496 0.8410- 0.7874- 0.0628 0.0601 0.6945- 0.1650- 4.1042-

0.3942 1.7394 3.3000 0.4772 0.4010 2.6308 2.6624- 7.9536

2.4750 2.0787 1.8446 2.5000 0.2085 0.8610 2.0745- 0.7500

5.4051 2.7510- 2.7203- 2.1336- 2.8421 1.5106 2.7271- 1.9463

3.1640- 3.1945- 4.4558 2.4614 9.9277- 2.3410 2.6557- 5.3355

1.2591 8.4265 1.9909- 0.2867- 5.2187 7.6122- 16.5235- 12.1982

0.0330 3.5750 5.7540- 0.7500 14.0897- 26.6464 149.5418- 898.0000

Y =

Coef. DCT =


Transformada de Walsh-Hadamard(WHT)Transformada de Transformada de WalshWalsh--HadamardHadamard(WHT)(WHT)

A WHT tem um conjunto de funções de base constituídas apenas por + 1 e -1 o que facilita a sua implementação por não necessitar de

multiplicações.

Ainda que possa ter uma interpretação espectral semelhante às outras transformadas (as suas funções de base têm um número crescente de mudanças de sinal), a sua capacidade de compactação da energia do

sinal de imagem é menor.


Funções de Base da WHT Unidimensional (N=8)Funções de Base da WHT Unidimensional Funções de Base da WHT Unidimensional (N=8)(N=8)


Funções de Base da WHT Bidimensional (N=8)Funções de Base da WHT Bidimensional Funções de Base da WHT Bidimensional (N=8)(N=8)


A DCT no JPEGA DCT no JPEGA DCT no JPEG

Uma vez que a DCT usa funções transcendentes é impossível o seu cálculo com total precisão o que dá origem a diferenças nos resultados de

implementações diferindo ainda que muito ligeiramente (e.g. precisão dos cálculos intermédios, etc).

� Com vista a possibilitar futuros desenvolvimentos, a norma JPEG não especifica nenhuma implementação particular da DCT ou IDCT.

� A norma JPEG especifica um teste de fiabilidade com vista a limitar as diferenças provocadas pela liberdade na implementação da DCT e IDCT.

Nota: A DCT é aplicada às amostras do sinal com P bits, com valores entre

-2P-1 e 2P-1-1 de modo a que o coeficiente DC fique distribuído em torno

de zero.




entrópica

Transmissãoou

armazenam.


Inversão da







Como Trabalha a DCT ?Como Trabalha a DCT ?Como Trabalha a DCT ?

X X X X X X X X

X X X X X X X X

X X X X X X X X

X X X X X X X X

X X X X X X X X

X X X X X X X X

X X X X X X X X

X X X X X X X X

X X X

X X X X X

X X

X X X

X X X

X X

X

DCTDCT

Domínio EspacialDomínio Espacial Domínio Domínio FrequencialFrequencial




entrópica

Transmissãoou

armazenam.


Inversão da







DCT: um ExemploDCT: um DCT: um ExemploExemplo


A Sequência da CodificaçãoA A SequênciaSequência dada CodificaçãoCodificação


A QuantificaçãoA QuantificaçãoA Quantificação

É o modo através do qual a irrelevância ou redundância perceptual é reduzida, sendo o principal responsável pelas

perdas inerentes à codificação baseada na DCT.

Cada passo de quantificação deverá ser escolhido tendo em conta a 'diferença mínima perceptível' no coeficiente que lhe está

associado.

As matrizes de quantificação não estão normalizadas ainda que exista uma sugestão para imagens com resolução ITU-R 601.


Como Funciona a Quantificação ?Como Funciona a Quantificação ?Como Funciona a Quantificação ?

Espaço

(amostras)

sij

DCT Coeficientes DCT

Sij

Coeficientes

quantificados

Sqij

Tabela Quantificação

Qij

Quantificação

Round (S/Q)

IDCTEspaço

(amostras descodificadas)

rij

Coeficientes

quantificados

Sqij

Coeficientes DCT reconst.

Rij

Quantificação Inversa

R = Sq*Q

Transmissão

ou

armazenamento


A norma JPEG sugere a quantificação dos coeficientes DCT através das matrizes com os valores da sensibilidade visual para cada coeficiente (informativo; matrizes têm de ser sempre transmitidas):

Situação: Luminância e crominância com sub-amostragem horizontal 2:1 (formato 4:2:2); amostras com 8 bits (Lohscheller)

Nota: O uso destes passos de quantificação divididos por 2 fornece imagens codificadas indistinguíveis das originais.

Tabelas de Quantificação Tabelas de Quantificação Tabelas de Quantificação

16 11 10 16 24 40 51 6112 12 14 19 26 58 60 5514 13 16 24 40 57 69 5614 17 22 29 51 87 80 6218 22 37 56 68 109 103 7724 35 55 64 81 104 113 9249 64 78 87 103 121 120 10172 92 95 98 112 100 103 99

17 18 24 47 99 99 99 9918 21 26 66 99 99 99 9924 26 56 99 99 99 99 9947 66 99 99 99 99 99 9999 99 99 99 99 99 99 9999 99 99 99 99 99 99 9999 99 99 99 99 99 99 9999 99 99 99 99 99 99 99


Tabelas de QuantificaçãoTabelas de QuantificaçãoTabelas de Quantificação

A análise das matrizes de quantificação sugeridas permite observar que:

� os coeficientes têm uma contribuição diferente para a qualidade subjectiva

� a visão humana é anisotrópica pois os limiares são diferentes para as mesmas frequências espaciais, horizontais ou verticais


0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 1- 1- 1

0 0 0 0 1- 3 14- 56

5.6187- 3.9974- 0.5240- 0.1142 0.8696 0.1559 2.3804 3.4688-

0.3496 0.8410- 0.7874- 0.0628 0.0601 0.6945- 0.1650- 4.1042-

0.3942 1.7394 3.3000 0.4772 0.4010 2.6308 2.6624- 7.9536

2.4750 2.0787 1.8446 2.5000 0.2085 0.8610 2.0745- 0.7500

5.4051 2.7510- 2.7203- 2.1336- 2.8421 1.5106 2.7271- 1.9463

3.1640- 3.1945- 4.4558 2.4614 9.9277- 2.3410 2.6557- 5.3355

1.2591 8.4265 1.9909- 0.2867- 5.2187 7.6122- 16.5235- 12.1982

0.0330 3.5750 5.7540- 0.7500 14.0897- 26.6464 149.5418- 898.0000

Quantificando




entrópica

Transmissãoou

armazenam.


Inversão da







Zig-Zagueando ...ZigZig--ZagueandoZagueando ......

0 1 2 3 10 11 12 13 0 4 6 20 22 36 38 52 0 1 5 6 14 15 27 28

4 5 8 9 17 16 15 14 1 5 7 21 23 37 39 53 2 4 7 13 16 26 29 42

6 7 19 18 26 27 28 29 2 8 19 24 34 40 50 54 3 8 12 17 25 30 41 43

20 21 24 25 30 31 32 33 3 9 18 25 35 41 51 55 9 11 18 24 31 40 44 53

22 23 34 35 42 43 44 45 10 17 26 30 42 46 56 60 10 19 23 32 39 45 52 54

36 37 40 41 46 47 48 49 11 16 27 31 43 47 57 61 20 22 33 38 46 51 55 60

38 39 50 51 56 57 58 59 12 15 28 32 44 48 58 62 21 34 37 47 50 56 59 61

52 53 54 55 60 61 62 63 13 14 29 33 45 49 59 63 35 36 48 49 57 58 62 63

Horizontal alternado Vertical alternado Zig-zag


Serialização dos Coeficientes QuantificadosSerializaçãoSerialização dos dos CoeficientesCoeficientes QuantificadosQuantificados

� Para que o descodificador possareconstruir a matriz de coeficientesquantificados para cada bloco, é preciso enviar-lhe a posição e o valorde cada coeficiente não nulo de forma sequencial (em série).

� A posição de cada coeficientequantificado pode ser enviada de forma absoluta ou relativa.

� A solução adoptada é enviar o posiçãodos coeficientes quantificados nãonulos indicando quantos coeficientesnulos existem na ordem zig-zag entrecada 2 coeficientes não nulos.

Cada bloco de coeficientes DCT é representado como uma

sequência de pares (run, level), e.g. (0,124), (0, 25), (0,147), (0, 126), (3,13), (0, 147), (1,40) ...


A Geração dos SímbolosA Geração dos SímbolosA Geração dos Símbolos

É essencial definir quais são

os símbolos que o codificador

de entropia codifica.

� O coeficiente DC é tratado de modo diferente dos restantes 63, dada a elevada correlação entre os coeficientes DC de blocos 8××××8 adjacentes.

� Os restantes coeficientes, já quantificados, são ordenados em zig-zag de modo a facilitar a codificação entrópica, colocando os coeficientes de mais baixa frequência antes dos de mais alta frequência.

A definição mais precisa dos símbolos a codificar depende do modo de operação DCT e do método de codificação entrópica.


O Modelo Simbólico JPEGO O ModeloModelo SimbólicoSimbólico JPEGJPEG

Uma imagem é representada como uma sequência de blocos 8××××8 independentes, sendo cada bloco representado como uma

sucessão de coeficientes DCT quantificados através de pares (run,level), terminados por um End of Block.

Geradorde Símbolos

(Modelo)

CodificadorEntrópico

ImagemOriginal

Símbolos Bits


Codificação Entrópica JPEGCodificação Codificação Entrópica JPEGEntrópica JPEG

Usa a estatística dos símbolos a transmitir para alcançar compressão adicional (sem perdas).

A codificação entrópica compreende dois passos:

� Conversão da sequência de pares (run, level ) correspondentes aos coeficientes da transformada ordenados em zig-zag numa sequência intermédia de símbolos (símbolo 1 e símbolo 2 a seguir)

� Conversão dos símbolos intermédios num fluxo de bits sem fronteiras entre símbolos externamente identificáveis


A Norma JPEG considera dois tipos de codificação entrópica:

�� CODIFICAÇÃO DE HUFFMANCODIFICAÇÃO DE HUFFMAN - É usada no processo baseline(obrigatório); podem ser usadas tabelas pré-definidas ou optimizadas para a imagem a transmitir.

�� CODIFICAÇÃO ARITMÉTICACODIFICAÇÃO ARITMÉTICA - Baseia-se no princípio de que qualquer acontecimento pode ser codificado como uma sucessão de decisões binárias.

A codificação aritmética produz factores de compressão 5-10 % superiores para as imagens de teste do JPEG ainda que possa ser mais

complexa para certos tipos de implementação.

Codificação Entrópica no JPEGCodificação Entrópica no JPEGCodificação Entrópica no JPEG


Cada coeficiente AC não nulo é representado em combinação com o número de coeficientes nulos que o antecede no varrimento zig-zag (runlength - 0...15)

Cada um destes pares (run, level) para coeficientes AC é representado por um par de símbolos:

� Size - número de bits usados para codificar a Amplitude (ou seja o Level, símbolo 2)

� Level - amplitude (quantificada) do coeficiente AC a ser codificado

Cada coeficiente DC é representado da mesma forma mas tendo o símbolo 1 apenas a parte correspondente ao 'Size'.

Codificação Entrópica: Representação Intermédia dos SímbolosCodificação Entrópica: Representação Codificação Entrópica: Representação Intermédia dos SímbolosIntermédia dos Símbolos

SizeSize LevelLevelRunRun

Símbolo 1 Símbolo 1 -- HuffmanHuffman (bidimensional)(bidimensional) Símbolo 2 Símbolo 2 -- VLIVLI


Codificação Entrópica: Atribuição das Palavras de Código Codificação Entrópica: Atribuição das Codificação Entrópica: Atribuição das Palavras de Código Palavras de Código

� Os símbolos 1 dos coeficientes DC e AC são codificados com o código de Huffman (VLC) correspondente à componente em codificação.

� Os símbolos 2 são codificados com um código VLI - Variable Length

Integer - cujo comprimento depende da amplitude em causa.

� Os códigos VLI são códigos VLC onde o comprimento da palavra é indicado precedentemente e baseiam-se na representação de inteiros na notação complemento para 2 (quando o valor é positivo, transmite-se o valor em binário; quando é negativo, transmite-se o valor em complemento para 2 menos 1 o que corresponde ao mesmo valor em complemento para 1).

� Os códigos VLI podem ser calculados em vez de armazenados (grande vantagem para códigos extensos) e não se demonstraram muito ineficientes em comparação com códigos de Huffman.


Tabelas de Codificação (Símbolos 1 e 2)Tabelas de Tabelas de Codificação (Símbolos 1 e 2)Codificação (Símbolos 1 e 2)

0 1 2 Size 9 10

0 EOB

. X

. X

. X

Runlength

15 ZRL

Run-size values

Size Amplitude

1 -1, 12 -3, -2, 2, 33 -7 …-4, 4 … 74 -15 …-8, 8 … 155 -31 … -16, 16 … 316 -63 … -32, 32 … 637 -127 … -64, 64 … 1278 -255 … -128, 128 … 2559 -511 … -256, 256 … 511

10 -1023 … -512, 512 … 1023

Codificação Codificação

((runrun, , sizesize))

bidimensionalbidimensional

Codificação doCodificação do

levellevel (amplitude)(amplitude)

VLIVLI


Exemplo de Codificação VLI: +12 e -12 Exemplo de Codificação VLI: +12 e Exemplo de Codificação VLI: +12 e --12 12

0000 -15

0001 -14

0010 -13

0011 -12

0100 -11

0101 -10

0110 -9

0111 -8

1000 8

1001 9

1010 10

1011 11

1100 12

1101 13

1110 14

1111 15

1100

0011 +12 em binário

depois de complementado

+12 em binário

O código dos valores negativos é simplesmente o complementar do código para os mesmos valores, sepositivos (complemento para 1).


Afinal Como Comprime o JPEG ?Afinal Como Comprime o JPEG ?Afinal Como Comprime o JPEG ?

� Redundância espacial - DCT

• Elementos da imagem estatisticamente dependentes sãoconvertidos em coeficientes incorrelacionados, sendo a energiada imagem concentrada no menor número possível de coeficientes.

� Irrelevância

• Coeficientes DCT são quantificados usando critériospsicovisuais.

� Redundância estatística

• Estatística dos símbolos é explorada usando codificação run-

lenght e codificação entrópica de Huffman (ou aritmética).


O Modo Sem PerdasO Modo Sem PerdasO Modo Sem Perdas

O modo sem perdas JPEG baseia-se num esquema preditivo. A predição combina os valores de, no máximo, três pixels adjacentes codificando-

se o erro de predição.

A definição de um modo sem perdas baseado na DCT levaria àespecificação mais rigorosa dos codecs.

Dois codecs diferentes são especificados para o modo sem perdas - um com codificação de Huffman e outro com codificação aritmética.

� Os codecs podem usar qualquer precisão entre 2 e 16 bits/amostra.

� O modo sem perdas JPEG oferece uma compressão de ≈≈≈≈ 2:1 para imagens a cores de média complexidade.


Codificação Sem PerdasCodificação Sem PerdasCodificação Sem Perdas

Imagemoriginal

Prediçãoespacial

Codificaçãoentrópica

Transmissãoou

armazenamento

Tabela de Codificação

Modo de predição Predição

0 Sem predição1 A2 B3 C4 A + B – C5 A + ((B - C)/2)6 B + ((A – C)/2)7 (A + B)/2

CCX - amostra a

codificarAA XX

BB


O Modo ProgressivoO Modo ProgressivoO Modo Progressivo

A imagem é codificada em sucessivos varrimentos. O primeiro varrimento dámuito rapidamente uma ideia da imagem que é sucessivamente melhorada nos

varrimentos posteriores.

A implementação do modo progressivo requer uma memória da dimensão da imagem, capaz de armazenar os coeficientes DCT quantificados (11 bits para o

processo baseline) que serão parcialmente codificados em cada varrimento.

Existem dois métodos para a implementação do modo progressivo:

�� SELECÇÃO ESPECTRALSELECÇÃO ESPECTRAL - Apenas uma 'zona' especificada dos coeficientes écodificada em cada varrimento (baixas ->> altas frequências)

�� APROXIMAÇÕES SUCESSIVASAPROXIMAÇÕES SUCESSIVAS - Os coeficientes são codificados com precisão sucessivamente maior

Os métodos de selecção espectral e aproximações sucessivas podem ser aplicados individualmente ou em combinação.


Progressivamente mais Qualidade: Escalabilidade de Qualidade ou SNRProgressivamenteProgressivamente maismais QualidadeQualidade: : Escalabilidade de Escalabilidade de QualidadeQualidade ouou SNRSNR

Fluxo binário

5 kbits 8 kbits

30 kbits


Modo Sequencial ou Sem Escalabilidade ...ModoModo SequencialSequencial ouou SemSem Escalabilidade ...Escalabilidade ...

Fluxo NÃO escalável

Descod. 1 Descod. 2 Descod. 3


Modo Progressivo ou com Escalabilidade de Qualidade ou SNRModoModo ProgressivoProgressivo ouou com com EscalabilidadeEscalabilidade de de QualidadeQualidade ouou SNRSNR

Fluxo escalável

Descod. 1 Descod. 2 Descod. 3


Modo Progressivos:Selecçãoespectral e Aproximações sucessivas

Modo Modo Progressivos:Progressivos:SelecçãoSelecçãoespectral espectral e e Aproximações Aproximações sucessivassucessivas

Cada vezmais

coeficientes

Cada vez maisbits para cada

coeficiente


O Modo HierárquicoO Modo HierárquicoO Modo Hierárquico

� O modo hierárquico implementa uma codificação piramidal da imagem com várias resoluções, em que cada imagem difere da precedente dum factor 2 nas resoluções vertical e horizontal.

� A codificação hierárquica pode integrar nos seus vários passos codificação sem perdas ou codificação baseada na DCT.


Nível 1

Nível 4

Nível 3

Nível 2

Imagem original

Redução

Redução

Redução

Subamostrag.

F. P. B.


Progressivamente mais Resolução ...ProgressivamenteProgressivamente maismais ResoluçãoResolução ......

Fluxo binário

14 kbits 34 kbits 47 kbits


Modo Hierárquico ou Escalabilidade EspacialModoModo HierárquicoHierárquico ouou EscalabilidadeEscalabilidade EspacialEspacial

Fluxo escalável

Descod. 1

Descod. 4

Descod. 3

Descod. 2

Comunicação de Áudio e Vídeo, Fernando PereiraImagem original

Redução

Redução

Expansão

Expansão

+

Redução Expansão

+

-

+

-

+

+

-

+


Codificador HierárquicoCodificador HierárquicoCodificador Hierárquico

1000××××1000

250××××250

500××××500

250××××250 1000××××1000

500××××500

1000××××10001000××××1000


Compressão versus Qualidade Compressão Compressão versusversus Qualidade Qualidade

A Norma JPEG oferece os seguintes níveis de compressão/qualidade para todos os modos de operação, considerando imagens a cores com complexidade média:

�� 0.25 0.25 -- 0.5 bits/pixel0.5 bits/pixel - qualidade moderada a boa, suficiente para certas aplicações

�� 0.5 0.5 -- 0.75 bits/pixel0.75 bits/pixel - qualidade boa a muito boa; suficiente para muitas aplicações

�� 0.75 0.75 -- 1.5 bits/pixel1.5 bits/pixel - qualidade excelente, suficiente para a maior parte das aplicações

�� 1.5 1.5 -- 2.0 bits/pixel2.0 bits/pixel - qualidade indistinguível do original; suficiente para as aplicações mais exigentes

Estes níveis são apenas indicativos já que a compressão/qualidade atingida depende de cada imagem em particular.

O nível de qualidade escolhido é controlada através da matriz de quantificação.


Imagens de Teste JPEGImagens de Teste Imagens de Teste JPEGJPEG


Algumas Medidas (1)Algumas Medidas (1)Algumas Medidas (1)

Condições - Processo baseline baseado na DCT, com as matrizes de quantificação indicadas na norma e codificação Huffman/VLI com tabelas optimizadas; resolução ITU-R 601.

� A maior parte da energia do sinal está concentrada na componentede luminância.

� A maior parte da informação é usada para codificar os coeficientes AC.

� As imagens Barb1 e Barb2, mais ricas em altas frequências, possuem os piores resultados de compressão, estando contudo dentro dos objectivos propostos pelo JPEG.


Algumas Medidas (2)AlgumasAlgumas MedidasMedidas (2)(2)

Imagem Coef. DC

Lum (byte)

Coef DC

crom (byte)

Coef AC

Lum (byte)

Coef AC

Crom (byte)

Global (byte)

Factor Comp.

Ritmo (bit/pel)

SNR Y (dB)

SNR U (dB)

SNR V (dB)

Zelda 4208 2722 19394 3293 29617 28.00 0.571 38.09 42.01 40.98

Barb1 4520 2926 40995 4878 53319 15.56 1.028 33.39 38.38 39.01

Boats 3833 2255 29302 3755 39145 21.19 0.755 35.95 41.13 40.13

Black 3497 2581 21260 6015 33353 24.87 0.643 37.75 40.09 38.23

Barb2 4223 2933 41613 7246 56014 14.81 1.080 32.37 37.05 36.09

Hill 4007 2206 34890 3727 44830 18.50 0.865 34.31 39.83 38.09

Hotel 4239 2708 35520 6658 49125 16.88 0.948 34.55 37.95 36.99


Resumo dos Processos de Codificação: Processo Baseline

Resumo dos Processos de Codificação: Resumo dos Processos de Codificação: Processo Processo BaselineBaseline

Obrigatório em todos os codecs JPEG

Baseado na DCT

Imagem original: amostras com 8 bits para cada componente

Modo Sequencial

Codificação de Huffman: 2 tabelas AC e 2 tabelas DC

Descodificadores devem aceitar imagens com 1, 2, 3 ou 4 componentes

Varrimentos com interleaving ou não


Resumo dos Processos de Codificação: Processo Extensão baseado na DCTResumo dos Processos de Codificação: Resumo dos Processos de Codificação: Processo Extensão baseado na DCTProcesso Extensão baseado na DCT

Baseado na DCT

Imagem original: amostras com 8 ou 12 bits para cada componente

Modo Sequencial ou Progressivo

Codificação de Huffman ou aritmética: 4 tabelas AC e 4 tabelas DC




Resumo dos Processos de Codificação: Processo Sem PerdasResumo dos Processos de Codificação: Resumo dos Processos de Codificação: Processo Sem PerdasProcesso Sem Perdas

Codificação (espacial) preditiva (não baseada na DCT)

Imagem original: amostras com 2... 16 bits para cada componente

Modo Sequencial (sem perdas)

Codificação de Huffman: 4 tabelas DC




Resumo dos Processos de Codificação: Processo Hierárquico Resumo dos Processos de Codificação: Resumo dos Processos de Codificação: Processo Hierárquico Processo Hierárquico

Modo hierárquico

Múltiplas tramas (diferenciais ou não)

Usa processos extensão baseados na DC[ ou processo sem perdas

Descodificadores devem admitir imagens com 1, 2, 3 ou 4 componentes



Outros Formatos: Bitmap (BMP)OutrosOutros FormatosFormatos: : BitmapBitmap (BMP)(BMP)

� Formato BMP inclui normalmente um cabeçalho, os dados de imageme informação adicional, p.e. palette de cores.

� A informação de imagem pode corresponder a amostras PCM ou a índices de uma palette de cores.

� A informação de imagem pode estar estruturada de vários modos, p.e. por amostras, por componentes, etc.

� Vantagens: fácil de criar, de aceder a uma dada posição, de alterar um pixel ou mais

� Desvantagens: Poucoeficiente (não tem compressão)


Outros Formatos: Graphics Interchange

Format (GIF)OutrosOutros FormatosFormatos: : Graphics Interchange Graphics Interchange

FormatFormat (GIF)(GIF)

� Permite armazenar várias imagens do tipo BMP num mesmo ficheiromas sempre do tipo RGB

� Informação de imagem sempre codificada com algoritmo Lempel-Ziv-Welch (LZW); compressões de 40% ou mais para imagens com 8 bit/amostra

� Informação estruturada como sequência de pacotes

� Máximo dimensão da imagem: 64 K ×××× 64 K

� Número de bit/amostra: 1 a 8


Outros Formatos: Tag Image File Format

(TIFF)OutrosOutros FormatosFormatos: : Tag Image File FormatTag Image File Format

(TIFF)(TIFF)

� Permite armazenar várias imagens do tipo BMP num mesmoficheiro

� Informação de imagem pode não ser codificada ou ser codificadacom os algoritmos LZW, RLE, Fax grupo 3, Fax grupo 4, JPEG

� Máximo dimensão da imagem: 232 - 1 pixels

� Número de bit/amostra: 1 a 24

� Vantagens: Muito flexível e variado


BibliografiaBibliografiaBibliografia

� JPEG: Still Image Data Compression Standard, William

Pennebaker, Joan Mitchell, Kluwer Academic Publishers, 1993

� Image and Video Compression Standards: Algorithms and Architectures, Vasudev Bhaskaran and Konstantinos Konstantinides,

Kluwer Academic Publishers, 1995

� Digital Image Compression Techniques, Majid Rabbani, Paul W.

Jones, SPIE Press, Tutorial texts on Optical Engineering, 1991

CAV 5 JPEG 2007 Web - img.lx.it.ptfp/cav/ano2006_2007/Slides/CAV_5_JPEG_2007_Web.pdf ·...

Documents

Transcript of CAV 5 JPEG 2007 Web - img.lx.it.ptfp/cav/ano2006_2007/Slides/CAV_5_JPEG_2007_Web.pdf ·...