Codificação Perceptual de Vídeo e Áudio - lcs.poli.usp.brpjj/Codif_Perceptual.pdf · •Há...

Post on 16-Dec-2018

218 views 0 download

Transcript of Codificação Perceptual de Vídeo e Áudio - lcs.poli.usp.brpjj/Codif_Perceptual.pdf · •Há...

LCS E P U S P

EPUSP - Guido Stolfi 1 / 125

Codificação Perceptual de Vídeo e Áudio

Guido Stolfi – 2017

PTC3452

LCS E P U S P

EPUSP - Guido Stolfi 2 / 125

Tópicos Abordados

• Comunicações Digitais

• Codificação Adaptada à Fonte

• Necessidade de Compressão de Dados

• Codificação Adaptada ao Receptor

• Princípios de Percepção Sensorial

• Percepção Visual

• Compressão de Imagens

• Compressão de Vídeo

• Percepção Auditiva

• Compressão de Áudio

LCS E P U S P

EPUSP - Guido Stolfi 3 / 125

Sistema de Comunicação Digital

Codificador de Fonte

Codificador de Canal

Fonte Modulador

Canal

Demodu-lador

Decodif. de Canal

Decodif. de Fonte

Receptor

LCS E P U S P

EPUSP - Guido Stolfi 4 / 125

Codificadores

• Codificador de Fonte: – Aproveita as características da Fonte (e/ou do Receptor) para efetuar

uma representação eficiente da informação

– Ex.: MPEG, JPEG, ADPCM

• Codificador de Canal: – Introduz redundância para possibilitar a sobrevivência da informação

após as degradações do canal

– Ex.: Paridade, códigos de Hamming, Reed-Solomon

LCS E P U S P

EPUSP - Guido Stolfi 5 / 125

Modulador

• Mapeia a informação digital em formas de onda

– Considera as características do canal (meio de propagação,

resposta em frequência, potência admissível, atenuação etc.)

– Não existe “ transmissão digital”, mas sim “transmissão analógica

de informação digital”.

LCS E P U S P

EPUSP - Guido Stolfi 6 / 125

Modelo de um Canal de Comunicação

Fading RuídoBranco

RuídoImpulsivo

BandaPassante

SinalTransmitido

Em um canal digital, todas as degradações contribuem para a taxa de erros, que corresponde a uma relação S/R equivalente.

LCS E P U S P

EPUSP - Guido Stolfi 7 / 125

Codificação Adaptada à Fonte

• Exemplo: TV de Alta Definição – HDTV

• Características de uma Fonte (Câmera):

– Resolução Espacial: 1080 linhas x 1920 pontos

– Resolução Temporal: 30 imagens por segundo

– Resolução de Contraste: 10000 : 1 (13 bits)

– Codificação Cromática: R-G-B

LCS E P U S P

EPUSP - Guido Stolfi 8 / 125

TV de Alta Definição (HDTV) x TV Convencional

1920

640

480

1080

1’

1,778 : 1

LCS E P U S P

EPUSP - Guido Stolfi 9 / 125

Decomposição dos Elementos de Imagem

R P F dR ( ) ( )

G P F dG ( ) ( )

B P F dB ( ) ( )

R

G

B

LCS E P U S P

EPUSP - Guido Stolfi 10 / 125

Volume de Dados para HDTV

30 quadros por segundo

1080 linhas por quadro

1920 colunas cada linha

3 cores cada ponto (pixel)

13 bits por cor ______________________________________________________

= 2,43 Gbps

LCS E P U S P

EPUSP - Guido Stolfi 11 / 125

Capacidade Limite de um Canal

• Teorema de Shannon:

– Canal com banda passante B

– Sinal com potência média S

– Ruído aditivo gaussiano com potência N

– Canal estacionário (N constante)

sbitsN

SBC /1log 2

LCS E P U S P

EPUSP - Guido Stolfi 12 / 125

Capacidade Limite de Canais de Comunicação

• Exemplo: – Canal telefônico, B = 3,4 kHz, S/N = 50 dB (S/N = 100000)

– Canal de TV, B = 5,8 MHz, S/N = 22 dB

skbC

N

SBC

/47,56609,163400

1000001log34001log 22

sMbC

N

SBC

/5,4232,75800000

5,1581log58000001log 22

LCS E P U S P

EPUSP - Guido Stolfi 13 / 125

Capacidade Prática de Canais Digitais

• Exemplo:

– Canal de TV, B = 6 MHz, Sistema ISDB-T:

Modulação Taxa de Bits S/N mínimo

DQPSK, 1/2 4,06 Mb/s 6,2 dB

DQPSK, 5/6 6,76 Mb/s 9,6 dB

16-QAM, 2/3 10,82 Mb/s 13,5 dB

64-QAM, 1/2 12,17 Mb/s 16,5 dB

64-QAM, 7/8 21,30 Mb/s 22,0 dB

LCS E P U S P

EPUSP - Guido Stolfi 14 / 125

Necessidade de Compressão de Dados

• Volume necessário para HDTV é 100x maior que a capacidade de um canal:

– Radiodifusão VHF/UHF: 20 Mbps

– Satélite: 50 Mbps por transponder

– Cabo: 40 Mbps por canal

• Há necessidade de codificação perceptual e processos de compressão “com perdas”, que exploram as características e limitações da percepção visual humana.

LCS E P U S P

EPUSP - Guido Stolfi 15 / 125

Percepção Sensorial

LCS E P U S P

EPUSP - Guido Stolfi 16 / 125

Processo de Percepção Sensorial

Transdutor Estímulo

Distal Processa-

mento Reconheci-

mento Estímulo Proximal

Receptor

Física

Neurologia

Cognição

LCS E P U S P

EPUSP - Guido Stolfi 17 / 125

Processo de Percepção Sensorial

• Estímulo Distal: – Origem do sinal que pode ser percebido

– Ex.: Objeto iluminado pela luz solar

– Moldado pelas características da fonte (Refletância, iluminamento, espectro da luz solar etc.)

• Receptor: – Órgão que implementa um sentido

– Ex.: Olho humano

• Estímulo Proximal: – É o estímulo local que excita os transdutores

– Ex.: Imagem projetada pela córnea sobre a retina

– Moldado pelas características do receptor (diâmetro da pupila, transmitância da córnea, focalização do cristalino)

LCS E P U S P

EPUSP - Guido Stolfi 18 / 125

Processo de Percepção Sensorial

• Transdutor: – Converte o estímulo proximal em impulsos nervosos

– Ex.: Células sensíveis à luz na retina ocular (cones e bastonetes)

– Sujeito às limitações da transmissão nervosa (sensibilidade espectral, persistência, período refratário, atividade basal, etc.)

• Processamento Neural: – Elaboração e combinação dos estímulos nervosos nas redes neurais em direção

ao cérebro

– Ex.: Camadas do córtex visual

• Percepção e Reconhecimento: – Capacidade de classificar um estímulo em uma categoria que lhe dá significado.

– Identificação, permite à consciência gerar uma ação relacionada.

LCS E P U S P

EPUSP - Guido Stolfi 19 / 125

Estímulos Distal e Proximal

Espectro da Luz Solar

Espectros refletidos pelos objetos

Pupila, Córnea e Cristalino

Imagem Projetada na Retina Ocular

LCS E P U S P

EPUSP - Guido Stolfi 20 / 125

Elementos de Neurologia

• Fibras nervosas transmitem impulsos químicos

• Potencial elétrico é consequência do impulso químico

• Impulsos têm sempre mesma amplitude

• Intensidade do estímulo afeta a taxa de repetição dos impulsos

• Cada fibra nervosa transmite apenas uma qualidade de estímulo

LCS E P U S P

EPUSP - Guido Stolfi 21 / 125

Propagação do Impulso Nervoso

Na+

K+

Na+

Na+

Na+ Na+

Na+

Na+

Na+

K+

K+ K+ K+

K+ Fibra em repouso: Potencial de –75 mV

Na+

K+ Na+

Na+

Na+ Na+

Na+

Na+

Na+

K+

K+ K+ K+

K+

Início do impulso pelo ingresso de um íon de Sódio: Potencial de Ação vai a + 55 mV, parede da fibra torna-se permeável ao Sódio

LCS E P U S P

EPUSP - Guido Stolfi 22 / 125

Propagação do Impulso Nervoso

Propagação com entrada de mais íons de Sódio; paredes da fibra tornam-se permeáveis ao potássio. Potencial retorna a –70 mV

Fim do impulso com a saída do Potássio (paredes tornam-se impermeáveis): Potencial de polarização –70 mV

Na+

K+

Na+

Na+

Na+

Na+

Na+

Na+

Na+

K+

K+ K+

K+

K+

Na+

K+

Na+

Na+

Na+ Na+ Na+

Na+

Na+ K+

K+

K+

K+

K+

LCS E P U S P

EPUSP - Guido Stolfi 23 / 125

Propagação do Impulso Nervoso

Bomba Sódio-Potássio entra em ação (período refratário): Potencial de –70 mV

Na+

K+

Na+

Na+

Na+ Na+ Na+

Na+

Na+ K+

K+

K+

K+

K+

Na+

K+

Na+

Na+

Na+ Na+

Na+

Na+

Na+

K+

K+ K+ K+

K+ Fibra em repouso: Potencial de –75 mV

LCS E P U S P

EPUSP - Guido Stolfi 24 / 125

Impulsos Nervosos em Células Sensoriais

E = 1000

E = 10

E = 0

T

LCS E P U S P

EPUSP - Guido Stolfi 25 / 125

Percepção de Diferenças de Intensidade

log T

P E = 0 E = 1000

100 102

Média de N pulsos

log T

P E = 0 E = 1000

100 102

Média de 10N pulsos

LCS E P U S P

EPUSP - Guido Stolfi 26 / 125

Impulsos Nervosos em Células Sensoriais

Para percepção de brilho, DAP > 1% Para contraste de 10000:1 1,01n = 10000 n= 925 10 bits são suficientes

LCS E P U S P

EPUSP - Guido Stolfi 27 / 125

Transdução do Estímulo Proximal

Imagem Projetada na Retina Ocular

Espectros refletidos pelos objetos, P()

Respostas espectrais das células sensoras (cones) na retina ocular, F()

dFPR R )()(

G P F dG ( ) ( )

B P F dB ( ) ( )

FB()

FG()

FR()

LCS E P U S P

EPUSP - Guido Stolfi 28 / 125

Aproximação da Curva de Percepção de Brilho

1018,0099,0099,1

018,005,4

'

45,0 VV

VV

V

Recomendação ITU-R BT.709

LCS E P U S P

EPUSP - Guido Stolfi 29 / 125

Volume de Dados com Codificação Não-Linear

30 quadros por segundo

1080 linhas por quadro

1920 colunas cada linha

3 cores cada ponto (pixel)

10 bits por cor ______________________________________________________

= 1,87 Gbps

LCS E P U S P

EPUSP - Guido Stolfi 30 / 125

Modelo de Oponentes para Percepção Visual

LCS E P U S P

EPUSP - Guido Stolfi 31 / 125

Representação de Cores por Oponentes

Luminância: Y’ = 0.2627 R’ + 0.6780 G’ + 0.0593 B’

''8814.1

1'

''4746.1

1'

YBP

YRP

B

R

Crominância:

Recomendação ITU-R BT.709

LCS E P U S P

EPUSP - Guido Stolfi 32 / 125

Resolução Espacial das Componentes

Luminância Y’

LCS E P U S P

EPUSP - Guido Stolfi 33 / 125

Resolução Espacial das Componentes

Crominância PB’

LCS E P U S P

EPUSP - Guido Stolfi 34 / 125

Resolução Espacial da Visão

LCS E P U S P

EPUSP - Guido Stolfi 35 / 125

Decimação das Oponentes Cromáticas

64 pixels

64 amostras de Luminância

16 + 16 amostras de Crominância

Recomendação ITU-R BT.709

LCS E P U S P

EPUSP - Guido Stolfi 36 / 125

Taxa de Bits com Decimação da Crominância

30 quadros por segundo

1080 linhas por quadro

1920 colunas cada linha

1 + ¼ + ¼ componentes por pixel

10 bits por componente ______________________________________________________

= 933 Mbps

Compressão de 2:1 !

LCS E P U S P

EPUSP - Guido Stolfi 37 / 125

Compressão de Imagens Fotográficas:

Processo JPEG

LCS E P U S P

EPUSP - Guido Stolfi 38 / 125

Redução da Redundância Espacial por DCT: JPEG

JPEG = Joint Photographic Experts Group

LCS E P U S P

EPUSP - Guido Stolfi 39 / 125

F u vC u C v

f x yx u y v

y x

( , )( ) ( )

( , )cos( )

cos( )

2 2

2 1

16

2 1

160

7

0

7

C k se k

C k se k

( )

( )

1

20

1 0

Transformada Discreta de Cossenos (DCT)

DCT

f(x,y) = 64 elementos de imagem (8x8 pixels)

F(u,v) = 64 componentes de frequências espaciais

LCS E P U S P

EPUSP - Guido Stolfi 40 / 125

P0,0 P0,7

P7,0 P7,7

P1,0

Primitivas da Transformada Discreta de Cossenos (DCT)

LCS E P U S P

EPUSP - Guido Stolfi 41 / 125

Exemplo de Codificação DCT

52 55 61 66 70 61 64 73

63 59 66 90 109 85 69 72

62 59 68 113 144 104 66 73

63 58 71 122 154 106 70 69

67 61 68 104 126 88 68 70

79 65 60 70 77 68 58 75

85 71 64 59 55 61 65 83

87 79 69 68 65 76 78 94

0

5

10

0

5

1050

100

150

200

Bloco de 8 x 8 pixels

LCS E P U S P

EPUSP - Guido Stolfi 42 / 125

Coeficientes DCT

-415 -29 -62 25 55 -20 -1 3

7 -21 -62 9 11 -7 -6 6

-46 8 77 -25 -30 10 7 -5

-50 13 35 -15 -9 6 0 3

11 -8 -13 -2 -1 1 -4 1

-10 1 3 -3 -1 0 2 -1

-4 -1 2 -1 2 -3 1 -2

-1 -1 -1 -2 -1 -1 0 -1

52 55 61 66 70 61 64 73

63 59 66 90 109 85 69 72

62 59 68 113 144 104 66 73

63 58 71 122 154 106 70 69

67 61 68 104 126 88 68 70

79 65 60 70 77 68 58 75

85 71 64 59 55 61 65 83

87 79 69 68 65 76 78 94

DCT

LCS E P U S P

EPUSP - Guido Stolfi 43 / 125

Quantização dos Coeficientes

LCS E P U S P

EPUSP - Guido Stolfi 44 / 125

compressãodefatoronde),(

),(round),(

k

vuQk

vuFvuFQ

16 11 10 16 24 40 51 61

12 12 14 19 26 58 60 55

14 13 16 24 40 57 69 56

14 17 22 29 51 87 80 62

18 22 37 56 68 109 103 77

24 35 55 64 81 104 113 92

79 64 78 87 103 121 120 101

72 92 95 98 112 100 103 99

Q(u,v) =

(Ex. Luminância )

17 18 24 47 99 99 99 99

18 21 26 66 99 99 99 99

24 26 56 99 99 99 99 99

47 66 99 99 99 99 99 99

99 99 99 99 99 99 99 99

99 99 99 99 99 99 99 99

99 99 99 99 99 99 99 99

99 99 99 99 99 99 99 99

(Ex. Crominância )

Quantização dos Coeficientes

LCS E P U S P

EPUSP - Guido Stolfi 45 / 125

Coeficientes DCT Quantizados (k=2)

-26 -1 -3 1 1 0 0 0

0 -1 -2 0 0 0 0 0

-2 0 2 -1 0 0 0 0

-2 0 1 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

-415 -29 -62 25 55 -20 -1 3

7 -21 -62 9 11 -7 -6 6

-46 8 77 -25 -30 10 7 -5

-50 13 35 -15 -9 6 0 3

11 -8 -13 -2 -1 1 -4 1

-10 1 3 -3 -1 0 2 -1

-4 -1 2 -1 2 -3 1 -2

-1 -1 -1 -2 -1 -1 0 -1

16 11 10 16 24 40 51 61

12 12 14 19 26 58 60 55

14 13 16 24 40 57 69 56

14 17 22 29 51 87 80 62

18 22 37 56 68 109 103 77

24 35 55 64 81 104 113 92

79 64 78 87 103 121 120 101

72 92 95 98 112 100 103 99

),(2

),(round

vuQ

vuF

LCS E P U S P

EPUSP - Guido Stolfi 46 / 125

Coeficientes da DCT reconstruídos

16 11 10 16 24 40 51 61

12 12 14 19 26 58 60 55

14 13 16 24 40 57 69 56

14 17 22 29 51 87 80 62

18 22 37 56 68 109 103 77

24 35 55 64 81 104 113 92

79 64 78 87 103 121 120 101

72 92 95 98 112 100 103 99

-26 -1 -3 1 1 0 0 0

0 -1 -2 0 0 0 0 0

-2 0 2 -1 0 0 0 0

-2 0 1 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

416 -22 -60 32 48 0 0 0

0 -24 -56 0 0 0 0 0

-56 0 64 -48 0 0 0 0

-56 0 44 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

DCT-1

LCS E P U S P

EPUSP - Guido Stolfi 47 / 125

Imagem Reconstruída

50 45 53 66 64 53 60 78

55 54 69 95 99 81 69 71

64 62 83 121 135 111 78 61

74 64 79 118 139 117 79 56

82 62 62 91 111 98 73 59

86 62 53 69 80 74 67 70

87 69 60 67 68 61 67 83

87 75 72 76 70 59 70 92

-2 -10 -8 0 -6 -8 -4 5

-8 -5 3 5 -10 -4 0 -1

2 3 15 8 -9 7 12 -12

11 6 8 -4 -15 11 9 -13

15 1 -6 -13 -15 10 5 -11

7 -3 -7 -1 3 6 9 -5

2 -2 -4 8 13 0 2 0

0 -4 3 8 5 -17 -8 -2

Erro de Reconstrução

LCS E P U S P

EPUSP - Guido Stolfi 48 / 125

Reconstrução de Imagem JPEG

Imagem Original Imagem Reconstruída

LCS E P U S P

EPUSP - Guido Stolfi 49 / 125

Codificação R.L.E. (Run-Length Encoding)

Compactação

Codificação Perceptual

Reorgnização

LCS E P U S P

EPUSP - Guido Stolfi 50 / 125

Reordenação em Zig-zag

[ -26 -1 0 -2 -1 -3 1 -2 0 -2 0

0 2 0 1 0 0 -1 1 EOB ]

-26 -1 -3 1 1 0 0 0

0 -1 -2 0 0 0 0 0

-2 0 2 -1 0 0 0 0

-2 0 1 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

(20 símbolos)

LCS E P U S P

EPUSP - Guido Stolfi 51 / 125

Codificação RLE (Run-Length Encoding )

[ -26 0/-1 1/-2 0/-1 0/-3 0/1 0/-2

1/-2 2/2 1/1 2/-1 0/1 EOB ]

1o. coeficiente

Número de zeros anteriores

Valor do coeficiente

Símbolo

(13 símbolos)

LCS E P U S P

EPUSP - Guido Stolfi 52 / 125

Codificação Estatística (Huffman)

LCS E P U S P

EPUSP - Guido Stolfi 53 / 125

Codificação Estatística – Código de Huffman Modificado

• Símbolos de Comprimento Variável

• Comprimento do símbolo é tanto menor quanto maior a sua probabilidade de ocorrência

• Sequência de símbolos concatenados (bit stream) é univocamente decodificável

• Código especial para “Fim de Bloco” (EOB)

• Tabela incompleta

• Código de “Escape” para sequências não contidas na tabela

LCS E P U S P

EPUSP - Guido Stolfi 54 / 125

Tabela de Codificação para Coeficientes AC

Zeros/

Categoria Prefixo

Comprim.

total

0/1 00x 3

0/2 01xx 4

0/3 100xxx 6

0/4 1011xxxx 8

0/5 11010xxxxx 10

0/6 111000xxxxxx 12

0/7 1111000.. 14

0/8 1111110110.. 18

0/9 1111111110000010.. 25

0/A 1111111110000011.. 26

1/1 1100x 5

1/2 111001xx 8

1/3 1111001xxx 10

Zeros/

Categoria Prefixo

Comprim.

total

3/1 111010x 7

3/2 111110111xx 11

3/3 11111110111xxx 14

3/4 1111111110010000.. 20

...

13/1 11111111010x 12

13/2 1111111111100011xx 18

13/3 1111111111100100.. 19

...

15/7 1111111111111011.. 23

15/8 1111111111111100.. 24

15/9 1111111111111101.. 25

15/A 1111111111111110.. 26

(Trechos)

LCS E P U S P

EPUSP - Guido Stolfi 55 / 125

Codificação Huffman por Tabela de Códigos

11000101 000 11100110 000 0100 001 0101

11100101 111110010 11001 110110 001 1010

Bloco original: 8 8 8 = 512 bits (8 bits por pixel) Bloco comprimido: 68 bits (1,06 bits/pixel)

Compressão de 7,5:1 !

[ -26 0/1/-1 1/2/2 0/1/-1 0/2/-3 0/1/1 0/2/-2

1/2/-2 2/2/2 1/1/1 2/1/-1 0/1/1 EOB ]

-26 0/1/-1 1/2/2

EOB

No. Zeros Categoria

Valor

2/2/2

LCS E P U S P

EPUSP - Guido Stolfi 56 / 125

Exemplo: Compressão JPEG 20:1

“Lena”, © Playboy 1972

Original 512 x 512 Reconstruída

LCS E P U S P

EPUSP - Guido Stolfi 57 / 125

Compressão de Imagens Em Movimento:

Processo MPEG

LCS E P U S P

EPUSP - Guido Stolfi 58 / 125

Codificador MPEG

• MPEG-1: Moving Pictures Experts Group - ISO/IEC 11172a • Compressão com Preditor para Compensação de Movimento • Compressão com DCT para o erro de predição

Preditor Preditor

y(t)

y(t) ^ y(t) ^

y(t) e(t) +

-

Transmissor Receptor

Canal

S1 S2

LCS E P U S P

EPUSP - Guido Stolfi 59 / 125

Preditor de Ordem Zero: “Frame Store”

Anterior Atual Erro de Predição (diferença entre as

duas imagens)

(referência)

LCS E P U S P

EPUSP - Guido Stolfi 60 / 125

Diferença Entre Imagens Sucessivas

LCS E P U S P

EPUSP - Guido Stolfi 61 / 125

Diferença Entre Imagens Sucessivas

Histograma de amplitudes da imagem original

Histograma da diferença entre 2 imagens

0 128 255 -255 0 255

LCS E P U S P

EPUSP - Guido Stolfi 62 / 125

Preditor com Compensação de Movimento

Erro de Predição (sem compensação)

Vetor de Movimento Predição (com compensação) Erro de Predição

(com compensação)

Anterior Atual (referência)

LCS E P U S P

EPUSP - Guido Stolfi 63 / 125

Compensação de Movimento por Blocos

Imagem de Referência Imagem atual

x

y

x

y

Área de Busca

Bloco de MaiorSemelhança

Vetor de Movimento

Bloco a serEstimado

LCS E P U S P

EPUSP - Guido Stolfi 64 / 125

Compensação de Movimento

Sem Compensação de Movimento

Com Compensação de Movimento

LCS E P U S P

EPUSP - Guido Stolfi 65 / 125

Histogramas do Erro de Predição

Sem compensação de movimento

Com compensação de movimento

-255 0 255 -255 0 255

LCS E P U S P

EPUSP - Guido Stolfi 66 / 125

Codificador MPEG-1

LCS E P U S P

EPUSP - Guido Stolfi 67 / 125

Decodificador MPEG-1

LCS E P U S P

EPUSP - Guido Stolfi 68 / 125

Preditor MPEG com Compensação de Movimento

Compensador de

Movimento Vetores de Movimento

Imagens de Referência

Imagem Compensada

Imagem Reconstruída

Erro de Reconstrução

LCS E P U S P

EPUSP - Guido Stolfi 69 / 125

Tipos de Imagens em MPEG-1

• Imagens I (Independentes, Intra-frame): codificadas sem predição de movimento, apenas por DCT, quantização e compactação

• Imagens P (predição progressiva de movimento): reconstruídas através de predição de movimento, baseando-se em imagens de referência anteriormente codificadas, tipo I ou P

• Imagens B (predição bidirecional): o preditor baseia-se em duas imagens de referência (anterior e posterior, do tipo I ou P)

LCS E P U S P

EPUSP - Guido Stolfi 70 / 125

Compensação de Movimento Bidirecional

Ex.: Movimento de Câmera (Translação)

Imagem anterior Imagem atual Imagem futura

Predição regressiva Predição progressiva Predição bidirecional

LCS E P U S P

EPUSP - Guido Stolfi 71 / 125

Predição de Movimento Bidirecional

y

x

y+dy

x+dx

referencia anterior (I ou P)

quadro atual (B)

referencia futura (I ou P)

LCS E P U S P

EPUSP - Guido Stolfi 72 / 125

Grupos de Imagens em MPEG

I B B B B B

B P P

1 2 3 4 5 6 7 8 9 10

I

1 3 4 2 6 7 5 9 10 8

Ordem de Apresentação:

Ordem de Transmissão:

Predição Progressiva

Predição Bidirecional

LCS E P U S P

EPUSP - Guido Stolfi 73 / 125

Hierarquia dos Elementos de uma Sequência de Vídeo MPEG

SEQUÊNCIA

GRUPO DE IMAGENS

IMAGEM

FATIA DE IMAGEM

MACROBLOCO

BLOCO 1

BLOCO 2

BLOCO

3 BLOCO

4

BLOCO 5

BLOCO 6

(LUMINÂNCIA)

U V (CROMINÂNCIA)

LCS E P U S P

EPUSP - Guido Stolfi 74 / 125

Estrutura do Macrobloco MPEG

Y 8x8

Cb (B-Y)

Cr (R-Y) 8x8

8x8

Y

Y 8x8

LCS E P U S P

EPUSP - Guido Stolfi 75 / 125

Estrutura de Amostragem “4:2:0”

Y

U, V

Amostras:

LCS E P U S P

EPUSP - Guido Stolfi 76 / 125

Tabelas de Quantização MPEG-1

Intra-Frame (Imagens Tipo I)

8

16

19

22

26

27

29

34 16

16

22

24

27

29

34

37

19

22

26

27

39

34

34

38 22

22

26

27

29

34

37

40

22

26

27

29

32

35

40

48 26

27

29

32

35

40

48

58

26

27

29

34

38

46

56

69 27

29

35

38

46

56

69

83

16

16

16

16

16

16

16

16 16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16 16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16 16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16 16

16

16

16

16

16

16

16

Inter-Frame (Imagens Tipo P, B)

(Tabelas Padrão)

LCS E P U S P

EPUSP - Guido Stolfi 77 / 125

Quantização dos Coeficientes da DCT

0,/),(

8),(

08

)0,0(

),(

vupvuQq

vuF

vuparaF

vuFq

Blocos tipo I: arredondamento p/ inteiro mais próximo Blocos tipo P, B: arredondamento em direção a zero

LCS E P U S P

EPUSP - Guido Stolfi 78 / 125

Exemplos: Fotograma Original

512 x 480 8 bits

0 128 255

LCS E P U S P

EPUSP - Guido Stolfi 79 / 125

Erro de Reconstrução (apenas DCT)

Contraste aumentado (x 16)

-15 0 15

LCS E P U S P

EPUSP - Guido Stolfi 80 / 125

Erro de Reconstrução (apenas Compensação de Movimento)

Contraste aumentado (x 16)

-15 0 15

LCS E P U S P

EPUSP - Guido Stolfi 81 / 125

Erro de Reconstrução (Compensação de Movimento + DCT)

Contraste aumentado (x 16)

-15 0 15

LCS E P U S P

EPUSP - Guido Stolfi 82 / 125

Erro de Reconstrução (Compensação de Movimento + DCT)

Contraste real

-127 0 127

LCS E P U S P

EPUSP - Guido Stolfi 83 / 125

Desempenho dos Codificadores de Vídeo

• MPEG-1: compressão da ordem de 50:1 – Uso em Multimídia, Video-CD

• MPEG-2: da ordem de 100:1 – Recursos para TV com imagens entrelaçadas

– Adotado para HDTV nos sistemas ATSC (EUA), ISDB-T (Japão) e DVB (Europa)

• H.264: até 200:1 – Blocos de tamanho variável (16 x 16 a 4 x 4), preditor para imagens Tipo I, filtro anti-

blocagem, codificação aritmética

– Adotado no sistema ISDB-TB (Brasil)

– Permite transmitir 2 programas HDTV em um canal de VHF/UHF

• H.265: maior que 300:1 – Permite transmissão no modo “4k” (3840 x 2160 pixels)

LCS E P U S P

EPUSP - Guido Stolfi 84 / 125

Desempenho dos Codificadores

0,00

1,00

2,00

3,00

4,00

5,00

0 5 10 15 20

H.264

MPEG-2

H.264

MPEG-2

Mb/s

Avaliação subjetiva de sequencias de vídeo HDTV

LCS E P U S P

EPUSP - Guido Stolfi 85 / 125

Codificador HEVC / H.265

• ISO/IEC MPEG + ITU-T VCEG (Moving Pictures Experts Group e Video Coding Experts Group)

• Finalizado e ratificado em 13/04/2013

• Recursos:

– “Coding Tree Unit”: 64 x 64, 32 x 32, 16 x 16, 8 x 8, 4 x 4

– Vários espaços de Cromaticidade: NTSC, PAL, Rec.601, Rec.709, Rec.2020, RGB, etc.

– Focado em vídeo sem entrelaçamento

– Transformadas inteiras 4x4, 8x8, 16x16 e 32x32

– Preditores Intra com mais direções de interpolação

– Suporte para vídeo UHDV (“8k”)

LCS E P U S P

EPUSP - Guido Stolfi 86 / 125

Codificador HEVC / H.265

• Partições 16 x 16 vs. 64 x 64

LCS E P U S P

EPUSP - Guido Stolfi 87 / 125

Codificador HEVC / H.265

• Comparação com H.264:

LCS E P U S P

EPUSP - Guido Stolfi 88 / 125

Codificação de Áudio

LCS E P U S P

EPUSP - Guido Stolfi 90 / 125

Estímulo Distal

• Ondas de pressão sonora, longitudinais, produzidas por: – Cordas e membranas vibrantes

– Percussão e atrito entre objetos

– Turbulências em fluxos de gás

– Voz humana

– Transdutores eletroacústicos

– etc.

• Caracterizadas por: – Frequências até >100 kHz (audíveis até 20 kHz)

– Amplitudes toleráveis acima de 20 Pa até 20Pa (0 a 120 dB SPL)

– Reflexões múltiplas no ambiente (reverberação)

– Fontes não puntiformes

LCS E P U S P

EPUSP - Guido Stolfi 91 / 125

Pressão Sonora: Unidade de Medida

Pa20onde)SPLdb(log20Sonora Pressão o

o

pp

p

• Limiar de Audibilidade: 20 Pa rms = 2x10-5 N/m2 @ 1 kHz (1 pw/ m2)

• ( Pressão atmosférica: ~ 100 kPa )

• Volume Sonoro = grandeza subjetiva associada à percepção sensorial da intensidade de um som

– 1 Phon = 1 dB SPL @ 1 kHz

LCS E P U S P

EPUSP - Guido Stolfi 92 / 125

Situações Sonoras

dB SPL dB SPL

Foguete 195 Conversação 65

Avião a jato 155 Restaurante 60

Limiar de dor 140 Residência urbana 40

Limiar de desconforto 120=1W/m2 Casa de campo 30

Orquestra fortíssimo 110 Orquestra pianíssimo 30

Rebitadeira 100 Estúdio de gravação 20

Fábrica 78 Folhagens na brisa 10

Tráfego pesado 68 Limiar de audição 0=1pw/m2

Escritório ruidoso 65 Ruído térmico do ar -10

LCS E P U S P

EPUSP - Guido Stolfi 93 / 125

Estrutura do Receptor Auditivo

cóclea

nervo

martelo bigorna canais semicirculares

janela oval

estribotímpano

janela circular

auditivatrompa

orelha

canal auditivo

osso da têmpora

lóbulo temporal

LCS E P U S P

EPUSP - Guido Stolfi 94 / 125

Representação Esquemática do Ouvido

15k 1k 60Hz2504k

~2,2 cm

~3 cm

Membrana Basilar

Janelas

canal

cóclea

nervos

Órgãos de Corti

LCS E P U S P

EPUSP - Guido Stolfi 95 / 125

Resposta em Frequência do Canal Auditivo

LCS E P U S P

EPUSP - Guido Stolfi 96 / 125

Ouvido Médio

LCS E P U S P

EPUSP - Guido Stolfi 97 / 125

Estrutura da Cóclea

LCS E P U S P

EPUSP - Guido Stolfi 98 / 125

A Cóclea Distendida

LCS E P U S P

EPUSP - Guido Stolfi 99 / 125

Secção da Cóclea

LCS E P U S P

EPUSP - Guido Stolfi 100 / 125

Secção da Cóclea

LCS E P U S P

EPUSP - Guido Stolfi 101 / 125

Detalhe dos Órgãos de Corti

LCS E P U S P

EPUSP - Guido Stolfi 102 / 125

Células de Corti

LCS E P U S P

EPUSP - Guido Stolfi 103 / 125

Células de Corti

Internas Externas

LCS E P U S P

EPUSP - Guido Stolfi 104 / 125

Atuação das Células Ciliares

LCS E P U S P

EPUSP - Guido Stolfi 105 / 125

Seletividade da Membrana Basilar

LCS E P U S P

EPUSP - Guido Stolfi 106 / 125

Alguns Números:

• 3.500 Células Ciliares Internas

• 12.000 Células Ciliares Externas

• 30.000 Fibras Nervosas Aferentes:

– 90~95% provenientes das Células Internas

– Células Internas com até 20 sinapses

• ~500 Fibras Nervosas Eferentes:

– Destinadas às Células Externas

LCS E P U S P

EPUSP - Guido Stolfi 107 / 125

Resposta das Células Internas

LCS E P U S P

EPUSP - Guido Stolfi 108 / 125

Células Externas como Atenuadores

LCS E P U S P

EPUSP - Guido Stolfi 109 / 125

Células Externas como Atuadores

LCS E P U S P

EPUSP - Guido Stolfi 110 / 125

Curvas de Igual Volume Sonoro (tons senoidais)

LCS E P U S P

EPUSP - Guido Stolfi 111 / 125

Faixa Dinâmica para Música e Voz

LCS E P U S P

EPUSP - Guido Stolfi 112 / 125

Exemplo de Mascaramento

LCS E P U S P

EPUSP - Guido Stolfi 113 / 125

Compressão de Áudio:

Processo MPEG

LCS E P U S P

EPUSP - Guido Stolfi 114 / 125

Necessidade da Compressão de Áudio

• “Qualidade CD” – 2 canais de áudio (som estereofônico)

– resposta em frequência de 20 a 20.000 Hz

– relação Sinal/Ruído de 90 dB

– 2 x 44.1 kHz x 16 bits = 1.41 Mbits / s

• “Qualidade Cinema” – 5 canais de áudio de 20 a 20.000 Hz:

• Direito, Esquerdo, Central, Traseiro Direito e Traseiro Esquerdo

• 1 canal efeitos sonoros de 3 a 150 Hz ("Sub-Woofer", omnidirecional)

– Faixa dinâmica de 100 dB

– 5.1 x 48 kHz x 24 bits = 5,9 Mbits / s

LCS E P U S P

EPUSP - Guido Stolfi 115 / 125

Tecnologias Chave para Compressão de Áudio

• Codificação por Sub-bandas

• Modelo Psico-acústico do Mascaramento

• Quantização Adaptativa

• Codificação Estatística

LCS E P U S P

EPUSP - Guido Stolfi 116 / 125

Codificação por Sub-Bandas

Sinal de Áudio

Banco de Filtros

Sub - bandas

LCS E P U S P

EPUSP - Guido Stolfi 117 / 125

Codificador MPEG Áudio

LCS E P U S P

EPUSP - Guido Stolfi 118 / 125

Exemplo de Modelo Psico-Acústico

FFT Separador

Tonal

Não- Tonal

Cálculo da

Potência

por Banda

Cálculo do

Limiar

Absoluto

Limiar

Tonal

Limiar

Não-Tonal

SPL(b)

SMR(b)

Funções de Mascaramento

mínimo

M(b)

PCM

LCS E P U S P

EPUSP - Guido Stolfi 119 / 125

Exemplo de Cálculo de Limiar de Mascaramento Total

freq.

Limiar Absoluto

Mascaramento não-tonal

Mascaramento tonal

Limiar Total

SMR

Som tonal (banda estreita)

Som não-tonal (banda larga)

Som tonal inaudível (abaixo do mascaramento)

LCS E P U S P

EPUSP - Guido Stolfi 120 / 125

Limiar de Mascaramento na Sub-banda

Sinal de Áudio

Mascaramento Total

Amplitude de Pico na Banda b

Limiar de Ruído de Quantização na Banda b

SMR(b)

SPL(b)

Fundo de Escala do Quantizador Qb SPL(b) Ruído de Quantização SMR(b) = 6,02Nb + 4,77 (dB) Número de bits Nb = (SMR(b)-4,77)/6,02

LCS E P U S P

EPUSP - Guido Stolfi 121 / 125

Desempenho dos Sistemas de Compressão

Padrão Canais Taxa de

Compressão

Taxa

Original

Taxa

Comprimida

Atraso

A/D/A

MPEG-1:I 2 4:1 1,41 Mb/s 384 kb/s 19 ms

Sony ATRAC 2 5:1 1,41 Mb/s 292 kb/s

MPEG-1:III (MP3) 2 8:1 1,41 Mb/s 128 kb/s > 80 ms

MPEG-2:III 5.1 10:1 3,53 Mb/s 384 kb/s

Dolby AC-3 5.1 12:1 3,53 Mb/s 290 kb/s 45 ms

AAC 2 16:1 1,54 Mb/s 96 kb/s

LCS E P U S P

EPUSP - Guido Stolfi 122 / 125

Comparações

Original .wav,44.1k

MPEG-1 Layer III 32 kbps

LCS E P U S P

EPUSP - Guido Stolfi 123 / 125

Comparações

MP3 48 kbps 24 kHz

MP3 16 kbps 12 kHz

MP3 8 kbps 8 kHz

LCS E P U S P

EPUSP - Guido Stolfi 124 / 125

Processo de Percepção Sensorial

Transdutor Estímulo

Distal Processa-

mento Reconheci-

mento Estímulo Proximal

Receptor

Física

Neurologia

Cognição

LCS E P U S P

EPUSP - Guido Stolfi 125 / 125

Obrigado!

Apresentação baseada na ementa do curso:

PTC2547 – Princípios de Televisão Digital

Prof. Dr. Guido Stolfi

Departamento de Telecomunicações - PTC

Escola Politécnica da USP

gstolfi@lcs.poli.usp.br