TESE APRESENTADA À DIVISÃO DE PÓS-GRADUAÇÃO DO … · Tabela 1. Ligações entre o...

TESE APRESENTADA À DIVISÃO DE PÓS-GRADUAÇÃO DO INSTITUTO

TECNOLÓGICO DE AERONÁUTICA COMO PARTE DOS REQUISITOS PARA

OBTENÇÃO DO TÍTULO DE MESTRE EM CIÊNCIA NA ÁREA DE DISPOSITIVOS

E SISTEMAS ELETRÔNICOS DO CURSO DE ENGENHARIA ELETRÔNICA E

COMPUTAÇÃO

Eduardo Henr ique Marcondes

Sistema de Visão Ar tificial Utili zando Efeito Psico-Acústico

Tese aprovada em sua versão final pelos abaixo assinados.

____________________________ Prof. Dr. Osamu Saotome

ORIENTADOR

______________________________ Prof. Dr. Júlio César Lucchi

CO-ORIENTADOR

_________________________________________ Prof. Dr. Homero Santiago Maciel

CHEFE DA DIVISÃO DE PÓS-GRADUAÇÃO

CAMPO MONTENEGRO

SÃO JOSÉ DOS CAMPOS, SP, BRASIL.

2002

Sistema de Visão Ar tificial Utili zando Efeito Psico-Acústico

Eduardo Henr ique Marcondes

Composição da Banca Examinadora

Prof. Dr. Roberto D’Amore Presidente

Prof. Dr. Osamu Saotome Orientador

Prof. Dr. Júlio César Lucchi Co-orientador

Prof. Dr. Waldecir Perrela ITA

Prof. Dr. Renato Giacomini FEI

Dr. Paulo Schor UNIFESP

ITA, dezembro de 2002

I

Índice de Assuntos

I I ntrodução 1

I.1 Motivação 3

I.2 Revisão Bibliográfica 4

I.2.1 Sistemas e estudos desenvolvidos anteriormente. 5

I.2.1.1 Sistema experimental para a conversão de imagem em som 6

I.2.1.2 “People Sensor” 9

I.2.1.3 Sistemas de navegação baseados em GPS 10

I.2.1.4 Percepção por estímulos eletro-táteis através da língua 12

I.2.1.5 Conexão de uma câmera de TV ao cortex visual 14

I.3 Conclusão sobre sistemas desenvolvidos anteriormente. 15

I.4 Contribuição deste trabalho.

16

II Metodologia 18

II .1 Aquisição de imagens por dispositivos digitais 18

II .1.1 Câmeras CCD 19

II .1.2 O CCD Util izado 20

II .1.3 Interface entre o CCD e o hadware utili zado 22

II .2 Especificação de uma cor por sua composição. 27

II .2.1 Modelos matemáticos para representação de cores 28

II .2.2 Diagrama de cromaticidade 35

II .2.3 Melhoramentos em uma imagem colorida 36

II .3 Características da visão humana 38

II .4 Som 39

II

II .4.1 Acústica. 39

II .4.2 Características dos sons musicais 40

II .5 Como o ouvido humano capta os sons 45

II .6 Métodos de gravação e reprodução de sons e músicas. 45

II .6.1 Arquivos de som digital. 46

II .6.1.1 O formato de áudio digitalizado Wave. 47

II .6.1.2 Geração de arquivos de áudio digital. 47

II .6.1.3 Reprodução de arquivos de áudio digitalizado. 48

II .6.1.4 Modulação por processamento digital de áudio. 50

II .6.1.5 Modulação em freqüência de áudio digital. 50

II .6.1.6 Modulação em amplitude de áudio digital. 50

II .6.1.7 Reprodução de múltiplos arquivos de áudio digital. 50

II .6.1.8 Associando diversas modulações 51

II .7 Reprodução util izando acesso direto ao hardware do IBM-PC

55

III I mplementação 56

III .1 Escolha de modelos para representação de cores. 56

III .1.1 Identificação da cor. 58

III .1.2 Diferenciação entre nuances de determinada cor. 59

III .1.3 Identificação de brilho. 61

III .2 Protótipo para testes 62

III .2.1 Implementação do sistema de aquisição de imagem. 63

III .3 Implementação do sistema de análise de cores. 63

III .3.1 Formato de armazenagem do histograma 64

III

III .3.2 Criação do histograma colorido de uma região da imagem 66

III .3.3 Ordenação por ordem de quantidade 66

III .4 Implementação do sistema de modulação e reprodução. 67

III .4.1 Reprodução dos sons digitalizados associados a cada cor 68

III .5 Configurações possíveis.

70

IV Testes realizados 72

IV.1 Descrição dos testes. 72

IV.2 Método de treinamento do deficiente. 73

IV.3 Dinâmica dos testes. 74

IV.3.1 Identificação de objetos de forma conhecida 74

IV.3.2 Localizando objetos de forma e cores conhecidas 74

IV.3.3 Descoberta de novos objetos. 75

IV.4 Propostas para trabalhos futuros 76

IV.4.1 Propostas para aperfeiçoamento 76

IV.4.2.Propostas para usos.

77

V Conclusões 79

V.1 Análise dos resultados práticos. 80

V.1.1 Identificação de objetos de forma conhecida 80

V.1.2 Localizando objetos de forma e cores conhecidas. 81

V.1.3 Descoberta de novos objetos. 81

IV

Apêndice A - Teor ia sobre imagens e cores 82

A.1 Imagens 83

A.1.1 Sistemas de vídeos analógicos e digitais 84

A.1.2 Terminologia referente ao processo de digitalização 86

A.1.3 Os elementos de um sistema para digitalização de imagens 86

A.1.4 Características de um digitalizador de imagens 87

A.1.5 Processamento de imagens digitais 88

A.1.6 Processamento de imagens acromáticas 89

A.1.7 Usos do histograma acromático 90

A.1.8 Processamento de imagens coloridas tricromáticas 92

A.2 Cores 93

A.2.1 A cor do ponto de vista físico. 93

A.2.2 A cor do ponto de vista humano. 96

A.2.2.1 Características da visão humana 97

A.2.2.2 O olho humano 97

A.2.2.3 Acuidade visual 101

A.2.3 Mistura de cores.

102

Apêndice B – Características do CCD util izado. 105

B.1 Características 105

B.2 Pinagem 106

B.2 Protocolo

107

V

Apêndice C – Resultados obtidos nos testes. 110

C.1 Teste 1:Identificação de objetos de forma conhecida 111

C.2 Teste 2:Localizando objetos de forma e cores conhecidas. 112

C.3 Teste 3:Descoberta de novos objetos

116

Apêndice D – Diagramas esquemáticos 120

D.1 Esquema Elétrico da placa de aquisição 120

D.2 Layout da placa de aquisição.

121

Apêndice E – Uso do Software desenvolvido para estudo 122

E.1) Introdução 122

E.2) Implementação do sistema de aquisição de imagem. 122

E.3) Implementação do sistema de análise de cores. 123

E.4) Configurações possíveis. 125

E.4.1) Sons produzidos por cada cor. 125

E.4.2) Configurações gerais do algoritmo.

126

Referências Bibliográficas 128

VI

Índice de Figuras

Figura 1- Princípios de mapeamento da conversão imagem/som 7

Figura 2- ”People Sensor” sendo demonstrado 10

Figura 3- Componentes funcionais de um sistema de navegação para indivíduos

cegos

11

Figura 4- Sistema de reconhecimento de imagem através da língua 13

Figura 5- Sistema de visão artificial composto por câmera e computador ligados por

cabos a eletrodos no cérebro do indivíduo.

14

Figura 6. Blocos que compõem o CCD OV7620 21

Figura 7. Hardware experimental para aquisição de imagens 23

Figura 8. Carta de tempo para transferência de dados entre a câmera e o

microcontrolador

24

Figura 9. Formato dos dados de uma linha de vídeo 25

Figura 10. Placa para ligação do CCD ao conjunto de desenvolvimento 25

Figura 11. Rendimento para cada freqüência de cor para o CCD utilizado 27

Figura 12. Cubo de cores representadas como vetores R,G e B 29

Figura 13. (A) Triângulo de cores HSI ; (B) Sólido de cores HSI 34

Figura 14. Diagrama de cromaticidade 37

Figura 15. Representação gráfica e física da onda sonora 39

Figura 16. Contorno de um som musical mostrado em porcentagem do valor de

saturação.

44

Figura 17. Forma de onda, ou timbre, de um som musical 45

VII

Figura 18. Representação digital de um som 48

Figura 19. Forma de onda característica (timbre) de um violino 54

Figura 20. Espectro de frequencia do som de um violino 55

Figura 21. Cores representadas como ângulos 59

Figura 22. Combinações de matiz (H) e saturação (S) 60

Figura 23. Imagem física e a imagem digital correspondente 83

Figura 24. Conversão analógica/digital e digital/analógica 83

Figura 25. Digitalização de uma imagem 84

Figura 26. Sistema de vídeo analógico 84

Figura 27. Sistema de vídeo digital 85

Figura 28. Uma imagem e o respectivo histograma de níveis de cinza 89

Figura 29. Linhas de contorno de uma imagem 90

Figura 30. Um histograma bimodal 92

Figura 31. O espectro eletromagnético 94

Figura 32. O olho humano 98

Figura 21. Representação esquemática de um cone e de um bastonete 98

Figura 22. Curvas de resposta espectral para cada tipo de cone do olho humano 100

Figura 23. Acuidade visual 101

Figura 24. Cores primárias e secundárias da luz 103

Figura 25. Cores primárias e secundárias dos pigmentos 103

Figura 26 – Pinagem do CCD OV7620 106

VIII

Índice de Tabelas

Tabela 1. Ligações entre o microcontrolador e a câmera CCD 26

Tabela 2. Ângulos de matiz que determinam cada cor 60

Tabela 3. Diferenciando cores que possuem pequena matiz. 58

Tabela 4 – Vetor Histograma, resultado da análise de cores 65

Tabela 5 – Associação lógica de parâmetros de uma imagem colorida e de um som 68

Tabela 6 - Resultados para identificação de objetos de forma conhecida 110

Tabela 7 – Resultados para localização de objetos de forma conhecida 112

Tabela 8 – Resultado da descoberta de novos objetos 116

IX

Glossário

CCD – Charged-Coupled Device

CI – Circuito Integrado

DirectX – Bibliotecas de funções de acesso direto ao hardware multimídia

para IBM-PC.

GPS – Global Position System

JEDI – Joint Endeavor for Delphi Innovators

MoBIC – Mobilit y of Blind and Ederly People Integrating with Computers

MoODS – MoBIC Outdoor System

Pixel – Ponto em uma imagem digital

SCCB - Serial Camera Control Bus

TRNC() – Função que retorna a parte inteira do número por truncamento.

RAND – Função que retorna um número aleatório no intervalo de 0 a 1;

X

Sumár io

Diversos trabalhos têm sido desenvolvidos com o objetivo de auxiliar o deficiente

visual em sua integração com o mundo. Em sua maioria utili zam um sensor, seja ele ultra-

sônico, ótico ou mecânico, para capturar a informação de distância ou a forma de objetos.

Tal informação chega ao deficiente de forma mecânica (impulsos vibratórios), elétrica

(pequenos choques) ou acústica (geração de sons).

Este trabalho visa contribuir para essa pesquisa estudando parâmetros de imagens e

sons, propondo e avaliando a viabili dade de diversas formas de associação entre eles,

buscando uma forma de informar ao deficiente visual a cor dos objetos a sua frente

utili zando uma câmera digital e um sistema computacional capaz de analisar a imagem

captada e reproduzir sons digitalizados alterando seus parâmetros de acordo com as cores

encontradas, visando assim explorar ao máximo as informações contidas na imagem

colorida e a capacidade de audição do indivíduo.

Para tanto foram estudados os parâmetros de imagens, as características da visão

humana, parâmetros de sons, características da audição e psico-acústica.

A implementação foi realizada em um microcontrolador para aquisição de imagens e

um microcomputador utili zando recursos padronizados de acesso direto ao hardware

(DirectX) para análise da imagem e geração de áudio, aumentando assim a portabili dade do

algoritmo, facili tando a criação de versões para plataformas miniaturizadas, como os

computadores de mão (Hand Helds).

XI

Abstract

Several pieces of work have been developed in order to help visually impaired

individuals in their integration with the world. Most of these developments use sensor

systems – which can be ultrasonic, optical or mechanical – to capture information on the

distance and shape of objects. This information is transmitted by mechanical (vibrating

impulses), electrical (small shocks) or acoustic (generation of tones) means.

The present work is aimed at contributing to this research, by studying parameters of

images and sounds, proposing and evaluating the feasibil ity of several types of association

between them and trying to find a way of informing the visually impaired individual about

the color of the objects in front of him by means of a digital camera and an IT system that

is capable of analyzing the captured image and reproducing digitalized sounds, changing

their parameters according to the colors found. This aims at exploring the information

comprised by the colored image and the listening capacity of the individual to the most.

For such, the parameters of images, the characteristics of human vision, the parameters

of sounds, the characteristics of hearing and psychoacoustics have been studied.

The implementation has been conducted on a microcontroler for data acquisition and a

microcomputer, using several standard resources for direct access to the hardware

(DirectX), thus improving the portabili ty of the algorithm and facil itating the creation of

versions for platforms such as hand-held computers.

XII

Agradecimentos

Inicialmente ao meu orientador Prof. Dr. Osamu Saotome, pela maneira

competente, paciente e dedicada com que conduziu este trabalho, e ao meu co-orientador e

incentivador Prof. Dr. Julio Césaar Lucchi.

A todos professores que direta ou indiretamente foram responsáveis pelos

conhecimentos adquiridos durante o curso de mestrado.

Ao Prof. Rodrigo Araes pela ajuda com a revisão ortográfica.

Aos colegas de pós-graduação, pela amizade e companheirismo.

Ao Instituto Porto Mariz, pela ajuda nos ensaios com os deficientes visuais.

Ao escritor Maicris Fernandes, pelo suporte no desenvolvimento com DirectX.

À minha família, pelo apoio e incentivo no decorrer do curso.

XIII

Aos meus pais, Darci Marcondes e Adelina Baptista Marcondes,

ao meu irmão, Darci.

1

Capítulo I

Introdução

Visão, juntamente com a audição e o tato, são os sentidos mais utilizados pelo homem.

Desde os tempos antigos a visão o auxili a na busca por alimentos e na fuga dos seus

predadores, ajudando a garantir nossa sobrevivência.

Inúmeras vezes ao dia o homem realiza uma atividade visual bastante complexa: a

detecção e o rastreamento de objetos que de alguma forma despertam sua atenção. A

detecção de um objeto consiste na verificação de sua presença pela imagem, procurando

por padrões conhecidos de formato e coloração. Modernamente o rastreamento pode ser

entendido como a atividade de manter um objeto de interesse dentro do campo visual,

compensando-se seu movimento através do movimento dos sensores (olhos ou câmeras).

Esta definição faz uma conexão entre rastreamento e interesse, o que indica a existência de

um processo de atenção visual que permite definir se determinado objeto é ou não

interessante e, durante o rastreamento, decidir quando tal objeto passa a ser menos

interessante que outro. [CAETANO, 1999]

A perda da visão para o homem significa uma expressiva redução em seu potencial de

locomoção, comunicação e reconhecimento de objetos. No entanto, deficientes visuais na

sua maioria aprimoram os outros sentidos. Aproveitando este fato, foram criados sistemas

alternativos de comunicação como o método Braill e, que possui um alfabeto em relevo,

Capítulo 1 - Introdução

2

podendo ser lido pelo tato. Dispositivos de sensoriamento diversos associados a sistemas

de estímulos, sejam sonoros, elétricos ou mecânicos, têm sido desenvolvidos como

alternativa para melhorar as possibilidades de inclusão social do deficiente.

O assunto central deste trabalho é uma proposta de descrição inovadora de imagens por

sons, pois não é centrada na forma, mas sim na cor dos objetos, criando uma “assinatura

digital sonora” de cada cor. Tal método de descrição, implementado como varredura,

permite ainda uma noção da forma e posição do objeto na imagem, possibili tando ao

deficiente a capacidade de:

• Diferenciar objetos idênticos ao tato como latas de refrigerante, CDs, entre

outros. Ainda que o deficiente não conheça cores (tenha nascido com a

deficiência) ele acaba associando diretamente o som ao conteúdo, sabor, ou

característica que diferencia tais objetos, atingindo da mesma forma seu

objetivo;

• Localizar objetos em uma imagem. Sabendo qual som o objeto produz quando é

submetido ao sistema (sua assinatura), ele pode procurar por tal som,

simplificando tarefas complexas para ele como encontrar determinado objeto

sobre a mesa ou algo que tenha caído no chão;

• Locomover-se util izando referências visuais como linhas no chão ou pinturas

especiais em portas e paredes, ou ainda utili zando as cores naturais dos objetos

como faixas de pedestre, calçadas, lojas e demais referenciais.


3

I .1 Motivação

O trabalho objetiva a implementação de um sistema de auxílio para deficientes

visuais através da transposição de características de imagens coloridas, captadas por uma

câmera, para características de um som musical, tentando explorar ao máximo a

capacidade auditiva aprimorada do deficiente visual.

A análise do sistema aborda as técnicas modernas de aquisição de imagem com

CCDs, reconhecimento de cores presentes em porções da imagem por análise de

histograma, geração e reprodução de sons musicais modulados por parâmetros externos

(proporcionais a características da imagem), a adequação da função que melhor expressa

os parâmetros visuais de forma acústica, entre outros aspectos.

O algoritmo baseou-se inicialmente no trabalho apresentado por Meijer [MEIJER,

1992] que realizou a transferência de parâmetros de uma imagem monocromática de 64

pixels para uma somatória de tons, conforme será visto em I.3.

O Capítulo I traz uma introdução geral ao problema, bem como uma breve revisão

de trabalhos relacionados ao tema.

O Capítulo II aborda detalhadamente o hardware e os métodos util izados para

reconhecimento de cores e reprodução de sons modulados pelos diversos parâmetros.

O Capítulo III detalha a forma de implementação do hardware, métodos

matemáticos e software do sistema.

O Capítulo IV apresenta os resultados obtidos com o sistema e análises pertinentes.


4

O Capítulo V apresenta conclusões obtidas através de resultados experimentais e as

sugestões para futuros trabalhos, tentando identificar o que pode ser modificado no sistema

implementado para melhorar o desempenho e outras utilidades para as técnicas propostas.

O Apêndice A contém definições e teoria elementar sobre imagem, cores, sons e

visão.

O Apêndice B detalha algumas características técnicas do CCD utili zado neste

trabalho.

O Apêndice C apresenta alguns dos resultados obtidos nos testes práticos.

O Apêndice D contém os esquemas elétricos dos circuitos criados para utilização

do CCD.

I .2 Revisão Bibliográfica

Histórias de sucesso em sintetização de áudio incluem dispositivos como o

“contador de Geiger” , sonar, termômetro auditivo e numerosos dispositivos médicos. O

contador Geiger foi inventado por Hans Geiger no ano de 1990, e é um instrumento que

fornece um estalo de alerta a níveis de radiação invisível. Experimentos mostram que a

tarefa de monitoração de níveis de radiação por um indivíduo é melhor realizada através de

dispositivos de áudio ao invés de visuais [TZELGOV et al., 1987]. Além disso, o indivíduo

está livre para realizar outras tarefas enquanto o monitoramento é realizado. Um

dispositivo semelhante ao conceito do contador de Geiger é o chamado oxímetro de pulso,

que se tornou um equipamento padrão em medicina. O oxímetro de pulso produz um tom

que varia em intensidade com o nível de oxigênio no sangue do paciente, permitindo que o

médico se concentre no procedimento cirúrgico enquanto esta importante informação é


5

frequentemente monitorada. A idéia foi estendida a outros seis parâmetros médicos através

de uma workstation por Fitch [FITCH, 1994]. Estudantes de medicina trabalhando com

esta workstation em uma sala de cirurgia simulada foram capazes de identificar situações

de emergência mais facilmente com o dispositivo de áudio que através de um dispositivo

visual ou áudio-visual.

Outra área promissora na util ização do processo de sintetização é a substituição de

sensores para indivíduos cegos. Um dos exemplos, que será apresentado mais

detalhadamente no Capítulo I.4, é o dispositivo desenvolvido por Meijer [MEIJER, 1992],

onde a imagem visual é varrida e apresentada na forma de som. E este também é o objetivo

deste trabalho, no entanto dando um enfoque menor aos parâmetros como posição relativa

do ponto na imagem e inserindo novas contribuições como o uso de cores para

diferenciação de objetos, criando uma “assinatura digital” para o objeto e não para a

imagem, além do uso de um número maior de parâmetros acústicos, procurando explorar

ao máximo a capacidade auditiva do deficiente.

I .2.1 Sistemas e estudos desenvolvidos anter iormente.

A moderna tecnologia tem revolucionado o nosso dia a dia, trazendo benefícios

para todos, inclusive indivíduos cegos ou com deficiência visual. Particularmente o avanço

tecnológico na área da informática tem ajudado os indivíduos cegos na árdua tarefa de

integração com o mundo. Por exemplo, na busca por novas ferramentas de auxílio à leitura,

já foram desenvolvidos equipamentos para conectar ao computador que reproduzem, no

sistema de escrita Braille os textos que aparecem na tela do mesmo. O Professor José

Antônio Borges e equipe, no Núcleo de Computação Eletrônica da UFRJ, desenvolveram


6

um software que facil ita o uso de microcomputadores por indivíduos cegos, o DOSVOX.

Ainda na área de informática, ferramentas como sistemas de reconhecimento de voz têm

sido desenvolvidos para que um indivíduo cego possa trabalhar em um microcomputador.

Estes sistemas facili tam a realização de tarefas simples, como a seleção de objetos na tela e

formatação em editores de texto. Um exemplo de produto que utiliza esta tecnologia é o

DS5 da Earset do Brasil, lançado recentemente. O DS5 é um fone de ouvido que, ligado à

serial de um computador, utilizando programas apropriados, lê informações mostradas na

tela, incluindo textos digitados.

A emergência de novos sistemas visando a inclusão social dos indivíduos cegos tem

levado ao estudo e desenvolvimento de uma série de dispositivos, que vão desde um

simples sensor de obstáculos aos mais sofisticados sistemas, inclusive implantes no

cérebro, na região do córtex visual [DOBELLE, 2000]. Alguns dos dispositivos existentes,

relacionados à ajuda aos indivíduos cegos, são descritos a seguir em ordem de

desenvolvimento.

I .2.1.1 Sistema experimental para a conversão de imagem em

som

Meijer [MEIJER, 1992] desenvolveu um sistema capaz de mapear imagens, em

escala de cinza, vindas de uma câmera de vídeo. Neste sistema a imagem é transformada

em uma representação de áudio multiplexada no tempo. Cada imagem é capturada,

digitalizada e armazenada como uma matriz de pixels (ponto na tela) P(k). A matriz é

composta de M linhas (altura) e N colunas (largura). No início do período de conversão,


7

que dura τ segundos, um aviso sonoro de sincronização reconhecível é gerado para marcar

o começo de uma nova imagem. O valor do elemento da matriz de pixels )(kijP é qualquer

um dos diferentes tons de cinza, representados por g, ou seja:

( ) },...,{, 1)()()(

Gk

ijk

ijk ggppP ∈= [1]

Onde:

i = 1, ..., M : representa o número de linhas;

j = 1, ..., N :representa o número de colunas;

g=1,..., G :representa o número de tons de cinza.

Subseqüentemente recomeça a conversão em som, iniciando-se com j = 1. A Figura

1 ilustra o princípio do procedimento de conversão para uma imagem simples, de 8 x 3,

sendo 3 tons de cinza (M = N = 8; G = 3). [MEIJER, 1992]

Figura 1. Princípios de mapeamento da conversão imagem/som


8

Para cada pixel, o mapeamento transforma posições verticais em freqüência,

posições horizontais em tempo, após o sinal audível de sincronismo, e transforma brilho

em amplitude de oscilação. Para uma dada coluna j, cada pixel nesta coluna é usado para

excitar um oscilador senoidal associado na faixa de freqüência audível. Um pixel na

posição mais elevada é correspondente a um oscilador de frequência f. Quanto mais

intenso o brilho de um pixel, representado pelo tom cinza )(kijp , maior é a amplitude

(sonoridade) do seu oscilador associado. Os sinais dos osciladores de cada coluna são

superpostos, e os correspondentes padrões de som s(t) são ouvidos durante τ / N segundos.

Então a próxima coluna (j + 1) é convertida em som. Este procedimento continua até que a

N-ésima coluna do lado direito tenha sido convertida, o que ocorre τ segundos após o

início da conversão.

Uma vez que uma nova matriz de pixel é armazenada, a conversão da nova imagem

para som começa, repetindo o processo.

Segundo Meijer [MEIJER, 1992], o padrão de som correspondente às formas

simples é imaginado facilmente. Por exemplo, uma linha reta brilhante sobre um plano

escuro, indo do canto esquerdo inferior para o canto direito superior, irá soar como um

único tom que irá aumentando em freqüência. De maneira semelhante, um retângulo

brilhante irá soar como um som composto pelas diversas senóides geradas pelos

osciladores associados às linhas que o retângulo ocupa na imagem, onde a duração

corresponderá à sua largura, e a freqüência corresponderá à sua altura e elevação. Imagens

mais realistas obviamente irão gerar padrões de som mais complicados.

O protótipo do sistema desenvolvido por Meijer foi construído para M = N = 64 e G

= 16 (em outras palavras, o sistema oferece uma resolução de 64 x 64 pixels e 16 escalas

de cinza). O sistema completo para conversão foi implementado sobre uma placa de


9

circuito de 236 x 160 mm. Este inclui uma entrada para digitalização dos 16 tons de cinza e

uma saída para fones de ouvido. Para aquisição da imagem foi utilizada uma câmera

vidicon comercial que fornece imagens entrelaçadas de 312 e 313 linhas a cada 20 ms, dos

quais apenas 64 são usadas para conversão da imagem em som, conforme visto

anteriormente.

I .2.1.2 “People Sensor “

Ram e Sharf [RAM, 1998] desenvolveram um dispositivo, o people sensor, capaz

de distinguir um obstáculo (pessoa ou objeto) localizado no caminho de um indivíduo

cego. Este ainda é capaz de medir a distância entre o usuário e o obstáculo.

O people sensor é composto por um sensor infravermelho e diversos sensores por

ultra-som. O sensor ultra-sônico estima a distância de um objeto através da medida do

tempo necessário para uma onda sonora, emitida por ele, atingir o objeto e voltar. Os

objetos são detectados indiferentemente dos níveis de luz do ambiente, cor, material e

reflectividade. O sensor infravermelho detecta a presença de uma pessoa através de um

elemento sensível às emissões de infravermelho do corpo humano. Este responde apenas a

uma mudança na intensidade da radiação. Um microcontrolador processa os dados

coletados por ambos os sensores, ultra-sônico e infravermelho, controla um motor

responsável por desviar o equipamento possibilitando assim que o deficiente desvie do

obstáculo. O equipamento pode também informar ao deficiente visual, por meio de

vibrações, se o obstáculo é uma pessoa ou não e qual sua distância. A intensidade das

vibrações é inversamente proporcional à distância e ocorre de forma intermitente, com

intervalos maiores ou menores em função da presença ou não de pessoas a sua frente. Caso


10

não haja nenhum objeto a menos de um metro e meio do aparelho, nenhuma vibração é

gerada. A Figura 2 mostra o protótipo sendo demonstrado em uma sala com diversos

obstáculos.

Figura 2. “People Sensor” sendo demonstrado.

I .2.1.3 Sistemas de navegação baseados em GPS

O Sistema de Posicionamento Global (GPS – do inglês, Global Position System) é

um sistema em que o navegador determina sua posição através de sinais transmitidos de

satélites em orbita, não geoestacionários.

A util ização do sistema GPS em dispositivos para a área de deficiência visual

começou a ser desenvolvido na metade dos anos 80, quando Coll ins [COLLINS, 1985] e

Loomis [LOOMIS, 1998] propuseram a utilização deste sistema para assistir indivíduos

cegos em navegação.


11

O sistema de navegação desenvolvido baseado em GPS, desenvolvido consiste de

três componentes funcionais: um módulo para a determinação da posição e da orientação

do usuário; um Sistema de Informação Geográfica (GIS) e uma interface para o usuário.

Um diagrama ilustrativo deste sistema está apresentado na Figura 3. O primeiro

módulo contém o receptor GPS com correção diferencial de uma estação base localizada,

chamada DGPS, responsável por diminuir o erro do sistema de coordenadas, e uma bússola

para orientação. O segundo módulo é o computador conectado ao GIS. A base de dados é

variável, podendo conter diversas informações. Golledge et al. [GOLLEDGE,1991]

desenvolveram uma base de dados contendo edifícios, calçadas, rodovias, ciclovias,

árvores e outros detalhes.

O terceiro módulo é a interface para o usuário. Diferentes componentes podem ser

usados neste módulo para transportar as informações sobre o ambiente para o indivíduo

cego. Loomis, [LOOMIS, 1998] planejou usar sons de um dispositivo acústico virtual que

gera um sinal de áudio (por exemplo, fala ou efeito sonoro), ouvido através de fones de

ouvido. Assim o indivíduo cego poderia ouvir os nomes dos edifícios, cruzamentos de

ruas, etc. O sistema de navegação completo (computador, sintetizador para conversação,

hardware com dispositivo acústico e baterias) é carregado pelo usuário em uma mochila, e

o conjunto pesa 11,4 Kg.

Figura 3. Componentes funcionais de um sistema de navegação para indivíduos cegos.


12

Desde a proposição da utilização do GPS em sistemas de navegação, um número

considerável de dispositivos baseados em GPS foi desenvolvido. Entre estes se encontra o

Strider, um produto da Arkenstone of Sunnyvale, Califórnia [FRUCHTERMAN, 1996]. O

Strider inclui mapas digitais detalhados, que cobrem a maior parte das cidades e torres

localizadas nos Estados Unidos. Um dispositivo de fala sintetizada fornece informações

sobre a disposição espacial de cidades próximas e pontos de interesse, assim como

instruções para o navegante encontrar os destinos desejados. Um dispositivo similar ao

Strider é o MoBIC Outdoor System (MoODS). MoBIC é a sigla para o projeto Mobility of

Blind and Ederly People Integrating with Computers [PETRIE et al., 1996]. O MoODS

inclui ainda correção diferencial DGPS (por conexão com telefonia móvel) e bússola.

I .2.1.4 Percepção por estímulos eletro-táteis através da língua

Rita [RITA,1969] desenvolveu um sistema de substituição da visão táctil (TVSS –

do inglês, Táctile Vision Substitution System) para fornecer informações através de um

conjunto de estímulos gerados por um dispositivo em contato com a pele de uma parte do

corpo do indivíduo (abdômen, costas, coxa ou ponta dos dedos). Primeiramente as imagens

são captadas por uma câmera de TV que fornece imagens em preto e branco com resolução

de 20 x 20 pixels, e estas são então transformadas em alguma forma de estímulo (vibração

ou pequeno choque elétrico). Através de eletrodos, os nervos terminais da pele são

excitados de forma a refletirem as imagens. Em outras palavras, a imagem é “sentida” pelo

indivíduo através da pele. Alguns problemas relacionados à interface homem - máquina

foram verificados através da utili zação do TVSS naquela época. Os sistemas vibro-tácteis


13

são volumosos, enquanto que os sistemas elétricos requerem tensões relativamente altas,

principalmente nas áreas como pontas dos dedos. Este fato levou os pesquisadores, anos

mais tarde, a adaptarem o sistema para percepção das imagens através da língua. O

“dipositivo eletro-táctil através da língua” contém arranjo de 144 eletrodos de cobre-ouro

de 1,55 mm de diâmetro posteriormente achatados e organizados como uma matriz

quadrada de 12 x 12 pixels. O sistema completo para a substituição da visão consiste de

uma câmera de vídeo-conferência, um cartão de captura de vídeo, um microcomputador

laptop, uma unidade de dispositivo de língua (TDU), o arranjo de eletrodos descrito acima

e um software para processamento da imagem, como visto na Figura 3. A câmera fornece

entre 14 e 20 imagens com resolução de 12 x 12 pixels por segundo. O arranjo de eletrodos

compreende quatro quadrantes quadrados de 6 x 6. Estes são idêntica e simultaneamente

pulsados pelo TDU. Segundo os usuários, o processo de estimulação da língua pelos

eletrodos produz sensação de borbulhamento.


14

Figura 4. Sistema de reconhecimento de imagem através da língua.

A Figura 4 (a) mostra a interface homem – máquina (TDU) conectada a uma

câmera de TV e um microcomputador. Em (b) está o arranjo eletro-táctil de língua (144

pontos medindo aproximadamente 3 cm2) ao lado de uma moeda para comparação de

tamanho. Em (c) a letra E é mostrada nas 4 direções possíveis [SAMPAIO et al., 2001].

I .2.1.5 Conexão de uma câmera de TV ao cor tex visual

Dobelle [DOBELLE, 2000] criou um sistema de visão artificial que consiste de

uma microcâmera, um microcomputador e uma placa de platina contendo eletrodos. A

microcâmera é montada sobre um par de óculos, enquanto que o microcomputador fica

preso à cintura do indivíduo. A placa de platina contendo os eletrodos é implantada no

cérebro através de cirurgia, como mostrado na Figura 5. A microcâmera capta as imagens e

as envia para o cérebro por estímulo através dos eletrodos. A placa de platina é composta

de furos de 3 mm de diâmetro onde estão centrados os eletrodos de 1 mm de diâmetro.

Cada eletrodo é ligado a um conector subcutâneo contido em um suporte de carbono.

Através do dispositivo de Dobelle, imagens podem ser percebidas por um indivíduo cego

como pontos de luz que aparecem e desaparecem (flashes) chamados “fosfenos” . O

dispositivo de Dobelle tem sido utili zado por um indivíduo cego apenas 2 ou 3 vezes por

semana no laboratório de pesquisa. O indivíduo caminha lentamente, com uma bengala

para evitar colisões.


15

Figura 5. Sistema de visão artificial composto por câmera e computador ligados por cabos

a eletrodos ao cérebro do indivíduo

I .3 Conclusão sobre sistemas desenvolvidos anter iormente.

Os dispositivos apresentados anteriormente são apenas um pequeno número

de exemplos de uma série de dispositivos existentes, alguns dos quais já estão disponíveis

comercialmente. Entretanto diversos itens, alguns relatados pelos próprios pesquisadores,

precisam ser melhorados. Por exemplo, o ” people sensor” desenvolvido por Ram, [RAM,

1998] é limitado a ajudar pessoas a desviar de obstáculos, e apresenta uma faixa restrita de

detecção. Os sistemas de navegação baseados em GPS não fornecem informações com

precisão satisfatória e não funcionam em ambientes fechados, sendo ainda necessário o uso

de bengalas, cães ou dispositivos ultra-sônicos. O dispositivo de percepção através da

língua desenvolvido por Rita [RITA, 1998; RITA, 2001] apresenta problemas relacionados

à baixa resolução e estéticos, assim como não permite a locomoção do indivíduo. O

dispositivo de Dobelle [DOBELLE, 2000] além de utili zar técnica invasiva, é inacessível


16

para pessoas de baixa renda, embora pareça ter um futuro promissor. Idéias semelhantes,

mas com implantes sobre o nervo ótico também têm sido tentadas.

Uma observação importante acerca dos dispositivos mencionados anteriormente é

que a maioria destes não explora a grande capacidade auditiva do indivíduo cego. Em

termos de aplicação para deficientes visuais, a possibilidade de uso de parâmetros

acústicos para reconhecimento de uma imagem promove evolução bastante relevante na

capacidade de interação com o meio e locomoção do indivíduo. A pesquisa realizada por

Meijer, 1992, onde o autor desenvolveu um sistema de conversão de imagem em som,

considera a capacidade auditiva. Entretanto, além de envolver apenas tons de cinza, um

número considerável de sinais de som tornam-se necessários a medida que aumenta o

volume de informações contidas nas imagens, uma vez que existe um tom distinto para

cada linha de vídeo. Util izar o aparelho com muito mais que 8 de linhas de resolução se

torna inviável.

Todos os sistemas estudados util izam imagens monocromáticas e geradores de tom

(será vista a definição de tom no Apêndice A), o que não aproveita toda capacidade de

percepção do ouvido, nem a informação de cor, que é um parâmetro novo para o cego.

Ainda que ele possa tocar o objeto, fazer sua identificação por cores seria de valiosa

importância.

I .4 Contr ibuição deste trabalho.

No presente trabalho é estudado e propo sto um sistema voltado à

geração de sons cujas características são determinadas por uma imagem,

colorida ou não. Através deste é possível que uma imagem seja imaginada


17

por um ind ivíduo com deficiência visual em estado avançado ou u m

ind ivíduo cego q ue não nasceu com a deficiência, mas a adquiriu após um

tempo suficiente para o conhecimento e percepção da realidade que nos

cerca. Ou ainda criar um novo parâmetro para os ob jetos que cercam um

ind ivíduo que nasceu cego. A utili zação de um maior número de parâmetros

acústicos e a diferenciação das cores de uma imagem pode ajudar na

diferenciação de objetos com mesmas características em relação ao tato,

mas diferentes em relação ao paladar, cor, conteúdo , etc. (por exemplo, uma

fruta madura de uma fruta verde, sendo ambas idênticas; diferentes tipos de

refrigerantes respectivamente envasados num mesmo tipo d e vasilhame;

diferentes CDs, estejam eles colocados em suas respectivas embalagens ou

não). Outras tarefas importantes poderão ser realizadas pelo ind ivíduo cego

util izando o presente sistema, como localizar ob jetos (portas, corr imão),

reconh ecer obstáculos durante o percurso (buracos no chão, tapetes,

vasos, pontos de referência como lagos ou monu mentos, etc), identificar

ôn ibus em localidades em que cores são u tili zadas para diferenciar as

linhas, identificar pessoas pela cor de suas roup as, etc.

O uso de psico-acústica pretende dar ao indivíduo a capacidade de localização

espacial do objeto, permitindo a sensação de direção de determinado objeto.

18

Capítulo II

Metodologia

Os elementos relevantes de hardware, características de sons e imagens são

estudados neste capítulo, a fim de preparar o leitor para o Capítulo III , que irá associar tais

informações para a implementação do hardware e do algoritmo. Algumas definições mais

fundamentais utilizadas neste trabalho foram inseridas no Apêndice A e serão citadas no

decorrer do texto.

I I .1 Aquisição de imagens por dispositivos digitais

Os dispositivos sensores chamados “digitais”, no caso das câmeras, são na verdade

sistemas sensores analógicos acoplados a sistemas de digitalização em uma pastilha de

estado sólido (circuito integrado), sendo por isso chamado processo de “captação digital do

sinal” , uma vez que suas vias de saída de informação são digitais. [JACK, 2001].

Um exemplo típico de sensor de estado sólido é o dispositivo acoplado por carga

(CCD – do inglês, charge-coupled device). O CCD apresenta um arranjo linear ou

retangular de sensores de luz sobre um único circuito integrado. Este dispositivo apresenta

ainda um conjunto de circuitos necessários para leitura dos sensores.

Capítulo 2 - Metodologia

19

Um sensor típico de CCD por varredura de linha contém uma linha de sensores

ligada a um multiplexador, de tal forma que podemos ler um ou um conjunto de pontos de

cada vez. O circuito de controle atua sobre o multiplexador e gera sinais de sincronismo

para possibilitar a aquisição da imagem.

Os CCDs por varredura de área são similares a aqueles de varredura de linha,

exceto que os fotosensores são arranjados em forma matricial e uma combinação de

multiplexadores permite a seleção de cada linha da matriz. Comercialmente os CCDs com

saída em vídeo analógico (composto) são os mais populares e baratos, mas para serem

utili zados computacionalmente precisam de um hardware adicional que transforma o sinal

gerado em sinal digital. O CCD utilizado integra tal hardware, possuindo saída digital,

permitindo ainda outras vantagens como o controle de quadros por segundo, como será

visto em II .2.2.

I I .1.1 Câmeras CCD

Disponíveis em uma variedade de configurações, os CCDs são utilizados em uma

linha compacta de câmeras de estado sólido para televisão e digitalização de imagens

[ILLGNER, 2000]. Estas câmeras, que não apresentam distorção geométrica e têm sinal de

saída linear sobre uma faixa maior de intensidade que uma câmera de tubo (vidicon), estão

emergindo como dispositivos sensores de imagem para uma ampla variedade de

aplicações.

Os CCDs podem ser varridos em taxas de televisão (30 imagens individuais

(frames) por segundo), ou ainda mais lentamente, podendo ser utilizadas para fotografia,

por exemplo em astronomia e microscopia de fluorescência [CASTLEMAN, 1996].


20

I I .1.2 O CCD Utili zado

Foi utili zado o CCD OVT7620, da Omnivision, que é um sensor de imagem em um

único chip, projetado para uso com sistemas de vídeo e imagem. É concebido para usos

onde o espaço físico é restrito. O dispositivo incorpora uma matriz de 640 x 480 pixels

capaz de operar com velocidade de 2 a 30 quadros por segundo. Possui ainda um sistema

FPN (Fixed Pattern Noise) que minimiza ruídos de digitalização e permite ajustes

automáticos de brilho e nitidez. Todas as funções necessárias como controle de exposição,

linearidade, ganho, balanço de branco, saturação de cor e janelamento, entre outros, são

disponíveis e ajustáveis através de uma interface serial SCCB. Pode-se obter, ainda,

imagens por barramentos de 8 ou 16 bits, facili tando a integração da câmera a

microcontroladores ou microprocessadores, e interfaces que tenham barramentos de 8 bits.

Características técnicas mais detalhadas estão disponíveis no Apêndice B.

Este CCD foi escolhido por ter uma interface simples, digital e compatível com

sistema microcontrolado, além de ser adequado para uso com quadros isolados (um quadro

por vez), possibili tando a integração com dispositivos menos velozes, adequados a

processamento de imagens digitais estáticas (fotos).

Com resolução de 640x480 pontos a 30 quadros por segundo e 24 bits por ponto,

921600 bytes compõem um quadro (640 x 480 x 3), gerando dados a uma taxa de

transferência de 27Mb por segundo (921600 x 30 bytes). Um processador capaz de receber

e acumular esta quantidade de informação por segundo seria necessário caso não fosse

possível este controle de quadros por segundo e resolução.


21

Com a resolução escolhida, de 320x240 pontos, com 2 quadros por segundo,

450KB por segundo entre a câmera e o microcontrolador são suficientes. CCDs com

resolução menor foram estudados, mas descartados por possuírem menos de 24 bits por

ponto.

Como pode ser visto no diagrama em blocos da Figura 6, os sinais são

disponibili zados nos formatos RGB e YCbCr pelo sistema de processamento analógico.

Um formatador digital ainda pode dispor os dados no formato YUV (Vide Capítulo III e

Apêndice B para mais detalhes). O formato de saída, bem como diversos parâmetros são

programáveis através da interface serial SCCB (Serial Câmera Control Bus).

Figura 6. Blocos que compõem o CCD OV7620.


22

Outra característica fundamental para a escolha deste CCD é seu numero de cores.

Por possuir resolução de 8 bits por canal, compondo 24Bits, possibili ta 16 milhões de

combinações de cores.

I I .1.3 Inter face entre o CCD e o hardware utili zado

O sistema foi desenvolvido em duas partes:

- uma placa com microcontrolador e ligada diretamente ao CCD, para estudos

preliminares e implementação de forma miniaturizada;

- Uma implementação em IBM-PC para estudo e desenvolvimentos matemáticos

dos sistemas de modulação.

• Interface com o microcontrolador:

Foi desenvolvida uma pequena placa adaptadora para ligação do sensor CCD a um

conjunto de desenvolvimento 8051, conforme esquemas no apêndice D, capaz de coletar os

dados da imagem a 2 quadros por segundo, 24 bits por ponto, em um barramento de 8 bits,

armazenar e transferir para o IBM-PC por interface serial a 115Kbps. O sistema completo

de captura de imagem, composto pelo conjunto de desenvolvimento, câmera CCD e placa

adaptadora pode ser visto na Figura 7.


23

Figura 7. Hardware experimental para aquisição de imagens.

O firmware foi desenvolvido em C para microcontroladores da família 8051, de

forma a captar somente as linhas pares da imagem e um de cada dois pontos da tela,

diminuindo assim a resolução e aumentando a velocidade de transferência de um quadro

completo.

Por ser uma câmera com interface digital, os métodos tradicionais de digitalização

(vide Apêndice A) foram dispensados e o sensor pode ser ligado ao microcontrolador pelo

seu barramento de dados.

Uma característica especial do protocolo de comunicação eliminou a necessidade

de uso dos pinos de sincronismo, uma vez que ela envia um código especial (como uma

cor reservada) para os momentos em que o pulso de sincronismo está ativo. A carta de

tempo de transferência de uma linha de vídeo é mostrada na Figura 8, onde podemos ver

que a borda de descida de PCLK é o momento em que novos dados são disponibilizados,

logo na borda de subida é o melhor momento para leitura.


24

Figura 8. Carta de tempo para transferência de dados entre a câmera e o

microcontrolador.

O protocolo utili zado para transferência do quadro é o CCIR-656 que define

temporizações que mantém certo nível de compatibil idade com o padrão utilizado pela

televisão. Entre essas compatibili dades está o uso de um nível de preto diferente de zero

durante as linhas de varredura com luminância mínima e um nível inferior durante o que

seria o retraço. Essa informação foi util izada como alternativa ao uso do pino de

sincronismo por mostrar maior simplicidade de implementação. São disponibilizadas ainda

informações adicionais como resolução, numero atual da linha (pacote), modelo, entre

outras, como mostra a Figura 9.


25

Figura 9. Formato dos dados de uma linha de vídeo.

Foi necessário o desenvolvimento de uma placa adaptadora para ligação da CCD

utili zada a uma placa com microcontrolador, como detalha a Figura 10. No apêndice D

podemos ver o esquema elétrico da placa desenvolvida.

a) Lado do conector, com a lente; b) Lado do CCD, sem a lente.

Figura 10. Placa para ligação do CCD ao conjunto de desenvolvimento.


26

As ligações feitas entre o microcontrolador e a câmera estão listadas na Tabela 1:

Ligação CCD

(UV7620)

Microcontrolador 8051

(AT89S8252)

Via de dados 0..7 Y0..Y7 P0.0..P0.7

Pixel Clock PCLK P1.0

Clock Clock P1.1

Sincronismo Vertical VSINC INT0

Sincronismo Horizontal HSINC INT1

Clock da serial SCCB SCLK TC0

Dados da serial SCCB SDATA TC1

Alimentação Positiva +5V +5V

Alimentação Negativa GND GND

Tabela 1. Ligações entre o microcontrolador e a câmera CCD.

A transferência de informações de programação de modo e controle entre a câmera

e o microcontrolador foi feita util izando a interface serial SCCB, uma variação do I2C.

Com ela foram feitas as programações de modo, interface de 8 bits, saída RGB e controles

de abertura e saturação. Uma rotina em C para 8051 gerou os pulsos necessários para a

implementação interface SCCB no microcontrolador.

Foi necessária uma correção utili zando-se ganhos para cada cor primária em função

das diferenças encontradas entre a sensibili dade dos elementos da câmera, como visto na

Figura 11, e do olho humano, como visto no Apêndice A. Pode-se ver claramente como os

ganhos de G e R são próximos para a câmera e bastante distintos para o olho humano.


27

Figura 11. Rendimento para cada comprimento de onda no CCD utilizado.

Em pontilhado estão os valores para o olho humano.

• Sistema de análise de imagens:

Utilizando um programa desenvolvido em Delphi, os dados captados pelo CCD,

previamente tratados pelo microcontrolador e eviados ao microcomputador são convertidos

novamente em imagem, através de uma matriz RGB de 24 bits por ponto. Cada ponto é

então convertido para os modelos Y e HSI de cor, conforme ̀ será visto no Capítulo III .2.1.

I I .2 Especif icação de uma cor por sua composição.

As proporções de vermelho, verde e azul, em relação aos seus valores de saturação,

necessárias para formar uma cor, são denominadas valores triestímulo. Para sistemas

baseados em tubos de raios catódicos (TV, monitores de computador, etc.), os valores


28

triestímulo são tipicamente denotados pelas respectivas letras R,G e B, as iniciais dos

nomes das cores em inglês red (vermelho), green (verde) e blue (azul). Podem também,

por convenção, ser denotadas pelas respectivas letras X, Y e Z [NASSAU, 1983] em

determinados modelos matemáticos.

I I .2.1 Modelos matemáticos para representação de cores

“Modelo de cor” é a maneira padrão usada para especificar-se uma cor particular.

Para criar um modelo de cor é necessário definir-se um sistema de coordenadas

tridimensionais e um sub-espaço contendo todas as cores, onde cada cor é representada por

um único ponto.

Um modelo de cor pode ser orientado para um hardware específico (por exemplo,

monitor colorido ou impressora), ou para aplicações que envolvem processamento de

imagem. No caso de um hardware, os modelos mais usados são o RGB (red, green, blue),

CMY (cyan, magenta, yellow) e o YIQ, onde Y corresponde à luminância, e I e Q são dois

componentes cromáticos chamados, respectivamente, “em-fase” e “quadratura”. Para o

processamento de imagens coloridas, os modelos usados normalmente são o HSI (matiz,

saturação, intensidade - HSI do inglês, hue, saturation, intensity) e o HSV (matiz,

saturação, valor - HSV do inglês, hue, saturation, value) [GEVERS, 1999]. As

características básicas destes modelos, suas diferenças e util idades são descritas a seguir.


29

- O modelo RGB

O modelo RGB é um modelo aditivo, onde os comprimentos de onda da luz são

somados para formar novas cores (vide Apêndice A). Por esta razão o RGB é utilizado

para monitores coloridos e para a maioria das câmaras de vídeo em cores.

No modelo RGB util iza-se o sistema de coordenadas cartesianas. O sub-

espaço de cores é um cubo, como mostrado esquematicamente na Figura 12. As cores

primárias: azul, verde e vermelho estão localizadas nos vértices coincidentes com os

respectivos espaços dos eixos x, y e z, enquanto que as cores secundárias ciano, magenta e

amarelo estão localizadas nos vértices coincidentes com os espaços entre os eixos x, y e z.

O preto está localizado na origem, enquanto que o branco está localizado no vértice mais

distante da origem. O espectro na escala cinza estende-se ao longo da linha de conexão

entre os vértices preto e branco. As cores são pontos sobre ou dentro do cubo, definidas por

vetores que se estendem a partir da origem. Por conveniência assume-se que os valores das

cores são normalizados, portanto os valores de RGB estão no intervalo entre 0 e 1.

[GONZALEZ, 1992]

Figura 12. Cubo de cores representadas como vetores R,G e B.


30

Os valores da imagem em RGB dos monitores e câmaras podem ser convertidos em

valores trisestímulos XYZ dos tubos de raios catódicos (CRT – do inglês, Cathode Ray

Tubes) através de um processo de 2 estágios. O primeiro consiste em calcular-se os valores

da função transferência, que é a relação entre os valores da imagem de entrada, em pixel, e

a intensidade das cores. As funções transferência geralmente diferem para cada canal

(vermelho, verde e azul). O segundo estágio consiste em transformar as cores: vermelho,

verde e azul para os valores triestímulo. A maneira mais fácil para realizar esta

transformação é através de uma matriz da seguinte forma:

B

G

R

Y

X

Z

Y

X

r

r

r

*

Z Z Z

Y Y

X X

bg

bg

bg

= [2]

onde X, Y e Z são os valores triestímulo e R, G e B são os valores RGB obtidos da

medição da função de transferência do dispositivo. Os valores dentro da matriz 3 x 3 são os

valores triestímulo medidos para os três canais do CRT, vermelho, verde e azul, em

emissão máxima; por exemplo, X r, Yr e Zr são os valores triestímulo medidos para o canal

vermelho em emissão máxima. [GONZALEZ, 1992]

Para converter XYZ em RGB primeiramente realiza-se a matriz inversa, como visto

em [3]: [GONZALEZ, 1992]

Z

Y

X

Y

X

B

G

R

r

r

r

*

Z Z Z

Y Y

X X (-1)

bg

bg

bg

= [3]

Em seguida faz-se o inverso da função transferência original.

O ponto branco é a cor produzida quando os três canais são guiados para máximo.

Assumindo-se que a luminância relativa Y é igual a 1, ou seja:


31

n

nbbggrr

bbggrr

n

nbbggrr

y

zxaxaxa

xaxaxa

y

xxaxaxa

=++

=++

=++

1 [4]

tem-se três equações com três incógnitas, ar, ag, ab a serem determinadas e usadas na

matriz abaixo:

Z

Y

X

aaa

aaa

xa

B

G

R

bgr

bgr

br

z z z

y y y

a xa x

*

bgr

bgr

bggr

= [5]

- O modelo CMY

O CMY é um modelo subtrativo, usado para a maioria dos dispositivos que

depositam pigmentos coloridos sobre papel, como impressoras coloridas e copiadoras.

Estes dispositivos requerem dados de entrada CMY ou desempenham a conversão de RGB

para CMY internamente. A conversão é feita da maneira simples, como mostrado abaixo,

assumindo-se que os valores das cores foram normalizados no intervalo [0,1].

Conversão de RGB para CMY:

Se R+G+B=1=Branco

Ciano = 1 – R ; Equivale a Branco menos Vermelho ou Verde somado a Azul.

Magenta = 1 – G ; Equivale a Branco menos Verde ou Vermelho somado a Azul.

Amarelo = 1 – B ; Equivale a Branco menos Azul ou Vermelho somado a Verde.

Maiores detalhes sobre composições com cores estão mostradas no Apêndice A


32

As cores impressas desta forma raramente coincidem com as cores mostradas na

tela. Uma maneira de resolver este problema é usar um modelo de aparência de cores.

Embora não exista ainda nenhum modelo padrão, alguns trabalhos têm sido apresentados

na literatura neste sentido. Um exemplo é o modelo de Hunt [HUNT, 1973], que utiliza

medidas colorimétricas da imagem, bem como de várias fontes de luz e regiões do campo

visual para produzir parâmetros que correlatam com as definições de cor – brilho, matiz,

saturação, etc. [GONZALEZ, 1992]

- O modelo YIQ

O modelo YIQ é usado na transmissão de TV colorida. Basicamente YIQ é uma

recodificação de RGB para eficiência de transmissão e para a manutenção da

compatibil idade com os padrões monocromáticos. A conversão de RGB para YIQ é dada

por:

B

G

R

Q

I

Y

*

0,331 0,523- 212,0

0,321- 0,275- 596,0

0,114 0,587 299,0

= [6]

Os coeficientes util izados para conversão foram levantados utilizando-se testes

sobre a equivalente monocromática de luminância de cada cor percebida pela visão

humana [KIVER, 1965] e vem sendo utili zado desde os primórdios da TV colorida.

Neste trabalho o conceito de Y foi utili zado para avaliar o brilho equivalente de

determinada cor.


33

- O modelo HSI

HSI (matiz, saturação, intensidade - HSI do inglês, hue, saturation, intensity) onde

a matiz representa qual cor (amarelo, verde, roxo, etc), enquanto que a saturação está

relacionada à pureza de cor (quanto de branco está somado a ela). Uma cor pura é

completamente saturada, ou seja, sem mistura de luz branca. No modelo HSI os

componentes matiz e saturação são definidos pelo triângulo mostrados na Figura 13 (A). A

matiz, H, é o ângulo do vetor (representado por uma seta) em relação ao eixo vermelho.

Quando H = 90°, a cor é azul. Para H = 270°, a cor é amarela, e assim por diante. A

saturação é dada pela distância de um ponto de cor em relação ao centro do triângulo.

Quanto mais distante do centro do triângulo, mais saturada está a cor. Quanto ao

componente intensidade no modelo HSI, esta é medida em relação à uma linha

perpendicular ao plano do triângulo, passando através do centro do mesmo. A intensidade

ao longo da linha, na porção inferior do triângulo, tende ao escuro até o preto. Por outro

lado, as intensidades na parte superior do triângulo tende do claro ao branco, nos passando

assim a idéia de luminosidade da cor.

Figura 13. (A) Triângulo de cores HSI ; (B) Sólido de cores HSI


34

A combinação matiz, saturação e intensidade num espaço de cor tridimensional está

representada na Figura 13 (B). Qualquer ponto na superfície desta estrutura representa uma

cor saturada. Dentro da estrutura as cores tornam-se menos saturadas conforme se

aproximam do eixo vertical.

A conversão do modelo RGB para o HSI é feita através das expressões abaixo. A

intensidade no modelo HSI é dada por:

3BGR

I++= [7]

onde R, G e B são as quantidades dos componentes vermelho, verde e azul normalizados

para a faixa [0,1].

A saturação é expressa por:

),,(3

1),,(

1 BGRnBGRI

BGRnS

++−=−= [8]

onde o termo n(R,G,B) indica a quantidade de branco presente. Se qualquer um dos

valores R,G ou B é igual a zero, não existe a presença do branco, e a cor é pura.

A expressão para a matiz é :

−−+−−+−= −

2/121

)])(()[(

)]()[(2/1cos

BGBRGR

BRGRH [9]

Se S = 0, H não tem significado. Entretanto, se (B/I) > (G/I), então H = 360° – H.

Para normalizar a matiz no intervalo [0,1], faz-se H = H/360°, uma vez que H é um ângulo

em graus.


35

O uso do parâmetro matiz (H) e saturação (S) neste trabalho foram fundamentais

para a identificação da cor e sua caracterização.

O modelo HSI encontra aplicações que vão desde o projeto de sistemas de visão

para a determinação automática do amadurecimento de frutas e vegetais a sistemas para a

inspeção da qualidade de produtos coloridos.

II .2.2 Diagrama de cromaticidade

Outra maneira de especificar-se cor é através do diagrama de cromaticidade,

apresentado na Figura 14. Neste a composição das cores é apresentada em função de x

(vermelho) e y (verde). Para qualquer valor de x e y, o valor de z (azul) pode ser obtido

observando que:

z = 1 - (x + y) [10]

O ponto localizado na região verde da Figura 8, por exemplo, é composto por 62% de

verde, 25% de vermelho e 13% de azul. O ponto de energia igual no diagrama representa o

padrão da CIE para a luz branca, e qualquer ponto localizado em uma das extremidades do

diagrama é completamente saturado. Conforme um ponto se afasta da extremidade e se

aproxima do ponto de energia igual, menos saturada é a cor (ou seja, mais luz branca é

adicionada à cor). Através do diagrama de cromaticidade pode ser verificado que nem

todas as cores do espectro visível podem ser obtidas a partir da mistura das três cores

primárias isoladas. [GONZALEZ, 1992]


36

Figura 14. Diagrama de cromaticidade

II .2.2 Melhoramentos em uma imagem colorida

Para reconhecimento de cores é muito importante que fatores externos como má

iluminação não interfiram no resultado. Obviamente parâmetros mínimos de qualidade da

imagem adquirida devem existir, mas certas distorções cromáticas podem ser compensadas

por processamento digital. [JACK, 2001]

- Balanço de cor

Geralmente quando uma imagem é digitalizada, a mesma apresenta algumas

distorções. Diferentes sensibilidades, fatores de ganho, níveis de preto, etc. Os três canais

de cor, verde azul e vermelho, sofrem diferentes transformações lineares durante a


37

digitalização. O resultado é uma imagem com as três cores primárias fora de “balanço” .

Por exemplo, objetos que deveriam ser cinza aparecem coloridos.

O primeiro teste de balanço de cor é verificar onde todos os objetos, de fato,

parecem cinza. O segundo é verificar se as cores altamente saturadas têm a própria nuance.

Se a imagem tem um plano de fundo branco ou preto proeminente, este irá produzir um

pico distinguível nos histogramas de imagens de componentes RGB. Se estes picos

ocorrem em diferentes níveis de cinza, o sinal de cor está fora de balanço. A solução para

este problema é usar transformações de escalas de cinza lineares sobre cada imagem

individual R,G e B. A maneira simples para se obter a função transformação de escalas de

cinza é:

1) Selecionar áreas relativamente uniformes de cinza brilhante e cinza

escuro na imagem;

2) Computar o nível de cinza principal de ambas as áreas em todas as três

imagens componentes e

3) Usar uma superfície de contraste linear sobre duas das imagens

componentes que formarão a terceira. Se as duas áreas têm o mesmo

nível de cinza nas três imagens componentes, significa que o balanço de

cor foi alcançado.

- Aumento de saturação

As cores de uma imagem podem ser intensificadas multiplicando-se a saturação em

cada pixel por uma constante maior que um. Por outro lado, a multiplicação por uma

constante menor que um reduz a intensidade.


38

- Alteração da matiz

Uma vez que a matiz é um ângulo, adicionando-se ou subtraindo-se alguns

graus a cor da imagem poderá ser, respectivamente, amenizada ou intensificada. Ângulos

grandes irão alterar drasticamente a aparência. É um parâmetro interessante a ser analisado,

não precisando de ajustes computacionais pois é pouco influenciado pela qualidade da

iluminação, foco ou outras distorções na aquisição. [GONZALEZ, 1992]

II .3 Caracter ísticas da visão humana

O ser humano possui cinco sentidos principais: visão, audição, olfato, tato e

paladar. Todos são importantes, mas a visão é o sentido que domina nossa vida. Quatro

quintos de todas as informações recebidas pelo cérebro chegam-nos através dos olhos

[PRATT, 1991]. A importância da visão é tão grande que supera a de todos os outros

sentidos. Muitas vezes fechamos os olhos para nos concentrarmos na audição – como, por

exemplo, para melhor apreciarmos um trecho musical [COLLINS,1985].

Os seres humanos têm boa visão se comparados com outros animais. Alguns

animais só conseguem ver áreas indefinidas de claro a escuro. Nós conseguimos ver

claramente à luz do dia e razoavelmente bem no escuro. Somos capazes de julgar a

distância de um objeto, além de podermos ver em cores. No entanto nossa visão possui

algumas não linearidades à interpretação de cores.


39

Os pigmentos sensíveis aos comprimentos de onda nas regiões do vermelho (580

nm), verde (545 nm) e azul (440 nm) também chamados, respectivamente, de γ, α e β

possuem sensibilidades diferentes. Isso faz com que compensações sejam necessárias

quando precisamos analisar fatores como brilho e intensidade de cores, corrigindo, por

meio de ganhos, a sensibil idade a cada componente de nosso sensor. Faz também com que

fatores subjetivos tenham que ser usados para criação de tabelas de interpretação de cores.

Nuances de verde podem se confundir com azul, dependendo do observador.

No Apêndice A tem-se um detalhamento do funcionamento de nossa visão.

I I.4 Som

Som é o fenômeno físico relacionado a vibrações mecânicas que, por estarem

dentro de uma determinada faixa de freqüências, podem ser ouvidas pelo homem. As

vibrações mecânicas audíveis ou não, formadas por rarefações e compressões do meio

elástico por onde ela propaga, como ilustra a Figura 15, são estudadas através da acústica.

Figura 15. Representação gráfica e física da onda sonora.


40

I I.4.1 Acústica.

As oscilações e as vibrações poderão ser audíveis ou não. As oscilações senoidais

audíveis são chamadas tom. À superposição de vários tons, resultando em vibrações

audíveis, dá-se o nome de som. Portanto o termo tom está relacionado à freqüências únicas

(por exemplo, 100 Hz, 200 Hz, etc.), enquanto que som implica na somatória de

freqüências.

Numa vibração, dá-se o nome oitava ao intervalo entre duas freqüências que

guardam entre si uma relação de dobro. Por exemplo, entre 250 Hz e 500 Hz, ou entre 340

e 680 Hz, existe intervalo de oitava.

As vibrações podem apresentar diferentes formas de onda, de acordo com o

conteúdo harmônico. Por exemplo, a forma de onda do tom é representada por uma

senóide. As formas de onda representam a soma algébrica da amplitude de suas

componentes.

O fenômeno audível, cujas freqüências não podem ser discriminadas por diferirem

entre si por valores inferiores aos detectáveis pelo aparelho auditivo, é chamado ruído. São

exemplos de ruído os efeitos sonoros da chuva, o amassar de um papel celofane, etc.

Diferente do tom, o ruído faz parte dos fenômenos aperiódicos, os quais não apresentam

qualquer caráter de repetição.

O termo ruído não deve ser confundido com o termo barulho, o qual refere-se a

todo som indesejável. Todo barulho apresenta espectro passível de ser analisado, através

dos quais é possível a realização de tratamentos acústicos adequados para a sua redução em


41

determinados ambientes; por exemplo, é possível a redução do barulho de maquinarias em

indústrias, o que não ocorreria se este fosse ruído [NEPOMUCENO, 1994].

II .4.2 Características dos sons musicais

As ondas sonoras musicais podem ser caracterizadas através dos seguintes

parâmetros:

- Freqüência.

A freqüência caracteriza a rapidez de uma oscilação. Quando aplicado à música, a

freqüência do sinal de áudio é importante na determinação da altura musical. A altura

musical é a propriedade do som através da qual é possível classificá-lo em grave ou agudo.

A partir da altura musical os tons musicais são classificados dentro da escala musical como

nota: “dó”, “ré”, “mi” , etc. Para sons, refere-se à freqüência fundamental, ou seja, ao tom

de menor freqüência presente.

- Intensidade.

A intensidade do som está relacionada à quantidade de energia transmitida por uma

onda por segundo através de uma área unitária perpendicular à direção de propagação da

onda; logo a intensidade determina se o som é “forte” ou “ fraco” .


42

A unidade de intensidade sonora é o W.m-2 (Watt por metro ao quadrado). Por meio de

testes acústicos determinou-se a mínima intensidade sonora que o aparelho auditivo pode

discriminar eqüivale a 10-12 W.m-2 e a mínima pressão sonora 2.10-5 N.m-2 (Newton por

metro ao quadrado) ou 20 Pa (Pascal) (na freqüência de 1kHz). Estes valores

correspondem ao nível zero ou limiar da audição humana, e são usados como padrões de

referência de som. O limite superior da audição humana corresponde a 102 W.m-2 em

intensidade e 2.102 W.m-2 em pressão, onde a sensação é mais de pressão ou dor do que

sensação tonal. Um nível de intensidade ou pressão acima do limiar é determinado em

relação ao nível zero de audição, e indica quantas vezes a intensidade ou a pressão do som

é maior que a intensidade de referência (Iref = 10-12 W.m-2) ou maior que a pressão de

referência (2.10-5 W.m-2), as quais determinam o nível zero na escala logarítmica (decibel)

para medição de intensidade ou pressão do som [NEPOMUCENO, 1994]. A essa relação

entre intensidade do som e intensidade de referência ou da relação entre pressão e pressão

de referência dá-se o nome de bel, ou seja:

refG

Glogbel = [11]

Onde G é a intensidade ou pressão do som e Gref é a intensidade ou pressão padrão,

tomados do limiar de sensação auditiva. Logo o bel não é uma unidade, e sim uma relação

logarítmica entre duas grandezas, tomando-se uma delas como referência. Como o bel

representa uma medida que fornece resultados grandes, utiliza-se a décima parte do bel ou

decibel (dB) para especificar o nível de intensidade (I) e/ou nível de pressão (P) de um

determinado som segundo as respectivas expressões:

refI

Ilog10)dB(I = [12]


43

refP

Plog20)dB(P = [13]

A intensidade é traduzida em audibili dade. Em um sinal de som sintetizado, o

parâmetro de controle da audibilidade é a amplitude. [NEPOMUCENO, 1994]

Tal consideração é fundamental para este trabalho, uma vez que usaremos a

amplitude do sinal como forma de modular sua intensidade. Logo vemos que tal

modulação não pode ser feita de forma linear. No Capítulo III será detalhada a

implementação de tal modulação.

- Contorno.

A variável contorno, ou envoltória, ou ainda envelope, como é utili zado na

li teratura musical, está relacionada às características de crescimento e decaimento na

amplitude, ocorrendo de forma exponencial para a maioria dos sons naturais. A Figura 16

ilustra a sua forma. Especialmente em instrumentos que envolvem impacto, como o piano

e percussão, o contorno é bastante perceptível, sendo o ataque definido pela potência

inicial aplicada ao elemento vibratório, a sustentação por sua ressonância e o relaxamento

natural ou aplicado pelo músico, como uma forma de dissipação da energia do elemento

vibratório. [LOOMIS, 1990].


44

Figura 16. Contorno de um som musical mostrado em porcentagem do valor de saturação.


45

- Forma de onda.

A forma de onda de um sinal de áudio tem importância na determinação subjetiva

do timbre. O timbre é o parâmetro pelo qual são diferenciados os sons dos instrumentos

musicais. Todos os instrumentos, devido ao formato e modo como são tocados, produzem

sons de timbres característicos, através dos quais os mesmos podem ser reconhecidos. De

maneira semelhante, a voz de indivíduos diferentes cantando uma mesma canção pode ser

identificada por suas características individuais de timbre. A Figura 17 mostra a forma de

onda característica do som de um violino.

Figura 17. Forma de onda, ou timbre, de um som musical.

- Duração.

A duração de um som tem importância no contexto musical, e está relacionado ao

tempo (por quanto tempo a nota musical ressoa) e andamento. O andamento pode variar

de “ largo” (movimentos lentos) a “presto” (movimentos bastante rápidos). Na escrita

musical a duração do som é representada pelas notas musicais. O som mais lento é


46

representado pela nota semibreve. Partindo da semibreve, a nota seguinte (mínima)

representa o som com metade da duração desta, portanto duas vezes mais rápida; a nota

semínima é quatro vezes mais rápida, e assim sucessivamente.

- Modulação.

A modulação do sinal em freqüência (vibrato) ou em amplitude (tremolo) é feita em

baixa freqüência, sendo utilizada para “embelezamento” sonoro.

- Exceções.

As ondas provenientes de alguns instrumentos de percussão, como, por exemplo, a

castanhola e o bombo, não possuem altura musical; logo o som destes instrumentos é mais

apropriadamente classificado como ruído ao invés de som musical [LOOMIS, 1990].

I I.5 Como o ouvido humano capta os sons.

O ouvido é representado por três partes bem definidas: ouvidos interno, médio e

externo. O ouvido externo recebe as ondas acústicas e a transmite para o ouvido médio, as

quais são conduzidas ao ouvido interno. O ouvido interno, através de células receptoras,

traduz seus efeitos na forma de impulsos nervosos e os envia ao cérebro por meio de

nervos auditivos, levando à percepção auditiva. [NEPOMUCENO, 1994].


47

I I.6 Métodos de gravação e reprodução de sons e músicas.

Existem diversos formatos de arquivo para gravação de sons digitalizados, cada um

com as suas qualidades e objetivos. Dentre eles se destacam os métodos de gravação por

partitura, que anotam as notas musicais que devem ser geradas, e por áudio digital.

Existem inúmeros formatos para cada possibilidade. Serão descritos aqui apenas os

métodos que possibil itam reproduções com flexibil idade de parâmetros, que é uma

exigência para implementação do sistema proposto.

I I.6.1 Arquivos de áudio digital.

O formato digital é próprio para armazenagem de sons adquiridos por

quantizadores, listando os valores encontrados de forma seqüencial, tais valores devem ser

adquiridos em intervalos precisos de tempo, de acordo com a taxa de amostragem,

conforme visto na Figura 18.


48

Figura 18. Representação digital de um som.

Normalmente tais arquivos possuem cabeçalhos que descrevem a forma como os

dados foram aquisitados e devem ser reproduzidos. Esse cabeçalho, em geral, é que

diferencia o formato de arquivo gerado.

I I.6.1.1 O formato de áudio digitalizados “ Wave” .

Representa, em sua forma mais comum, uma transcrição dos valores aquisitados pelo

sistema digitalizador, somado a um cabeçalho. Este formato é uma variação do formato

RIFF para intercâmbio de dados entre programas. Foi desenvolvido de forma que os dados

contenham cabeçalhos para cada parte do arquivo, permitindo edição e reprodução de

blocos de diversos formatos sem necessidade de conversão. Cada parte desse arquivo

possui um cabeçalho que descreve a forma como ele foi gravado. Estão disponíveis

informações como versão, número de canais, taxa de amostragem, número de bits,

tamanho do trecho (bloco), além dos bytes de dados, que são codificados em PCM.


49

Por ser um dos formatos mais simples e populares, é adotado por praticamente

todos os fabricantes de softwares de edição de áudio, para diversas plataformas e sistemas

operacionais, além de instrumentos eletrônicos e sintetizadores para uso musical.

I I.6.1.2 Geração de arquivos de áudio digital.

A forma mais simples e usual de geração de áudio .wav é a gravação usando

um microcomputador dotado de placa de som. O “Recorder” do MSWindows é um

exemplo de programa capaz de digitalizar áudio, gravando no formato Wave. Para tanto,

deve-se informar as características desejadas, como numero de bits e taxa de amostragem,

que são passados para o hardware de som, responsável pela digitalização em tempo real e

transferência dos dados em blocos para a memória do microcomputador.

Essa operação é usualmente realizada pelo sistema operacional, bastando ao

programador utili zar as funções correspondentes das bibliotecas, passando os devidos

parâmetros.

I I.6.1.3 Reprodução de arquivos de áudio digitalizado.

Para reprodução, da mesma forma que para digitalização, os arquivos são lidos, o

hardware de som é configurado e o arquivo é transferido por funções das bibliotecas para

o hardware de som em blocos.

Usualmente a biblioteca de funções do sistema operacional possui rotinas para

reprodução desses arquivos, no entanto não permitem sua modulação nem a reprodução


50

simultânea deles. Em função dessa limitação para este trabalho foram desenvolvidas

rotinas que utilizam acesso direto ao hardware.

I I.6.1.4 Modulação por processamento digital de áudio.

A freqüência de reprodução de um determinado som pode ser alterada util izando-se

taxas de reprodução diferentes da util izada para aquisição, de maneira diretamente

proporcional. Assim podemos modular a freqüência do som digital. Cada vez que se dobra

ou divide por dois a velocidade de reprodução do som se consegue uma nota uma oitava

acima ou abaixo, respectivamente.

A amplitude do sinal pode ser modificada multiplicando-se cada amostra por um

valor constante. Usualmente util izam-se apenas valores entre 0 e 1 permitindo a

reprodução com 0 a 100% da amplitude original.

Em reprodutores stereofônicos podemos ainda selecionar a amplitude de saída em

cada canal, permitindo a sensação de direção da fonte de som.

Em ambiente Windows, estas modificações devem ser feitas por rotinas

desenvolvidas pelo programador, que deve fazer uma operação de leitura, tratamento e

gravação dos dados para posteriormente utili zar os serviços do windows de reprodução de

áudio. [FERNANDES, 2002]

I I.6.1.5 Modulação em freqüência de áudio digital.

Para variarmos a freqüência de reprodução de um arquivo devemos modificar o

intervalo de tempo entre as amostras, bastando para isso usar a expressão:


51

amostradossinaiscontendoArquivoWave

reprodutoroDispositivSaida

ArquivodoamostragemdeTaxa

ArquivonoAmostradaNúmero

S

nt

SaídadareproduçãodeTaxa

SaídanaAmostradaNúmero

S

nt

Onde

tWavetSaida

i

ii

o

oo

io

___

_

________

________

)()(

==

==

==

=

[14]

No entanto, em geral, os equipamentos de reprodução util izam freqüências de

amostragem padrão determinadas por bases de tempo eletrônicas, normalmente de valores

como 11, 22, 44 e 96 KHz. Sendo assim, devemos utili zar a seguinte expressão:

)()( ktWavetSaida oo ⋅= [15]

Onde k é um fator modulante de freqüência. Para k=2 dobramos a freqüência do som, ou

subimos uma oitava, para k=0,5 dividimos a freqüência por 2 ou diminuímos uma oitava.

Os valores de no e So são configuráveis mas devem permanecer fixos durante toda

reprodução. So e Si tem valores padronizados, normalmente de 11KHz, 22KHz ou 44KHz.

I I.6.1.6 Modulação em ampli tude de áudio digital.

A amplitude ou volume do áudio gerado está diretamente relacionada ao valor das

amostras quantizadas. Nos arquivos de áudio digital os valores estão representados

somados a uma constante igual a metade do valor de saturação. Em arquivos gravados em

8 bits, esse valor é igual a 128. Assim devemos antes de multiplicar o arquivo pela

constante desejada, subtrair 128 da amostra. Assim a expressão que representa a

modulação em amplitude é:


52

128))128)((()( +−⋅= tWavextSaida [16]

Onde

x é o fator modulante em amplitude, que deve variar de 0 a 1.

t é o valor do tempo, considerando a equivalência t=n/s.

I I.6.1.7 Reprodução de múltiplos arquivos de áudio digital.

Arquivos de áudio digital contem informações de valores quantizados. Quando

pretendemos reproduzir mais de um arquivo ao mesmo tempo precisamos calcular a média

das quantizações. Supondo que todas as freqüências sejam iguais:

Waven(t)=Qn(t)

Onde Qn(t) é um arquivo contendo valores quantizados.

Se quisermos reproduzir m arquivos, devemos fazer:

m

tWavetSaida

m

imo

∑= 1)(

)( [17]

Onde Saída(t) é o valor resultante, que deverá ser enviado ao conversor digital analógico a

cada intervalo de tempo to=1/So.

II .6.1.8 Associando diversas modulações

Para conseguirmos modular diversos sons em amplitude e freqüência, usamos a

expressão:


53

m

ktWavextSaida

m

mommo

128)128)(()( 1

+−⋅⋅= ∑

[18]

Onde:

Xm= Índice de modulação em amplitude do sinal m;

km= Índice de modulação em freqüência do sinal m;

to= numero da amosta / Taxa de amostragem;

O valor (to*Km) deve ser um valor inteiro, para corresponder a uma amostra.

Exemplo de aplicação, baseado em formas simples de som gerados por 2 tons, que neste

exemplo não são quantizados:


54

Mudando o valor do k3 para 0.8 o resultado se transforma em:


55

Assim podemos gerar qualquer tipo de som sintetizado, no entanto, torna-se um

método matematicamente simples mas que exige uma capacidade razoável de

processamento para realização em tempo real.

Utilizando este mesmo princípio, se utilizarmos sons amostrados podemos obter

resultados muito interessantes com um volume de cálculos menor. Basta no exemplo

anterior, substituir a função sin(t) por um vetor que contenha os valores correspondentes às

amplitudes da forma de onda característica (timbre) de um determinado instrumento

musical. Um exemplo de forma de onda característica do timbre de um violino pode ser

visto na Figura 19. O vetor Wviolino(t) possui os valores correspondentes a alguns ciclos

da componente fundamental. Na implementação, para simpli ficação nos cálculos, foi

utili zado um vetor com tamanho 100, pois um número de amostras originalmente é tomada

em função da freqüência da nota analisada e da taxa de amostragem. Em nosso caso foi

usada uma nota de 440Hz e taxa de amostragem de 44000 por segundo, o que gera 100

amostras por período de amostragem. Para obtenção de quantidades diferentes de amostras

(valores ideais seriam na base 2, como 128 ou 256), um algoritmo de interpolação pode ser


56

utili zado. Outra possibil idade seria o uso de outra freqüência de amostragem ou de nota

musical, no entanto esses valores de taxa de amostragem são normalizados.

Figura 19 – Forma de onda característica (timbre) de um violino.

Com esse método é possível obter resultados mais satisfatórios, permitindo

a reprodução de sons com um grande número de harmônicos, como pode ser visto na

análise do espectro de freqüências do som do violino, na Figura 20.

Figura 20 - Espectro de freqüência do som de um violino.


57

II .7 Reprodução util izando acesso direto ao hardware do IBM-PC

Os computadores IBM-PC utilizando sistema operacional Windows 98 ou

superior permitem o acesso direto ao seu hardware de saída de som util izando as APIs

chamadas DirectX, que é um acrônimo de “Acesso Direto” . Especificamente as rotinas do

grupo DirectSound foram utilizadas neste trabalho, diferente da reprodução normal de um

som pelo sistema operacional, onde é utili zado um comando que tem com argumento o

nome do arquivo de som digitalizado, independentemente de seu formato (a interpretação

do formato e modo de digitalização é feita pelas rotinas multimídia), para elaboração do

sistema reprodutor de múltiplos sons com múltiplas modulações foi necessária a criação de

um sistema de múltiplos vetores em memória, contendo cada trecho de áudio digital

necessário ao processo, todos gerados em uma mesma freqüência original, mesma taxa de

amostragem e amplitudes máximas.

O software desenvolvido recebe então os parâmetros correspondentes ao som

gerado, como será descrito em Capítulo III , e fará a composição dos sons conforme

algoritmo descrito em II .8.2.8, utili zando os vetores em memória dos diversos

instrumentos musicais ou mesmo arquivos contendo silabas ou palavras.

58

Capítulo II I

Implementação

A associação entre parâmetros de um som aos de uma imagem é possível através do

desenvolvimento de um algoritmo para produção de sons em função de dados gerados pelo

processamento de uma imagem coletada por uma câmera. Neste capítulo estudaremos cada

detalhe da implementação feita para criar a associação, utilizando os conceitos descritos no

Capítulo II e complementados pelo Apêndice A

I I I .1 Escolha de modelos para representação de cores.

Sendo que o objetivo deste trabalho é informar ao deficiente visual a identificação

da cor analisada e não quais suas componentes, foram descartados os modelos como o

RGB e o CMY. Tais modelos aplicados a parâmetros acústicos, não seriam de

interpretação natural, uma vez que nossa visão recebe a cor de forma composta.

Os modelos YIQ e HSI se mostraram mais interessantes por serem mais próximos

às sensações de cor que estamos habituados a descrever, como:

• Qual cor:

Capítulo 3 - Implementação

59

Damos nomes às cores, como: Azul, amarelo, etc. O nome técnico para essa

característica é matiz.

• Sua pureza ou saturação:

Uma cor pode ter um tom “vivo” ou “pastel” , como a diferença do vermelho

ferrari para o rosa ou do azul turquesa para azul céu. Esta qualidade esta

relacionada com a quantidade de branco em sua composição. Cores puras

possuem menor quantidade de branco;

• Intensidade ou brilho:

Pode-se ter um verde claro ou verde escuro, ambos compostos pela mesma

matiz e saturação. Uma cor mais intensa é aquela que possui maior

luminosidade. Convencionou-se assim chamar as cores com tal qualidade

mais acentuada de claras. Na aquisição de uma imagem esse parâmetro está

diretamente relacionado à iluminação do objeto.

Na implementação foi util izado o valor de Y, do modelo YIQ, por Y

descrever o brilho ponderando a característica de não linearidade frente às

diversas freqüências de cores de nossa visão, conforme pode ser visto em

[6], diferente de I, de HSI como visto em [7].

As câmeras digitais, em geral, fornecem as imagens no formato RGB, variando

apenas sua resolução e número de cores, ou bits por pixel. Sendo assim foram aplicadas as

formulas citadas no capítulo II .4 para obtermos H,S e Y, conforme detalhado à seguir.


60

I I I .1.1 Identificação da cor .

Conforme citado anteriormente (II .3.1), no modelo HSI a matiz é um ângulo que

representa a cor. Criando uma tabela que associa os ângulos e a forma como o olho

humano interpreta as cores, conforme visto na Tabela 2, correspondendo nomes a elas, é

possível identificar a cor do ponto em questão (foram desprezados, até esse ponto da

análise a saturação e o brilho).

Na implementação foi utilizada uma tabela experimental, mostrada na Tabela:

H = Ângulo

(Graus)

Largura

(graus)

Cor correspondente

27 a 49 22 Ciano

50 a 125 75 Azul

126 a 144 18 Roxo

145 a 226 81 Vermelho

227 a 254 27 Laranja

255 a 274 19 Amarelo

276 a 26 110 Verde

Tabela 3. Ângulos de matiz que determinam cada cor.

Percebe-se na tabela como a quantidade de graus que representa

determinada cor é variável. Isso se deve a não linearidade de percepção para cores da visão

humana. O disco de cores apresentado a na Figura 21 foi montado com quantidades iguais

de Vermelho puro, disposto a 210o, Verde puro a 240o e Azul puro a 90o. Pode-se notar


61

como a região verde parece ter uma área maior, alem de ser mais “clara” que azul e

vermelho.

Figura 21 – Cores representadas como ângulos.

I I I .1.2 Classificação quanto a Saturação.

A saturação, no modelo HSI, está relacionada à pureza de cor. Uma cor não pura é

uma cor que possui certa quantidade de branco em sua composição. Assim podemos

distinguir a cor vermelha da cor rosa, ainda que contenham a mesma informação de matiz e

brilho, resultando por exemplo para uma matiz verde, em um cinza esverdeado.

Cores com saturações mínimas são chamadas monocromáticas, ou variações de

cinza, que podem ir do preto ao branco. A Figura 22 mostra uma representação das cores

de forma semelhante à da Figura 21, no entanto um cili ndro combinando as cores com


62

máxima pureza ou saturação na parte superior e mínima na inferior foi criado e desenhado

de forma aberta.

Figura 22- combinações de matiz (H) e saturação (S).

Assim, para valores de saturação inferiores a 2,5% do valor máximo possível, é

adotada a interpretação da cor como monocromática. Utilizando o parâmetro de luminância

cada cor pode ser identificada como indicado na Tabela 3.

Luminância (valores entre 0 e 255) Cor correspondente

0 a 80 Preto

81 a 139 Cinza

140 a 255 Branco

Tabela 3 Diferenciando cores que possuem pequena Matiz.


63

I I I .1.3 Identificação de br ilho.

Como visto em II .2.2 (Características do CCD utili zado) a resposta em freqüência

da câmera utili zada é diferente da curva do olho humano (como visto no Apêndice A.).

Assim precisamos de um fator de correção, conhecido como fotor Gama, que é um dos

parâmetros de ajuste do CCD utili zado. Tal fator foi ajustado de forma a obtermos os

valores equivalentes aos percebidos por um olho humano. Na CCD utilizada é um dos

parâmetros programáveis via serial SCCB.

O olho humano possui determinados “pesos” para a percepção da intensidade de

cada cor. Esses pesos são representados no modelo YIQ como os coeficientes necessários

para gerar a mesma sensação de brilho de determinada cor em um tom de cinza

equivalente.[KIVER, 1965]

Assim temos que a informação de brilho de uma determinada cor pode ser extraída

de uma informação de cor em RGB por [13] [NASSAU, 1983] [KIVER, 1965]:

B

G

R

Q

I

Y

*

0,331 0,523- 212,0

0,321- 0,275- 596,0

0,114 0,587 299,0

= [19]

Ou Y=0,299*R+0,587*G+0,114*B [20]

No entanto estaríamos cometendo um erro se fosse usada diretamente tal equação,

uma vez que não estaríamos medindo a luminosidade da cor apresentada e sim a

luminosidade resultante, que depende da iluminação.

Para minimizar os efeitos de tal distorção um controle automático de sensibil idade,

semelhante a um controle automático de tempo de exposição se estivesse sendo util izada

uma máquina fotográfica, foi implementado. Cada imagem captada é analisada conforme


64

seu histograma monocromático equivalente (obtido pela fórmula de KIEVER,1965), um

ajuste de brilho é feito e uma nova imagem é captada, até que se obtenha um histograma

com o formato desejado, característico de uma imagem de alto contraste. A conclusão

obtida pela análise computacional do histograma é util izada para realimentar o registrador

chamado “ tempo de exposição” da CCD utili zada, acessível pela interface serial SCCB.

I I I .2 Protótipo para testes

Conforme descrito em II .2.3 (Interface entre o CCD e o hardware utili zado) foram

desenvolvidos 2 sistemas, um microcontrolador e um utilizando um IBM-PC. O

microcontrolador responsável pela captura da imagem e o IBM-PC pelo tratamento

matemático e reprodução dos sons. Feitos os estudos, a evolução da implementação seria o

uso somente do sistema microcontrolado, dispensando o IBM-PC.

A implementação no PC foi realizada utili zando Borland Delphi, que é uma

linguagem orientada a objetos derivada do Pascal, que permite acesso pleno às rotinas do

Windows necessárias para o acesso direto ao hardware (DirectX), mais especificamente ao

hardware de som (DirectSound).

Originalmente as rotinas do Windows necessárias utilizam formatos de dados

diferentes dos gerados pelo Delphi, sendo necessário o uso de um conjunto de rotinas

conversoras chamadas Headers, disponibilizadas em caráter freeware pela organização

Project JEDI (Joint Endeavor for Delphi Innovators). Tais rotinas também são

disponibili zadas para uso com o sistema operacional Linux. [FERNANDES, 2001]


65

I I I .2.1 Implementação do sistema de aquisição de imagem.

Conforme descrito em II.2.3, foi implementado um sistema microcontrolado, e,

para facilitar os ensaios, foi criada uma opção de carga de imagens diretamente do disco

rígido.

I I I .3 Implementação do sistema de análise de cores.

A imagem captada é armazenada em um vetor de pontos p contendo 120 linhas e

160 colunas. Como cada ponto é armazenado em 3 bytes contendo os valores digitalizados

de R,G e B. Para facili tar o entendimento do algoritmo será utilizado um vetor de 24 linhas

por 32 colunas com 3 bytes por ponto como exemplo, como visto na equação 21.

[21]

Onde: px,y=[Rx,y,Gx,y,Bx,y]

A imagem é analisada por partes, realizando uma varredura da esquerda para a

direita. Cada parte possui largura programável, nos testes práticos os tamanhos da ordem

de 5% do total da imagem mostraram ser mais eficientes.


66

A varredura na implementação do sistema facilita o detalhamento da imagem,

dividindo-a em trechos de tamanho programável. Para cada um é executado o processo de

análise, que foi dividido em etapas, sendo elas:

• Levantamento do histograma colorido;

• Ordenação do histograma por ordem de quantidade;

• Reprodução dos sons conforme parâmetros das cores encontradas no

histograma.

Cada etapa será detalhada a seguir.

I I I .3.1 Formato de armazenagem do histograma.

O histograma é o resultado da análise de cores e foi implementado de forma a

acumular a quantidade de pontos de determinada cor encontrados, sendo capaz de

classificar cores semelhantes como sendo únicas e acumular a informação de cor de tal

forma que ao final do processo se tem a cor média encontrada. Isto é feito desta forma.

pois nosso objetivo é transferir para o deficiente uma informação de cor presente por sons.

Situações comuns de erro como a aquisição de uma imagem de determinada cor uniforme,

tomada com pequenas diferenças de iluminação que poderiam gerar mais de uma

informação de cor em pequena quantidade enquanto o resultado correto seria uma cor

uniforme em grande quantidade são evitadas.


67

O Vetor Histograma possui os seguintes elementos:

Função Nome Tamanho (bits)

Quantidade Qtd 32

Somatória de Intensidades R ER 64

Somatória de Intensidades G EG 64

Somatória de Intensidades B EB 64

Somatória de Luminância Elum 64

Somatória de Matiz Emat 64

Somatória de Saturação Esat 64

Tabela 4 – Vetor Histograma, resultado da análise de cores.

O parâmetro seletividade, que é ajustável, determina a faixa de valores de matiz é

considerado como uma mesma cor. Cores com a mesma matiz dentro da faixa aceitável são

novamente analisadas quanto à saturação. Esse processo é feito em duas etapas uma vez

que com mesma matiz são por definição semelhantes, no entanto cores com mesma

saturação só serão semelhantes se suas matizes o forem. Tomemos como exemplo três

cores:

a) Vermelho de matiz=225, Saturaçao=50%, Brilho=50%;

b) Vermelho de matiz=235, Saturaçao=60%, Brilho=50%;

c) Verde de matiz=315, Saturaçao=50%, Brilho=50%;


68

A cor a é mais semelhante a b que c, embora a e c tenham a mesma saturação e

brilho, suas matizes são bastante diferentes, enquanto a e b às tem semelhantes. O

parâmetro de brilho foi analogamente tratado.

Tal abordagem facil itou a implementação, uma vez que um espectro real de cores

para tal CCD precisaria ter 16 milhões de entradas (caso fosse uma para cada cor).

Matematicamente a seletividade é representada por um percentual do determinado

parâmetro. Sendo assim a diferença aceitável em determinado parâmetro é igual a:

Diferença_aceitável=(100-seletividade)* valor_máximo _do_parâmetro [22]

I I I .3.2 Cr iação do histograma color ido de uma região da

imagem

Uma rotina varre a região selecionada da imagem ponto a ponto. Cada ponto é

classificado como semelhante ou não a algum já armazenado no vetor Histograma. Para

tanto é necessária a transformação de cada ponto da região em sua representação por

Matiz, Saturação e Luminosidade. São utilizadas para tal transformação [8] e [9].

Caso seja considerado semelhante a algum elemento, o valor Qtd de determinada

entrada é incrementado e os valores de seus componentes são adicionados aos já presentes

no elemento do vetor.

No próximo ciclo de busca por cores semelhantes os parâmetros necessários serão

tomados como a somatória dos valores já encontrados do determinado parâmetro dividido

pela quantidade encontrada, encontrando assim, ao final do processo, a cor média

correspondente às cores encontradas e tidas como semelhantes.


69

Por outro lado, se a cor do ponto não for considerada semelhante a nenhum

elemento do vetor uma nova entrada, com quantidade unitária e parâmetros iguais a da cor

do ponto é criada.

Pontos classificados com tendo a mesma cor irão influenciar a saída gerando uma

maior amplitude do sinal correspondente a tal cor. Cores diferentes geram novos sinais.

I I I .3.3 Ordenação por ordem de quantidade

Como o objetivo do processo é apresentar as cores mais presentes na imagem sendo

analisadas, o histograma de cores foi ordenado, de tal forma que a cor que aparece em

primeiro lugar é a cor mais presente, declinando sucessivamente até uma posição no vetor

que tem como quantidade de cor a indicação zero.

Ao termino dessa análise, o protótipo desenvolvido realiza uma plotagem da matriz

gerada, permitindo sua análise visual, o que só faz sentido para estudos, não pertencendo

ao objetivo da implementação final.

I I I .4 Implementação do sistema de modulação e reprodução.

Neste passo o vetor de histograma ordenado por quantidade é transferido para uma

rotina tal que seleciona inicialmente quais timbres ou sons serão utilizados durante aquele

momento, e verifica ainda se ele já está sendo reproduzido. Caso negativo inicia a

reprodução, ou simplesmente altera sua modulação, completando assim a última etapa do

algoritmo:


70

I I I .4.1 Reprodução dos sons digitali zados associados a cada cor

Diversas técnicas de modulação foram experimentadas, sendo a que gerou

resultados mais positivos foi a indicada na Tabela 5. Criada com base nas definições de

cada parâmetro e em teste experimentais.

Imagem Som

(Vide Cap. II .6.4 para nomenclatura)

Matiz Timbre

Quantidade da cor na amostra Amplitude

Luminância da cor Freqüência

Rugosidade ou manchas Vibrato ou tremolo

Posição da amostra Balance

Permanência da cor na imagem ou largura

do objeto

Duração

Forma como a cor surge na imagem Ataque

Forma como a cor desaparece da imagem Decaimento

Tabela 5 – Associação lógica de parâmetros de uma imagem colorida e de um som

Cada modulação é detalhada a seguir:

• Associação da crominância ao Timbre: como visto em III .2.1 a crominância

determina “qual” a cor em questão. Para simplificar os estudos foram utilizadas

7 possibili dades para cores com maior saturação, além de tons do branco ao

preto para cores sem saturação, totalizando 10 cores ou 10 timbres possíveis.


71

Um número maior de timbres poderia sem implementado, no entanto pode-se

dizer que para cada cor existe apenas um som, assim cada cor pode ser

identificada sem a necessidade de associações mentais mais complexas. Em

outras palavras, cada timbre necessita de uma análise mental para associa-lo à

cor, ou seja, tal tabela deve estar presente no subconsciente do deficiente visual.

Quanto menor essa tabela, mais fácil sua interpretação.

• Associação da quantidade da cor na amostra à amplitude: É imediata a

associação de quantidade amostrada e amplitude de um sinal. Assim foram

associados com um excelente resultado esses dois parâmetros. Quanto maior for

a amostra de determinada cor maior será a amplitude do som correspondente

gerado.

• Associação da rugosidade ou falta de pureza ao vibrato ou tremolo:

Naturalmente quando uma cor persiste durante diversas varreduras na imagem

suas nuances podem provocar variações no valor médio da cor amostrada, o que

provoca uma variação de freqüência ou amplitude do som ao decorrer da

transformação da imagem, variações estas conhecidas em música como vibrato

e tremolo, respectivamente.

• Associação da posição da amostra ao balanço: Como o processo é realizado na

forma de varredura vertical, os sons são inicialmente destinados ao ouvido

esquerdo, passando para o direito. Isso possibil ita a sensação de posição da cor

na imagem. Com lentes e acessórios adequados é possível um resultado com

maior realismo. Nos testes foram usadas câmeras com aberturas típicas de 48

Graus. Objetivas panorâmicas poderiam aumentar o ângulo para mais de 90

graus, aumentando tal sensação.


72

• Associação da permanência da cor na imagem ou largura do objeto com a

duração do som: Por se tratar de uma varredura com sobreposição o som

permanece enquanto existir sua cor correspondente, na freqüência e amplitude

correspondentes. Assim a permanência de um determinado timbre indica a

continuidade horizontal de tal objeto.

• Associação da forma como a cor surge na imagem ao ataque do som: Objetos

que não estejam presentes no inicio da imagem e surjam de forma gradativa na

região analisada da imagem, como triângulos e círculos tem uma representação

diferente de quadrados ou retângulos.

• Associação da forma como a cor desaparece da imagem ao decaimento: De

forma semelhante ao Ataque, o decaimento denota a forma como o objeto deixa

a imagem.

I I I .5 Configurações possíveis.

• Sons produzidos por cada cor.

O arquivo contendo o som digitalizado a ser reproduzido para cada cor encontrada

na imagem pode ser selecionado na tela de configuração, acessível da tela principal pelo

comando “Configurar”.

É possível ainda selecionar os valores mínimos e máximos de modulação de

freqüência para se obter melhores resultados conforme o tipo de som selecionado,

especialmente se forem sons de instrumentos musicais.

• Configurações gerais do algoritmo.


73

Para uma maior flexibilidade e avaliação de cada implementação no algoritmo, uma

vez que ele propõe múltiplas associações de parâmetros ao mesmo tempo, uma área de

configurações rápidas foi criada, permitindo a programação de valores como a

seletividade, ligar e desligar modos de modulação a fim de estimar o quanto eles

contribuem para a identificação do objeto.

74

Capítulo IV

Testes realizados

A forma mais eficiente para se avaliar o resultado de um sistema de visão artificial

para deficientes é a experimentação, apresentando objetos e anotando-se a taxa de acerto

em cada condição. Um treinamento prévio é imprescindível, para habituar o individuo ao

novo sistema [RITA, 1998]. Voluntários da Fundação Porto Mariz, uma entidade sem fins

lucrativos criada e dirigida por deficientes visuais, com o intuito de desenvolver a

adaptabili dade do deficiente visual, foram util izados nos testes mostrados a seguir.

IV.1 Descr ição dos testes.

Foram realizados três tipos distintos de testes, a fim de avaliar a capacidade de

identificação em três diferentes situações.

• Em um primeiro grupo de testes o deficiente devera identificar o objeto sabendo a

sua forma, simulando uma situação em que se pode tocar o objeto;

• Em um segundo momento o deficiente se deparou com um conjunto de objetos

(situação em que o toque não é possível mas o objeto já foi treinado) misturados

devendo localizar o objeto solicitado.

• Foram ainda realizados testes com objetos desconhecidos, pedindo ao deficiente

que descrevesse o objeto imaginado através dos estímulos sonoros. Estes testes são

Capítulo 4 – Testes Realizados

75

importantes para evitar erros devido à memorização de resultados anteriores. A

Tabela 6 resume os testes realizados.

Teste Objetos Possibilidade de uso avaliada

1) Identificando objeto de

forma conhecida

Treinados

Diferenciação entre objetos

de mesma aparência ao tato

2) Localizando objetos de

forma e cores conhecidas.

Treinados

Descobrir se determinado

objeto está presente na cena

amostrada.

3) Descoberta de novos

objetos.

Desconhecidos

Descoberta de características

de objetos novos.

Tabela 6. Testes realizados com os deficientes visuais voluntários.

IV.2 Método de treinamento do deficiente.

O deficiente visual voluntário para os testes recebeu um protótipo do equipamento e

uma orientação sobre seu funcionamento. Ele pôde ainda util izar o equipamento por 18

dias antes do início das avaliações, para ambientação. No entanto os objetos utilizados nos

ensaios só lhe foram apresentados durante os testes oficiais, evitando assim que os

resultados pudessem ser previamente memorizados.

Nos testes onde os objetos foram apresentados com antecedência o deficiente pode

ouvir o resultado produzido por cada objeto e lhe foi informado do que se tratava.


76

IV.3 Dinâmica dos testes.

IV.3.1 I dentif icação de objetos de forma conhecida

Neste teste foi utili zado um grupo de objetos: 12 latas idênticas no formato mas

com cores diferentes.

Para cada bateria de testes os objetos foram treinados por 30 minutos, depois

apresentados de forma aleatória.

Os resultados estão detalhados no Apêndice C.1. e comentados no Capítulo V.1

IV.3.2 Localizando objetos de forma e cores conhecidas

Nesta avaliação foi solicitado ao deficiente visual que indicasse qual a posição do

objeto já treinado (conhecido) em um conjunto de quatro. Apenas um grupo de objetos foi

utili zado: latas.

Situações simples e complexas foram misturadas para avaliar a capacidade de

percepção em vários níveis de dificuldade. Para aumentar a precisão das medidas cada

imagem foi repetida diversas vezes, de forma aleatória.

Os resultados obtidos podem ser vistos no Apêndice C.2 e a análise no Capítulo

V.2.

IV.3.3 Descoberta de novos objetos.


77

Nesta avaliação objetos simples foram mostrados ao deficiente visual e uma

resposta subjetiva sobre a imagem correspondente foi esperada. A qualidade da resposta

foi classificada em uma escala de 0 a 5, correspondendo a incorreto e perfeitamente

correto, respectivamente, sendo validadas respostas intermediárias com a devida

consideração. A resposta foi dividida em:

• Classificação da cor quanto a sua luminosidade e quantidade

Onde espera-se que o deficiente seja capaz de dizer qual a cor predominante do

objeto e qual a nuance (claro ou escura).

• Classificação da forma do objeto.

Onde espera-se que o deficiente seja capaz de classificar a forma do objeto,

conforme as possibili dades:

-Quadrado/retangular ou redondo;

-Longo ou curto;

-Largo ou estreito;

-Simples ou multicolorido (complexo).

Os resultados obtidos podem ser vistos no Apêndice C.3 e a análise no Capítulo

V.3.


78

IV.4 Propostas para trabalhos futuros

Existem inúmeras aplicações para a tecnologia apresentada, ela pode ser

considerada como uma forma de melhor aproveitar a capacidade de audição humana,

especialmente em condições em que existe a necessidade de concentrar a visão em

determinada operação.

Trabalhos futuros podem estar focados em novos usos para tal tecnologia ou no

aperfeiçoamento dela.

IV.4.1 Propostas para aperfeiçoamento

• Utilização de 2 câmeras.

Utilizando 2 câmeras postas lado a lado, a uma distancia conhecida e fixa, e

comparando as imagens procurando por defasagens, podemos ter a idéia de distância dos

objetos. Assim poderíamos implementar não só a noção de quantidade da cor, mas de

distância do objeto que possui a cor.

• Modulação da fase do sinal gerado.

Com um sistema de processamento de áudio mais complexo pode-se manipular a

fase do som, permitindo aprimorar a sensação de posição, associada à sensação de

diferença de amplitude. Embora o homem seja pouco sensível a variações de fase do sinal,

tal variação poderia promover uma melhoria na capacidade de localização de objetos,

utili zando as técnicas conhecidas como souround.


79

• Associação com técnicas de identificação de contorno.

Associando o sistema desenvolvido com rotinas padrão de reconhecimento de

contorno, pode-se criar um verdadeiro leitor de imagens, capaz de identificar figuras

geométricas e outras características da imagem analisada.

IV.4.2.Propostas para usos.

• Melhorias no sistema de sinalização sonora para salas de cirurgia.

Para cirurgiões a monitoração de variáveis como batimento cardíaco e grau de

oxigenação do sangue já são monitorados por sinais sonoros (tons) com grande sucesso e

receptividade. Com o uso mais amplo da capacidade auditiva, outras variáveis importantes

como pressão arterial, temperatura do corpo, etc, poderiam ser monitoradas por sons.

• Auxili o em pousos e decolagens.

Pilotos de avião, área muito carente de novidades de segurança, poderiam ter

variáveis como:

- Ângulo de descida (Glide) ou diferença do ângulo de descida ao ângulo ideal

(erro de Glide);

- Altura em relação à pista (Altitude da aeronave – Altitude do Aeroporto);

- Taxa de aceleração,

entre outros, sinalizados por sons. Todos os exemplos citados são de variáveis que

precisam ser estimadas ou calculadas indiretamente utili zando um ou mais instrumentos e


80

são imprescindíveis para a segurança e que não são adicionados ao painel por limites da

capacidade visual do piloto, que precisa estar atento ao tráfego, rádio, pilotar e acompanhar

os instrumentos.

• Sistema de criação musical

Utilizando sons de instrumentos musicais para cada cor, pode-se criar um

instrumento musical l iteralmente tocado por cores. Mosaicos de cores poderiam ser as

partituras, lidas pela câmera. A excitação do sistema com imagens em movimento poderia

associar o uso à dança.

81

Capítulo V

Conclusões

De acordo com os resultados obtidos através das técnicas de processamento de

imagem e modulação de sons musicais, foi possível chegar ao objetivo principal, que era a

identificação e ou localização de objetos por sua cor pelo deficiente, conforme pode ser

visto no Apêndice C. Com taxa de acerto média da ordem de 87,2%, considerando que o

treinamento do deficiente visual foi breve, entende-se que os resultados obtidos foram

bastante mais satisfatórios que os estudos envolvendo contornos.

Pode-se concluir ainda que:

• O uso conjunto do modelo Y de YUV, H e S de HSI foram fundamentais para

um equacionamento simples da forma como as cores são vistas pelo olho

humano a fim de conseguir uma equivalência linear de parâmetros sonoros e

das cores analisadas;

• Em função do modelo matemático da crominância ser angular, o número de

cores que compõe a imagem não é tão fundamental quanto parecia inicialmente.

Uma imagem com 24bits por pixel, transformada em 16bits por pixel

apresentou diferenças pouco significantes de resultados. Já o uso de 8 bits

demonstrou uma queda significativa na qualidade dos resultados. Nos testes

práticos relatados no Apêndice C somente o modo 24bits foi utili zado.

Capítulo V - Conclusões

82

V.1 Análise dos resultados práticos

Os dados coletados e apresentados no Apêndice C foram analisados e estão

comentados a seguir:

V.1.1 Identificação de objetos de forma conhecida

Conforme detalhado no Capítulo IV.3.1 foram realizados os testes propostos,

obtendo-se os resultados constantes no Apêndice C.1 e comentados aqui.

Dos desafios diários pode-se dizer que é o mais comum, considerando que os

seres humanos, em geral, passam a maior parte do tempo rodeados de objetos conhecidos, seja

em casa ou no trabalho.

Para tal caso foi conseguido um índice de acerto de 89,92%, o que foi

considerado satisfatório, observando que os erros foram sempre observados em casos em

que dois ou mais objetos que de fato se pareciam eram envolvidos no processo. Entende-se

ainda que o sistema, e até mesmo o conceito de cor pode ser uma novidade para o

deficiente visual, sendo assim um treinamento mais longo pode trazer resultados ainda

melhores.

V.1.2 Localizando objetos de forma e cores conhecidas.


obtendo-se os resultados constantes do Apêndice C.2 e comentados aqui.

Situação também comum, onde o objeto procurado está misturado a outros. Sendo

assim o objeto desejado ocupa uma fração da imagem, logo, considerando a mesma

Capítulo 5 - Conclusões

83

configuração do sistema, uma quantidade menor de informação sobre o objeto é passada ao

deficiente.

Os resultados obtidos apresentaram um índice de acerto da ordem de 87,25%, que

foi considerado satisfatório. Em casos reais o deficiente visual poderia manipular a câmera

e o objeto, confirmando a informação colocando o objeto por inteiro no “campo visual” .

Ele criaria assim uma segunda etapa no teste, nos moldes do item comentado em IV.3.1.

V.1.3 Descoberta de novos objetos.


obtendo-se os resultados constantes do Apêndice C.3 e comentados aqui.

Uma associação de sons e objetos é muito mais simples que a imaginação de cores,

especialmente se o deficiente visual nasceu com a deficiência. No entanto pela capacidade

aguçada de audição e memorização os resultados dos testes foram surpreendentes,

atingindo 84,43% de acerto. Deve-se ponderar que os resultados foram subjetivos. A

interpretação da descrição de uma cor e forma pode variar com o grau e tipo de deficiência

do voluntário. Certamente os que nasceram com a deficiência pouco podem imaginar sobre

cores, ainda que possam utilizar o sistema para diferenciar objetos associando a eles

somente a idéia de sons.

84

Apêndice A

Teor ia sobre imagens e cores

A.1 Imagens

O termo imagem pode ser definido como a representação ou imitação de um objeto

ou algo [CASTLEMAN, 1996]. Esta contém informações descritivas sobre o objeto que a

mesma representa.

Uma imagem pode ser classificada de acordo com o método usado para a aquisição

da mesma em: i) física (fotografias, desenhos e pinturas), ii ) óptica (imagem formada por

lentes, grades e hologramas) e iii ) abstrata (imagem digital).

A imagem digital é um arranjo retangular de números que podem representar uma

imagem física. A Figura 23 ilustra este arranjo. Os elementos da imagem digital (pixels)

são as unidades discretas, e as escalas de cinza (integradores) fornecem os valores

numéricos. O número inserido na imagem digital em cada pixel reflete o brilho da imagem

no ponto correspondente. Deste modo, uma imagem digital é um arranjo retangular

bidimensional de valores de amostras quantizados. [CASTLEMAN, 1996] Para imagens

coloridas 3 imagens são superpostas, cada uma contendo uma das cores primárias R,G e B.

Apêndice A – Teoria sobre Imagens e Cores

85

Figura 23. Imagem física e a imagem digital correspondente [CASTLEMAN, 1996]

A imagem física deve ser convertida em digital para poder ser processada por um

computador. A conversão do sinal analógico em digital (digitalização), assim como o

processo inverso, ou seja, digital em analógico (apresentação), está esquematizada na

Figura 24.

Figura 24. Conversão analógica/digital e digital/analógica

As vantagens em se digitalizar dados são várias, dentre as quais pode-se destacar a

universalidade de representação, o processamento, maior qualidade, segurança,

armazenamento e transmissão. Uma forma comum de digitalização é ilustrada na Figura

25.


86

Figura 25. Digitalização de uma imagem

A.1.1 Sistemas de vídeos analógicos e digitais

Um sistema para captura e apresentação de vídeo na forma analógica está

apresentado na Figura 26. O sinal captado pela câmera é transmitido diretamente, ou então

armazenado para transmissão posterior.

Figura 26. Sistema de vídeo analógico

Na Figura 27 está apresentado um sistema para vídeos digitais. Neste sistema o

sinal analógico é capturado e transmitido no formato analógico. Numa etapa intermediária


87

é feita a conversão para o formato digital para facili tar o processo de transmissão. A

diferença entre estes sistemas é que, no primeiro caso, é difícil separar-se as imagens. Para

ser apresentada durante cinco minutos, por exemplo, a imagem de formato analógico deve

ser capturada, transmitida e apresentada repetidamente por cinco minutos. Para a imagem

digital, processos computacionais são possíveis, permitindo o envio somente das diferenças

entre o frame atual e o anterior, além da omissão de algumas informações de cor,

reduzindo o tempo de transmissão. Processo esse conhecido como compactação.

Outra diferença entre os sistemas analógico e digital é que todos os componentes do

sistema analógico (câmera, transmissor, receptor e monitor) devem operar de maneira

sincronizada, enquanto que no caso dos sistemas digitais, os componentes podem ser

operados independentemente: a câmera registra a imagem ou cena, podendo esta ser

transmitida de maneira seletiva. Por exemplo, a imagem não vai falhar caso falte quadros

(imagens individuais ou frames), uma vez que a tela é atualizada constantemente com o

conteúdo armazenado disponível.

Figura 27. Sistema de vídeo digital


88

A.1.2 Terminologia referente ao processo de digitalização

As etapas para a digitalização de uma imagem compreendem varredura,

amostragem e quantização. Varredura é a seleção de um local específico dentro do domínio

de uma imagem, enquanto que amostragem é a medida do nível de cor (podendo ser nível

de vermelho, verde ou azul para câmeras coloridas ou nível de cinza para monocromáticas)

de uma imagem em cada pixel. A amostragem geralmente é feita por um dispositivo

sensível que produz uma voltagem proporcional à intensidade de luz para cada pixel em

uma imagem. Quantização é a representação de um valor medido por um integrador. Uma

vez que computadores digitais processam números, é necessário reduzir os valores de

medida contínuos a unidades discretas, e representa-los por arredondamentos a valores

mais próximos, conforme o numero de bits utili zado. [HARALICK, 1973]

A.1.3 Os elementos de um sistema para digitali zação de imagens

Um digitalizador de imagens primeiramente deverá ser capaz de dividir uma

imagem em elementos de imagem (pixels). Em seguida, o digitalizador deverá endereçar

cada pixel individualmente para: i) medir os níveis da imagem em cada pixel; ii ) quantizar

as medidas contínuas, e iii ) escrever o conjunto de dados obtido em um dispositivo de

armazenamento de dados. Para realizar estas tarefas, um digitalizador deverá possuir cinco

elementos:


89

1. Abertura de amostragem – algo que permita o digitalizador acessar os

pixels individualmente;

2. Mecanismo para var redura da imagem – este processo consiste em

mover a abertura de amostragem através da amostra em um padrão pré-

determinado, permitindo que a abertura de amostragem ordene os pixels, um de

cada vez;

3. Sensor de luz – mede o brilho da imagem em cada pixel através da

abertura de amostragem. Normalmente o sensor é um transdutor que converte a

intensidade da luz em voltagem elétrica ou corrente;

4. Quantizador – o quantizador converte a amplitude contínua do sinal de

saída contínuo de um sensor em um valor de amplitude discreta. Tipicamente o

quantizador é um circuito eletrônico chamado conversor analógico digital. Esta

unidade produz um número que é proporcional à voltagem do sinal de entrada ou

corrente;

5. Meio de armazenamento de saída – o meio de saída pode ser um disco

magnético ou algum outro dispositivo para o armazenamento dos valores dos níveis

produzidos pelo quantizador.

A.1.4 Caracter ísticas de um digitalizador de imagens

Os digitalizadores podem ser comparados com base nas suas características

relevantes:


90

- Tamanho do pixel. Duas características importantes para uma imagem são o

tamanho da abertura de amostragem e o espaço entre pixels adjacentes. Se o

digitalizador é montado sobre um sistema óptico com ampliação variável, o

tamanho da imagem e o espaçamento nos sinais de entrada da imagem plana

são variáveis.

- Tamanho da imagem. A capacidade do instrumento em variar o tamanho da

imagem de entrada é outro parâmetro importante. Na saída, o tamanho da

imagem é especificado pelo número máximo de linhas e do número de pixels

por linha.

- Linearidade. O grau de linearidade da digitalização também é um fator

significativo. Se o instrumento digitaliza intensidade de luz, deveria ser

conhecido, de fato, em que grau de exatidão os níveis são proporcionais ao

brilho atual da imagem. O número de níveis para os quais o instrumento pode

quantizar a imagem também é uma característica de interesse.

- Ruído. Uma das características mais importantes de um digitalizador é o seu

nível de ruído. No processo de digitalização o ruído inerente no sistema causará

variações no nível da imagem, mesmo que o brilho seja constante. O ruído

introduzido pelo digitalizador é uma fonte de degradação da imagem.

Todas as características acima fornecem uma base para a comparação de diferentes

instrumentos, ou servem de ajuda para decidir-se se um digitalizador particular é adequado

para um trabalho específico.


91

A.1.5 Processamento de imagens digitais

Processamento de imagens é a manipulação de imagens por computador. Processar

uma imagem significa realizar-se uma série de ações nesta para obter-se um resultado

desejado[CASTLEMAN, 1996].

Conforme citado anteriormente, para poder ser processada por um computador, a

imagem física deve ser convertida em digital (numérica), e isto é feito através do processo

de digitalização.

A.1.6 Processamento de imagens acromáticas

Uma das ferramentas mais simples e úteis em processamento de imagens

acromáticas é o histograma de níveis de cinza. Certos tipos de imagens são completamente

analisados por seus histogramas.

O histograma de níveis de cinza é uma função que mostra o número de pixels na

imagem para cada nível de cinza. A abcissa é o nível de cinza, e a ordenada é a freqüência

(número de pixels). Na Figura 28 está apresentado um exemplo de histograma de níveis de

cinza.


92

Figura 28. Uma imagem e o respectivo histograma de níveis de cinza

Existe outra maneira de definir-se um histograma de níveis de cinza. Supondo-se

uma imagem contínua definida pela função D(x,y) que varia gradualmente de níveis de

cinza fortes no centro a níveis de cinza fracos nas extremidades. Neste caso, algum nível

de cinza D1 pode ser selecionado e definido como um conjunto de linhas de contorno

conectando todos os pontos na imagem com valor D1. As linhas de contorno resultantes

formam curvas fechadas ao redor de regiões em que o nível de cinza é maior ou igual a D1.

Na Figura 29 está apresentada uma imagem contendo uma linha de contorno em nível de

cinza D1. Uma segunda linha de contorno D2 foi desenhada para o nível de cinza forte. A1 é

a área da região dentro da primeira linha de contorno. Da mesma forma, A2 é a área dentro

da segunda linha. A função área A(D) de uma imagem contínua é a área A(D) em que estão

inclusas todas as linhas de contorno de níveis de cinza D. Logo o histograma de uma

imagem contínua pode ser definido como a derivada negativa da função área A(D). O sinal

negativo provém do fato que A(D) diminui com o aumento de D. A função área de uma


93

imagem digital é simplesmente o número de pixels cujo nível de cinza é maior ou igual a D

para qualquer nível de cinza D. [CASTLEMAN, 1996]

Figura 29. Linhas de contorno em uma imagem

A.1.7 Usos do histograma acromático

- Controle de brilho

O histograma fornece uma indicação visual simples de onde uma imagem apresenta

ou não escalas dentro de uma faixa de níveis de cinza. Normalmente uma imagem digital

deveria utili zar todos ou quase todos os níveis de cinza disponíveis, como na Figura 28

mostrada anteriormente. Falhas na utilização dos níveis de cinza aumentam o intervalo

efetivo de quantização. Outro problema que pode ser destacado refere-se ao brilho. Se a

imagem tem uma faixa de brilho maior que aquela em que o digitalizador é capaz de

operar, os níveis de cinza serão fixados em 0 e 255, produzindo defeitos na parte final ou

inicial do histograma. Logo a checagem rápida de um histograma pode trazer informações


94

antecipadas a respeito de problemas no processo de digitalização e qualidade da imagem

digitalizada, especialmente quanto ao seu brilho. Saturações indicam que o brilho deve ser

diminuído, baixos níveis indicam que o brilho deve ser aumentado. Em sistemas auto-

ajustáveis (com controle automático de brilho) é utilizado como parâmetro fundamental.

[CASTLEMAN, 1996].

- Seleção de contornos

Conforme visto anteriormente, através de linhas de contorno é possível estabelecer-

se, de maneira efetiva, os limites de um objeto simples localizado em uma imagem.

Supondo-se que uma imagem contenha um objeto escuro sobre um plano de fundo

brilhante. Na Figura 30 está ilustrada a aparência do histograma da imagem referida. Os

pixels escuros dentro do objeto produzem picos no lado direito do histograma. O pico do

lado esquerdo indica um número grande de níveis de cinza no plano de fundo. Os poucos

pixels cinza no nível intermediário ao redor do limite do objeto produz o vale entre os dois

picos. O limiar de nível de cinza escolhido na área do vale produzirá um contorno razoável

para o objeto [PREWITT, 1968]; ou seja, o nível de cinza correspondente ao mínimo entre

os dois picos é uma boa escolha para definir o contorno. [CASTELEMAN, 1996]


95

Figura 30. Um histograma bimodal

A.1.8 Processamento de imagens color idas tr icromáticas

Devido à natureza do sistema visual humano, o esforço no desenvolvimento de

produtos tais como câmeras de televisão, digitalizadores, monitores e impressoras, tem

sido voltado para os sistemas tricromáticos. No entanto, uma vez que a imagem possui um

bom balanço entre cores, sendo convertida em valores equivalentes de tom de cinza, a

análise de seu histograma monocromático é muito útil e seu resultado pode ser aplicado

diretamente à imagem colorida. Assim uma transformação útil para processamento digital

é a separação das informações de cor de uma imagem de sua representação equivalente

monocromática, de forma semelhante ao que ocorre na televisão colorida. Isso é feito

utili zando os diversos modelos de cor. Serão mostrados a seguir diversos modelos de cor e

seus usos.


96

A.2 Cores

A cor é um tema extremamente subjetivo e pessoal, podendo ser definida de

diferentes maneiras sob diferentes contextos [FREEMAN, 1990].

Embora o processo seguido pelo cérebro humano na percepção de cores seja um

fenômeno fisiopsicológico que ainda não é completamente compreendido, a natureza física

das cores pode ser expressa numa base formal suportada por resultados experimentais e

teóricos. [GONZALEZ, 1992]

Em 1666, Sir Izaac Newton descobriu que quando um feixe de luz é passado por

um prisma de vidro, o feixe de luz emergente não é branco, mas, ao contrário consiste de

um espectro contínuo de cores variando do violeta ao vermelho. [GONZALEZ, 1992]

A.2.1 A cor do ponto de vista físico.

A cor pode ser definida como a interação da luz (radiação eletromagnética) como a

matéria [BILLMEYE, 1981].

A radiação eletromagnética inclui as radiações gama, X, ultravioleta, visível,

infravermelha e ondas de rádio, que na ordem de comprimentos de onda mais longos

(ondas de rádio, de 1 mm a vários quilômetros) para mais curtos (raios gama, menores que

0,1 nm), formam o chamado espectro eletromagnético mostrado na Figura 31. A faixa

visível ao olho humano, conhecida como espectro visível ou luz visível, compreende a

região entre 780 e 380 nm [GONZALEZ, 1992]. Esta contém numerosas cores que podem

ser distintas pelo comprimento de onda e amplitude. O comprimento de onda determina a

matiz (cor), enquanto que a amplitude determina o brilho. O espectro visível é então

arranjado na ordem de menor para maior comprimento de onda, e dividido em segmentos

identificados como violeta (380 – 450 nm), azul (450 – 590 nm), verde (490 – 560 nm),


97

amarelo (560 – 590 nm), laranja (590 – 630 nm) e vermelho (630 – 780 nm). A

combinação destes comprimentos de onda produz a luz branca, que é a luz fornecida pelo

sol e pela maioria das fontes de luz artificiais [FREEMAN, 1990].

Figura 31. O espectro eletromagnético

Quando a luz é incidida sobre um objeto, um ou mais fenômenos podem ocorrer.

Um destes fenômenos é a transmissão total ou parcial de luz.

A transmissão ocorre quando a luz passa através de um objeto praticamente sem

sofrer alteração. Neste caso o objeto é dito transparente. Se apenas parte da luz é

transmitida, o objeto é chamado translúcido. O objeto que não transmite luz é conhecido

como opaco.

Devido à diferença entre o índice de refração do material e do meio em que este se

encontra (por exemplo, ar, água, ou outro sólido), a luz transmitida pelos materiais

transparentes ou translúcidos pode sofrer alterações. O ponto de encontro entre duas

substâncias de diferentes índices de refração é chamado superfície de contorno. Neste

ponto o feixe de luz transmitido (feixe incidente) muda de direção de acordo com o índice

de refração e também com o ângulo em que o mesmo atinge o objeto transparente. O

fenômeno de mudança de direção de um feixe transmitido é chamado refração. A luz

incidida sobre a superfície (ou seja, em incidência normal) de um objeto plano transparente


98

ou translúcido, passará por este sem sofrer qualquer refração. Entretanto, em qualquer

outro ângulo, parte da luz será refratada e parte será refletida em um ângulo diferente do

ângulo de incidência. A refração é uma quantidade dependente do comprimento de onda, o

que explica a separação dos comprimentos de onda da luz por um prisma, formando um

espectro. A luz de comprimento de onda de ~ 630 nm (região do vermelho do espectro

visível) não é tão refratada quanto a luz de comprimento de onda de ~ 380 nm (região

violeta) [BORN, 1980].

Além de ser transmitida e/ou refletida, a luz também pode ser total ou parcialmente

absorvida pelo objeto. No objeto translúcido, a parte não transmitida pelo material é a parte

que foi absorvida por este. A absorção é um fenômeno que depende da pigmentação do

objeto. Os pigmentos são corantes que absorvem algum ou todos os comprimentos de onda

da luz. Os comprimentos de onda não absorvidos são vistos por um observador como cor.

Se toda a luz é absorvida, o material é preto, e, conforme visto acima, é também opaco por

não transmitir luz.

Finalmente a luz pode ser ainda espalhada ao interagir com a matéria. Ao incidir-se

luz em um objeto opaco, dependendo da superfície do mesmo (ou seja, se esta é rugosa,

lisa, lustrosa, espelhada, etc.), a luz incidente pode ser completamente refletida,

completamente espalhada, ou ainda ser ao mesmo tempo, parcialmente refletida e

parcialmente espalhada pelo objeto. Assim como a reflexão, o espalhamento de luz

também é um fenômeno relacionado ao índice de refração. A quantidade de luz espalhada

depende da diferença de índice de refração. Por exemplo, uma superfície lisa ou lustrosa é

formada por partículas que apresentam índices de refração bem próximos, logo quase não

há espalhamento. Estas superfícies refletem luz com intensidade e ângulo iguais ao feixe

de incidência. Para um objeto opaco, pode ocorrer reflexão parcial e/ou espalhamento. Um


99

material opaco nem totalmente lustroso e nem totalmente rugoso irá simultaneamente

refletir e espalhar luz. A quantidade de luz espalhada também depende do tamanho das

partículas. Partículas relativamente muito pequenas ou muito grandes espalham pouco a

luz. O espalhamento é máximo no limite onde o tamanho da partícula é semelhante ao

tamanho do comprimento de onda da luz [FREEMAN, 1990].

A cor de um objeto depende da absorção e da quantidade e tipo de espalhamento de

luz presente: se não há absorção, e uma mesma quantidade de luz é espalhada em cada

comprimento de onda, o material é branco; caso contrário, o material é colorido.

Um dos exemplos mais comuns e importantes de espalhamento de luz é a cor do

céu. O comprimento de onda localizado na região azul do espectro eletromagnético visível

é espalhado por partículas relativamente pequenas presentes no ar, e durante a maior parte

do dia o céu apresenta coloração azul. No final do dia os comprimentos de onda curtos

(região do azul) são perdidos, e os comprimentos de onda relativamente mais longos

(vermelho, laranja) passam a ser espalhados, e o céu passa a apresentar a coloração típica

do entardecer. Outro exemplo importante é o espalhamento de partículas relativamente

maiores na atmosfera, que explica a coloração branca das nuvens, fumaça e da maioria dos

pigmentos brancos [BILLMEYER, 1981].

A.2.2 A Cor do ponto de vista humano.

No contexto humano, a sensação de cor depende da atividade fisiológica no sistema

visual. Conforme será visto mais adiante, o olho humano possui receptores que permitem

que a cor seja percebida pelos olhos. Os receptores são sensíveis aos comprimentos de


100

onda localizados nas respectivas regiões do verde, vermelho e azul do espectro visível, um

fato conhecido como tricromacia.

As cores vistas através do olho humano são combinações das cores vermelho, verde

e azul. Em 1931, para fins de padronização, a Comissão Internacional sobre Iluminação

(CIE – Comission Internationale de l’Eclairage, Publicação 15.2, 1986) atribui o termo

“cores primárias” para as cores vermelho, verde e azul, e definiu valores de comprimentos

de onda específicos para estas: azul = 435,8 nm; verde = 546,1 nm e vermelho = 700 nm .

A.2.2.1 Características da visão humana

O ser humano possui cinco sentidos principais: visão, audição, olfato, tato e

paladar. Todos são importantes, mas a visão é o sentido que domina nossa vida. Quatro

quintos de todas as informações recebidas pelo cérebro chegam-nos através dos olhos

[PRATT, 1991]. A importância da visão é tão grande que supera a de todos os outros

sentidos. Muitas vezes fechamos os olhos para nos concentrarmos na audição – como, por

exemplo, para melhor apreciarmos um trecho musical [COLLINS,1985].

Os seres humanos têm boa visão se comparados com outros animais. Alguns

animais só conseguem ver áreas indefinidas de claro a escuro. Nós conseguimos ver

claramente à luz do dia e razoavelmente bem no escuro. Somos capazes de julgar a

distância de um objeto, além de podermos ver em cores.


101

A.2.2.2 O olho humano.

A Figura 32 contém um esboço dos componentes anatômicos do olho humano. As

principais estruturas são: íris, lente, córnea, retina, humor vítreo e nervo óptico.

O humor vítreo é um gel, o qual está contido na câmara posterior do globo ocular.

Figura 32. O olho humano

O olho humano pode ser comparado a uma câmara, a qual coleta, focaliza e

transmite luz através de lentes para criar uma imagem do ambiente. Em uma câmara, a

imagem é criada sobre um filme; no olho, a imagem é criada sobre a retina, que é uma

camada fina de células fotosensíveis, ou fotoreceptores (cones e bastonetes), apresentados

na Figura 33.


102

Figura 33. Representação esquemática de um cone e de um bastonete

A lente do olho refrata a luz que penetra no mesmo. A córnea, uma película clara e

transparente que cobre a porção frontal do olho, também contribui para focar a luz sobre a

retina. A íris, um elemento cuja função é semelhante ao diafragma da câmara, ajusta o

tamanho da abertura (pupila), determinando desta forma a quantidade de luz que penetra

no olho; ou seja, como uma câmara, o olho humano controla a quantidade de luz que

penetra nos olhos sobre várias condições de luminosidade. Um conjunto de fibras nervosas

estendendo-se desde as células nervosas da retina forma o nervo óptico, que conecta o olho

ao cérebro. É no cérebro que pos-processamos e compreendemos as imagens que vemos do

mundo. Atualmente, a ciência tem grande conhecimento de como funciona o olho, mas

ainda não sabemos de todos os detalhes sobre o modo como vemos [PRATT, 1991],

principalmente sobre como aprendemos a reconhecer padrões, formas e movimentos.

Nossos olhos vêem uma área chamada de campo visual, que se estende de um

ombro a outro e desde a testa até a cintura. Mexendo a cabeça, podemos ver o que está


103

acima, abaixo e atrás de nós. Mas, conforme visto acima, no processo da visão, os olhos

são apenas uma parte. A outra parte envolve o cérebro. A visão mais “precisa” (maior

acuidade visual) é proveniente da incidência da luz na região da retina denominada

“ fóvea”, uma pequena depressão na retina, opostas às lentes. A definição de acuidade

visual é apresentada mais adiante.

O processo visual começa no segmento externo dos cones e bastonetes (Figura 33),

onde a luz e os pigmentos interagem nos fotorreceptores. Posteriormente a luz é absorvida

pelos segmentos internos – a elipsóide e o mióide, e chega ao interior do núcleo. Deste, os

estímulos caminham através do corpo sináptico, o qual é conectado ao nervo óptico, que

por sua vez conecta o olho ao cérebro. Os estímulos são interpretados como luz, cor e

formas.

As funções exatas que diferem os cones dos bastonetes são ainda incertas. Sabe-se

apenas que os bastonetes contêm pigmentos sensíveis à luz e insensíveis às cores,

chamados rodopsina. Já os cones contêm os pigmentos erítrolabe, clorolabe e rodopsina,

sensíveis aos comprimentos de onda nas regiões espectrais do vermelho, verde e azul do

espectro visível. Os cones são insensíveis à luz abaixo de um certo nível de luminância. Os

pigmentos sensíveis aos comprimentos de onda nas regiões do vermelho (580 nm), verde

(545 nm) e azul (440 nm) são também chamados, respectivamente, de γ, α e β. A Figura 34

contém as curvas de absorção destes pigmentos, das quais as principais observações

referem-se à considerável sobreposição das mesmas, assim como a intensidade

relativamente baixa da curva de absorção dos cones α, responsáveis pela percepção da luz

azul.


104

Figura 34. Curvas de resposta espectral para cada tipo de cone do olho humano. Os

máximos estão em 440 nm (azul), 545 nm (verde) e 580 nm (vermelho).

A.2.2.3 Acuidade visual

O olho humano apresenta uma capacidade finita de percepção de detalhes de uma

imagem denominada acuidade visual. A acuidade visual é normalmente representada por

um ângulo, para evitar a necessidade de especificação da distância de um objeto ao olho. A

Figura 35 ilustra a definição de acuidade visual. O significado prático de tal parâmetro é a

análise da máxima definição necessária para que uma imagem seja considerada de boa

qualidade. Foi utilizada, por exemplo, para justificar o uso da resolução relativamente

baixa e número elevado de cores em sistemas de televisão.


105

Figura 35. Acuidade visual

A acuidade visual estatística para o olho normal médio varia entre 0,4 e 5 minutos,

sendo máxima para a luz branca e decrescendo para a luz verde, vermelha e azul. Nos

sistemas de reprodução de imagens o ângulo de 1 minuto é tomado como referência para a

acuidade visual. Portanto qualquer objeto que projetar na retina uma imagem como ângulo

menor que 1 minuto será invisível [NINCE, 1991].

A acuidade é medida através de testes ou tabelas especiais. Uma tabela comumente

usada para a medida de acuidade visual é a tabela de Snellen, a qual contém letras do

alfabeto arranjadas por linhas. A cada linha é dado um valor de acuidade que representa a

habili dade de um indivíduo localizado a 20 pés (~ 6 metros) de distância da tabela em ler

as letras da linha. Este valor está relacionado à habil idade de leitura das mesmas letras por

um indivíduo com visão “normal”, localizado a diferentes distâncias da tabela.

[JOHNSON, 1998].


106

A.2.3 Mistura de cores.

As cores primárias podem ser adicionadas para produzir as cores secundárias da luz

– magenta (vermelho + azul), ciano (verde + azul), amarelo (vermelho + verde). A mistura

das três cores primárias, ou uma secundária e sua cor primária oposta, em intensidades

corretas, produz a luz branca. Estes resultados estão apresentados Figura 36.

É importante distinguir entre as cores primárias (aditivas) da luz e as cores

primárias (subtrativas) de pigmentos ou corantes. No último caso, a cor primária é aquela

que subtrai ou absorve uma cor primária de luz, e reflete ou transmite as outras duas. Logo,

as cores primárias dos pigmentos são magenta, ciano e amarelo, e as secundárias são

vermelho, verde e azul. Uma combinação apropriada dos três pigmentos primários, ou um

secundário com seu primário oposto produz preto. A razão para a diferença está no modo

como se origina a cor de um pigmento. Um pigmento é visto por um observador como

verde porque este absorve a luz violeta, que é a cor complementar do verde. Mas se um

pigmento verde, o qual absorve toda a luz, exceto a cor verde, é misturado ao pigmento

violeta, que absorve toda a luz exceto a cor violeta, então quase toda a luz será absorvida,

resultando na cor cinza escuro, quase preta. O resultado da mistura de pigmentos está

apresentado na Figura 37.

Figura 36. Cores primárias e secundárias da luz


107

Figura 37. Cores primárias e secundárias dos pigmentos

As cores normalmente são distintas umas das outras pelos atributos intensidade

(brilho), matiz e saturação. A intensidade é o atributo diretamente relacionado à quantidade

de luz: quanto maior a quantidade de luz, maior a intensidade da cor. Matiz é o atributo

associado ao comprimento de onda dominante em uma mistura de comprimentos de onda,

logo representa a cor percebida por um observador. Quando chamamos um objeto de

vermelho, laranja ou amarelo, estamos especificando a matiz. As cores branco, cinza e

preto não apresentam matiz, e são chamadas acromáticas. As demais, com matiz, são

referidas como cores cromáticas. O atributo saturação está relacionado à pureza de cor.

Uma cor pura é completamente saturada, ou seja, sem mistura de luz branca. Por exemplo,

as cores rosa e vermelho diferem em saturação, sendo a cor vermelha a mais saturada. A

matiz e a saturação determinam a cromaticidade de uma determinada cor.

108

Apêndice B – Características do CCD utili zado.

B.1 Caracter ísticas

• 326,688 pixels, 1/3” lens, VGA/QVGA format

• Progressive scan/Interlaced scan

• 8-bit/16-bit Data output formats - YCrCb 4:2:2 ITU-656, IR-

• 601 GRB 4:2:2 & RGB Raw Data

• Wide dynamic range, anti-blooming, zero smearing

• Electronic exposure/gain/white balance control

• Image controls: brightness, contrast, gamma,saturation,sharpness, windowing, hue.

• Internal & external synchronization

• Line exposure option

• 5 Volt operation, low power dissipation

• < 120 mA active power at 30FPS

• < 10 µA in power-down mode

• Built i n Gamma correction (0.45/0.55/1.00)

• SCCB programmable:

• Color saturation, brightness, hue, white balance,exposure time, gain, etc.

• Array Element VGA=640x480 QVGA=320x240

• Pixel Size 7.6µm x 7.6µm

• Image Area 4.86mm x 3.64mm

• Max Frames/Sec Up to 60 FPS for QVGA

• Electronics Exposure Up to 648:1 (for selected FPS)

• Scan Mode Progressive or Interlace

• Gamma Correction 128 Curve Settings

• Min. Illumination 3000K < 2.5 lux @ f1.4

• S/N Ratio > 48 dB (AGC off, Gamma=1)

• FPN < 0.03% VPP

• Dark Current < 1.9nA/cm2

• Dynamic Range > 72 dB

Apêndice B– Características do CCD uil izado

109

• Power Supply 5VDC± 5%

• Power Requirements < 120mA Active < 10µA Standby

• Package 48 pin LCC

B.2 Pinagem:

Figura 26 – Pinagem do CCD OV7620


110

B.3 Registradores disponíveis pela interface SCCB.

Register 00 - rw: AGC gain control

Register 01 - rw: Blue gain control

Register 02 - rw: Red gain control

Register 03 - rw: Saturation control

Register 04 & 05 - w: Reserved Register

Register 06 - rw: Brightness control

Register 07 - rw: Angalog Sharpness control

Register [08] ~ [0B] - w: Reserved.

Register 0C - rw: White Balance background control -- Blue channel

Register 0D - rw: White Balance background control -- Red channel

Register 0E ~ 0F- rw: Reserved

Register 10 - rw: Auto-Exposure-Control Register

Register 11 - rw: Clock rate control

Register 12 - rw: Common control A

Register 13 - rw: Common control B

Register 14- rw: Common control C

Register 15- rw: Common control D

Register 16 - rw: Frame Drop

Register 17 - rw: Horizontal Window start

Register 18 - rw: Horizontal Window end

Register 19- rw: Vertical Window start

Register 1A- rw: Vertical Window end

Register 1B- rw: Pixel shift


111

Register 1C- r: Manufacture ID high byte

Register 1D- r: Manufacture ID low byte

Register 1E ~ 1F- rw: Reserved

Register 20- rw: Common control E

Register 21- rw: Y Channel Offset Adjustment

Register 22- rw: U Channel Offset Adjustment

Register 23- rw: Crystal Current control.

Register 24- rw: AEW Auto Exposure White Pixel Ratio

Register 25- rw: AEC Auto Exposure Black Pixel Ratio

Register 26 - rw: Common control F

Register 27 - rw: Common control G

Register 28 - rw: Common control H

Register 29 - rw: Common control I

Register [2A] - rw: Frame Rate Adjust Register 1

Register [2B] - rw: Frame Rate Adjust Register 2

Register [2C] - rw: Black Expanding Register

Register [2D] - rw: Common Control J

Register [2E]- rw: V Channel Offset Adjustment

Register 2F ~ 5F - w: Reserved

Register 60- rw: Signal Process Control A

Register 61- rw: Signal Process Control B

Register 63- rw: Reserved

Register 64- rw: Y Gamma Control

Register 65- rw: Signal Process Control C


112

Register 66- rw: AWB Process Control

Register 67- rw: Color Space Selection

Register 68- rw: Signal Process Control D

Register 69- rw: Analog Sharpness

Register 6A- rw: Vertical Edge Enhancement Control

Register 6B-6E rw: Reserved

Register 6F - rw: Even/Odd Noise Compensation Control

Register 70 - rw: Common Control K

Register 71 - rw: Common Control J

Register 72- rw: Horizontal Sync 1st Edge shifting

Register 73 - rw: Horizontal Sync 2nd Edge shifting

Register 74 - rw: Common Control M

Register 75 - rw: Common Control N

Register 76 - rw: Common Control O

Register 77-7B - rw: Reserved

Register 7C - rw: Field Average Level Storage

113

Apêndice C – Resultados obtidos nos testes.

C.1 Identificação de objetos de forma conhecida

Objeto apresentado Numero de

tentativas

Numero de

acertos

Percentagem de

acerto

12

12

100%

8

8

100%

11

11

100%

14

11

78,57%

9

9

100%

Apêndice C – Resultados Obtidos nos Testes

114

11

11

100%

8

7

87,5%

12

12

100%

14

11

66,67%

12

8

75%

8

6

75%

Totais 119 107 89,92%


115

C.2) Localizando objetos de forma e cores conhecidas.

Imagem Pergunta Tentati-

vas

Acertos

acerto

- Qual dos quatro é

Fanta Maça ?

2

1

50%


Guaraná ?

3

0

0,0%


Coca-Normal ?

2

2

100%


116

-Qual dos quatro é

Guaraná ?

3

3

100%


Fanta Uva ?

3

2

66,6%


Fanta maça ?

3

2

66,6%


Fanta Laranja ?

4

3

75%


117


Fanta Uva ?

3

3

100%


Fanta Uva ?

3

3

100%


Coca-Normal ?

4

4

100%


Guaraná ?

3

3

100%


118


Fanta Uva ?

3

3

100%


Coca normal ?

2

2

100%


Guaraná ?

2

2

100%


Guaraná ?

4

2

50%


119


Coca normal ?

3

3

100%


Fanta Maça ?

3

2

75%

Totais 5 2 87,25%

C.3) Descoberta de novos objetos.

Imagem apresentado

Numero de

tentativas

Acertos

Formas

Acertos

Cores

Percentagem de acerto

4

4

4

100%


120

8

7

8

93,75%

9

3

6

50%

3

2

3

83,33%

9

9

9

100%

8

3

8

75%

12

8

12

83,33%

14

11

11

78,57%

12

8

11

79,16%


121

8

6

7

81,25%

12

12

12

100%

12

11

11

91,6%

12

8

12

83,3%

8

6

6

75%

5

5

5

100%

8

4

8

75%

12

12

12

100%


122

8

6

8

87,5%

12

12

3

62,5%

8

8

6

87,5%

4

2

4

87,5%

6

4

6

83.33%

14

11

11

83,3%

8

7

6

81,25%

Totais 212 169 189 84,43%

123

Apêndice D – Diagramas Esquemáticos.

D1. Esquema Elétr ico da placa de aquisição.

Apêndice D – Diagramas Esquemáticos

124

D2. Layout Placa de aquisição.

a) Lado dos componentes b) Lado das soldas (onde foi colocado CCD).

c) Serigrafia

125

Apêndice E – Uso do Software desenvolvido para estudo.

E.1) Introdução

A implementação foi realizada utilizando Borland Delphi, que é uma linguagem

orientada derivada do Pascal, que permite acesso pleno às APIs do windows necessárias

para os recursos como captura de imagem e reprodução de sons wave por DirectX.

Originalmente as APIs utilizam chamadas com formatos de dados diferentes dos

gerados pelo Delphi, sendo necessário o uso de um conjunto de rotinas conversoras

chamadas Headers, disponibili zadas em caráter freeware pela organização Project JEDI

(Joint Endeavor for Delphi Innovators). Tais rotinas também são disponibil izadas para uso

com o sistema operacional Linux. [FERNANDES, 2001]

E.2) Implementação do sistema de aquisição de imagem.

O Software de estudo possui 3 botões relacionados a captura de imgens:

Liga/desliga câmera, que seleciona a aquisição em tempo real, load e fotografa, que

carregam ou gravam uma imagem no disco, respectivamente.

Para facili tar os ensaios, uma opção de carga de imagens diretamente do disco

rígido também foi implementada, como podemos ver na Figura 27.

Apêndice E – Uso do Software Desenvolvido para Estudo

126

Figura 27. Implementação, mostrando itens referentes à aquisição de imagem.

E.3) Implementação do sistema de análise de cores.

A varredura na implementação do sistema facili ta o detalhamento da imagem,

dividindo-a em regiões de tamanho programável. Para cada região é executado o processo

de análise, que foi dividido em etapas, sendo elas:

- Identificação da cor de cada pixel por semelhança, analisando os parâmetros

Matiz, Saturação e Luminosidade;


127

Para tanto foi criada uma representação gráfica de dos parâmetros HSI, alem da luminância

da cor em questão, como mostra a Figura 28.

Figura 28. Representação gráfica do modelo HSI da cor sendo analisada.

- Comparação com os pontos conforme limiares pré-programados de semelhança

para classificar o ponto como uma nova cor ou uma cor já anunciada, gerando

uma matriz que indica cada cor presente e o numero de pixels presente com tal

característica;

- Ordenação por ordem de quantidade (método bolha);

- Normalização, onde a cor mais presente é usada como referência.

- Apresentação dos dados na forma de um histograma ordenado por quantidade

de cada cor, conforme mostrado na Figura.


128

- Reprodução dos sons Wave associados a cada cor, usando os parâmetros Matiz,

Luminosidade, Quantidade e Posição para modificar a forma dos sons, afetando

sua freqüência, amplitude, duração e balanço. Conforme coeficientes definidos

na configuração do programa, conforme a Figura 29.

Figura 29. Implementação, mostrando itens referentes à análise da imagem.

E.4) Configurações possíveis.

E.4.1) Sons produzidos por cada cor .

O arquivo wave a ser reproduzido para cada cor encontrada na imagem pode ser

selecionado na tela de configuração, acessível da tela principal pelo comando “Config” .


129

É possível ainda selecionar os valores mínimos e máximos de modulação de

freqüência para se obter melhores resultados conforme o tipo de som selecionado,

especialmente se forem sons de instrumentos musicais e testar cada som com cada índice

de modulação programado. A figura 30 mostra a tela de configuração.

Figura 30. Configurações dos arquivos Wave.

E.4.2) Configurações gerais do algor itmo.

Para uma maior flexibilidade e avaliação de cada implementação no algoritmo, uma

vez que ele propõe múltiplas associações de parâmetros ao mesmo tempo, uma área de

configurações rápidas foi criada, conforme mostra a Figura 31. Nela podemos ligar ou

desligar a modulação em:


130

- Freqüência;

- Ampliture;

- Selecionar entre modulação por Saturação ou Luminosidade;

- Ligar ou desligar o recurso stereofônico;

- Selecionar a quantidade de tempo que o algoritmo espera para repetir a

apresentação de uma cor, caso ela seja de largura maior/

- A velocidade de varredura;

- O tamanho da janela de varredura;

- O numero de cores mostrado por vez;

- A quantidade relativa mínima de cada cor (comparada a cor mais presente na

janela) suficiente para considerar a quantidade da cor expressiva.

Figura 31. Configurações do algoritmo

131

Referências Bibliográficas

BEGAULT, D.R. 3-D sound for vir tual reali ty and multimedia. New York, NY: AP

Professional, 1994.

BILLMEYER, F. W. J.; SALTZMAN, M. Pr inciples of color technology,

will ey-interscience. New York, NY: John Wil ley & Sons, 1981.

BORN, M.; WOLF, E. Pr inciples of optics: electromagnetic theory of

propagation - interference and diff raction of light. 6th Ed. Oxford: Pergamon Press,

1980.

CAETANO, F. F. Estratégia de atenção para rastreamento visual de múltiplos

alvos por sistema de visão binocular, ITA, 1999.

CARLILE, S. Vir tual auditory space: generation and applications. New York, NY:

Chapman & Hall, 1996.

CASTLEMAN, K. R. Digital image processing. New Jersey, NJ: Prentice Hall, 1996.

CHAN, A. H. S.; COURTNEY, A. J Foveal acuity, per ipheral acuity and search

performance: A review. International Journal of Industrial Ergonomics

v.18, 1996. 113-119.


132

COLLINS, C. C. On mobil ity aids for the blind. In: WARRWN, D. H.; STRELOW, E. R.

(Eds.) Electronic spatial sensing for the blind. Boston, MA: Martinus Nijhoff, 1985.

DOBELLE, W.H. ��

�� !�"#"$ %!�&'. American Society of Artificial Internal Organs

Journal, v. 46, 2000. 3-9.

FERNANDES, M. Usando DirectX. São Paulo: Relativa, 2001.

FREEMAN, M. H. Optics. 10th Ed. London: Butterworths, 1990.

FITCH, W. T.; KRAMER, G. Sonifying the body electr ic: superiority of an

auditory display over a visual display in a complex, multivariate system.

In: Kramer, G.1994.

FRUCHTERMAN, J. Talking maps and GPS systems. In: RANK PRIZE

FUNDS SYMPOSIUM ON TECHNOLOGY TO ASSIST THE BLIND AND VISUALLY

IMPAIRED, 1996, Grasmere. Proceedings… Grasmere: [S.n.], 1996. p162

GEVERS, T.; SMEULDERS, A.W.M. The PicToSeek WWW Image Search System.

Pattern Recognition, v. 32 n. , 1999. p453

GILKEY, R.; ANDERSON, T. R. Binaural and spatial hear ing in real and vir tual

environments. Hillsdale, NJ: Lawrence Erlbaum Associates, 1997.


133

GONZALEZ, R. C.; WOODS, R. E. Digital image processing. Reading, MA: Addison-

Wesley, 1992.

HUNT, B. R. The application of constrained least squares estimation to image

restoration by digital computer . IEEE Trans. Comput., V.C-22, 1973. p805-811.

INSTITUTE OF ELECTRICAL AND ELECTRONICS ENGINEERS. IEEE Std 610.4-

1990: IEEE standard glossary of image processing and pattern recognition terminology.

New York, 1990.

ILLGNER, K. DSPs for image and video processing. Signal Processing, v. 80, 2000.

p2323.

JACK, K. Video desmistified: a handbook for the digital engineer. [S.l.]: LLH

Technology Publishing, 2001.

JOHNSON, A. T.; DOOLY, C. R.; SIMPSON, C. R. Computer Methods and Programs in

Biomedicine, v. 57, 1998. p161-164

KIVER, M. S. Color television fundamentals. New York: McGraw-Hil l, 1965.

LOOMIS, J. M. Digital map and navigation system for the visual impaired.

Santa Barbara: University of Cali fornia. 1998. Unpublished manuscript


134

(apud LOOMIS, 1998)

LOOMIS, J. M.; HEBERT, C.; CICINELLI, J.G. Active localization of vir tual sounds. J.

of the Acoustical Society of America, v. 88, 1990. 1757.

MEIJER, P. B. L. – Image to Sound Mapping. IEEE Transactions, v.39, 1992. 112.

MENDELSON, M. et al. Digital transformation and computer analysis of microscope

images. BARER, R.; COSSLET, V. (Eds.) Advances in optical and electron

microscopy. London: Academic Press, 1968.

NASSAU, K. The physics and chemistry of color : the fifteen causes of color.

Bernardsvill e: John Willey & Sons, 1983.

NINCE, U. S. Sistemas de televisão e vídeo. 2. ed. São Paulo: Livros Técnicos e

Científicos, 1991.

NOVAK, C. L.; SHAFER, S. A. Anatomy of a color histogram. In: IEEE COMPUTER

SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN

RECOGNITION, 1992, Los Alamitos. Proceedings… Los Alamitos: IEEE Computer

Society Press, 1992. p. 599-605

NEPOMUCENO, Luiza de Arruda. Elementos de acústica, física e psico-acustica.


135

São Paulo: Edgard Blucher, 1994.

PRATT, W. K. Digital image processing. 2nd ed. New York: John Wiley & Sons, 1991.

PREWITT, J.; MENDELSOHN, M. The analysis of cell images. Annals of the New

York Academy od Sciences, 128, 1035-1053, January 1966.

RAM, S.; SHARF, J. The People Sensor: A Mobili ty Aid for the Visually Impaired. In:

INTERNATIONAL SYMPOSIUM ON WEARABLE COMPUTERS, 2., 1998, Pitsburg.

Pitsburg: IEEE Computer Society, 1998.

RITA, P. B.; KACZMAREK, K. A. , J. Electrotactile pattern perception on the tongue.

Rehabili tation Research and Development, v.35, 1998. 427.

SAMPAIO, E.; MARIS, S.; RITA, P. B. 'Visual' acuity of blind persons via the tongue.

Brain Research, v. 908, 2001. 204.

TZELGOV, J.et al. Radiation detection by ear and by eye. Human Factors, v. 29, n. 1, p.

87-98, 1987

WALL, R. J.; KLINGER, A.; CASTLEMAN, K. R. Analysis of image histograms. In:

CONGRESS ON PATTERN RECOGNITION, 2., 1974, Copenhagen. Proceedings…

Copenhagen: [s.n.], 1974.


136

WALSH, J. L. Walsh functions. J. of Am. Math., v. 45, 1923. 5-7.

WENZEL, E. M. Presence: Teleoperators and Virtual Environments v.1, 1992. 80.

WIGHTMAN, F. L.; KISTLER, D. J. Monaural sound localization revisited. J. of the

Acoustical Society of Amer ica, v.85, 1989. 868.

GLASGAL, R.; YATES, K. Ambiophonics: beyond surround sound to virtual sonic

reality. Londres: Ambiophonics Inst., 1995.

MIRANDA, E. Composing music with computers: music technology series. London: Focal

Press, 2001.

WILLIAMS, D. B.; WEBSTER, P. R. Experiencing music technology: software,

data, and hardware. London: Wadswourth Pub., 1999.

FOLHA DE REGISTRO DO DOCUMENTO

1. CLASSIFICAÇÃO/TIPO

TM

2. DATA

29 Janeiro 2003

3. DOCUMENTO N°

CTA/ITA-IEE/TM-014/2002

4. N° DE PÁGINAS

133 5. TÍTULO E SUBTÍTULO: Sistema de Visão Artificial Utilizando Efeito Psico-Acústico

6. AUTOR(ES):

Eduardo Henrique Marcondes 1

7. INSTITUIÇÃO(ÕES)/ÓRGÃO(S) INTERNO(S)/DIVISÃO(ÕES): Instituto Tecnológico de Aeronáutica. Divisão de Engenharia Eletrônica – ITA/IEE

8. PALAVRAS-CHAVE SUGERIDAS PELO AUTOR:

Visão, CCD, Imagem, Som, Deficiente visual, cego, psico-acustica, acustica. 9.PALAVRAS-CHAVE RESULTANTES DE INDEXAÇÃO:

Imagens, Som, Visão, Deficientes físicos, Cegueira, Cor, Audição, Acústica, Métodos computacionais,

Engenharia eletrônica.

10. APRESENTAÇÃO: X Nacional Internacional

ITA. São José dos Campos, 2002. 133 páginas.

11. RESUMO:

Estuda parâmetros de imagens e sons, propondo e avaliando a viabilidade de diversas formas de associação entre eles, buscando uma forma de informar a um deficiente visual a cor dos objetos a sua frente utilizando uma câmera digital e um sistema computacional capaz de analisar a imagem captada e reproduzir sons digitalizados alterando seus parâmetros de acordo com as cores encontradas, visando assim explorar ao máximo as informações contidas na imagem colorida e a capacidade de audição do indivíduo.

Para tanto foram estudados os parâmetros de imagens, as características da visão humana,

parâmetros de sons, características da audição e psico-acústica

A implementação foi realizada em um microcontrolador para aquisição de imagens e um microcomputador utilizando recursos padronizados de acesso direto ao hardware (DirectX) para análise da imagem e geração de áudio

12. GRAU DE SIGILO: (X ) OSTENSIVO ( ) RESERVADO ( ) CONFIDENCIAL ( ) SECRETO

TESE APRESENTADA À DIVISÃO DE PÓS-GRADUAÇÃO DO … · Tabela 1. Ligações entre o...

Documents

Transcript of TESE APRESENTADA À DIVISÃO DE PÓS-GRADUAÇÃO DO … · Tabela 1. Ligações entre o...