TESE APRESENTADA À DIVISÃO DE PÓS-GRADUAÇÃO DO … · Tabela 1. Ligações entre o...
Transcript of TESE APRESENTADA À DIVISÃO DE PÓS-GRADUAÇÃO DO … · Tabela 1. Ligações entre o...
TESE APRESENTADA À DIVISÃO DE PÓS-GRADUAÇÃO DO INSTITUTO
TECNOLÓGICO DE AERONÁUTICA COMO PARTE DOS REQUISITOS PARA
OBTENÇÃO DO TÍTULO DE MESTRE EM CIÊNCIA NA ÁREA DE DISPOSITIVOS
E SISTEMAS ELETRÔNICOS DO CURSO DE ENGENHARIA ELETRÔNICA E
COMPUTAÇÃO
Eduardo Henr ique Marcondes
Sistema de Visão Ar tificial Utili zando Efeito Psico-Acústico
Tese aprovada em sua versão final pelos abaixo assinados.
____________________________ Prof. Dr. Osamu Saotome
ORIENTADOR
______________________________ Prof. Dr. Júlio César Lucchi
CO-ORIENTADOR
_________________________________________ Prof. Dr. Homero Santiago Maciel
CHEFE DA DIVISÃO DE PÓS-GRADUAÇÃO
CAMPO MONTENEGRO
SÃO JOSÉ DOS CAMPOS, SP, BRASIL.
2002
Sistema de Visão Ar tificial Utili zando Efeito Psico-Acústico
Eduardo Henr ique Marcondes
Composição da Banca Examinadora
Prof. Dr. Roberto D’Amore Presidente
Prof. Dr. Osamu Saotome Orientador
Prof. Dr. Júlio César Lucchi Co-orientador
Prof. Dr. Waldecir Perrela ITA
Prof. Dr. Renato Giacomini FEI
Dr. Paulo Schor UNIFESP
ITA, dezembro de 2002
I
Índice de Assuntos
I I ntrodução 1
I.1 Motivação 3
I.2 Revisão Bibliográfica 4
I.2.1 Sistemas e estudos desenvolvidos anteriormente. 5
I.2.1.1 Sistema experimental para a conversão de imagem em som 6
I.2.1.2 “People Sensor” 9
I.2.1.3 Sistemas de navegação baseados em GPS 10
I.2.1.4 Percepção por estímulos eletro-táteis através da língua 12
I.2.1.5 Conexão de uma câmera de TV ao cortex visual 14
I.3 Conclusão sobre sistemas desenvolvidos anteriormente. 15
I.4 Contribuição deste trabalho.
16
II Metodologia 18
II .1 Aquisição de imagens por dispositivos digitais 18
II .1.1 Câmeras CCD 19
II .1.2 O CCD Util izado 20
II .1.3 Interface entre o CCD e o hadware utili zado 22
II .2 Especificação de uma cor por sua composição. 27
II .2.1 Modelos matemáticos para representação de cores 28
II .2.2 Diagrama de cromaticidade 35
II .2.3 Melhoramentos em uma imagem colorida 36
II .3 Características da visão humana 38
II .4 Som 39
II
II .4.1 Acústica. 39
II .4.2 Características dos sons musicais 40
II .5 Como o ouvido humano capta os sons 45
II .6 Métodos de gravação e reprodução de sons e músicas. 45
II .6.1 Arquivos de som digital. 46
II .6.1.1 O formato de áudio digitalizado Wave. 47
II .6.1.2 Geração de arquivos de áudio digital. 47
II .6.1.3 Reprodução de arquivos de áudio digitalizado. 48
II .6.1.4 Modulação por processamento digital de áudio. 50
II .6.1.5 Modulação em freqüência de áudio digital. 50
II .6.1.6 Modulação em amplitude de áudio digital. 50
II .6.1.7 Reprodução de múltiplos arquivos de áudio digital. 50
II .6.1.8 Associando diversas modulações 51
II .7 Reprodução util izando acesso direto ao hardware do IBM-PC
55
III I mplementação 56
III .1 Escolha de modelos para representação de cores. 56
III .1.1 Identificação da cor. 58
III .1.2 Diferenciação entre nuances de determinada cor. 59
III .1.3 Identificação de brilho. 61
III .2 Protótipo para testes 62
III .2.1 Implementação do sistema de aquisição de imagem. 63
III .3 Implementação do sistema de análise de cores. 63
III .3.1 Formato de armazenagem do histograma 64
III
III .3.2 Criação do histograma colorido de uma região da imagem 66
III .3.3 Ordenação por ordem de quantidade 66
III .4 Implementação do sistema de modulação e reprodução. 67
III .4.1 Reprodução dos sons digitalizados associados a cada cor 68
III .5 Configurações possíveis.
70
IV Testes realizados 72
IV.1 Descrição dos testes. 72
IV.2 Método de treinamento do deficiente. 73
IV.3 Dinâmica dos testes. 74
IV.3.1 Identificação de objetos de forma conhecida 74
IV.3.2 Localizando objetos de forma e cores conhecidas 74
IV.3.3 Descoberta de novos objetos. 75
IV.4 Propostas para trabalhos futuros 76
IV.4.1 Propostas para aperfeiçoamento 76
IV.4.2.Propostas para usos.
77
V Conclusões 79
V.1 Análise dos resultados práticos. 80
V.1.1 Identificação de objetos de forma conhecida 80
V.1.2 Localizando objetos de forma e cores conhecidas. 81
V.1.3 Descoberta de novos objetos. 81
IV
Apêndice A - Teor ia sobre imagens e cores 82
A.1 Imagens 83
A.1.1 Sistemas de vídeos analógicos e digitais 84
A.1.2 Terminologia referente ao processo de digitalização 86
A.1.3 Os elementos de um sistema para digitalização de imagens 86
A.1.4 Características de um digitalizador de imagens 87
A.1.5 Processamento de imagens digitais 88
A.1.6 Processamento de imagens acromáticas 89
A.1.7 Usos do histograma acromático 90
A.1.8 Processamento de imagens coloridas tricromáticas 92
A.2 Cores 93
A.2.1 A cor do ponto de vista físico. 93
A.2.2 A cor do ponto de vista humano. 96
A.2.2.1 Características da visão humana 97
A.2.2.2 O olho humano 97
A.2.2.3 Acuidade visual 101
A.2.3 Mistura de cores.
102
Apêndice B – Características do CCD util izado. 105
B.1 Características 105
B.2 Pinagem 106
B.2 Protocolo
107
V
Apêndice C – Resultados obtidos nos testes. 110
C.1 Teste 1:Identificação de objetos de forma conhecida 111
C.2 Teste 2:Localizando objetos de forma e cores conhecidas. 112
C.3 Teste 3:Descoberta de novos objetos
116
Apêndice D – Diagramas esquemáticos 120
D.1 Esquema Elétrico da placa de aquisição 120
D.2 Layout da placa de aquisição.
121
Apêndice E – Uso do Software desenvolvido para estudo 122
E.1) Introdução 122
E.2) Implementação do sistema de aquisição de imagem. 122
E.3) Implementação do sistema de análise de cores. 123
E.4) Configurações possíveis. 125
E.4.1) Sons produzidos por cada cor. 125
E.4.2) Configurações gerais do algoritmo.
126
Referências Bibliográficas 128
VI
Índice de Figuras
Figura 1- Princípios de mapeamento da conversão imagem/som 7
Figura 2- ”People Sensor” sendo demonstrado 10
Figura 3- Componentes funcionais de um sistema de navegação para indivíduos
cegos
11
Figura 4- Sistema de reconhecimento de imagem através da língua 13
Figura 5- Sistema de visão artificial composto por câmera e computador ligados por
cabos a eletrodos no cérebro do indivíduo.
14
Figura 6. Blocos que compõem o CCD OV7620 21
Figura 7. Hardware experimental para aquisição de imagens 23
Figura 8. Carta de tempo para transferência de dados entre a câmera e o
microcontrolador
24
Figura 9. Formato dos dados de uma linha de vídeo 25
Figura 10. Placa para ligação do CCD ao conjunto de desenvolvimento 25
Figura 11. Rendimento para cada freqüência de cor para o CCD utilizado 27
Figura 12. Cubo de cores representadas como vetores R,G e B 29
Figura 13. (A) Triângulo de cores HSI ; (B) Sólido de cores HSI 34
Figura 14. Diagrama de cromaticidade 37
Figura 15. Representação gráfica e física da onda sonora 39
Figura 16. Contorno de um som musical mostrado em porcentagem do valor de
saturação.
44
Figura 17. Forma de onda, ou timbre, de um som musical 45
VII
Figura 18. Representação digital de um som 48
Figura 19. Forma de onda característica (timbre) de um violino 54
Figura 20. Espectro de frequencia do som de um violino 55
Figura 21. Cores representadas como ângulos 59
Figura 22. Combinações de matiz (H) e saturação (S) 60
Figura 23. Imagem física e a imagem digital correspondente 83
Figura 24. Conversão analógica/digital e digital/analógica 83
Figura 25. Digitalização de uma imagem 84
Figura 26. Sistema de vídeo analógico 84
Figura 27. Sistema de vídeo digital 85
Figura 28. Uma imagem e o respectivo histograma de níveis de cinza 89
Figura 29. Linhas de contorno de uma imagem 90
Figura 30. Um histograma bimodal 92
Figura 31. O espectro eletromagnético 94
Figura 32. O olho humano 98
Figura 21. Representação esquemática de um cone e de um bastonete 98
Figura 22. Curvas de resposta espectral para cada tipo de cone do olho humano 100
Figura 23. Acuidade visual 101
Figura 24. Cores primárias e secundárias da luz 103
Figura 25. Cores primárias e secundárias dos pigmentos 103
Figura 26 – Pinagem do CCD OV7620 106
VIII
Índice de Tabelas
Tabela 1. Ligações entre o microcontrolador e a câmera CCD 26
Tabela 2. Ângulos de matiz que determinam cada cor 60
Tabela 3. Diferenciando cores que possuem pequena matiz. 58
Tabela 4 – Vetor Histograma, resultado da análise de cores 65
Tabela 5 – Associação lógica de parâmetros de uma imagem colorida e de um som 68
Tabela 6 - Resultados para identificação de objetos de forma conhecida 110
Tabela 7 – Resultados para localização de objetos de forma conhecida 112
Tabela 8 – Resultado da descoberta de novos objetos 116
IX
Glossário
CCD – Charged-Coupled Device
CI – Circuito Integrado
DirectX – Bibliotecas de funções de acesso direto ao hardware multimídia
para IBM-PC.
GPS – Global Position System
JEDI – Joint Endeavor for Delphi Innovators
MoBIC – Mobilit y of Blind and Ederly People Integrating with Computers
MoODS – MoBIC Outdoor System
Pixel – Ponto em uma imagem digital
SCCB - Serial Camera Control Bus
TRNC() – Função que retorna a parte inteira do número por truncamento.
RAND – Função que retorna um número aleatório no intervalo de 0 a 1;
X
Sumár io
Diversos trabalhos têm sido desenvolvidos com o objetivo de auxiliar o deficiente
visual em sua integração com o mundo. Em sua maioria utili zam um sensor, seja ele ultra-
sônico, ótico ou mecânico, para capturar a informação de distância ou a forma de objetos.
Tal informação chega ao deficiente de forma mecânica (impulsos vibratórios), elétrica
(pequenos choques) ou acústica (geração de sons).
Este trabalho visa contribuir para essa pesquisa estudando parâmetros de imagens e
sons, propondo e avaliando a viabili dade de diversas formas de associação entre eles,
buscando uma forma de informar ao deficiente visual a cor dos objetos a sua frente
utili zando uma câmera digital e um sistema computacional capaz de analisar a imagem
captada e reproduzir sons digitalizados alterando seus parâmetros de acordo com as cores
encontradas, visando assim explorar ao máximo as informações contidas na imagem
colorida e a capacidade de audição do indivíduo.
Para tanto foram estudados os parâmetros de imagens, as características da visão
humana, parâmetros de sons, características da audição e psico-acústica.
A implementação foi realizada em um microcontrolador para aquisição de imagens e
um microcomputador utili zando recursos padronizados de acesso direto ao hardware
(DirectX) para análise da imagem e geração de áudio, aumentando assim a portabili dade do
algoritmo, facili tando a criação de versões para plataformas miniaturizadas, como os
computadores de mão (Hand Helds).
XI
Abstract
Several pieces of work have been developed in order to help visually impaired
individuals in their integration with the world. Most of these developments use sensor
systems – which can be ultrasonic, optical or mechanical – to capture information on the
distance and shape of objects. This information is transmitted by mechanical (vibrating
impulses), electrical (small shocks) or acoustic (generation of tones) means.
The present work is aimed at contributing to this research, by studying parameters of
images and sounds, proposing and evaluating the feasibil ity of several types of association
between them and trying to find a way of informing the visually impaired individual about
the color of the objects in front of him by means of a digital camera and an IT system that
is capable of analyzing the captured image and reproducing digitalized sounds, changing
their parameters according to the colors found. This aims at exploring the information
comprised by the colored image and the listening capacity of the individual to the most.
For such, the parameters of images, the characteristics of human vision, the parameters
of sounds, the characteristics of hearing and psychoacoustics have been studied.
The implementation has been conducted on a microcontroler for data acquisition and a
microcomputer, using several standard resources for direct access to the hardware
(DirectX), thus improving the portabili ty of the algorithm and facil itating the creation of
versions for platforms such as hand-held computers.
XII
Agradecimentos
Inicialmente ao meu orientador Prof. Dr. Osamu Saotome, pela maneira
competente, paciente e dedicada com que conduziu este trabalho, e ao meu co-orientador e
incentivador Prof. Dr. Julio Césaar Lucchi.
A todos professores que direta ou indiretamente foram responsáveis pelos
conhecimentos adquiridos durante o curso de mestrado.
Ao Prof. Rodrigo Araes pela ajuda com a revisão ortográfica.
Aos colegas de pós-graduação, pela amizade e companheirismo.
Ao Instituto Porto Mariz, pela ajuda nos ensaios com os deficientes visuais.
Ao escritor Maicris Fernandes, pelo suporte no desenvolvimento com DirectX.
À minha família, pelo apoio e incentivo no decorrer do curso.
XIII
Aos meus pais, Darci Marcondes e Adelina Baptista Marcondes,
ao meu irmão, Darci.
1
Capítulo I
Introdução
Visão, juntamente com a audição e o tato, são os sentidos mais utilizados pelo homem.
Desde os tempos antigos a visão o auxili a na busca por alimentos e na fuga dos seus
predadores, ajudando a garantir nossa sobrevivência.
Inúmeras vezes ao dia o homem realiza uma atividade visual bastante complexa: a
detecção e o rastreamento de objetos que de alguma forma despertam sua atenção. A
detecção de um objeto consiste na verificação de sua presença pela imagem, procurando
por padrões conhecidos de formato e coloração. Modernamente o rastreamento pode ser
entendido como a atividade de manter um objeto de interesse dentro do campo visual,
compensando-se seu movimento através do movimento dos sensores (olhos ou câmeras).
Esta definição faz uma conexão entre rastreamento e interesse, o que indica a existência de
um processo de atenção visual que permite definir se determinado objeto é ou não
interessante e, durante o rastreamento, decidir quando tal objeto passa a ser menos
interessante que outro. [CAETANO, 1999]
A perda da visão para o homem significa uma expressiva redução em seu potencial de
locomoção, comunicação e reconhecimento de objetos. No entanto, deficientes visuais na
sua maioria aprimoram os outros sentidos. Aproveitando este fato, foram criados sistemas
alternativos de comunicação como o método Braill e, que possui um alfabeto em relevo,
Capítulo 1 - Introdução
2
podendo ser lido pelo tato. Dispositivos de sensoriamento diversos associados a sistemas
de estímulos, sejam sonoros, elétricos ou mecânicos, têm sido desenvolvidos como
alternativa para melhorar as possibilidades de inclusão social do deficiente.
O assunto central deste trabalho é uma proposta de descrição inovadora de imagens por
sons, pois não é centrada na forma, mas sim na cor dos objetos, criando uma “assinatura
digital sonora” de cada cor. Tal método de descrição, implementado como varredura,
permite ainda uma noção da forma e posição do objeto na imagem, possibili tando ao
deficiente a capacidade de:
• Diferenciar objetos idênticos ao tato como latas de refrigerante, CDs, entre
outros. Ainda que o deficiente não conheça cores (tenha nascido com a
deficiência) ele acaba associando diretamente o som ao conteúdo, sabor, ou
característica que diferencia tais objetos, atingindo da mesma forma seu
objetivo;
• Localizar objetos em uma imagem. Sabendo qual som o objeto produz quando é
submetido ao sistema (sua assinatura), ele pode procurar por tal som,
simplificando tarefas complexas para ele como encontrar determinado objeto
sobre a mesa ou algo que tenha caído no chão;
• Locomover-se util izando referências visuais como linhas no chão ou pinturas
especiais em portas e paredes, ou ainda utili zando as cores naturais dos objetos
como faixas de pedestre, calçadas, lojas e demais referenciais.
Capítulo 1 - Introdução
3
I .1 Motivação
O trabalho objetiva a implementação de um sistema de auxílio para deficientes
visuais através da transposição de características de imagens coloridas, captadas por uma
câmera, para características de um som musical, tentando explorar ao máximo a
capacidade auditiva aprimorada do deficiente visual.
A análise do sistema aborda as técnicas modernas de aquisição de imagem com
CCDs, reconhecimento de cores presentes em porções da imagem por análise de
histograma, geração e reprodução de sons musicais modulados por parâmetros externos
(proporcionais a características da imagem), a adequação da função que melhor expressa
os parâmetros visuais de forma acústica, entre outros aspectos.
O algoritmo baseou-se inicialmente no trabalho apresentado por Meijer [MEIJER,
1992] que realizou a transferência de parâmetros de uma imagem monocromática de 64
pixels para uma somatória de tons, conforme será visto em I.3.
O Capítulo I traz uma introdução geral ao problema, bem como uma breve revisão
de trabalhos relacionados ao tema.
O Capítulo II aborda detalhadamente o hardware e os métodos util izados para
reconhecimento de cores e reprodução de sons modulados pelos diversos parâmetros.
O Capítulo III detalha a forma de implementação do hardware, métodos
matemáticos e software do sistema.
O Capítulo IV apresenta os resultados obtidos com o sistema e análises pertinentes.
Capítulo 1 - Introdução
4
O Capítulo V apresenta conclusões obtidas através de resultados experimentais e as
sugestões para futuros trabalhos, tentando identificar o que pode ser modificado no sistema
implementado para melhorar o desempenho e outras utilidades para as técnicas propostas.
O Apêndice A contém definições e teoria elementar sobre imagem, cores, sons e
visão.
O Apêndice B detalha algumas características técnicas do CCD utili zado neste
trabalho.
O Apêndice C apresenta alguns dos resultados obtidos nos testes práticos.
O Apêndice D contém os esquemas elétricos dos circuitos criados para utilização
do CCD.
I .2 Revisão Bibliográfica
Histórias de sucesso em sintetização de áudio incluem dispositivos como o
“contador de Geiger” , sonar, termômetro auditivo e numerosos dispositivos médicos. O
contador Geiger foi inventado por Hans Geiger no ano de 1990, e é um instrumento que
fornece um estalo de alerta a níveis de radiação invisível. Experimentos mostram que a
tarefa de monitoração de níveis de radiação por um indivíduo é melhor realizada através de
dispositivos de áudio ao invés de visuais [TZELGOV et al., 1987]. Além disso, o indivíduo
está livre para realizar outras tarefas enquanto o monitoramento é realizado. Um
dispositivo semelhante ao conceito do contador de Geiger é o chamado oxímetro de pulso,
que se tornou um equipamento padrão em medicina. O oxímetro de pulso produz um tom
que varia em intensidade com o nível de oxigênio no sangue do paciente, permitindo que o
médico se concentre no procedimento cirúrgico enquanto esta importante informação é
Capítulo 1 - Introdução
5
frequentemente monitorada. A idéia foi estendida a outros seis parâmetros médicos através
de uma workstation por Fitch [FITCH, 1994]. Estudantes de medicina trabalhando com
esta workstation em uma sala de cirurgia simulada foram capazes de identificar situações
de emergência mais facilmente com o dispositivo de áudio que através de um dispositivo
visual ou áudio-visual.
Outra área promissora na util ização do processo de sintetização é a substituição de
sensores para indivíduos cegos. Um dos exemplos, que será apresentado mais
detalhadamente no Capítulo I.4, é o dispositivo desenvolvido por Meijer [MEIJER, 1992],
onde a imagem visual é varrida e apresentada na forma de som. E este também é o objetivo
deste trabalho, no entanto dando um enfoque menor aos parâmetros como posição relativa
do ponto na imagem e inserindo novas contribuições como o uso de cores para
diferenciação de objetos, criando uma “assinatura digital” para o objeto e não para a
imagem, além do uso de um número maior de parâmetros acústicos, procurando explorar
ao máximo a capacidade auditiva do deficiente.
I .2.1 Sistemas e estudos desenvolvidos anter iormente.
A moderna tecnologia tem revolucionado o nosso dia a dia, trazendo benefícios
para todos, inclusive indivíduos cegos ou com deficiência visual. Particularmente o avanço
tecnológico na área da informática tem ajudado os indivíduos cegos na árdua tarefa de
integração com o mundo. Por exemplo, na busca por novas ferramentas de auxílio à leitura,
já foram desenvolvidos equipamentos para conectar ao computador que reproduzem, no
sistema de escrita Braille os textos que aparecem na tela do mesmo. O Professor José
Antônio Borges e equipe, no Núcleo de Computação Eletrônica da UFRJ, desenvolveram
Capítulo 1 - Introdução
6
um software que facil ita o uso de microcomputadores por indivíduos cegos, o DOSVOX.
Ainda na área de informática, ferramentas como sistemas de reconhecimento de voz têm
sido desenvolvidos para que um indivíduo cego possa trabalhar em um microcomputador.
Estes sistemas facili tam a realização de tarefas simples, como a seleção de objetos na tela e
formatação em editores de texto. Um exemplo de produto que utiliza esta tecnologia é o
DS5 da Earset do Brasil, lançado recentemente. O DS5 é um fone de ouvido que, ligado à
serial de um computador, utilizando programas apropriados, lê informações mostradas na
tela, incluindo textos digitados.
A emergência de novos sistemas visando a inclusão social dos indivíduos cegos tem
levado ao estudo e desenvolvimento de uma série de dispositivos, que vão desde um
simples sensor de obstáculos aos mais sofisticados sistemas, inclusive implantes no
cérebro, na região do córtex visual [DOBELLE, 2000]. Alguns dos dispositivos existentes,
relacionados à ajuda aos indivíduos cegos, são descritos a seguir em ordem de
desenvolvimento.
I .2.1.1 Sistema experimental para a conversão de imagem em
som
Meijer [MEIJER, 1992] desenvolveu um sistema capaz de mapear imagens, em
escala de cinza, vindas de uma câmera de vídeo. Neste sistema a imagem é transformada
em uma representação de áudio multiplexada no tempo. Cada imagem é capturada,
digitalizada e armazenada como uma matriz de pixels (ponto na tela) P(k). A matriz é
composta de M linhas (altura) e N colunas (largura). No início do período de conversão,
Capítulo 1 - Introdução
7
que dura τ segundos, um aviso sonoro de sincronização reconhecível é gerado para marcar
o começo de uma nova imagem. O valor do elemento da matriz de pixels )(kijP é qualquer
um dos diferentes tons de cinza, representados por g, ou seja:
( ) },...,{, 1)()()(
Gk
ijk
ijk ggppP ∈= [1]
Onde:
i = 1, ..., M : representa o número de linhas;
j = 1, ..., N :representa o número de colunas;
g=1,..., G :representa o número de tons de cinza.
Subseqüentemente recomeça a conversão em som, iniciando-se com j = 1. A Figura
1 ilustra o princípio do procedimento de conversão para uma imagem simples, de 8 x 3,
sendo 3 tons de cinza (M = N = 8; G = 3). [MEIJER, 1992]
Figura 1. Princípios de mapeamento da conversão imagem/som
Capítulo 1 - Introdução
8
Para cada pixel, o mapeamento transforma posições verticais em freqüência,
posições horizontais em tempo, após o sinal audível de sincronismo, e transforma brilho
em amplitude de oscilação. Para uma dada coluna j, cada pixel nesta coluna é usado para
excitar um oscilador senoidal associado na faixa de freqüência audível. Um pixel na
posição mais elevada é correspondente a um oscilador de frequência f. Quanto mais
intenso o brilho de um pixel, representado pelo tom cinza )(kijp , maior é a amplitude
(sonoridade) do seu oscilador associado. Os sinais dos osciladores de cada coluna são
superpostos, e os correspondentes padrões de som s(t) são ouvidos durante τ / N segundos.
Então a próxima coluna (j + 1) é convertida em som. Este procedimento continua até que a
N-ésima coluna do lado direito tenha sido convertida, o que ocorre τ segundos após o
início da conversão.
Uma vez que uma nova matriz de pixel é armazenada, a conversão da nova imagem
para som começa, repetindo o processo.
Segundo Meijer [MEIJER, 1992], o padrão de som correspondente às formas
simples é imaginado facilmente. Por exemplo, uma linha reta brilhante sobre um plano
escuro, indo do canto esquerdo inferior para o canto direito superior, irá soar como um
único tom que irá aumentando em freqüência. De maneira semelhante, um retângulo
brilhante irá soar como um som composto pelas diversas senóides geradas pelos
osciladores associados às linhas que o retângulo ocupa na imagem, onde a duração
corresponderá à sua largura, e a freqüência corresponderá à sua altura e elevação. Imagens
mais realistas obviamente irão gerar padrões de som mais complicados.
O protótipo do sistema desenvolvido por Meijer foi construído para M = N = 64 e G
= 16 (em outras palavras, o sistema oferece uma resolução de 64 x 64 pixels e 16 escalas
de cinza). O sistema completo para conversão foi implementado sobre uma placa de
Capítulo 1 - Introdução
9
circuito de 236 x 160 mm. Este inclui uma entrada para digitalização dos 16 tons de cinza e
uma saída para fones de ouvido. Para aquisição da imagem foi utilizada uma câmera
vidicon comercial que fornece imagens entrelaçadas de 312 e 313 linhas a cada 20 ms, dos
quais apenas 64 são usadas para conversão da imagem em som, conforme visto
anteriormente.
I .2.1.2 “People Sensor “
Ram e Sharf [RAM, 1998] desenvolveram um dispositivo, o people sensor, capaz
de distinguir um obstáculo (pessoa ou objeto) localizado no caminho de um indivíduo
cego. Este ainda é capaz de medir a distância entre o usuário e o obstáculo.
O people sensor é composto por um sensor infravermelho e diversos sensores por
ultra-som. O sensor ultra-sônico estima a distância de um objeto através da medida do
tempo necessário para uma onda sonora, emitida por ele, atingir o objeto e voltar. Os
objetos são detectados indiferentemente dos níveis de luz do ambiente, cor, material e
reflectividade. O sensor infravermelho detecta a presença de uma pessoa através de um
elemento sensível às emissões de infravermelho do corpo humano. Este responde apenas a
uma mudança na intensidade da radiação. Um microcontrolador processa os dados
coletados por ambos os sensores, ultra-sônico e infravermelho, controla um motor
responsável por desviar o equipamento possibilitando assim que o deficiente desvie do
obstáculo. O equipamento pode também informar ao deficiente visual, por meio de
vibrações, se o obstáculo é uma pessoa ou não e qual sua distância. A intensidade das
vibrações é inversamente proporcional à distância e ocorre de forma intermitente, com
intervalos maiores ou menores em função da presença ou não de pessoas a sua frente. Caso
Capítulo 1 - Introdução
10
não haja nenhum objeto a menos de um metro e meio do aparelho, nenhuma vibração é
gerada. A Figura 2 mostra o protótipo sendo demonstrado em uma sala com diversos
obstáculos.
Figura 2. “People Sensor” sendo demonstrado.
I .2.1.3 Sistemas de navegação baseados em GPS
O Sistema de Posicionamento Global (GPS – do inglês, Global Position System) é
um sistema em que o navegador determina sua posição através de sinais transmitidos de
satélites em orbita, não geoestacionários.
A util ização do sistema GPS em dispositivos para a área de deficiência visual
começou a ser desenvolvido na metade dos anos 80, quando Coll ins [COLLINS, 1985] e
Loomis [LOOMIS, 1998] propuseram a utilização deste sistema para assistir indivíduos
cegos em navegação.
Capítulo 1 - Introdução
11
O sistema de navegação desenvolvido baseado em GPS, desenvolvido consiste de
três componentes funcionais: um módulo para a determinação da posição e da orientação
do usuário; um Sistema de Informação Geográfica (GIS) e uma interface para o usuário.
Um diagrama ilustrativo deste sistema está apresentado na Figura 3. O primeiro
módulo contém o receptor GPS com correção diferencial de uma estação base localizada,
chamada DGPS, responsável por diminuir o erro do sistema de coordenadas, e uma bússola
para orientação. O segundo módulo é o computador conectado ao GIS. A base de dados é
variável, podendo conter diversas informações. Golledge et al. [GOLLEDGE,1991]
desenvolveram uma base de dados contendo edifícios, calçadas, rodovias, ciclovias,
árvores e outros detalhes.
O terceiro módulo é a interface para o usuário. Diferentes componentes podem ser
usados neste módulo para transportar as informações sobre o ambiente para o indivíduo
cego. Loomis, [LOOMIS, 1998] planejou usar sons de um dispositivo acústico virtual que
gera um sinal de áudio (por exemplo, fala ou efeito sonoro), ouvido através de fones de
ouvido. Assim o indivíduo cego poderia ouvir os nomes dos edifícios, cruzamentos de
ruas, etc. O sistema de navegação completo (computador, sintetizador para conversação,
hardware com dispositivo acústico e baterias) é carregado pelo usuário em uma mochila, e
o conjunto pesa 11,4 Kg.
Figura 3. Componentes funcionais de um sistema de navegação para indivíduos cegos.
Capítulo 1 - Introdução
12
Desde a proposição da utilização do GPS em sistemas de navegação, um número
considerável de dispositivos baseados em GPS foi desenvolvido. Entre estes se encontra o
Strider, um produto da Arkenstone of Sunnyvale, Califórnia [FRUCHTERMAN, 1996]. O
Strider inclui mapas digitais detalhados, que cobrem a maior parte das cidades e torres
localizadas nos Estados Unidos. Um dispositivo de fala sintetizada fornece informações
sobre a disposição espacial de cidades próximas e pontos de interesse, assim como
instruções para o navegante encontrar os destinos desejados. Um dispositivo similar ao
Strider é o MoBIC Outdoor System (MoODS). MoBIC é a sigla para o projeto Mobility of
Blind and Ederly People Integrating with Computers [PETRIE et al., 1996]. O MoODS
inclui ainda correção diferencial DGPS (por conexão com telefonia móvel) e bússola.
I .2.1.4 Percepção por estímulos eletro-táteis através da língua
Rita [RITA,1969] desenvolveu um sistema de substituição da visão táctil (TVSS –
do inglês, Táctile Vision Substitution System) para fornecer informações através de um
conjunto de estímulos gerados por um dispositivo em contato com a pele de uma parte do
corpo do indivíduo (abdômen, costas, coxa ou ponta dos dedos). Primeiramente as imagens
são captadas por uma câmera de TV que fornece imagens em preto e branco com resolução
de 20 x 20 pixels, e estas são então transformadas em alguma forma de estímulo (vibração
ou pequeno choque elétrico). Através de eletrodos, os nervos terminais da pele são
excitados de forma a refletirem as imagens. Em outras palavras, a imagem é “sentida” pelo
indivíduo através da pele. Alguns problemas relacionados à interface homem - máquina
foram verificados através da utili zação do TVSS naquela época. Os sistemas vibro-tácteis
Capítulo 1 - Introdução
13
são volumosos, enquanto que os sistemas elétricos requerem tensões relativamente altas,
principalmente nas áreas como pontas dos dedos. Este fato levou os pesquisadores, anos
mais tarde, a adaptarem o sistema para percepção das imagens através da língua. O
“dipositivo eletro-táctil através da língua” contém arranjo de 144 eletrodos de cobre-ouro
de 1,55 mm de diâmetro posteriormente achatados e organizados como uma matriz
quadrada de 12 x 12 pixels. O sistema completo para a substituição da visão consiste de
uma câmera de vídeo-conferência, um cartão de captura de vídeo, um microcomputador
laptop, uma unidade de dispositivo de língua (TDU), o arranjo de eletrodos descrito acima
e um software para processamento da imagem, como visto na Figura 3. A câmera fornece
entre 14 e 20 imagens com resolução de 12 x 12 pixels por segundo. O arranjo de eletrodos
compreende quatro quadrantes quadrados de 6 x 6. Estes são idêntica e simultaneamente
pulsados pelo TDU. Segundo os usuários, o processo de estimulação da língua pelos
eletrodos produz sensação de borbulhamento.
Capítulo 1 - Introdução
14
Figura 4. Sistema de reconhecimento de imagem através da língua.
A Figura 4 (a) mostra a interface homem – máquina (TDU) conectada a uma
câmera de TV e um microcomputador. Em (b) está o arranjo eletro-táctil de língua (144
pontos medindo aproximadamente 3 cm2) ao lado de uma moeda para comparação de
tamanho. Em (c) a letra E é mostrada nas 4 direções possíveis [SAMPAIO et al., 2001].
I .2.1.5 Conexão de uma câmera de TV ao cor tex visual
Dobelle [DOBELLE, 2000] criou um sistema de visão artificial que consiste de
uma microcâmera, um microcomputador e uma placa de platina contendo eletrodos. A
microcâmera é montada sobre um par de óculos, enquanto que o microcomputador fica
preso à cintura do indivíduo. A placa de platina contendo os eletrodos é implantada no
cérebro através de cirurgia, como mostrado na Figura 5. A microcâmera capta as imagens e
as envia para o cérebro por estímulo através dos eletrodos. A placa de platina é composta
de furos de 3 mm de diâmetro onde estão centrados os eletrodos de 1 mm de diâmetro.
Cada eletrodo é ligado a um conector subcutâneo contido em um suporte de carbono.
Através do dispositivo de Dobelle, imagens podem ser percebidas por um indivíduo cego
como pontos de luz que aparecem e desaparecem (flashes) chamados “fosfenos” . O
dispositivo de Dobelle tem sido utili zado por um indivíduo cego apenas 2 ou 3 vezes por
semana no laboratório de pesquisa. O indivíduo caminha lentamente, com uma bengala
para evitar colisões.
Capítulo 1 - Introdução
15
Figura 5. Sistema de visão artificial composto por câmera e computador ligados por cabos
a eletrodos ao cérebro do indivíduo
I .3 Conclusão sobre sistemas desenvolvidos anter iormente.
Os dispositivos apresentados anteriormente são apenas um pequeno número
de exemplos de uma série de dispositivos existentes, alguns dos quais já estão disponíveis
comercialmente. Entretanto diversos itens, alguns relatados pelos próprios pesquisadores,
precisam ser melhorados. Por exemplo, o ” people sensor” desenvolvido por Ram, [RAM,
1998] é limitado a ajudar pessoas a desviar de obstáculos, e apresenta uma faixa restrita de
detecção. Os sistemas de navegação baseados em GPS não fornecem informações com
precisão satisfatória e não funcionam em ambientes fechados, sendo ainda necessário o uso
de bengalas, cães ou dispositivos ultra-sônicos. O dispositivo de percepção através da
língua desenvolvido por Rita [RITA, 1998; RITA, 2001] apresenta problemas relacionados
à baixa resolução e estéticos, assim como não permite a locomoção do indivíduo. O
dispositivo de Dobelle [DOBELLE, 2000] além de utili zar técnica invasiva, é inacessível
Capítulo 1 - Introdução
16
para pessoas de baixa renda, embora pareça ter um futuro promissor. Idéias semelhantes,
mas com implantes sobre o nervo ótico também têm sido tentadas.
Uma observação importante acerca dos dispositivos mencionados anteriormente é
que a maioria destes não explora a grande capacidade auditiva do indivíduo cego. Em
termos de aplicação para deficientes visuais, a possibilidade de uso de parâmetros
acústicos para reconhecimento de uma imagem promove evolução bastante relevante na
capacidade de interação com o meio e locomoção do indivíduo. A pesquisa realizada por
Meijer, 1992, onde o autor desenvolveu um sistema de conversão de imagem em som,
considera a capacidade auditiva. Entretanto, além de envolver apenas tons de cinza, um
número considerável de sinais de som tornam-se necessários a medida que aumenta o
volume de informações contidas nas imagens, uma vez que existe um tom distinto para
cada linha de vídeo. Util izar o aparelho com muito mais que 8 de linhas de resolução se
torna inviável.
Todos os sistemas estudados util izam imagens monocromáticas e geradores de tom
(será vista a definição de tom no Apêndice A), o que não aproveita toda capacidade de
percepção do ouvido, nem a informação de cor, que é um parâmetro novo para o cego.
Ainda que ele possa tocar o objeto, fazer sua identificação por cores seria de valiosa
importância.
I .4 Contr ibuição deste trabalho.
No presente trabalho é estudado e propo sto um sistema voltado à
geração de sons cujas características são determinadas por uma imagem,
colorida ou não. Através deste é possível que uma imagem seja imaginada
Capítulo 1 - Introdução
17
por um ind ivíduo com deficiência visual em estado avançado ou u m
ind ivíduo cego q ue não nasceu com a deficiência, mas a adquiriu após um
tempo suficiente para o conhecimento e percepção da realidade que nos
cerca. Ou ainda criar um novo parâmetro para os ob jetos que cercam um
ind ivíduo que nasceu cego. A utili zação de um maior número de parâmetros
acústicos e a diferenciação das cores de uma imagem pode ajudar na
diferenciação de objetos com mesmas características em relação ao tato,
mas diferentes em relação ao paladar, cor, conteúdo , etc. (por exemplo, uma
fruta madura de uma fruta verde, sendo ambas idênticas; diferentes tipos de
refrigerantes respectivamente envasados num mesmo tipo d e vasilhame;
diferentes CDs, estejam eles colocados em suas respectivas embalagens ou
não). Outras tarefas importantes poderão ser realizadas pelo ind ivíduo cego
util izando o presente sistema, como localizar ob jetos (portas, corr imão),
reconh ecer obstáculos durante o percurso (buracos no chão, tapetes,
vasos, pontos de referência como lagos ou monu mentos, etc), identificar
ôn ibus em localidades em que cores são u tili zadas para diferenciar as
linhas, identificar pessoas pela cor de suas roup as, etc.
O uso de psico-acústica pretende dar ao indivíduo a capacidade de localização
espacial do objeto, permitindo a sensação de direção de determinado objeto.
18
Capítulo II
Metodologia
Os elementos relevantes de hardware, características de sons e imagens são
estudados neste capítulo, a fim de preparar o leitor para o Capítulo III , que irá associar tais
informações para a implementação do hardware e do algoritmo. Algumas definições mais
fundamentais utilizadas neste trabalho foram inseridas no Apêndice A e serão citadas no
decorrer do texto.
I I .1 Aquisição de imagens por dispositivos digitais
Os dispositivos sensores chamados “digitais”, no caso das câmeras, são na verdade
sistemas sensores analógicos acoplados a sistemas de digitalização em uma pastilha de
estado sólido (circuito integrado), sendo por isso chamado processo de “captação digital do
sinal” , uma vez que suas vias de saída de informação são digitais. [JACK, 2001].
Um exemplo típico de sensor de estado sólido é o dispositivo acoplado por carga
(CCD – do inglês, charge-coupled device). O CCD apresenta um arranjo linear ou
retangular de sensores de luz sobre um único circuito integrado. Este dispositivo apresenta
ainda um conjunto de circuitos necessários para leitura dos sensores.
Capítulo 2 - Metodologia
19
Um sensor típico de CCD por varredura de linha contém uma linha de sensores
ligada a um multiplexador, de tal forma que podemos ler um ou um conjunto de pontos de
cada vez. O circuito de controle atua sobre o multiplexador e gera sinais de sincronismo
para possibilitar a aquisição da imagem.
Os CCDs por varredura de área são similares a aqueles de varredura de linha,
exceto que os fotosensores são arranjados em forma matricial e uma combinação de
multiplexadores permite a seleção de cada linha da matriz. Comercialmente os CCDs com
saída em vídeo analógico (composto) são os mais populares e baratos, mas para serem
utili zados computacionalmente precisam de um hardware adicional que transforma o sinal
gerado em sinal digital. O CCD utilizado integra tal hardware, possuindo saída digital,
permitindo ainda outras vantagens como o controle de quadros por segundo, como será
visto em II .2.2.
I I .1.1 Câmeras CCD
Disponíveis em uma variedade de configurações, os CCDs são utilizados em uma
linha compacta de câmeras de estado sólido para televisão e digitalização de imagens
[ILLGNER, 2000]. Estas câmeras, que não apresentam distorção geométrica e têm sinal de
saída linear sobre uma faixa maior de intensidade que uma câmera de tubo (vidicon), estão
emergindo como dispositivos sensores de imagem para uma ampla variedade de
aplicações.
Os CCDs podem ser varridos em taxas de televisão (30 imagens individuais
(frames) por segundo), ou ainda mais lentamente, podendo ser utilizadas para fotografia,
por exemplo em astronomia e microscopia de fluorescência [CASTLEMAN, 1996].
Capítulo 2 - Metodologia
20
I I .1.2 O CCD Utili zado
Foi utili zado o CCD OVT7620, da Omnivision, que é um sensor de imagem em um
único chip, projetado para uso com sistemas de vídeo e imagem. É concebido para usos
onde o espaço físico é restrito. O dispositivo incorpora uma matriz de 640 x 480 pixels
capaz de operar com velocidade de 2 a 30 quadros por segundo. Possui ainda um sistema
FPN (Fixed Pattern Noise) que minimiza ruídos de digitalização e permite ajustes
automáticos de brilho e nitidez. Todas as funções necessárias como controle de exposição,
linearidade, ganho, balanço de branco, saturação de cor e janelamento, entre outros, são
disponíveis e ajustáveis através de uma interface serial SCCB. Pode-se obter, ainda,
imagens por barramentos de 8 ou 16 bits, facili tando a integração da câmera a
microcontroladores ou microprocessadores, e interfaces que tenham barramentos de 8 bits.
Características técnicas mais detalhadas estão disponíveis no Apêndice B.
Este CCD foi escolhido por ter uma interface simples, digital e compatível com
sistema microcontrolado, além de ser adequado para uso com quadros isolados (um quadro
por vez), possibili tando a integração com dispositivos menos velozes, adequados a
processamento de imagens digitais estáticas (fotos).
Com resolução de 640x480 pontos a 30 quadros por segundo e 24 bits por ponto,
921600 bytes compõem um quadro (640 x 480 x 3), gerando dados a uma taxa de
transferência de 27Mb por segundo (921600 x 30 bytes). Um processador capaz de receber
e acumular esta quantidade de informação por segundo seria necessário caso não fosse
possível este controle de quadros por segundo e resolução.
Capítulo 2 - Metodologia
21
Com a resolução escolhida, de 320x240 pontos, com 2 quadros por segundo,
450KB por segundo entre a câmera e o microcontrolador são suficientes. CCDs com
resolução menor foram estudados, mas descartados por possuírem menos de 24 bits por
ponto.
Como pode ser visto no diagrama em blocos da Figura 6, os sinais são
disponibili zados nos formatos RGB e YCbCr pelo sistema de processamento analógico.
Um formatador digital ainda pode dispor os dados no formato YUV (Vide Capítulo III e
Apêndice B para mais detalhes). O formato de saída, bem como diversos parâmetros são
programáveis através da interface serial SCCB (Serial Câmera Control Bus).
Figura 6. Blocos que compõem o CCD OV7620.
Capítulo 2 - Metodologia
22
Outra característica fundamental para a escolha deste CCD é seu numero de cores.
Por possuir resolução de 8 bits por canal, compondo 24Bits, possibili ta 16 milhões de
combinações de cores.
I I .1.3 Inter face entre o CCD e o hardware utili zado
O sistema foi desenvolvido em duas partes:
- uma placa com microcontrolador e ligada diretamente ao CCD, para estudos
preliminares e implementação de forma miniaturizada;
- Uma implementação em IBM-PC para estudo e desenvolvimentos matemáticos
dos sistemas de modulação.
• Interface com o microcontrolador:
Foi desenvolvida uma pequena placa adaptadora para ligação do sensor CCD a um
conjunto de desenvolvimento 8051, conforme esquemas no apêndice D, capaz de coletar os
dados da imagem a 2 quadros por segundo, 24 bits por ponto, em um barramento de 8 bits,
armazenar e transferir para o IBM-PC por interface serial a 115Kbps. O sistema completo
de captura de imagem, composto pelo conjunto de desenvolvimento, câmera CCD e placa
adaptadora pode ser visto na Figura 7.
Capítulo 2 - Metodologia
23
Figura 7. Hardware experimental para aquisição de imagens.
O firmware foi desenvolvido em C para microcontroladores da família 8051, de
forma a captar somente as linhas pares da imagem e um de cada dois pontos da tela,
diminuindo assim a resolução e aumentando a velocidade de transferência de um quadro
completo.
Por ser uma câmera com interface digital, os métodos tradicionais de digitalização
(vide Apêndice A) foram dispensados e o sensor pode ser ligado ao microcontrolador pelo
seu barramento de dados.
Uma característica especial do protocolo de comunicação eliminou a necessidade
de uso dos pinos de sincronismo, uma vez que ela envia um código especial (como uma
cor reservada) para os momentos em que o pulso de sincronismo está ativo. A carta de
tempo de transferência de uma linha de vídeo é mostrada na Figura 8, onde podemos ver
que a borda de descida de PCLK é o momento em que novos dados são disponibilizados,
logo na borda de subida é o melhor momento para leitura.
Capítulo 2 - Metodologia
24
Figura 8. Carta de tempo para transferência de dados entre a câmera e o
microcontrolador.
O protocolo utili zado para transferência do quadro é o CCIR-656 que define
temporizações que mantém certo nível de compatibil idade com o padrão utilizado pela
televisão. Entre essas compatibili dades está o uso de um nível de preto diferente de zero
durante as linhas de varredura com luminância mínima e um nível inferior durante o que
seria o retraço. Essa informação foi util izada como alternativa ao uso do pino de
sincronismo por mostrar maior simplicidade de implementação. São disponibilizadas ainda
informações adicionais como resolução, numero atual da linha (pacote), modelo, entre
outras, como mostra a Figura 9.
Capítulo 2 - Metodologia
25
Figura 9. Formato dos dados de uma linha de vídeo.
Foi necessário o desenvolvimento de uma placa adaptadora para ligação da CCD
utili zada a uma placa com microcontrolador, como detalha a Figura 10. No apêndice D
podemos ver o esquema elétrico da placa desenvolvida.
a) Lado do conector, com a lente; b) Lado do CCD, sem a lente.
Figura 10. Placa para ligação do CCD ao conjunto de desenvolvimento.
Capítulo 2 - Metodologia
26
As ligações feitas entre o microcontrolador e a câmera estão listadas na Tabela 1:
Ligação CCD
(UV7620)
Microcontrolador 8051
(AT89S8252)
Via de dados 0..7 Y0..Y7 P0.0..P0.7
Pixel Clock PCLK P1.0
Clock Clock P1.1
Sincronismo Vertical VSINC INT0
Sincronismo Horizontal HSINC INT1
Clock da serial SCCB SCLK TC0
Dados da serial SCCB SDATA TC1
Alimentação Positiva +5V +5V
Alimentação Negativa GND GND
Tabela 1. Ligações entre o microcontrolador e a câmera CCD.
A transferência de informações de programação de modo e controle entre a câmera
e o microcontrolador foi feita util izando a interface serial SCCB, uma variação do I2C.
Com ela foram feitas as programações de modo, interface de 8 bits, saída RGB e controles
de abertura e saturação. Uma rotina em C para 8051 gerou os pulsos necessários para a
implementação interface SCCB no microcontrolador.
Foi necessária uma correção utili zando-se ganhos para cada cor primária em função
das diferenças encontradas entre a sensibili dade dos elementos da câmera, como visto na
Figura 11, e do olho humano, como visto no Apêndice A. Pode-se ver claramente como os
ganhos de G e R são próximos para a câmera e bastante distintos para o olho humano.
Capítulo 2 - Metodologia
27
Figura 11. Rendimento para cada comprimento de onda no CCD utilizado.
Em pontilhado estão os valores para o olho humano.
• Sistema de análise de imagens:
Utilizando um programa desenvolvido em Delphi, os dados captados pelo CCD,
previamente tratados pelo microcontrolador e eviados ao microcomputador são convertidos
novamente em imagem, através de uma matriz RGB de 24 bits por ponto. Cada ponto é
então convertido para os modelos Y e HSI de cor, conforme ̀ será visto no Capítulo III .2.1.
I I .2 Especif icação de uma cor por sua composição.
As proporções de vermelho, verde e azul, em relação aos seus valores de saturação,
necessárias para formar uma cor, são denominadas valores triestímulo. Para sistemas
baseados em tubos de raios catódicos (TV, monitores de computador, etc.), os valores
Capítulo 2 - Metodologia
28
triestímulo são tipicamente denotados pelas respectivas letras R,G e B, as iniciais dos
nomes das cores em inglês red (vermelho), green (verde) e blue (azul). Podem também,
por convenção, ser denotadas pelas respectivas letras X, Y e Z [NASSAU, 1983] em
determinados modelos matemáticos.
I I .2.1 Modelos matemáticos para representação de cores
“Modelo de cor” é a maneira padrão usada para especificar-se uma cor particular.
Para criar um modelo de cor é necessário definir-se um sistema de coordenadas
tridimensionais e um sub-espaço contendo todas as cores, onde cada cor é representada por
um único ponto.
Um modelo de cor pode ser orientado para um hardware específico (por exemplo,
monitor colorido ou impressora), ou para aplicações que envolvem processamento de
imagem. No caso de um hardware, os modelos mais usados são o RGB (red, green, blue),
CMY (cyan, magenta, yellow) e o YIQ, onde Y corresponde à luminância, e I e Q são dois
componentes cromáticos chamados, respectivamente, “em-fase” e “quadratura”. Para o
processamento de imagens coloridas, os modelos usados normalmente são o HSI (matiz,
saturação, intensidade - HSI do inglês, hue, saturation, intensity) e o HSV (matiz,
saturação, valor - HSV do inglês, hue, saturation, value) [GEVERS, 1999]. As
características básicas destes modelos, suas diferenças e util idades são descritas a seguir.
Capítulo 2 - Metodologia
29
- O modelo RGB
O modelo RGB é um modelo aditivo, onde os comprimentos de onda da luz são
somados para formar novas cores (vide Apêndice A). Por esta razão o RGB é utilizado
para monitores coloridos e para a maioria das câmaras de vídeo em cores.
No modelo RGB util iza-se o sistema de coordenadas cartesianas. O sub-
espaço de cores é um cubo, como mostrado esquematicamente na Figura 12. As cores
primárias: azul, verde e vermelho estão localizadas nos vértices coincidentes com os
respectivos espaços dos eixos x, y e z, enquanto que as cores secundárias ciano, magenta e
amarelo estão localizadas nos vértices coincidentes com os espaços entre os eixos x, y e z.
O preto está localizado na origem, enquanto que o branco está localizado no vértice mais
distante da origem. O espectro na escala cinza estende-se ao longo da linha de conexão
entre os vértices preto e branco. As cores são pontos sobre ou dentro do cubo, definidas por
vetores que se estendem a partir da origem. Por conveniência assume-se que os valores das
cores são normalizados, portanto os valores de RGB estão no intervalo entre 0 e 1.
[GONZALEZ, 1992]
Figura 12. Cubo de cores representadas como vetores R,G e B.
Capítulo 2 - Metodologia
30
Os valores da imagem em RGB dos monitores e câmaras podem ser convertidos em
valores trisestímulos XYZ dos tubos de raios catódicos (CRT – do inglês, Cathode Ray
Tubes) através de um processo de 2 estágios. O primeiro consiste em calcular-se os valores
da função transferência, que é a relação entre os valores da imagem de entrada, em pixel, e
a intensidade das cores. As funções transferência geralmente diferem para cada canal
(vermelho, verde e azul). O segundo estágio consiste em transformar as cores: vermelho,
verde e azul para os valores triestímulo. A maneira mais fácil para realizar esta
transformação é através de uma matriz da seguinte forma:
B
G
R
Y
X
Z
Y
X
r
r
r
*
Z Z Z
Y Y
X X
bg
bg
bg
= [2]
onde X, Y e Z são os valores triestímulo e R, G e B são os valores RGB obtidos da
medição da função de transferência do dispositivo. Os valores dentro da matriz 3 x 3 são os
valores triestímulo medidos para os três canais do CRT, vermelho, verde e azul, em
emissão máxima; por exemplo, X r, Yr e Zr são os valores triestímulo medidos para o canal
vermelho em emissão máxima. [GONZALEZ, 1992]
Para converter XYZ em RGB primeiramente realiza-se a matriz inversa, como visto
em [3]: [GONZALEZ, 1992]
Z
Y
X
Y
X
B
G
R
r
r
r
*
Z Z Z
Y Y
X X (-1)
bg
bg
bg
= [3]
Em seguida faz-se o inverso da função transferência original.
O ponto branco é a cor produzida quando os três canais são guiados para máximo.
Assumindo-se que a luminância relativa Y é igual a 1, ou seja:
Capítulo 2 - Metodologia
31
n
nbbggrr
bbggrr
n
nbbggrr
y
zxaxaxa
xaxaxa
y
xxaxaxa
=++
=++
=++
1 [4]
tem-se três equações com três incógnitas, ar, ag, ab a serem determinadas e usadas na
matriz abaixo:
Z
Y
X
aaa
aaa
xa
B
G
R
bgr
bgr
br
z z z
y y y
a xa x
*
bgr
bgr
bggr
= [5]
- O modelo CMY
O CMY é um modelo subtrativo, usado para a maioria dos dispositivos que
depositam pigmentos coloridos sobre papel, como impressoras coloridas e copiadoras.
Estes dispositivos requerem dados de entrada CMY ou desempenham a conversão de RGB
para CMY internamente. A conversão é feita da maneira simples, como mostrado abaixo,
assumindo-se que os valores das cores foram normalizados no intervalo [0,1].
Conversão de RGB para CMY:
Se R+G+B=1=Branco
Ciano = 1 – R ; Equivale a Branco menos Vermelho ou Verde somado a Azul.
Magenta = 1 – G ; Equivale a Branco menos Verde ou Vermelho somado a Azul.
Amarelo = 1 – B ; Equivale a Branco menos Azul ou Vermelho somado a Verde.
Maiores detalhes sobre composições com cores estão mostradas no Apêndice A
Capítulo 2 - Metodologia
32
As cores impressas desta forma raramente coincidem com as cores mostradas na
tela. Uma maneira de resolver este problema é usar um modelo de aparência de cores.
Embora não exista ainda nenhum modelo padrão, alguns trabalhos têm sido apresentados
na literatura neste sentido. Um exemplo é o modelo de Hunt [HUNT, 1973], que utiliza
medidas colorimétricas da imagem, bem como de várias fontes de luz e regiões do campo
visual para produzir parâmetros que correlatam com as definições de cor – brilho, matiz,
saturação, etc. [GONZALEZ, 1992]
- O modelo YIQ
O modelo YIQ é usado na transmissão de TV colorida. Basicamente YIQ é uma
recodificação de RGB para eficiência de transmissão e para a manutenção da
compatibil idade com os padrões monocromáticos. A conversão de RGB para YIQ é dada
por:
B
G
R
Q
I
Y
*
0,331 0,523- 212,0
0,321- 0,275- 596,0
0,114 0,587 299,0
= [6]
Os coeficientes util izados para conversão foram levantados utilizando-se testes
sobre a equivalente monocromática de luminância de cada cor percebida pela visão
humana [KIVER, 1965] e vem sendo utili zado desde os primórdios da TV colorida.
Neste trabalho o conceito de Y foi utili zado para avaliar o brilho equivalente de
determinada cor.
Capítulo 2 - Metodologia
33
- O modelo HSI
HSI (matiz, saturação, intensidade - HSI do inglês, hue, saturation, intensity) onde
a matiz representa qual cor (amarelo, verde, roxo, etc), enquanto que a saturação está
relacionada à pureza de cor (quanto de branco está somado a ela). Uma cor pura é
completamente saturada, ou seja, sem mistura de luz branca. No modelo HSI os
componentes matiz e saturação são definidos pelo triângulo mostrados na Figura 13 (A). A
matiz, H, é o ângulo do vetor (representado por uma seta) em relação ao eixo vermelho.
Quando H = 90°, a cor é azul. Para H = 270°, a cor é amarela, e assim por diante. A
saturação é dada pela distância de um ponto de cor em relação ao centro do triângulo.
Quanto mais distante do centro do triângulo, mais saturada está a cor. Quanto ao
componente intensidade no modelo HSI, esta é medida em relação à uma linha
perpendicular ao plano do triângulo, passando através do centro do mesmo. A intensidade
ao longo da linha, na porção inferior do triângulo, tende ao escuro até o preto. Por outro
lado, as intensidades na parte superior do triângulo tende do claro ao branco, nos passando
assim a idéia de luminosidade da cor.
Figura 13. (A) Triângulo de cores HSI ; (B) Sólido de cores HSI
Capítulo 2 - Metodologia
34
A combinação matiz, saturação e intensidade num espaço de cor tridimensional está
representada na Figura 13 (B). Qualquer ponto na superfície desta estrutura representa uma
cor saturada. Dentro da estrutura as cores tornam-se menos saturadas conforme se
aproximam do eixo vertical.
A conversão do modelo RGB para o HSI é feita através das expressões abaixo. A
intensidade no modelo HSI é dada por:
3BGR
I++= [7]
onde R, G e B são as quantidades dos componentes vermelho, verde e azul normalizados
para a faixa [0,1].
A saturação é expressa por:
),,(3
1),,(
1 BGRnBGRI
BGRnS
++−=−= [8]
onde o termo n(R,G,B) indica a quantidade de branco presente. Se qualquer um dos
valores R,G ou B é igual a zero, não existe a presença do branco, e a cor é pura.
A expressão para a matiz é :
−−+−−+−= −
2/121
)])(()[(
)]()[(2/1cos
BGBRGR
BRGRH [9]
Se S = 0, H não tem significado. Entretanto, se (B/I) > (G/I), então H = 360° – H.
Para normalizar a matiz no intervalo [0,1], faz-se H = H/360°, uma vez que H é um ângulo
em graus.
Capítulo 2 - Metodologia
35
O uso do parâmetro matiz (H) e saturação (S) neste trabalho foram fundamentais
para a identificação da cor e sua caracterização.
O modelo HSI encontra aplicações que vão desde o projeto de sistemas de visão
para a determinação automática do amadurecimento de frutas e vegetais a sistemas para a
inspeção da qualidade de produtos coloridos.
II .2.2 Diagrama de cromaticidade
Outra maneira de especificar-se cor é através do diagrama de cromaticidade,
apresentado na Figura 14. Neste a composição das cores é apresentada em função de x
(vermelho) e y (verde). Para qualquer valor de x e y, o valor de z (azul) pode ser obtido
observando que:
z = 1 - (x + y) [10]
O ponto localizado na região verde da Figura 8, por exemplo, é composto por 62% de
verde, 25% de vermelho e 13% de azul. O ponto de energia igual no diagrama representa o
padrão da CIE para a luz branca, e qualquer ponto localizado em uma das extremidades do
diagrama é completamente saturado. Conforme um ponto se afasta da extremidade e se
aproxima do ponto de energia igual, menos saturada é a cor (ou seja, mais luz branca é
adicionada à cor). Através do diagrama de cromaticidade pode ser verificado que nem
todas as cores do espectro visível podem ser obtidas a partir da mistura das três cores
primárias isoladas. [GONZALEZ, 1992]
Capítulo 2 - Metodologia
36
Figura 14. Diagrama de cromaticidade
II .2.2 Melhoramentos em uma imagem colorida
Para reconhecimento de cores é muito importante que fatores externos como má
iluminação não interfiram no resultado. Obviamente parâmetros mínimos de qualidade da
imagem adquirida devem existir, mas certas distorções cromáticas podem ser compensadas
por processamento digital. [JACK, 2001]
- Balanço de cor
Geralmente quando uma imagem é digitalizada, a mesma apresenta algumas
distorções. Diferentes sensibilidades, fatores de ganho, níveis de preto, etc. Os três canais
de cor, verde azul e vermelho, sofrem diferentes transformações lineares durante a
Capítulo 2 - Metodologia
37
digitalização. O resultado é uma imagem com as três cores primárias fora de “balanço” .
Por exemplo, objetos que deveriam ser cinza aparecem coloridos.
O primeiro teste de balanço de cor é verificar onde todos os objetos, de fato,
parecem cinza. O segundo é verificar se as cores altamente saturadas têm a própria nuance.
Se a imagem tem um plano de fundo branco ou preto proeminente, este irá produzir um
pico distinguível nos histogramas de imagens de componentes RGB. Se estes picos
ocorrem em diferentes níveis de cinza, o sinal de cor está fora de balanço. A solução para
este problema é usar transformações de escalas de cinza lineares sobre cada imagem
individual R,G e B. A maneira simples para se obter a função transformação de escalas de
cinza é:
1) Selecionar áreas relativamente uniformes de cinza brilhante e cinza
escuro na imagem;
2) Computar o nível de cinza principal de ambas as áreas em todas as três
imagens componentes e
3) Usar uma superfície de contraste linear sobre duas das imagens
componentes que formarão a terceira. Se as duas áreas têm o mesmo
nível de cinza nas três imagens componentes, significa que o balanço de
cor foi alcançado.
- Aumento de saturação
As cores de uma imagem podem ser intensificadas multiplicando-se a saturação em
cada pixel por uma constante maior que um. Por outro lado, a multiplicação por uma
constante menor que um reduz a intensidade.
Capítulo 2 - Metodologia
38
- Alteração da matiz
Uma vez que a matiz é um ângulo, adicionando-se ou subtraindo-se alguns
graus a cor da imagem poderá ser, respectivamente, amenizada ou intensificada. Ângulos
grandes irão alterar drasticamente a aparência. É um parâmetro interessante a ser analisado,
não precisando de ajustes computacionais pois é pouco influenciado pela qualidade da
iluminação, foco ou outras distorções na aquisição. [GONZALEZ, 1992]
II .3 Caracter ísticas da visão humana
O ser humano possui cinco sentidos principais: visão, audição, olfato, tato e
paladar. Todos são importantes, mas a visão é o sentido que domina nossa vida. Quatro
quintos de todas as informações recebidas pelo cérebro chegam-nos através dos olhos
[PRATT, 1991]. A importância da visão é tão grande que supera a de todos os outros
sentidos. Muitas vezes fechamos os olhos para nos concentrarmos na audição – como, por
exemplo, para melhor apreciarmos um trecho musical [COLLINS,1985].
Os seres humanos têm boa visão se comparados com outros animais. Alguns
animais só conseguem ver áreas indefinidas de claro a escuro. Nós conseguimos ver
claramente à luz do dia e razoavelmente bem no escuro. Somos capazes de julgar a
distância de um objeto, além de podermos ver em cores. No entanto nossa visão possui
algumas não linearidades à interpretação de cores.
Capítulo 2 - Metodologia
39
Os pigmentos sensíveis aos comprimentos de onda nas regiões do vermelho (580
nm), verde (545 nm) e azul (440 nm) também chamados, respectivamente, de γ, α e β
possuem sensibilidades diferentes. Isso faz com que compensações sejam necessárias
quando precisamos analisar fatores como brilho e intensidade de cores, corrigindo, por
meio de ganhos, a sensibil idade a cada componente de nosso sensor. Faz também com que
fatores subjetivos tenham que ser usados para criação de tabelas de interpretação de cores.
Nuances de verde podem se confundir com azul, dependendo do observador.
No Apêndice A tem-se um detalhamento do funcionamento de nossa visão.
I I.4 Som
Som é o fenômeno físico relacionado a vibrações mecânicas que, por estarem
dentro de uma determinada faixa de freqüências, podem ser ouvidas pelo homem. As
vibrações mecânicas audíveis ou não, formadas por rarefações e compressões do meio
elástico por onde ela propaga, como ilustra a Figura 15, são estudadas através da acústica.
Figura 15. Representação gráfica e física da onda sonora.
Capítulo 2 - Metodologia
40
I I.4.1 Acústica.
As oscilações e as vibrações poderão ser audíveis ou não. As oscilações senoidais
audíveis são chamadas tom. À superposição de vários tons, resultando em vibrações
audíveis, dá-se o nome de som. Portanto o termo tom está relacionado à freqüências únicas
(por exemplo, 100 Hz, 200 Hz, etc.), enquanto que som implica na somatória de
freqüências.
Numa vibração, dá-se o nome oitava ao intervalo entre duas freqüências que
guardam entre si uma relação de dobro. Por exemplo, entre 250 Hz e 500 Hz, ou entre 340
e 680 Hz, existe intervalo de oitava.
As vibrações podem apresentar diferentes formas de onda, de acordo com o
conteúdo harmônico. Por exemplo, a forma de onda do tom é representada por uma
senóide. As formas de onda representam a soma algébrica da amplitude de suas
componentes.
O fenômeno audível, cujas freqüências não podem ser discriminadas por diferirem
entre si por valores inferiores aos detectáveis pelo aparelho auditivo, é chamado ruído. São
exemplos de ruído os efeitos sonoros da chuva, o amassar de um papel celofane, etc.
Diferente do tom, o ruído faz parte dos fenômenos aperiódicos, os quais não apresentam
qualquer caráter de repetição.
O termo ruído não deve ser confundido com o termo barulho, o qual refere-se a
todo som indesejável. Todo barulho apresenta espectro passível de ser analisado, através
dos quais é possível a realização de tratamentos acústicos adequados para a sua redução em
Capítulo 2 - Metodologia
41
determinados ambientes; por exemplo, é possível a redução do barulho de maquinarias em
indústrias, o que não ocorreria se este fosse ruído [NEPOMUCENO, 1994].
II .4.2 Características dos sons musicais
As ondas sonoras musicais podem ser caracterizadas através dos seguintes
parâmetros:
- Freqüência.
A freqüência caracteriza a rapidez de uma oscilação. Quando aplicado à música, a
freqüência do sinal de áudio é importante na determinação da altura musical. A altura
musical é a propriedade do som através da qual é possível classificá-lo em grave ou agudo.
A partir da altura musical os tons musicais são classificados dentro da escala musical como
nota: “dó”, “ré”, “mi” , etc. Para sons, refere-se à freqüência fundamental, ou seja, ao tom
de menor freqüência presente.
- Intensidade.
A intensidade do som está relacionada à quantidade de energia transmitida por uma
onda por segundo através de uma área unitária perpendicular à direção de propagação da
onda; logo a intensidade determina se o som é “forte” ou “ fraco” .
Capítulo 2 - Metodologia
42
A unidade de intensidade sonora é o W.m-2 (Watt por metro ao quadrado). Por meio de
testes acústicos determinou-se a mínima intensidade sonora que o aparelho auditivo pode
discriminar eqüivale a 10-12 W.m-2 e a mínima pressão sonora 2.10-5 N.m-2 (Newton por
metro ao quadrado) ou 20 Pa (Pascal) (na freqüência de 1kHz). Estes valores
correspondem ao nível zero ou limiar da audição humana, e são usados como padrões de
referência de som. O limite superior da audição humana corresponde a 102 W.m-2 em
intensidade e 2.102 W.m-2 em pressão, onde a sensação é mais de pressão ou dor do que
sensação tonal. Um nível de intensidade ou pressão acima do limiar é determinado em
relação ao nível zero de audição, e indica quantas vezes a intensidade ou a pressão do som
é maior que a intensidade de referência (Iref = 10-12 W.m-2) ou maior que a pressão de
referência (2.10-5 W.m-2), as quais determinam o nível zero na escala logarítmica (decibel)
para medição de intensidade ou pressão do som [NEPOMUCENO, 1994]. A essa relação
entre intensidade do som e intensidade de referência ou da relação entre pressão e pressão
de referência dá-se o nome de bel, ou seja:
refG
Glogbel = [11]
Onde G é a intensidade ou pressão do som e Gref é a intensidade ou pressão padrão,
tomados do limiar de sensação auditiva. Logo o bel não é uma unidade, e sim uma relação
logarítmica entre duas grandezas, tomando-se uma delas como referência. Como o bel
representa uma medida que fornece resultados grandes, utiliza-se a décima parte do bel ou
decibel (dB) para especificar o nível de intensidade (I) e/ou nível de pressão (P) de um
determinado som segundo as respectivas expressões:
refI
Ilog10)dB(I = [12]
Capítulo 2 - Metodologia
43
refP
Plog20)dB(P = [13]
A intensidade é traduzida em audibili dade. Em um sinal de som sintetizado, o
parâmetro de controle da audibilidade é a amplitude. [NEPOMUCENO, 1994]
Tal consideração é fundamental para este trabalho, uma vez que usaremos a
amplitude do sinal como forma de modular sua intensidade. Logo vemos que tal
modulação não pode ser feita de forma linear. No Capítulo III será detalhada a
implementação de tal modulação.
- Contorno.
A variável contorno, ou envoltória, ou ainda envelope, como é utili zado na
li teratura musical, está relacionada às características de crescimento e decaimento na
amplitude, ocorrendo de forma exponencial para a maioria dos sons naturais. A Figura 16
ilustra a sua forma. Especialmente em instrumentos que envolvem impacto, como o piano
e percussão, o contorno é bastante perceptível, sendo o ataque definido pela potência
inicial aplicada ao elemento vibratório, a sustentação por sua ressonância e o relaxamento
natural ou aplicado pelo músico, como uma forma de dissipação da energia do elemento
vibratório. [LOOMIS, 1990].
Capítulo 2 - Metodologia
44
Figura 16. Contorno de um som musical mostrado em porcentagem do valor de saturação.
Capítulo 2 - Metodologia
45
- Forma de onda.
A forma de onda de um sinal de áudio tem importância na determinação subjetiva
do timbre. O timbre é o parâmetro pelo qual são diferenciados os sons dos instrumentos
musicais. Todos os instrumentos, devido ao formato e modo como são tocados, produzem
sons de timbres característicos, através dos quais os mesmos podem ser reconhecidos. De
maneira semelhante, a voz de indivíduos diferentes cantando uma mesma canção pode ser
identificada por suas características individuais de timbre. A Figura 17 mostra a forma de
onda característica do som de um violino.
Figura 17. Forma de onda, ou timbre, de um som musical.
- Duração.
A duração de um som tem importância no contexto musical, e está relacionado ao
tempo (por quanto tempo a nota musical ressoa) e andamento. O andamento pode variar
de “ largo” (movimentos lentos) a “presto” (movimentos bastante rápidos). Na escrita
musical a duração do som é representada pelas notas musicais. O som mais lento é
Capítulo 2 - Metodologia
46
representado pela nota semibreve. Partindo da semibreve, a nota seguinte (mínima)
representa o som com metade da duração desta, portanto duas vezes mais rápida; a nota
semínima é quatro vezes mais rápida, e assim sucessivamente.
- Modulação.
A modulação do sinal em freqüência (vibrato) ou em amplitude (tremolo) é feita em
baixa freqüência, sendo utilizada para “embelezamento” sonoro.
- Exceções.
As ondas provenientes de alguns instrumentos de percussão, como, por exemplo, a
castanhola e o bombo, não possuem altura musical; logo o som destes instrumentos é mais
apropriadamente classificado como ruído ao invés de som musical [LOOMIS, 1990].
I I.5 Como o ouvido humano capta os sons.
O ouvido é representado por três partes bem definidas: ouvidos interno, médio e
externo. O ouvido externo recebe as ondas acústicas e a transmite para o ouvido médio, as
quais são conduzidas ao ouvido interno. O ouvido interno, através de células receptoras,
traduz seus efeitos na forma de impulsos nervosos e os envia ao cérebro por meio de
nervos auditivos, levando à percepção auditiva. [NEPOMUCENO, 1994].
Capítulo 2 - Metodologia
47
I I.6 Métodos de gravação e reprodução de sons e músicas.
Existem diversos formatos de arquivo para gravação de sons digitalizados, cada um
com as suas qualidades e objetivos. Dentre eles se destacam os métodos de gravação por
partitura, que anotam as notas musicais que devem ser geradas, e por áudio digital.
Existem inúmeros formatos para cada possibilidade. Serão descritos aqui apenas os
métodos que possibil itam reproduções com flexibil idade de parâmetros, que é uma
exigência para implementação do sistema proposto.
I I.6.1 Arquivos de áudio digital.
O formato digital é próprio para armazenagem de sons adquiridos por
quantizadores, listando os valores encontrados de forma seqüencial, tais valores devem ser
adquiridos em intervalos precisos de tempo, de acordo com a taxa de amostragem,
conforme visto na Figura 18.
Capítulo 2 - Metodologia
48
Figura 18. Representação digital de um som.
Normalmente tais arquivos possuem cabeçalhos que descrevem a forma como os
dados foram aquisitados e devem ser reproduzidos. Esse cabeçalho, em geral, é que
diferencia o formato de arquivo gerado.
I I.6.1.1 O formato de áudio digitalizados “ Wave” .
Representa, em sua forma mais comum, uma transcrição dos valores aquisitados pelo
sistema digitalizador, somado a um cabeçalho. Este formato é uma variação do formato
RIFF para intercâmbio de dados entre programas. Foi desenvolvido de forma que os dados
contenham cabeçalhos para cada parte do arquivo, permitindo edição e reprodução de
blocos de diversos formatos sem necessidade de conversão. Cada parte desse arquivo
possui um cabeçalho que descreve a forma como ele foi gravado. Estão disponíveis
informações como versão, número de canais, taxa de amostragem, número de bits,
tamanho do trecho (bloco), além dos bytes de dados, que são codificados em PCM.
Capítulo 2 - Metodologia
49
Por ser um dos formatos mais simples e populares, é adotado por praticamente
todos os fabricantes de softwares de edição de áudio, para diversas plataformas e sistemas
operacionais, além de instrumentos eletrônicos e sintetizadores para uso musical.
I I.6.1.2 Geração de arquivos de áudio digital.
A forma mais simples e usual de geração de áudio .wav é a gravação usando
um microcomputador dotado de placa de som. O “Recorder” do MSWindows é um
exemplo de programa capaz de digitalizar áudio, gravando no formato Wave. Para tanto,
deve-se informar as características desejadas, como numero de bits e taxa de amostragem,
que são passados para o hardware de som, responsável pela digitalização em tempo real e
transferência dos dados em blocos para a memória do microcomputador.
Essa operação é usualmente realizada pelo sistema operacional, bastando ao
programador utili zar as funções correspondentes das bibliotecas, passando os devidos
parâmetros.
I I.6.1.3 Reprodução de arquivos de áudio digitalizado.
Para reprodução, da mesma forma que para digitalização, os arquivos são lidos, o
hardware de som é configurado e o arquivo é transferido por funções das bibliotecas para
o hardware de som em blocos.
Usualmente a biblioteca de funções do sistema operacional possui rotinas para
reprodução desses arquivos, no entanto não permitem sua modulação nem a reprodução
Capítulo 2 - Metodologia
50
simultânea deles. Em função dessa limitação para este trabalho foram desenvolvidas
rotinas que utilizam acesso direto ao hardware.
I I.6.1.4 Modulação por processamento digital de áudio.
A freqüência de reprodução de um determinado som pode ser alterada util izando-se
taxas de reprodução diferentes da util izada para aquisição, de maneira diretamente
proporcional. Assim podemos modular a freqüência do som digital. Cada vez que se dobra
ou divide por dois a velocidade de reprodução do som se consegue uma nota uma oitava
acima ou abaixo, respectivamente.
A amplitude do sinal pode ser modificada multiplicando-se cada amostra por um
valor constante. Usualmente util izam-se apenas valores entre 0 e 1 permitindo a
reprodução com 0 a 100% da amplitude original.
Em reprodutores stereofônicos podemos ainda selecionar a amplitude de saída em
cada canal, permitindo a sensação de direção da fonte de som.
Em ambiente Windows, estas modificações devem ser feitas por rotinas
desenvolvidas pelo programador, que deve fazer uma operação de leitura, tratamento e
gravação dos dados para posteriormente utili zar os serviços do windows de reprodução de
áudio. [FERNANDES, 2002]
I I.6.1.5 Modulação em freqüência de áudio digital.
Para variarmos a freqüência de reprodução de um arquivo devemos modificar o
intervalo de tempo entre as amostras, bastando para isso usar a expressão:
Capítulo 2 - Metodologia
51
amostradossinaiscontendoArquivoWave
reprodutoroDispositivSaida
ArquivodoamostragemdeTaxa
ArquivonoAmostradaNúmero
S
nt
SaídadareproduçãodeTaxa
SaídanaAmostradaNúmero
S
nt
Onde
tWavetSaida
i
ii
o
oo
io
___
_
________
________
)()(
==
==
==
=
[14]
No entanto, em geral, os equipamentos de reprodução util izam freqüências de
amostragem padrão determinadas por bases de tempo eletrônicas, normalmente de valores
como 11, 22, 44 e 96 KHz. Sendo assim, devemos utili zar a seguinte expressão:
)()( ktWavetSaida oo ⋅= [15]
Onde k é um fator modulante de freqüência. Para k=2 dobramos a freqüência do som, ou
subimos uma oitava, para k=0,5 dividimos a freqüência por 2 ou diminuímos uma oitava.
Os valores de no e So são configuráveis mas devem permanecer fixos durante toda
reprodução. So e Si tem valores padronizados, normalmente de 11KHz, 22KHz ou 44KHz.
I I.6.1.6 Modulação em ampli tude de áudio digital.
A amplitude ou volume do áudio gerado está diretamente relacionada ao valor das
amostras quantizadas. Nos arquivos de áudio digital os valores estão representados
somados a uma constante igual a metade do valor de saturação. Em arquivos gravados em
8 bits, esse valor é igual a 128. Assim devemos antes de multiplicar o arquivo pela
constante desejada, subtrair 128 da amostra. Assim a expressão que representa a
modulação em amplitude é:
Capítulo 2 - Metodologia
52
128))128)((()( +−⋅= tWavextSaida [16]
Onde
x é o fator modulante em amplitude, que deve variar de 0 a 1.
t é o valor do tempo, considerando a equivalência t=n/s.
I I.6.1.7 Reprodução de múltiplos arquivos de áudio digital.
Arquivos de áudio digital contem informações de valores quantizados. Quando
pretendemos reproduzir mais de um arquivo ao mesmo tempo precisamos calcular a média
das quantizações. Supondo que todas as freqüências sejam iguais:
Waven(t)=Qn(t)
Onde Qn(t) é um arquivo contendo valores quantizados.
Se quisermos reproduzir m arquivos, devemos fazer:
m
tWavetSaida
m
imo
∑= 1)(
)( [17]
Onde Saída(t) é o valor resultante, que deverá ser enviado ao conversor digital analógico a
cada intervalo de tempo to=1/So.
II .6.1.8 Associando diversas modulações
Para conseguirmos modular diversos sons em amplitude e freqüência, usamos a
expressão:
Capítulo 2 - Metodologia
53
m
ktWavextSaida
m
mommo
128)128)(()( 1
+−⋅⋅= ∑
[18]
Onde:
Xm= Índice de modulação em amplitude do sinal m;
km= Índice de modulação em freqüência do sinal m;
to= numero da amosta / Taxa de amostragem;
O valor (to*Km) deve ser um valor inteiro, para corresponder a uma amostra.
Exemplo de aplicação, baseado em formas simples de som gerados por 2 tons, que neste
exemplo não são quantizados:
Capítulo 2 - Metodologia
54
Mudando o valor do k3 para 0.8 o resultado se transforma em:
Capítulo 2 - Metodologia
55
Assim podemos gerar qualquer tipo de som sintetizado, no entanto, torna-se um
método matematicamente simples mas que exige uma capacidade razoável de
processamento para realização em tempo real.
Utilizando este mesmo princípio, se utilizarmos sons amostrados podemos obter
resultados muito interessantes com um volume de cálculos menor. Basta no exemplo
anterior, substituir a função sin(t) por um vetor que contenha os valores correspondentes às
amplitudes da forma de onda característica (timbre) de um determinado instrumento
musical. Um exemplo de forma de onda característica do timbre de um violino pode ser
visto na Figura 19. O vetor Wviolino(t) possui os valores correspondentes a alguns ciclos
da componente fundamental. Na implementação, para simpli ficação nos cálculos, foi
utili zado um vetor com tamanho 100, pois um número de amostras originalmente é tomada
em função da freqüência da nota analisada e da taxa de amostragem. Em nosso caso foi
usada uma nota de 440Hz e taxa de amostragem de 44000 por segundo, o que gera 100
amostras por período de amostragem. Para obtenção de quantidades diferentes de amostras
(valores ideais seriam na base 2, como 128 ou 256), um algoritmo de interpolação pode ser
Capítulo 2 - Metodologia
56
utili zado. Outra possibil idade seria o uso de outra freqüência de amostragem ou de nota
musical, no entanto esses valores de taxa de amostragem são normalizados.
Figura 19 – Forma de onda característica (timbre) de um violino.
Com esse método é possível obter resultados mais satisfatórios, permitindo
a reprodução de sons com um grande número de harmônicos, como pode ser visto na
análise do espectro de freqüências do som do violino, na Figura 20.
Figura 20 - Espectro de freqüência do som de um violino.
Capítulo 2 - Metodologia
57
II .7 Reprodução util izando acesso direto ao hardware do IBM-PC
Os computadores IBM-PC utilizando sistema operacional Windows 98 ou
superior permitem o acesso direto ao seu hardware de saída de som util izando as APIs
chamadas DirectX, que é um acrônimo de “Acesso Direto” . Especificamente as rotinas do
grupo DirectSound foram utilizadas neste trabalho, diferente da reprodução normal de um
som pelo sistema operacional, onde é utili zado um comando que tem com argumento o
nome do arquivo de som digitalizado, independentemente de seu formato (a interpretação
do formato e modo de digitalização é feita pelas rotinas multimídia), para elaboração do
sistema reprodutor de múltiplos sons com múltiplas modulações foi necessária a criação de
um sistema de múltiplos vetores em memória, contendo cada trecho de áudio digital
necessário ao processo, todos gerados em uma mesma freqüência original, mesma taxa de
amostragem e amplitudes máximas.
O software desenvolvido recebe então os parâmetros correspondentes ao som
gerado, como será descrito em Capítulo III , e fará a composição dos sons conforme
algoritmo descrito em II .8.2.8, utili zando os vetores em memória dos diversos
instrumentos musicais ou mesmo arquivos contendo silabas ou palavras.
58
Capítulo II I
Implementação
A associação entre parâmetros de um som aos de uma imagem é possível através do
desenvolvimento de um algoritmo para produção de sons em função de dados gerados pelo
processamento de uma imagem coletada por uma câmera. Neste capítulo estudaremos cada
detalhe da implementação feita para criar a associação, utilizando os conceitos descritos no
Capítulo II e complementados pelo Apêndice A
I I I .1 Escolha de modelos para representação de cores.
Sendo que o objetivo deste trabalho é informar ao deficiente visual a identificação
da cor analisada e não quais suas componentes, foram descartados os modelos como o
RGB e o CMY. Tais modelos aplicados a parâmetros acústicos, não seriam de
interpretação natural, uma vez que nossa visão recebe a cor de forma composta.
Os modelos YIQ e HSI se mostraram mais interessantes por serem mais próximos
às sensações de cor que estamos habituados a descrever, como:
• Qual cor:
Capítulo 3 - Implementação
59
Damos nomes às cores, como: Azul, amarelo, etc. O nome técnico para essa
característica é matiz.
• Sua pureza ou saturação:
Uma cor pode ter um tom “vivo” ou “pastel” , como a diferença do vermelho
ferrari para o rosa ou do azul turquesa para azul céu. Esta qualidade esta
relacionada com a quantidade de branco em sua composição. Cores puras
possuem menor quantidade de branco;
• Intensidade ou brilho:
Pode-se ter um verde claro ou verde escuro, ambos compostos pela mesma
matiz e saturação. Uma cor mais intensa é aquela que possui maior
luminosidade. Convencionou-se assim chamar as cores com tal qualidade
mais acentuada de claras. Na aquisição de uma imagem esse parâmetro está
diretamente relacionado à iluminação do objeto.
Na implementação foi util izado o valor de Y, do modelo YIQ, por Y
descrever o brilho ponderando a característica de não linearidade frente às
diversas freqüências de cores de nossa visão, conforme pode ser visto em
[6], diferente de I, de HSI como visto em [7].
As câmeras digitais, em geral, fornecem as imagens no formato RGB, variando
apenas sua resolução e número de cores, ou bits por pixel. Sendo assim foram aplicadas as
formulas citadas no capítulo II .4 para obtermos H,S e Y, conforme detalhado à seguir.
Capítulo 3 - Implementação
60
I I I .1.1 Identificação da cor .
Conforme citado anteriormente (II .3.1), no modelo HSI a matiz é um ângulo que
representa a cor. Criando uma tabela que associa os ângulos e a forma como o olho
humano interpreta as cores, conforme visto na Tabela 2, correspondendo nomes a elas, é
possível identificar a cor do ponto em questão (foram desprezados, até esse ponto da
análise a saturação e o brilho).
Na implementação foi utilizada uma tabela experimental, mostrada na Tabela:
H = Ângulo
(Graus)
Largura
(graus)
Cor correspondente
27 a 49 22 Ciano
50 a 125 75 Azul
126 a 144 18 Roxo
145 a 226 81 Vermelho
227 a 254 27 Laranja
255 a 274 19 Amarelo
276 a 26 110 Verde
Tabela 3. Ângulos de matiz que determinam cada cor.
Percebe-se na tabela como a quantidade de graus que representa
determinada cor é variável. Isso se deve a não linearidade de percepção para cores da visão
humana. O disco de cores apresentado a na Figura 21 foi montado com quantidades iguais
de Vermelho puro, disposto a 210o, Verde puro a 240o e Azul puro a 90o. Pode-se notar
Capítulo 3 - Implementação
61
como a região verde parece ter uma área maior, alem de ser mais “clara” que azul e
vermelho.
Figura 21 – Cores representadas como ângulos.
I I I .1.2 Classificação quanto a Saturação.
A saturação, no modelo HSI, está relacionada à pureza de cor. Uma cor não pura é
uma cor que possui certa quantidade de branco em sua composição. Assim podemos
distinguir a cor vermelha da cor rosa, ainda que contenham a mesma informação de matiz e
brilho, resultando por exemplo para uma matiz verde, em um cinza esverdeado.
Cores com saturações mínimas são chamadas monocromáticas, ou variações de
cinza, que podem ir do preto ao branco. A Figura 22 mostra uma representação das cores
de forma semelhante à da Figura 21, no entanto um cili ndro combinando as cores com
Capítulo 3 - Implementação
62
máxima pureza ou saturação na parte superior e mínima na inferior foi criado e desenhado
de forma aberta.
Figura 22- combinações de matiz (H) e saturação (S).
Assim, para valores de saturação inferiores a 2,5% do valor máximo possível, é
adotada a interpretação da cor como monocromática. Utilizando o parâmetro de luminância
cada cor pode ser identificada como indicado na Tabela 3.
Luminância (valores entre 0 e 255) Cor correspondente
0 a 80 Preto
81 a 139 Cinza
140 a 255 Branco
Tabela 3 Diferenciando cores que possuem pequena Matiz.
Capítulo 3 - Implementação
63
I I I .1.3 Identificação de br ilho.
Como visto em II .2.2 (Características do CCD utili zado) a resposta em freqüência
da câmera utili zada é diferente da curva do olho humano (como visto no Apêndice A.).
Assim precisamos de um fator de correção, conhecido como fotor Gama, que é um dos
parâmetros de ajuste do CCD utili zado. Tal fator foi ajustado de forma a obtermos os
valores equivalentes aos percebidos por um olho humano. Na CCD utilizada é um dos
parâmetros programáveis via serial SCCB.
O olho humano possui determinados “pesos” para a percepção da intensidade de
cada cor. Esses pesos são representados no modelo YIQ como os coeficientes necessários
para gerar a mesma sensação de brilho de determinada cor em um tom de cinza
equivalente.[KIVER, 1965]
Assim temos que a informação de brilho de uma determinada cor pode ser extraída
de uma informação de cor em RGB por [13] [NASSAU, 1983] [KIVER, 1965]:
B
G
R
Q
I
Y
*
0,331 0,523- 212,0
0,321- 0,275- 596,0
0,114 0,587 299,0
= [19]
Ou Y=0,299*R+0,587*G+0,114*B [20]
No entanto estaríamos cometendo um erro se fosse usada diretamente tal equação,
uma vez que não estaríamos medindo a luminosidade da cor apresentada e sim a
luminosidade resultante, que depende da iluminação.
Para minimizar os efeitos de tal distorção um controle automático de sensibil idade,
semelhante a um controle automático de tempo de exposição se estivesse sendo util izada
uma máquina fotográfica, foi implementado. Cada imagem captada é analisada conforme
Capítulo 3 - Implementação
64
seu histograma monocromático equivalente (obtido pela fórmula de KIEVER,1965), um
ajuste de brilho é feito e uma nova imagem é captada, até que se obtenha um histograma
com o formato desejado, característico de uma imagem de alto contraste. A conclusão
obtida pela análise computacional do histograma é util izada para realimentar o registrador
chamado “ tempo de exposição” da CCD utili zada, acessível pela interface serial SCCB.
I I I .2 Protótipo para testes
Conforme descrito em II .2.3 (Interface entre o CCD e o hardware utili zado) foram
desenvolvidos 2 sistemas, um microcontrolador e um utilizando um IBM-PC. O
microcontrolador responsável pela captura da imagem e o IBM-PC pelo tratamento
matemático e reprodução dos sons. Feitos os estudos, a evolução da implementação seria o
uso somente do sistema microcontrolado, dispensando o IBM-PC.
A implementação no PC foi realizada utili zando Borland Delphi, que é uma
linguagem orientada a objetos derivada do Pascal, que permite acesso pleno às rotinas do
Windows necessárias para o acesso direto ao hardware (DirectX), mais especificamente ao
hardware de som (DirectSound).
Originalmente as rotinas do Windows necessárias utilizam formatos de dados
diferentes dos gerados pelo Delphi, sendo necessário o uso de um conjunto de rotinas
conversoras chamadas Headers, disponibilizadas em caráter freeware pela organização
Project JEDI (Joint Endeavor for Delphi Innovators). Tais rotinas também são
disponibili zadas para uso com o sistema operacional Linux. [FERNANDES, 2001]
Capítulo 3 - Implementação
65
I I I .2.1 Implementação do sistema de aquisição de imagem.
Conforme descrito em II.2.3, foi implementado um sistema microcontrolado, e,
para facilitar os ensaios, foi criada uma opção de carga de imagens diretamente do disco
rígido.
I I I .3 Implementação do sistema de análise de cores.
A imagem captada é armazenada em um vetor de pontos p contendo 120 linhas e
160 colunas. Como cada ponto é armazenado em 3 bytes contendo os valores digitalizados
de R,G e B. Para facili tar o entendimento do algoritmo será utilizado um vetor de 24 linhas
por 32 colunas com 3 bytes por ponto como exemplo, como visto na equação 21.
[21]
Onde: px,y=[Rx,y,Gx,y,Bx,y]
A imagem é analisada por partes, realizando uma varredura da esquerda para a
direita. Cada parte possui largura programável, nos testes práticos os tamanhos da ordem
de 5% do total da imagem mostraram ser mais eficientes.
Capítulo 3 - Implementação
66
A varredura na implementação do sistema facilita o detalhamento da imagem,
dividindo-a em trechos de tamanho programável. Para cada um é executado o processo de
análise, que foi dividido em etapas, sendo elas:
• Levantamento do histograma colorido;
• Ordenação do histograma por ordem de quantidade;
• Reprodução dos sons conforme parâmetros das cores encontradas no
histograma.
Cada etapa será detalhada a seguir.
I I I .3.1 Formato de armazenagem do histograma.
O histograma é o resultado da análise de cores e foi implementado de forma a
acumular a quantidade de pontos de determinada cor encontrados, sendo capaz de
classificar cores semelhantes como sendo únicas e acumular a informação de cor de tal
forma que ao final do processo se tem a cor média encontrada. Isto é feito desta forma.
pois nosso objetivo é transferir para o deficiente uma informação de cor presente por sons.
Situações comuns de erro como a aquisição de uma imagem de determinada cor uniforme,
tomada com pequenas diferenças de iluminação que poderiam gerar mais de uma
informação de cor em pequena quantidade enquanto o resultado correto seria uma cor
uniforme em grande quantidade são evitadas.
Capítulo 3 - Implementação
67
O Vetor Histograma possui os seguintes elementos:
Função Nome Tamanho (bits)
Quantidade Qtd 32
Somatória de Intensidades R ER 64
Somatória de Intensidades G EG 64
Somatória de Intensidades B EB 64
Somatória de Luminância Elum 64
Somatória de Matiz Emat 64
Somatória de Saturação Esat 64
Tabela 4 – Vetor Histograma, resultado da análise de cores.
O parâmetro seletividade, que é ajustável, determina a faixa de valores de matiz é
considerado como uma mesma cor. Cores com a mesma matiz dentro da faixa aceitável são
novamente analisadas quanto à saturação. Esse processo é feito em duas etapas uma vez
que com mesma matiz são por definição semelhantes, no entanto cores com mesma
saturação só serão semelhantes se suas matizes o forem. Tomemos como exemplo três
cores:
a) Vermelho de matiz=225, Saturaçao=50%, Brilho=50%;
b) Vermelho de matiz=235, Saturaçao=60%, Brilho=50%;
c) Verde de matiz=315, Saturaçao=50%, Brilho=50%;
Capítulo 3 - Implementação
68
A cor a é mais semelhante a b que c, embora a e c tenham a mesma saturação e
brilho, suas matizes são bastante diferentes, enquanto a e b às tem semelhantes. O
parâmetro de brilho foi analogamente tratado.
Tal abordagem facil itou a implementação, uma vez que um espectro real de cores
para tal CCD precisaria ter 16 milhões de entradas (caso fosse uma para cada cor).
Matematicamente a seletividade é representada por um percentual do determinado
parâmetro. Sendo assim a diferença aceitável em determinado parâmetro é igual a:
Diferença_aceitável=(100-seletividade)* valor_máximo _do_parâmetro [22]
I I I .3.2 Cr iação do histograma color ido de uma região da
imagem
Uma rotina varre a região selecionada da imagem ponto a ponto. Cada ponto é
classificado como semelhante ou não a algum já armazenado no vetor Histograma. Para
tanto é necessária a transformação de cada ponto da região em sua representação por
Matiz, Saturação e Luminosidade. São utilizadas para tal transformação [8] e [9].
Caso seja considerado semelhante a algum elemento, o valor Qtd de determinada
entrada é incrementado e os valores de seus componentes são adicionados aos já presentes
no elemento do vetor.
No próximo ciclo de busca por cores semelhantes os parâmetros necessários serão
tomados como a somatória dos valores já encontrados do determinado parâmetro dividido
pela quantidade encontrada, encontrando assim, ao final do processo, a cor média
correspondente às cores encontradas e tidas como semelhantes.
Capítulo 3 - Implementação
69
Por outro lado, se a cor do ponto não for considerada semelhante a nenhum
elemento do vetor uma nova entrada, com quantidade unitária e parâmetros iguais a da cor
do ponto é criada.
Pontos classificados com tendo a mesma cor irão influenciar a saída gerando uma
maior amplitude do sinal correspondente a tal cor. Cores diferentes geram novos sinais.
I I I .3.3 Ordenação por ordem de quantidade
Como o objetivo do processo é apresentar as cores mais presentes na imagem sendo
analisadas, o histograma de cores foi ordenado, de tal forma que a cor que aparece em
primeiro lugar é a cor mais presente, declinando sucessivamente até uma posição no vetor
que tem como quantidade de cor a indicação zero.
Ao termino dessa análise, o protótipo desenvolvido realiza uma plotagem da matriz
gerada, permitindo sua análise visual, o que só faz sentido para estudos, não pertencendo
ao objetivo da implementação final.
I I I .4 Implementação do sistema de modulação e reprodução.
Neste passo o vetor de histograma ordenado por quantidade é transferido para uma
rotina tal que seleciona inicialmente quais timbres ou sons serão utilizados durante aquele
momento, e verifica ainda se ele já está sendo reproduzido. Caso negativo inicia a
reprodução, ou simplesmente altera sua modulação, completando assim a última etapa do
algoritmo:
Capítulo 3 - Implementação
70
I I I .4.1 Reprodução dos sons digitali zados associados a cada cor
Diversas técnicas de modulação foram experimentadas, sendo a que gerou
resultados mais positivos foi a indicada na Tabela 5. Criada com base nas definições de
cada parâmetro e em teste experimentais.
Imagem Som
(Vide Cap. II .6.4 para nomenclatura)
Matiz Timbre
Quantidade da cor na amostra Amplitude
Luminância da cor Freqüência
Rugosidade ou manchas Vibrato ou tremolo
Posição da amostra Balance
Permanência da cor na imagem ou largura
do objeto
Duração
Forma como a cor surge na imagem Ataque
Forma como a cor desaparece da imagem Decaimento
Tabela 5 – Associação lógica de parâmetros de uma imagem colorida e de um som
Cada modulação é detalhada a seguir:
• Associação da crominância ao Timbre: como visto em III .2.1 a crominância
determina “qual” a cor em questão. Para simplificar os estudos foram utilizadas
7 possibili dades para cores com maior saturação, além de tons do branco ao
preto para cores sem saturação, totalizando 10 cores ou 10 timbres possíveis.
Capítulo 3 - Implementação
71
Um número maior de timbres poderia sem implementado, no entanto pode-se
dizer que para cada cor existe apenas um som, assim cada cor pode ser
identificada sem a necessidade de associações mentais mais complexas. Em
outras palavras, cada timbre necessita de uma análise mental para associa-lo à
cor, ou seja, tal tabela deve estar presente no subconsciente do deficiente visual.
Quanto menor essa tabela, mais fácil sua interpretação.
• Associação da quantidade da cor na amostra à amplitude: É imediata a
associação de quantidade amostrada e amplitude de um sinal. Assim foram
associados com um excelente resultado esses dois parâmetros. Quanto maior for
a amostra de determinada cor maior será a amplitude do som correspondente
gerado.
• Associação da rugosidade ou falta de pureza ao vibrato ou tremolo:
Naturalmente quando uma cor persiste durante diversas varreduras na imagem
suas nuances podem provocar variações no valor médio da cor amostrada, o que
provoca uma variação de freqüência ou amplitude do som ao decorrer da
transformação da imagem, variações estas conhecidas em música como vibrato
e tremolo, respectivamente.
• Associação da posição da amostra ao balanço: Como o processo é realizado na
forma de varredura vertical, os sons são inicialmente destinados ao ouvido
esquerdo, passando para o direito. Isso possibil ita a sensação de posição da cor
na imagem. Com lentes e acessórios adequados é possível um resultado com
maior realismo. Nos testes foram usadas câmeras com aberturas típicas de 48
Graus. Objetivas panorâmicas poderiam aumentar o ângulo para mais de 90
graus, aumentando tal sensação.
Capítulo 3 - Implementação
72
• Associação da permanência da cor na imagem ou largura do objeto com a
duração do som: Por se tratar de uma varredura com sobreposição o som
permanece enquanto existir sua cor correspondente, na freqüência e amplitude
correspondentes. Assim a permanência de um determinado timbre indica a
continuidade horizontal de tal objeto.
• Associação da forma como a cor surge na imagem ao ataque do som: Objetos
que não estejam presentes no inicio da imagem e surjam de forma gradativa na
região analisada da imagem, como triângulos e círculos tem uma representação
diferente de quadrados ou retângulos.
• Associação da forma como a cor desaparece da imagem ao decaimento: De
forma semelhante ao Ataque, o decaimento denota a forma como o objeto deixa
a imagem.
I I I .5 Configurações possíveis.
• Sons produzidos por cada cor.
O arquivo contendo o som digitalizado a ser reproduzido para cada cor encontrada
na imagem pode ser selecionado na tela de configuração, acessível da tela principal pelo
comando “Configurar”.
É possível ainda selecionar os valores mínimos e máximos de modulação de
freqüência para se obter melhores resultados conforme o tipo de som selecionado,
especialmente se forem sons de instrumentos musicais.
• Configurações gerais do algoritmo.
Capítulo 3 - Implementação
73
Para uma maior flexibilidade e avaliação de cada implementação no algoritmo, uma
vez que ele propõe múltiplas associações de parâmetros ao mesmo tempo, uma área de
configurações rápidas foi criada, permitindo a programação de valores como a
seletividade, ligar e desligar modos de modulação a fim de estimar o quanto eles
contribuem para a identificação do objeto.
74
Capítulo IV
Testes realizados
A forma mais eficiente para se avaliar o resultado de um sistema de visão artificial
para deficientes é a experimentação, apresentando objetos e anotando-se a taxa de acerto
em cada condição. Um treinamento prévio é imprescindível, para habituar o individuo ao
novo sistema [RITA, 1998]. Voluntários da Fundação Porto Mariz, uma entidade sem fins
lucrativos criada e dirigida por deficientes visuais, com o intuito de desenvolver a
adaptabili dade do deficiente visual, foram util izados nos testes mostrados a seguir.
IV.1 Descr ição dos testes.
Foram realizados três tipos distintos de testes, a fim de avaliar a capacidade de
identificação em três diferentes situações.
• Em um primeiro grupo de testes o deficiente devera identificar o objeto sabendo a
sua forma, simulando uma situação em que se pode tocar o objeto;
• Em um segundo momento o deficiente se deparou com um conjunto de objetos
(situação em que o toque não é possível mas o objeto já foi treinado) misturados
devendo localizar o objeto solicitado.
• Foram ainda realizados testes com objetos desconhecidos, pedindo ao deficiente
que descrevesse o objeto imaginado através dos estímulos sonoros. Estes testes são
Capítulo 4 – Testes Realizados
75
importantes para evitar erros devido à memorização de resultados anteriores. A
Tabela 6 resume os testes realizados.
Teste Objetos Possibilidade de uso avaliada
1) Identificando objeto de
forma conhecida
Treinados
Diferenciação entre objetos
de mesma aparência ao tato
2) Localizando objetos de
forma e cores conhecidas.
Treinados
Descobrir se determinado
objeto está presente na cena
amostrada.
3) Descoberta de novos
objetos.
Desconhecidos
Descoberta de características
de objetos novos.
Tabela 6. Testes realizados com os deficientes visuais voluntários.
IV.2 Método de treinamento do deficiente.
O deficiente visual voluntário para os testes recebeu um protótipo do equipamento e
uma orientação sobre seu funcionamento. Ele pôde ainda util izar o equipamento por 18
dias antes do início das avaliações, para ambientação. No entanto os objetos utilizados nos
ensaios só lhe foram apresentados durante os testes oficiais, evitando assim que os
resultados pudessem ser previamente memorizados.
Nos testes onde os objetos foram apresentados com antecedência o deficiente pode
ouvir o resultado produzido por cada objeto e lhe foi informado do que se tratava.
Capítulo 4 – Testes Realizados
76
IV.3 Dinâmica dos testes.
IV.3.1 I dentif icação de objetos de forma conhecida
Neste teste foi utili zado um grupo de objetos: 12 latas idênticas no formato mas
com cores diferentes.
Para cada bateria de testes os objetos foram treinados por 30 minutos, depois
apresentados de forma aleatória.
Os resultados estão detalhados no Apêndice C.1. e comentados no Capítulo V.1
IV.3.2 Localizando objetos de forma e cores conhecidas
Nesta avaliação foi solicitado ao deficiente visual que indicasse qual a posição do
objeto já treinado (conhecido) em um conjunto de quatro. Apenas um grupo de objetos foi
utili zado: latas.
Situações simples e complexas foram misturadas para avaliar a capacidade de
percepção em vários níveis de dificuldade. Para aumentar a precisão das medidas cada
imagem foi repetida diversas vezes, de forma aleatória.
Os resultados obtidos podem ser vistos no Apêndice C.2 e a análise no Capítulo
V.2.
IV.3.3 Descoberta de novos objetos.
Capítulo 4 – Testes Realizados
77
Nesta avaliação objetos simples foram mostrados ao deficiente visual e uma
resposta subjetiva sobre a imagem correspondente foi esperada. A qualidade da resposta
foi classificada em uma escala de 0 a 5, correspondendo a incorreto e perfeitamente
correto, respectivamente, sendo validadas respostas intermediárias com a devida
consideração. A resposta foi dividida em:
• Classificação da cor quanto a sua luminosidade e quantidade
Onde espera-se que o deficiente seja capaz de dizer qual a cor predominante do
objeto e qual a nuance (claro ou escura).
• Classificação da forma do objeto.
Onde espera-se que o deficiente seja capaz de classificar a forma do objeto,
conforme as possibili dades:
-Quadrado/retangular ou redondo;
-Longo ou curto;
-Largo ou estreito;
-Simples ou multicolorido (complexo).
Os resultados obtidos podem ser vistos no Apêndice C.3 e a análise no Capítulo
V.3.
Capítulo 4 – Testes Realizados
78
IV.4 Propostas para trabalhos futuros
Existem inúmeras aplicações para a tecnologia apresentada, ela pode ser
considerada como uma forma de melhor aproveitar a capacidade de audição humana,
especialmente em condições em que existe a necessidade de concentrar a visão em
determinada operação.
Trabalhos futuros podem estar focados em novos usos para tal tecnologia ou no
aperfeiçoamento dela.
IV.4.1 Propostas para aperfeiçoamento
• Utilização de 2 câmeras.
Utilizando 2 câmeras postas lado a lado, a uma distancia conhecida e fixa, e
comparando as imagens procurando por defasagens, podemos ter a idéia de distância dos
objetos. Assim poderíamos implementar não só a noção de quantidade da cor, mas de
distância do objeto que possui a cor.
• Modulação da fase do sinal gerado.
Com um sistema de processamento de áudio mais complexo pode-se manipular a
fase do som, permitindo aprimorar a sensação de posição, associada à sensação de
diferença de amplitude. Embora o homem seja pouco sensível a variações de fase do sinal,
tal variação poderia promover uma melhoria na capacidade de localização de objetos,
utili zando as técnicas conhecidas como souround.
Capítulo 4 – Testes Realizados
79
• Associação com técnicas de identificação de contorno.
Associando o sistema desenvolvido com rotinas padrão de reconhecimento de
contorno, pode-se criar um verdadeiro leitor de imagens, capaz de identificar figuras
geométricas e outras características da imagem analisada.
IV.4.2.Propostas para usos.
• Melhorias no sistema de sinalização sonora para salas de cirurgia.
Para cirurgiões a monitoração de variáveis como batimento cardíaco e grau de
oxigenação do sangue já são monitorados por sinais sonoros (tons) com grande sucesso e
receptividade. Com o uso mais amplo da capacidade auditiva, outras variáveis importantes
como pressão arterial, temperatura do corpo, etc, poderiam ser monitoradas por sons.
• Auxili o em pousos e decolagens.
Pilotos de avião, área muito carente de novidades de segurança, poderiam ter
variáveis como:
- Ângulo de descida (Glide) ou diferença do ângulo de descida ao ângulo ideal
(erro de Glide);
- Altura em relação à pista (Altitude da aeronave – Altitude do Aeroporto);
- Taxa de aceleração,
entre outros, sinalizados por sons. Todos os exemplos citados são de variáveis que
precisam ser estimadas ou calculadas indiretamente utili zando um ou mais instrumentos e
Capítulo 4 – Testes Realizados
80
são imprescindíveis para a segurança e que não são adicionados ao painel por limites da
capacidade visual do piloto, que precisa estar atento ao tráfego, rádio, pilotar e acompanhar
os instrumentos.
• Sistema de criação musical
Utilizando sons de instrumentos musicais para cada cor, pode-se criar um
instrumento musical l iteralmente tocado por cores. Mosaicos de cores poderiam ser as
partituras, lidas pela câmera. A excitação do sistema com imagens em movimento poderia
associar o uso à dança.
81
Capítulo V
Conclusões
De acordo com os resultados obtidos através das técnicas de processamento de
imagem e modulação de sons musicais, foi possível chegar ao objetivo principal, que era a
identificação e ou localização de objetos por sua cor pelo deficiente, conforme pode ser
visto no Apêndice C. Com taxa de acerto média da ordem de 87,2%, considerando que o
treinamento do deficiente visual foi breve, entende-se que os resultados obtidos foram
bastante mais satisfatórios que os estudos envolvendo contornos.
Pode-se concluir ainda que:
• O uso conjunto do modelo Y de YUV, H e S de HSI foram fundamentais para
um equacionamento simples da forma como as cores são vistas pelo olho
humano a fim de conseguir uma equivalência linear de parâmetros sonoros e
das cores analisadas;
• Em função do modelo matemático da crominância ser angular, o número de
cores que compõe a imagem não é tão fundamental quanto parecia inicialmente.
Uma imagem com 24bits por pixel, transformada em 16bits por pixel
apresentou diferenças pouco significantes de resultados. Já o uso de 8 bits
demonstrou uma queda significativa na qualidade dos resultados. Nos testes
práticos relatados no Apêndice C somente o modo 24bits foi utili zado.
Capítulo V - Conclusões
82
V.1 Análise dos resultados práticos
Os dados coletados e apresentados no Apêndice C foram analisados e estão
comentados a seguir:
V.1.1 Identificação de objetos de forma conhecida
Conforme detalhado no Capítulo IV.3.1 foram realizados os testes propostos,
obtendo-se os resultados constantes no Apêndice C.1 e comentados aqui.
Dos desafios diários pode-se dizer que é o mais comum, considerando que os
seres humanos, em geral, passam a maior parte do tempo rodeados de objetos conhecidos, seja
em casa ou no trabalho.
Para tal caso foi conseguido um índice de acerto de 89,92%, o que foi
considerado satisfatório, observando que os erros foram sempre observados em casos em
que dois ou mais objetos que de fato se pareciam eram envolvidos no processo. Entende-se
ainda que o sistema, e até mesmo o conceito de cor pode ser uma novidade para o
deficiente visual, sendo assim um treinamento mais longo pode trazer resultados ainda
melhores.
V.1.2 Localizando objetos de forma e cores conhecidas.
Conforme detalhado no Capítulo IV.3.2 foram realizados os testes propostos,
obtendo-se os resultados constantes do Apêndice C.2 e comentados aqui.
Situação também comum, onde o objeto procurado está misturado a outros. Sendo
assim o objeto desejado ocupa uma fração da imagem, logo, considerando a mesma
Capítulo 5 - Conclusões
83
configuração do sistema, uma quantidade menor de informação sobre o objeto é passada ao
deficiente.
Os resultados obtidos apresentaram um índice de acerto da ordem de 87,25%, que
foi considerado satisfatório. Em casos reais o deficiente visual poderia manipular a câmera
e o objeto, confirmando a informação colocando o objeto por inteiro no “campo visual” .
Ele criaria assim uma segunda etapa no teste, nos moldes do item comentado em IV.3.1.
V.1.3 Descoberta de novos objetos.
Conforme detalhado no Capítulo IV.3.3 foram realizados os testes propostos,
obtendo-se os resultados constantes do Apêndice C.3 e comentados aqui.
Uma associação de sons e objetos é muito mais simples que a imaginação de cores,
especialmente se o deficiente visual nasceu com a deficiência. No entanto pela capacidade
aguçada de audição e memorização os resultados dos testes foram surpreendentes,
atingindo 84,43% de acerto. Deve-se ponderar que os resultados foram subjetivos. A
interpretação da descrição de uma cor e forma pode variar com o grau e tipo de deficiência
do voluntário. Certamente os que nasceram com a deficiência pouco podem imaginar sobre
cores, ainda que possam utilizar o sistema para diferenciar objetos associando a eles
somente a idéia de sons.
84
Apêndice A
Teor ia sobre imagens e cores
A.1 Imagens
O termo imagem pode ser definido como a representação ou imitação de um objeto
ou algo [CASTLEMAN, 1996]. Esta contém informações descritivas sobre o objeto que a
mesma representa.
Uma imagem pode ser classificada de acordo com o método usado para a aquisição
da mesma em: i) física (fotografias, desenhos e pinturas), ii ) óptica (imagem formada por
lentes, grades e hologramas) e iii ) abstrata (imagem digital).
A imagem digital é um arranjo retangular de números que podem representar uma
imagem física. A Figura 23 ilustra este arranjo. Os elementos da imagem digital (pixels)
são as unidades discretas, e as escalas de cinza (integradores) fornecem os valores
numéricos. O número inserido na imagem digital em cada pixel reflete o brilho da imagem
no ponto correspondente. Deste modo, uma imagem digital é um arranjo retangular
bidimensional de valores de amostras quantizados. [CASTLEMAN, 1996] Para imagens
coloridas 3 imagens são superpostas, cada uma contendo uma das cores primárias R,G e B.
Apêndice A – Teoria sobre Imagens e Cores
85
Figura 23. Imagem física e a imagem digital correspondente [CASTLEMAN, 1996]
A imagem física deve ser convertida em digital para poder ser processada por um
computador. A conversão do sinal analógico em digital (digitalização), assim como o
processo inverso, ou seja, digital em analógico (apresentação), está esquematizada na
Figura 24.
Figura 24. Conversão analógica/digital e digital/analógica
As vantagens em se digitalizar dados são várias, dentre as quais pode-se destacar a
universalidade de representação, o processamento, maior qualidade, segurança,
armazenamento e transmissão. Uma forma comum de digitalização é ilustrada na Figura
25.
Apêndice A – Teoria sobre Imagens e Cores
86
Figura 25. Digitalização de uma imagem
A.1.1 Sistemas de vídeos analógicos e digitais
Um sistema para captura e apresentação de vídeo na forma analógica está
apresentado na Figura 26. O sinal captado pela câmera é transmitido diretamente, ou então
armazenado para transmissão posterior.
Figura 26. Sistema de vídeo analógico
Na Figura 27 está apresentado um sistema para vídeos digitais. Neste sistema o
sinal analógico é capturado e transmitido no formato analógico. Numa etapa intermediária
Apêndice A – Teoria sobre Imagens e Cores
87
é feita a conversão para o formato digital para facili tar o processo de transmissão. A
diferença entre estes sistemas é que, no primeiro caso, é difícil separar-se as imagens. Para
ser apresentada durante cinco minutos, por exemplo, a imagem de formato analógico deve
ser capturada, transmitida e apresentada repetidamente por cinco minutos. Para a imagem
digital, processos computacionais são possíveis, permitindo o envio somente das diferenças
entre o frame atual e o anterior, além da omissão de algumas informações de cor,
reduzindo o tempo de transmissão. Processo esse conhecido como compactação.
Outra diferença entre os sistemas analógico e digital é que todos os componentes do
sistema analógico (câmera, transmissor, receptor e monitor) devem operar de maneira
sincronizada, enquanto que no caso dos sistemas digitais, os componentes podem ser
operados independentemente: a câmera registra a imagem ou cena, podendo esta ser
transmitida de maneira seletiva. Por exemplo, a imagem não vai falhar caso falte quadros
(imagens individuais ou frames), uma vez que a tela é atualizada constantemente com o
conteúdo armazenado disponível.
Figura 27. Sistema de vídeo digital
Apêndice A – Teoria sobre Imagens e Cores
88
A.1.2 Terminologia referente ao processo de digitalização
As etapas para a digitalização de uma imagem compreendem varredura,
amostragem e quantização. Varredura é a seleção de um local específico dentro do domínio
de uma imagem, enquanto que amostragem é a medida do nível de cor (podendo ser nível
de vermelho, verde ou azul para câmeras coloridas ou nível de cinza para monocromáticas)
de uma imagem em cada pixel. A amostragem geralmente é feita por um dispositivo
sensível que produz uma voltagem proporcional à intensidade de luz para cada pixel em
uma imagem. Quantização é a representação de um valor medido por um integrador. Uma
vez que computadores digitais processam números, é necessário reduzir os valores de
medida contínuos a unidades discretas, e representa-los por arredondamentos a valores
mais próximos, conforme o numero de bits utili zado. [HARALICK, 1973]
A.1.3 Os elementos de um sistema para digitali zação de imagens
Um digitalizador de imagens primeiramente deverá ser capaz de dividir uma
imagem em elementos de imagem (pixels). Em seguida, o digitalizador deverá endereçar
cada pixel individualmente para: i) medir os níveis da imagem em cada pixel; ii ) quantizar
as medidas contínuas, e iii ) escrever o conjunto de dados obtido em um dispositivo de
armazenamento de dados. Para realizar estas tarefas, um digitalizador deverá possuir cinco
elementos:
Apêndice A – Teoria sobre Imagens e Cores
89
1. Abertura de amostragem – algo que permita o digitalizador acessar os
pixels individualmente;
2. Mecanismo para var redura da imagem – este processo consiste em
mover a abertura de amostragem através da amostra em um padrão pré-
determinado, permitindo que a abertura de amostragem ordene os pixels, um de
cada vez;
3. Sensor de luz – mede o brilho da imagem em cada pixel através da
abertura de amostragem. Normalmente o sensor é um transdutor que converte a
intensidade da luz em voltagem elétrica ou corrente;
4. Quantizador – o quantizador converte a amplitude contínua do sinal de
saída contínuo de um sensor em um valor de amplitude discreta. Tipicamente o
quantizador é um circuito eletrônico chamado conversor analógico digital. Esta
unidade produz um número que é proporcional à voltagem do sinal de entrada ou
corrente;
5. Meio de armazenamento de saída – o meio de saída pode ser um disco
magnético ou algum outro dispositivo para o armazenamento dos valores dos níveis
produzidos pelo quantizador.
A.1.4 Caracter ísticas de um digitalizador de imagens
Os digitalizadores podem ser comparados com base nas suas características
relevantes:
Apêndice A – Teoria sobre Imagens e Cores
90
- Tamanho do pixel. Duas características importantes para uma imagem são o
tamanho da abertura de amostragem e o espaço entre pixels adjacentes. Se o
digitalizador é montado sobre um sistema óptico com ampliação variável, o
tamanho da imagem e o espaçamento nos sinais de entrada da imagem plana
são variáveis.
- Tamanho da imagem. A capacidade do instrumento em variar o tamanho da
imagem de entrada é outro parâmetro importante. Na saída, o tamanho da
imagem é especificado pelo número máximo de linhas e do número de pixels
por linha.
- Linearidade. O grau de linearidade da digitalização também é um fator
significativo. Se o instrumento digitaliza intensidade de luz, deveria ser
conhecido, de fato, em que grau de exatidão os níveis são proporcionais ao
brilho atual da imagem. O número de níveis para os quais o instrumento pode
quantizar a imagem também é uma característica de interesse.
- Ruído. Uma das características mais importantes de um digitalizador é o seu
nível de ruído. No processo de digitalização o ruído inerente no sistema causará
variações no nível da imagem, mesmo que o brilho seja constante. O ruído
introduzido pelo digitalizador é uma fonte de degradação da imagem.
Todas as características acima fornecem uma base para a comparação de diferentes
instrumentos, ou servem de ajuda para decidir-se se um digitalizador particular é adequado
para um trabalho específico.
Apêndice A – Teoria sobre Imagens e Cores
91
A.1.5 Processamento de imagens digitais
Processamento de imagens é a manipulação de imagens por computador. Processar
uma imagem significa realizar-se uma série de ações nesta para obter-se um resultado
desejado[CASTLEMAN, 1996].
Conforme citado anteriormente, para poder ser processada por um computador, a
imagem física deve ser convertida em digital (numérica), e isto é feito através do processo
de digitalização.
A.1.6 Processamento de imagens acromáticas
Uma das ferramentas mais simples e úteis em processamento de imagens
acromáticas é o histograma de níveis de cinza. Certos tipos de imagens são completamente
analisados por seus histogramas.
O histograma de níveis de cinza é uma função que mostra o número de pixels na
imagem para cada nível de cinza. A abcissa é o nível de cinza, e a ordenada é a freqüência
(número de pixels). Na Figura 28 está apresentado um exemplo de histograma de níveis de
cinza.
Apêndice A – Teoria sobre Imagens e Cores
92
Figura 28. Uma imagem e o respectivo histograma de níveis de cinza
Existe outra maneira de definir-se um histograma de níveis de cinza. Supondo-se
uma imagem contínua definida pela função D(x,y) que varia gradualmente de níveis de
cinza fortes no centro a níveis de cinza fracos nas extremidades. Neste caso, algum nível
de cinza D1 pode ser selecionado e definido como um conjunto de linhas de contorno
conectando todos os pontos na imagem com valor D1. As linhas de contorno resultantes
formam curvas fechadas ao redor de regiões em que o nível de cinza é maior ou igual a D1.
Na Figura 29 está apresentada uma imagem contendo uma linha de contorno em nível de
cinza D1. Uma segunda linha de contorno D2 foi desenhada para o nível de cinza forte. A1 é
a área da região dentro da primeira linha de contorno. Da mesma forma, A2 é a área dentro
da segunda linha. A função área A(D) de uma imagem contínua é a área A(D) em que estão
inclusas todas as linhas de contorno de níveis de cinza D. Logo o histograma de uma
imagem contínua pode ser definido como a derivada negativa da função área A(D). O sinal
negativo provém do fato que A(D) diminui com o aumento de D. A função área de uma
Apêndice A – Teoria sobre Imagens e Cores
93
imagem digital é simplesmente o número de pixels cujo nível de cinza é maior ou igual a D
para qualquer nível de cinza D. [CASTLEMAN, 1996]
Figura 29. Linhas de contorno em uma imagem
A.1.7 Usos do histograma acromático
- Controle de brilho
O histograma fornece uma indicação visual simples de onde uma imagem apresenta
ou não escalas dentro de uma faixa de níveis de cinza. Normalmente uma imagem digital
deveria utili zar todos ou quase todos os níveis de cinza disponíveis, como na Figura 28
mostrada anteriormente. Falhas na utilização dos níveis de cinza aumentam o intervalo
efetivo de quantização. Outro problema que pode ser destacado refere-se ao brilho. Se a
imagem tem uma faixa de brilho maior que aquela em que o digitalizador é capaz de
operar, os níveis de cinza serão fixados em 0 e 255, produzindo defeitos na parte final ou
inicial do histograma. Logo a checagem rápida de um histograma pode trazer informações
Apêndice A – Teoria sobre Imagens e Cores
94
antecipadas a respeito de problemas no processo de digitalização e qualidade da imagem
digitalizada, especialmente quanto ao seu brilho. Saturações indicam que o brilho deve ser
diminuído, baixos níveis indicam que o brilho deve ser aumentado. Em sistemas auto-
ajustáveis (com controle automático de brilho) é utilizado como parâmetro fundamental.
[CASTLEMAN, 1996].
- Seleção de contornos
Conforme visto anteriormente, através de linhas de contorno é possível estabelecer-
se, de maneira efetiva, os limites de um objeto simples localizado em uma imagem.
Supondo-se que uma imagem contenha um objeto escuro sobre um plano de fundo
brilhante. Na Figura 30 está ilustrada a aparência do histograma da imagem referida. Os
pixels escuros dentro do objeto produzem picos no lado direito do histograma. O pico do
lado esquerdo indica um número grande de níveis de cinza no plano de fundo. Os poucos
pixels cinza no nível intermediário ao redor do limite do objeto produz o vale entre os dois
picos. O limiar de nível de cinza escolhido na área do vale produzirá um contorno razoável
para o objeto [PREWITT, 1968]; ou seja, o nível de cinza correspondente ao mínimo entre
os dois picos é uma boa escolha para definir o contorno. [CASTELEMAN, 1996]
Apêndice A – Teoria sobre Imagens e Cores
95
Figura 30. Um histograma bimodal
A.1.8 Processamento de imagens color idas tr icromáticas
Devido à natureza do sistema visual humano, o esforço no desenvolvimento de
produtos tais como câmeras de televisão, digitalizadores, monitores e impressoras, tem
sido voltado para os sistemas tricromáticos. No entanto, uma vez que a imagem possui um
bom balanço entre cores, sendo convertida em valores equivalentes de tom de cinza, a
análise de seu histograma monocromático é muito útil e seu resultado pode ser aplicado
diretamente à imagem colorida. Assim uma transformação útil para processamento digital
é a separação das informações de cor de uma imagem de sua representação equivalente
monocromática, de forma semelhante ao que ocorre na televisão colorida. Isso é feito
utili zando os diversos modelos de cor. Serão mostrados a seguir diversos modelos de cor e
seus usos.
Apêndice A – Teoria sobre Imagens e Cores
96
A.2 Cores
A cor é um tema extremamente subjetivo e pessoal, podendo ser definida de
diferentes maneiras sob diferentes contextos [FREEMAN, 1990].
Embora o processo seguido pelo cérebro humano na percepção de cores seja um
fenômeno fisiopsicológico que ainda não é completamente compreendido, a natureza física
das cores pode ser expressa numa base formal suportada por resultados experimentais e
teóricos. [GONZALEZ, 1992]
Em 1666, Sir Izaac Newton descobriu que quando um feixe de luz é passado por
um prisma de vidro, o feixe de luz emergente não é branco, mas, ao contrário consiste de
um espectro contínuo de cores variando do violeta ao vermelho. [GONZALEZ, 1992]
A.2.1 A cor do ponto de vista físico.
A cor pode ser definida como a interação da luz (radiação eletromagnética) como a
matéria [BILLMEYE, 1981].
A radiação eletromagnética inclui as radiações gama, X, ultravioleta, visível,
infravermelha e ondas de rádio, que na ordem de comprimentos de onda mais longos
(ondas de rádio, de 1 mm a vários quilômetros) para mais curtos (raios gama, menores que
0,1 nm), formam o chamado espectro eletromagnético mostrado na Figura 31. A faixa
visível ao olho humano, conhecida como espectro visível ou luz visível, compreende a
região entre 780 e 380 nm [GONZALEZ, 1992]. Esta contém numerosas cores que podem
ser distintas pelo comprimento de onda e amplitude. O comprimento de onda determina a
matiz (cor), enquanto que a amplitude determina o brilho. O espectro visível é então
arranjado na ordem de menor para maior comprimento de onda, e dividido em segmentos
identificados como violeta (380 – 450 nm), azul (450 – 590 nm), verde (490 – 560 nm),
Apêndice A – Teoria sobre Imagens e Cores
97
amarelo (560 – 590 nm), laranja (590 – 630 nm) e vermelho (630 – 780 nm). A
combinação destes comprimentos de onda produz a luz branca, que é a luz fornecida pelo
sol e pela maioria das fontes de luz artificiais [FREEMAN, 1990].
Figura 31. O espectro eletromagnético
Quando a luz é incidida sobre um objeto, um ou mais fenômenos podem ocorrer.
Um destes fenômenos é a transmissão total ou parcial de luz.
A transmissão ocorre quando a luz passa através de um objeto praticamente sem
sofrer alteração. Neste caso o objeto é dito transparente. Se apenas parte da luz é
transmitida, o objeto é chamado translúcido. O objeto que não transmite luz é conhecido
como opaco.
Devido à diferença entre o índice de refração do material e do meio em que este se
encontra (por exemplo, ar, água, ou outro sólido), a luz transmitida pelos materiais
transparentes ou translúcidos pode sofrer alterações. O ponto de encontro entre duas
substâncias de diferentes índices de refração é chamado superfície de contorno. Neste
ponto o feixe de luz transmitido (feixe incidente) muda de direção de acordo com o índice
de refração e também com o ângulo em que o mesmo atinge o objeto transparente. O
fenômeno de mudança de direção de um feixe transmitido é chamado refração. A luz
incidida sobre a superfície (ou seja, em incidência normal) de um objeto plano transparente
Apêndice A – Teoria sobre Imagens e Cores
98
ou translúcido, passará por este sem sofrer qualquer refração. Entretanto, em qualquer
outro ângulo, parte da luz será refratada e parte será refletida em um ângulo diferente do
ângulo de incidência. A refração é uma quantidade dependente do comprimento de onda, o
que explica a separação dos comprimentos de onda da luz por um prisma, formando um
espectro. A luz de comprimento de onda de ~ 630 nm (região do vermelho do espectro
visível) não é tão refratada quanto a luz de comprimento de onda de ~ 380 nm (região
violeta) [BORN, 1980].
Além de ser transmitida e/ou refletida, a luz também pode ser total ou parcialmente
absorvida pelo objeto. No objeto translúcido, a parte não transmitida pelo material é a parte
que foi absorvida por este. A absorção é um fenômeno que depende da pigmentação do
objeto. Os pigmentos são corantes que absorvem algum ou todos os comprimentos de onda
da luz. Os comprimentos de onda não absorvidos são vistos por um observador como cor.
Se toda a luz é absorvida, o material é preto, e, conforme visto acima, é também opaco por
não transmitir luz.
Finalmente a luz pode ser ainda espalhada ao interagir com a matéria. Ao incidir-se
luz em um objeto opaco, dependendo da superfície do mesmo (ou seja, se esta é rugosa,
lisa, lustrosa, espelhada, etc.), a luz incidente pode ser completamente refletida,
completamente espalhada, ou ainda ser ao mesmo tempo, parcialmente refletida e
parcialmente espalhada pelo objeto. Assim como a reflexão, o espalhamento de luz
também é um fenômeno relacionado ao índice de refração. A quantidade de luz espalhada
depende da diferença de índice de refração. Por exemplo, uma superfície lisa ou lustrosa é
formada por partículas que apresentam índices de refração bem próximos, logo quase não
há espalhamento. Estas superfícies refletem luz com intensidade e ângulo iguais ao feixe
de incidência. Para um objeto opaco, pode ocorrer reflexão parcial e/ou espalhamento. Um
Apêndice A – Teoria sobre Imagens e Cores
99
material opaco nem totalmente lustroso e nem totalmente rugoso irá simultaneamente
refletir e espalhar luz. A quantidade de luz espalhada também depende do tamanho das
partículas. Partículas relativamente muito pequenas ou muito grandes espalham pouco a
luz. O espalhamento é máximo no limite onde o tamanho da partícula é semelhante ao
tamanho do comprimento de onda da luz [FREEMAN, 1990].
A cor de um objeto depende da absorção e da quantidade e tipo de espalhamento de
luz presente: se não há absorção, e uma mesma quantidade de luz é espalhada em cada
comprimento de onda, o material é branco; caso contrário, o material é colorido.
Um dos exemplos mais comuns e importantes de espalhamento de luz é a cor do
céu. O comprimento de onda localizado na região azul do espectro eletromagnético visível
é espalhado por partículas relativamente pequenas presentes no ar, e durante a maior parte
do dia o céu apresenta coloração azul. No final do dia os comprimentos de onda curtos
(região do azul) são perdidos, e os comprimentos de onda relativamente mais longos
(vermelho, laranja) passam a ser espalhados, e o céu passa a apresentar a coloração típica
do entardecer. Outro exemplo importante é o espalhamento de partículas relativamente
maiores na atmosfera, que explica a coloração branca das nuvens, fumaça e da maioria dos
pigmentos brancos [BILLMEYER, 1981].
A.2.2 A Cor do ponto de vista humano.
No contexto humano, a sensação de cor depende da atividade fisiológica no sistema
visual. Conforme será visto mais adiante, o olho humano possui receptores que permitem
que a cor seja percebida pelos olhos. Os receptores são sensíveis aos comprimentos de
Apêndice A – Teoria sobre Imagens e Cores
100
onda localizados nas respectivas regiões do verde, vermelho e azul do espectro visível, um
fato conhecido como tricromacia.
As cores vistas através do olho humano são combinações das cores vermelho, verde
e azul. Em 1931, para fins de padronização, a Comissão Internacional sobre Iluminação
(CIE – Comission Internationale de l’Eclairage, Publicação 15.2, 1986) atribui o termo
“cores primárias” para as cores vermelho, verde e azul, e definiu valores de comprimentos
de onda específicos para estas: azul = 435,8 nm; verde = 546,1 nm e vermelho = 700 nm .
A.2.2.1 Características da visão humana
O ser humano possui cinco sentidos principais: visão, audição, olfato, tato e
paladar. Todos são importantes, mas a visão é o sentido que domina nossa vida. Quatro
quintos de todas as informações recebidas pelo cérebro chegam-nos através dos olhos
[PRATT, 1991]. A importância da visão é tão grande que supera a de todos os outros
sentidos. Muitas vezes fechamos os olhos para nos concentrarmos na audição – como, por
exemplo, para melhor apreciarmos um trecho musical [COLLINS,1985].
Os seres humanos têm boa visão se comparados com outros animais. Alguns
animais só conseguem ver áreas indefinidas de claro a escuro. Nós conseguimos ver
claramente à luz do dia e razoavelmente bem no escuro. Somos capazes de julgar a
distância de um objeto, além de podermos ver em cores.
Apêndice A – Teoria sobre Imagens e Cores
101
A.2.2.2 O olho humano.
A Figura 32 contém um esboço dos componentes anatômicos do olho humano. As
principais estruturas são: íris, lente, córnea, retina, humor vítreo e nervo óptico.
O humor vítreo é um gel, o qual está contido na câmara posterior do globo ocular.
Figura 32. O olho humano
O olho humano pode ser comparado a uma câmara, a qual coleta, focaliza e
transmite luz através de lentes para criar uma imagem do ambiente. Em uma câmara, a
imagem é criada sobre um filme; no olho, a imagem é criada sobre a retina, que é uma
camada fina de células fotosensíveis, ou fotoreceptores (cones e bastonetes), apresentados
na Figura 33.
Apêndice A – Teoria sobre Imagens e Cores
102
Figura 33. Representação esquemática de um cone e de um bastonete
A lente do olho refrata a luz que penetra no mesmo. A córnea, uma película clara e
transparente que cobre a porção frontal do olho, também contribui para focar a luz sobre a
retina. A íris, um elemento cuja função é semelhante ao diafragma da câmara, ajusta o
tamanho da abertura (pupila), determinando desta forma a quantidade de luz que penetra
no olho; ou seja, como uma câmara, o olho humano controla a quantidade de luz que
penetra nos olhos sobre várias condições de luminosidade. Um conjunto de fibras nervosas
estendendo-se desde as células nervosas da retina forma o nervo óptico, que conecta o olho
ao cérebro. É no cérebro que pos-processamos e compreendemos as imagens que vemos do
mundo. Atualmente, a ciência tem grande conhecimento de como funciona o olho, mas
ainda não sabemos de todos os detalhes sobre o modo como vemos [PRATT, 1991],
principalmente sobre como aprendemos a reconhecer padrões, formas e movimentos.
Nossos olhos vêem uma área chamada de campo visual, que se estende de um
ombro a outro e desde a testa até a cintura. Mexendo a cabeça, podemos ver o que está
Apêndice A – Teoria sobre Imagens e Cores
103
acima, abaixo e atrás de nós. Mas, conforme visto acima, no processo da visão, os olhos
são apenas uma parte. A outra parte envolve o cérebro. A visão mais “precisa” (maior
acuidade visual) é proveniente da incidência da luz na região da retina denominada
“ fóvea”, uma pequena depressão na retina, opostas às lentes. A definição de acuidade
visual é apresentada mais adiante.
O processo visual começa no segmento externo dos cones e bastonetes (Figura 33),
onde a luz e os pigmentos interagem nos fotorreceptores. Posteriormente a luz é absorvida
pelos segmentos internos – a elipsóide e o mióide, e chega ao interior do núcleo. Deste, os
estímulos caminham através do corpo sináptico, o qual é conectado ao nervo óptico, que
por sua vez conecta o olho ao cérebro. Os estímulos são interpretados como luz, cor e
formas.
As funções exatas que diferem os cones dos bastonetes são ainda incertas. Sabe-se
apenas que os bastonetes contêm pigmentos sensíveis à luz e insensíveis às cores,
chamados rodopsina. Já os cones contêm os pigmentos erítrolabe, clorolabe e rodopsina,
sensíveis aos comprimentos de onda nas regiões espectrais do vermelho, verde e azul do
espectro visível. Os cones são insensíveis à luz abaixo de um certo nível de luminância. Os
pigmentos sensíveis aos comprimentos de onda nas regiões do vermelho (580 nm), verde
(545 nm) e azul (440 nm) são também chamados, respectivamente, de γ, α e β. A Figura 34
contém as curvas de absorção destes pigmentos, das quais as principais observações
referem-se à considerável sobreposição das mesmas, assim como a intensidade
relativamente baixa da curva de absorção dos cones α, responsáveis pela percepção da luz
azul.
Apêndice A – Teoria sobre Imagens e Cores
104
Figura 34. Curvas de resposta espectral para cada tipo de cone do olho humano. Os
máximos estão em 440 nm (azul), 545 nm (verde) e 580 nm (vermelho).
A.2.2.3 Acuidade visual
O olho humano apresenta uma capacidade finita de percepção de detalhes de uma
imagem denominada acuidade visual. A acuidade visual é normalmente representada por
um ângulo, para evitar a necessidade de especificação da distância de um objeto ao olho. A
Figura 35 ilustra a definição de acuidade visual. O significado prático de tal parâmetro é a
análise da máxima definição necessária para que uma imagem seja considerada de boa
qualidade. Foi utilizada, por exemplo, para justificar o uso da resolução relativamente
baixa e número elevado de cores em sistemas de televisão.
Apêndice A – Teoria sobre Imagens e Cores
105
Figura 35. Acuidade visual
A acuidade visual estatística para o olho normal médio varia entre 0,4 e 5 minutos,
sendo máxima para a luz branca e decrescendo para a luz verde, vermelha e azul. Nos
sistemas de reprodução de imagens o ângulo de 1 minuto é tomado como referência para a
acuidade visual. Portanto qualquer objeto que projetar na retina uma imagem como ângulo
menor que 1 minuto será invisível [NINCE, 1991].
A acuidade é medida através de testes ou tabelas especiais. Uma tabela comumente
usada para a medida de acuidade visual é a tabela de Snellen, a qual contém letras do
alfabeto arranjadas por linhas. A cada linha é dado um valor de acuidade que representa a
habili dade de um indivíduo localizado a 20 pés (~ 6 metros) de distância da tabela em ler
as letras da linha. Este valor está relacionado à habil idade de leitura das mesmas letras por
um indivíduo com visão “normal”, localizado a diferentes distâncias da tabela.
[JOHNSON, 1998].
Apêndice A – Teoria sobre Imagens e Cores
106
A.2.3 Mistura de cores.
As cores primárias podem ser adicionadas para produzir as cores secundárias da luz
– magenta (vermelho + azul), ciano (verde + azul), amarelo (vermelho + verde). A mistura
das três cores primárias, ou uma secundária e sua cor primária oposta, em intensidades
corretas, produz a luz branca. Estes resultados estão apresentados Figura 36.
É importante distinguir entre as cores primárias (aditivas) da luz e as cores
primárias (subtrativas) de pigmentos ou corantes. No último caso, a cor primária é aquela
que subtrai ou absorve uma cor primária de luz, e reflete ou transmite as outras duas. Logo,
as cores primárias dos pigmentos são magenta, ciano e amarelo, e as secundárias são
vermelho, verde e azul. Uma combinação apropriada dos três pigmentos primários, ou um
secundário com seu primário oposto produz preto. A razão para a diferença está no modo
como se origina a cor de um pigmento. Um pigmento é visto por um observador como
verde porque este absorve a luz violeta, que é a cor complementar do verde. Mas se um
pigmento verde, o qual absorve toda a luz, exceto a cor verde, é misturado ao pigmento
violeta, que absorve toda a luz exceto a cor violeta, então quase toda a luz será absorvida,
resultando na cor cinza escuro, quase preta. O resultado da mistura de pigmentos está
apresentado na Figura 37.
Figura 36. Cores primárias e secundárias da luz
Apêndice A – Teoria sobre Imagens e Cores
107
Figura 37. Cores primárias e secundárias dos pigmentos
As cores normalmente são distintas umas das outras pelos atributos intensidade
(brilho), matiz e saturação. A intensidade é o atributo diretamente relacionado à quantidade
de luz: quanto maior a quantidade de luz, maior a intensidade da cor. Matiz é o atributo
associado ao comprimento de onda dominante em uma mistura de comprimentos de onda,
logo representa a cor percebida por um observador. Quando chamamos um objeto de
vermelho, laranja ou amarelo, estamos especificando a matiz. As cores branco, cinza e
preto não apresentam matiz, e são chamadas acromáticas. As demais, com matiz, são
referidas como cores cromáticas. O atributo saturação está relacionado à pureza de cor.
Uma cor pura é completamente saturada, ou seja, sem mistura de luz branca. Por exemplo,
as cores rosa e vermelho diferem em saturação, sendo a cor vermelha a mais saturada. A
matiz e a saturação determinam a cromaticidade de uma determinada cor.
108
Apêndice B – Características do CCD utili zado.
B.1 Caracter ísticas
• 326,688 pixels, 1/3” lens, VGA/QVGA format
• Progressive scan/Interlaced scan
• 8-bit/16-bit Data output formats - YCrCb 4:2:2 ITU-656, IR-
• 601 GRB 4:2:2 & RGB Raw Data
• Wide dynamic range, anti-blooming, zero smearing
• Electronic exposure/gain/white balance control
• Image controls: brightness, contrast, gamma,saturation,sharpness, windowing, hue.
• Internal & external synchronization
• Line exposure option
• 5 Volt operation, low power dissipation
• < 120 mA active power at 30FPS
• < 10 µA in power-down mode
• Built i n Gamma correction (0.45/0.55/1.00)
• SCCB programmable:
• Color saturation, brightness, hue, white balance,exposure time, gain, etc.
• Array Element VGA=640x480 QVGA=320x240
• Pixel Size 7.6µm x 7.6µm
• Image Area 4.86mm x 3.64mm
• Max Frames/Sec Up to 60 FPS for QVGA
• Electronics Exposure Up to 648:1 (for selected FPS)
• Scan Mode Progressive or Interlace
• Gamma Correction 128 Curve Settings
• Min. Illumination 3000K < 2.5 lux @ f1.4
• S/N Ratio > 48 dB (AGC off, Gamma=1)
• FPN < 0.03% VPP
• Dark Current < 1.9nA/cm2
• Dynamic Range > 72 dB
Apêndice B– Características do CCD uil izado
109
• Power Supply 5VDC± 5%
• Power Requirements < 120mA Active < 10µA Standby
• Package 48 pin LCC
B.2 Pinagem:
Figura 26 – Pinagem do CCD OV7620
Apêndice B– Características do CCD uil izado
110
B.3 Registradores disponíveis pela interface SCCB.
Register 00 - rw: AGC gain control
Register 01 - rw: Blue gain control
Register 02 - rw: Red gain control
Register 03 - rw: Saturation control
Register 04 & 05 - w: Reserved Register
Register 06 - rw: Brightness control
Register 07 - rw: Angalog Sharpness control
Register [08] ~ [0B] - w: Reserved.
Register 0C - rw: White Balance background control -- Blue channel
Register 0D - rw: White Balance background control -- Red channel
Register 0E ~ 0F- rw: Reserved
Register 10 - rw: Auto-Exposure-Control Register
Register 11 - rw: Clock rate control
Register 12 - rw: Common control A
Register 13 - rw: Common control B
Register 14- rw: Common control C
Register 15- rw: Common control D
Register 16 - rw: Frame Drop
Register 17 - rw: Horizontal Window start
Register 18 - rw: Horizontal Window end
Register 19- rw: Vertical Window start
Register 1A- rw: Vertical Window end
Register 1B- rw: Pixel shift
Apêndice B– Características do CCD uil izado
111
Register 1C- r: Manufacture ID high byte
Register 1D- r: Manufacture ID low byte
Register 1E ~ 1F- rw: Reserved
Register 20- rw: Common control E
Register 21- rw: Y Channel Offset Adjustment
Register 22- rw: U Channel Offset Adjustment
Register 23- rw: Crystal Current control.
Register 24- rw: AEW Auto Exposure White Pixel Ratio
Register 25- rw: AEC Auto Exposure Black Pixel Ratio
Register 26 - rw: Common control F
Register 27 - rw: Common control G
Register 28 - rw: Common control H
Register 29 - rw: Common control I
Register [2A] - rw: Frame Rate Adjust Register 1
Register [2B] - rw: Frame Rate Adjust Register 2
Register [2C] - rw: Black Expanding Register
Register [2D] - rw: Common Control J
Register [2E]- rw: V Channel Offset Adjustment
Register 2F ~ 5F - w: Reserved
Register 60- rw: Signal Process Control A
Register 61- rw: Signal Process Control B
Register 63- rw: Reserved
Register 64- rw: Y Gamma Control
Register 65- rw: Signal Process Control C
Apêndice B– Características do CCD uil izado
112
Register 66- rw: AWB Process Control
Register 67- rw: Color Space Selection
Register 68- rw: Signal Process Control D
Register 69- rw: Analog Sharpness
Register 6A- rw: Vertical Edge Enhancement Control
Register 6B-6E rw: Reserved
Register 6F - rw: Even/Odd Noise Compensation Control
Register 70 - rw: Common Control K
Register 71 - rw: Common Control J
Register 72- rw: Horizontal Sync 1st Edge shifting
Register 73 - rw: Horizontal Sync 2nd Edge shifting
Register 74 - rw: Common Control M
Register 75 - rw: Common Control N
Register 76 - rw: Common Control O
Register 77-7B - rw: Reserved
Register 7C - rw: Field Average Level Storage
113
Apêndice C – Resultados obtidos nos testes.
C.1 Identificação de objetos de forma conhecida
Objeto apresentado Numero de
tentativas
Numero de
acertos
Percentagem de
acerto
12
12
100%
8
8
100%
11
11
100%
14
11
78,57%
9
9
100%
Apêndice C – Resultados Obtidos nos Testes
114
11
11
100%
8
7
87,5%
12
12
100%
14
11
66,67%
12
8
75%
8
6
75%
Totais 119 107 89,92%
Apêndice C – Resultados Obtidos nos Testes
115
C.2) Localizando objetos de forma e cores conhecidas.
Imagem Pergunta Tentati-
vas
Acertos
acerto
- Qual dos quatro é
Fanta Maça ?
2
1
50%
- Qual dos quatro é
Guaraná ?
3
0
0,0%
- Qual dos quatro é
Coca-Normal ?
2
2
100%
Apêndice C – Resultados Obtidos nos Testes
116
-Qual dos quatro é
Guaraná ?
3
3
100%
- Qual dos quatro é
Fanta Uva ?
3
2
66,6%
- Qual dos quatro é
Fanta maça ?
3
2
66,6%
- Qual dos quatro é
Fanta Laranja ?
4
3
75%
Apêndice C – Resultados Obtidos nos Testes
117
- Qual dos quatro é
Fanta Uva ?
3
3
100%
- Qual dos quatro é
Fanta Uva ?
3
3
100%
- Qual dos quatro é
Coca-Normal ?
4
4
100%
- Qual dos quatro é
Guaraná ?
3
3
100%
Apêndice C – Resultados Obtidos nos Testes
118
- Qual dos quatro é
Fanta Uva ?
3
3
100%
- Qual dos quatro é
Coca normal ?
2
2
100%
- Qual dos quatro é
Guaraná ?
2
2
100%
- Qual dos quatro é
Guaraná ?
4
2
50%
Apêndice C – Resultados Obtidos nos Testes
119
- Qual dos quatro é
Coca normal ?
3
3
100%
- Qual dos quatro é
Fanta Maça ?
3
2
75%
Totais 5 2 87,25%
C.3) Descoberta de novos objetos.
Imagem apresentado
Numero de
tentativas
Acertos
Formas
Acertos
Cores
Percentagem de acerto
4
4
4
100%
Apêndice C – Resultados Obtidos nos Testes
120
8
7
8
93,75%
9
3
6
50%
3
2
3
83,33%
9
9
9
100%
8
3
8
75%
12
8
12
83,33%
14
11
11
78,57%
12
8
11
79,16%
Apêndice C – Resultados Obtidos nos Testes
121
8
6
7
81,25%
12
12
12
100%
12
11
11
91,6%
12
8
12
83,3%
8
6
6
75%
5
5
5
100%
8
4
8
75%
12
12
12
100%
Apêndice C – Resultados Obtidos nos Testes
122
8
6
8
87,5%
12
12
3
62,5%
8
8
6
87,5%
4
2
4
87,5%
6
4
6
83.33%
14
11
11
83,3%
8
7
6
81,25%
Totais 212 169 189 84,43%
123
Apêndice D – Diagramas Esquemáticos.
D1. Esquema Elétr ico da placa de aquisição.
Apêndice D – Diagramas Esquemáticos
124
D2. Layout Placa de aquisição.
a) Lado dos componentes b) Lado das soldas (onde foi colocado CCD).
c) Serigrafia
125
Apêndice E – Uso do Software desenvolvido para estudo.
E.1) Introdução
A implementação foi realizada utilizando Borland Delphi, que é uma linguagem
orientada derivada do Pascal, que permite acesso pleno às APIs do windows necessárias
para os recursos como captura de imagem e reprodução de sons wave por DirectX.
Originalmente as APIs utilizam chamadas com formatos de dados diferentes dos
gerados pelo Delphi, sendo necessário o uso de um conjunto de rotinas conversoras
chamadas Headers, disponibili zadas em caráter freeware pela organização Project JEDI
(Joint Endeavor for Delphi Innovators). Tais rotinas também são disponibil izadas para uso
com o sistema operacional Linux. [FERNANDES, 2001]
E.2) Implementação do sistema de aquisição de imagem.
O Software de estudo possui 3 botões relacionados a captura de imgens:
Liga/desliga câmera, que seleciona a aquisição em tempo real, load e fotografa, que
carregam ou gravam uma imagem no disco, respectivamente.
Para facili tar os ensaios, uma opção de carga de imagens diretamente do disco
rígido também foi implementada, como podemos ver na Figura 27.
Apêndice E – Uso do Software Desenvolvido para Estudo
126
Figura 27. Implementação, mostrando itens referentes à aquisição de imagem.
E.3) Implementação do sistema de análise de cores.
A varredura na implementação do sistema facili ta o detalhamento da imagem,
dividindo-a em regiões de tamanho programável. Para cada região é executado o processo
de análise, que foi dividido em etapas, sendo elas:
- Identificação da cor de cada pixel por semelhança, analisando os parâmetros
Matiz, Saturação e Luminosidade;
Apêndice E – Uso do Software Desenvolvido para Estudo
127
Para tanto foi criada uma representação gráfica de dos parâmetros HSI, alem da luminância
da cor em questão, como mostra a Figura 28.
Figura 28. Representação gráfica do modelo HSI da cor sendo analisada.
- Comparação com os pontos conforme limiares pré-programados de semelhança
para classificar o ponto como uma nova cor ou uma cor já anunciada, gerando
uma matriz que indica cada cor presente e o numero de pixels presente com tal
característica;
- Ordenação por ordem de quantidade (método bolha);
- Normalização, onde a cor mais presente é usada como referência.
- Apresentação dos dados na forma de um histograma ordenado por quantidade
de cada cor, conforme mostrado na Figura.
Apêndice E – Uso do Software Desenvolvido para Estudo
128
- Reprodução dos sons Wave associados a cada cor, usando os parâmetros Matiz,
Luminosidade, Quantidade e Posição para modificar a forma dos sons, afetando
sua freqüência, amplitude, duração e balanço. Conforme coeficientes definidos
na configuração do programa, conforme a Figura 29.
Figura 29. Implementação, mostrando itens referentes à análise da imagem.
E.4) Configurações possíveis.
E.4.1) Sons produzidos por cada cor .
O arquivo wave a ser reproduzido para cada cor encontrada na imagem pode ser
selecionado na tela de configuração, acessível da tela principal pelo comando “Config” .
Apêndice E – Uso do Software Desenvolvido para Estudo
129
É possível ainda selecionar os valores mínimos e máximos de modulação de
freqüência para se obter melhores resultados conforme o tipo de som selecionado,
especialmente se forem sons de instrumentos musicais e testar cada som com cada índice
de modulação programado. A figura 30 mostra a tela de configuração.
Figura 30. Configurações dos arquivos Wave.
E.4.2) Configurações gerais do algor itmo.
Para uma maior flexibilidade e avaliação de cada implementação no algoritmo, uma
vez que ele propõe múltiplas associações de parâmetros ao mesmo tempo, uma área de
configurações rápidas foi criada, conforme mostra a Figura 31. Nela podemos ligar ou
desligar a modulação em:
Apêndice E – Uso do Software Desenvolvido para Estudo
130
- Freqüência;
- Ampliture;
- Selecionar entre modulação por Saturação ou Luminosidade;
- Ligar ou desligar o recurso stereofônico;
- Selecionar a quantidade de tempo que o algoritmo espera para repetir a
apresentação de uma cor, caso ela seja de largura maior/
- A velocidade de varredura;
- O tamanho da janela de varredura;
- O numero de cores mostrado por vez;
- A quantidade relativa mínima de cada cor (comparada a cor mais presente na
janela) suficiente para considerar a quantidade da cor expressiva.
Figura 31. Configurações do algoritmo
131
Referências Bibliográficas
BEGAULT, D.R. 3-D sound for vir tual reali ty and multimedia. New York, NY: AP
Professional, 1994.
BILLMEYER, F. W. J.; SALTZMAN, M. Pr inciples of color technology,
will ey-interscience. New York, NY: John Wil ley & Sons, 1981.
BORN, M.; WOLF, E. Pr inciples of optics: electromagnetic theory of
propagation - interference and diff raction of light. 6th Ed. Oxford: Pergamon Press,
1980.
CAETANO, F. F. Estratégia de atenção para rastreamento visual de múltiplos
alvos por sistema de visão binocular, ITA, 1999.
CARLILE, S. Vir tual auditory space: generation and applications. New York, NY:
Chapman & Hall, 1996.
CASTLEMAN, K. R. Digital image processing. New Jersey, NJ: Prentice Hall, 1996.
CHAN, A. H. S.; COURTNEY, A. J Foveal acuity, per ipheral acuity and search
performance: A review. International Journal of Industrial Ergonomics
v.18, 1996. 113-119.
Referências Bibliográficas
132
COLLINS, C. C. On mobil ity aids for the blind. In: WARRWN, D. H.; STRELOW, E. R.
(Eds.) Electronic spatial sensing for the blind. Boston, MA: Martinus Nijhoff, 1985.
DOBELLE, W.H. �������������� ����������������������������
��� !�"#"$ %!�&'. American Society of Artificial Internal Organs
Journal, v. 46, 2000. 3-9.
FERNANDES, M. Usando DirectX. São Paulo: Relativa, 2001.
FREEMAN, M. H. Optics. 10th Ed. London: Butterworths, 1990.
FITCH, W. T.; KRAMER, G. Sonifying the body electr ic: superiority of an
auditory display over a visual display in a complex, multivariate system.
In: Kramer, G.1994.
FRUCHTERMAN, J. Talking maps and GPS systems. In: RANK PRIZE
FUNDS SYMPOSIUM ON TECHNOLOGY TO ASSIST THE BLIND AND VISUALLY
IMPAIRED, 1996, Grasmere. Proceedings… Grasmere: [S.n.], 1996. p162
GEVERS, T.; SMEULDERS, A.W.M. The PicToSeek WWW Image Search System.
Pattern Recognition, v. 32 n. , 1999. p453
GILKEY, R.; ANDERSON, T. R. Binaural and spatial hear ing in real and vir tual
environments. Hillsdale, NJ: Lawrence Erlbaum Associates, 1997.
Referências Bibliográficas
133
GONZALEZ, R. C.; WOODS, R. E. Digital image processing. Reading, MA: Addison-
Wesley, 1992.
HUNT, B. R. The application of constrained least squares estimation to image
restoration by digital computer . IEEE Trans. Comput., V.C-22, 1973. p805-811.
INSTITUTE OF ELECTRICAL AND ELECTRONICS ENGINEERS. IEEE Std 610.4-
1990: IEEE standard glossary of image processing and pattern recognition terminology.
New York, 1990.
ILLGNER, K. DSPs for image and video processing. Signal Processing, v. 80, 2000.
p2323.
JACK, K. Video desmistified: a handbook for the digital engineer. [S.l.]: LLH
Technology Publishing, 2001.
JOHNSON, A. T.; DOOLY, C. R.; SIMPSON, C. R. Computer Methods and Programs in
Biomedicine, v. 57, 1998. p161-164
KIVER, M. S. Color television fundamentals. New York: McGraw-Hil l, 1965.
LOOMIS, J. M. Digital map and navigation system for the visual impaired.
Santa Barbara: University of Cali fornia. 1998. Unpublished manuscript
Referências Bibliográficas
134
(apud LOOMIS, 1998)
LOOMIS, J. M.; HEBERT, C.; CICINELLI, J.G. Active localization of vir tual sounds. J.
of the Acoustical Society of America, v. 88, 1990. 1757.
MEIJER, P. B. L. – Image to Sound Mapping. IEEE Transactions, v.39, 1992. 112.
MENDELSON, M. et al. Digital transformation and computer analysis of microscope
images. BARER, R.; COSSLET, V. (Eds.) Advances in optical and electron
microscopy. London: Academic Press, 1968.
NASSAU, K. The physics and chemistry of color : the fifteen causes of color.
Bernardsvill e: John Willey & Sons, 1983.
NINCE, U. S. Sistemas de televisão e vídeo. 2. ed. São Paulo: Livros Técnicos e
Científicos, 1991.
NOVAK, C. L.; SHAFER, S. A. Anatomy of a color histogram. In: IEEE COMPUTER
SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN
RECOGNITION, 1992, Los Alamitos. Proceedings… Los Alamitos: IEEE Computer
Society Press, 1992. p. 599-605
NEPOMUCENO, Luiza de Arruda. Elementos de acústica, física e psico-acustica.
Referências Bibliográficas
135
São Paulo: Edgard Blucher, 1994.
PRATT, W. K. Digital image processing. 2nd ed. New York: John Wiley & Sons, 1991.
PREWITT, J.; MENDELSOHN, M. The analysis of cell images. Annals of the New
York Academy od Sciences, 128, 1035-1053, January 1966.
RAM, S.; SHARF, J. The People Sensor: A Mobili ty Aid for the Visually Impaired. In:
INTERNATIONAL SYMPOSIUM ON WEARABLE COMPUTERS, 2., 1998, Pitsburg.
Pitsburg: IEEE Computer Society, 1998.
RITA, P. B.; KACZMAREK, K. A. , J. Electrotactile pattern perception on the tongue.
Rehabili tation Research and Development, v.35, 1998. 427.
SAMPAIO, E.; MARIS, S.; RITA, P. B. 'Visual' acuity of blind persons via the tongue.
Brain Research, v. 908, 2001. 204.
TZELGOV, J.et al. Radiation detection by ear and by eye. Human Factors, v. 29, n. 1, p.
87-98, 1987
WALL, R. J.; KLINGER, A.; CASTLEMAN, K. R. Analysis of image histograms. In:
CONGRESS ON PATTERN RECOGNITION, 2., 1974, Copenhagen. Proceedings…
Copenhagen: [s.n.], 1974.
Referências Bibliográficas
136
WALSH, J. L. Walsh functions. J. of Am. Math., v. 45, 1923. 5-7.
WENZEL, E. M. Presence: Teleoperators and Virtual Environments v.1, 1992. 80.
WIGHTMAN, F. L.; KISTLER, D. J. Monaural sound localization revisited. J. of the
Acoustical Society of Amer ica, v.85, 1989. 868.
GLASGAL, R.; YATES, K. Ambiophonics: beyond surround sound to virtual sonic
reality. Londres: Ambiophonics Inst., 1995.
MIRANDA, E. Composing music with computers: music technology series. London: Focal
Press, 2001.
WILLIAMS, D. B.; WEBSTER, P. R. Experiencing music technology: software,
data, and hardware. London: Wadswourth Pub., 1999.
FOLHA DE REGISTRO DO DOCUMENTO
1. CLASSIFICAÇÃO/TIPO
TM
2. DATA
29 Janeiro 2003
3. DOCUMENTO N°
CTA/ITA-IEE/TM-014/2002
4. N° DE PÁGINAS
133 5. TÍTULO E SUBTÍTULO: Sistema de Visão Artificial Utilizando Efeito Psico-Acústico
6. AUTOR(ES):
Eduardo Henrique Marcondes 1
7. INSTITUIÇÃO(ÕES)/ÓRGÃO(S) INTERNO(S)/DIVISÃO(ÕES): Instituto Tecnológico de Aeronáutica. Divisão de Engenharia Eletrônica – ITA/IEE
8. PALAVRAS-CHAVE SUGERIDAS PELO AUTOR:
Visão, CCD, Imagem, Som, Deficiente visual, cego, psico-acustica, acustica. 9.PALAVRAS-CHAVE RESULTANTES DE INDEXAÇÃO:
Imagens, Som, Visão, Deficientes físicos, Cegueira, Cor, Audição, Acústica, Métodos computacionais,
Engenharia eletrônica.
10. APRESENTAÇÃO: X Nacional Internacional
ITA. São José dos Campos, 2002. 133 páginas.
11. RESUMO:
Estuda parâmetros de imagens e sons, propondo e avaliando a viabilidade de diversas formas de associação entre eles, buscando uma forma de informar a um deficiente visual a cor dos objetos a sua frente utilizando uma câmera digital e um sistema computacional capaz de analisar a imagem captada e reproduzir sons digitalizados alterando seus parâmetros de acordo com as cores encontradas, visando assim explorar ao máximo as informações contidas na imagem colorida e a capacidade de audição do indivíduo.
Para tanto foram estudados os parâmetros de imagens, as características da visão humana,
parâmetros de sons, características da audição e psico-acústica
A implementação foi realizada em um microcontrolador para aquisição de imagens e um microcomputador utilizando recursos padronizados de acesso direto ao hardware (DirectX) para análise da imagem e geração de áudio
12. GRAU DE SIGILO: (X ) OSTENSIVO ( ) RESERVADO ( ) CONFIDENCIAL ( ) SECRETO