Universidade Lusíada de AngolaSistemas Multimídia
Tema: OCR (Optical Character Recognition)
Membros:● Lewis Gomes● Rui Pinto● Suely Nassola
Docente: Dr. Adjah da Cruz
O que é o OCR?
OCR, do inglês Optical Character Recognition Reconhecimento
Ótico de Caracteres), é um método aplicado de maneira a
permitir que o conteúdo escrito em um documento no formato
de imagem seja reconhecido e transformado em um arquivo de
texto editável.
De onde surgiu esse tal de
OCR?
Em 1950 David Shepard e Louis Tordela começaram a pesquisa do
procedimento para automação de dados e com ajuda de Harvey Cook
eles contruiram o “Gismo” o primeiro Software de OCR.
Em 1953 a IBM obteve uma licença
da IMR e desenvolveu um software
próprio classificando-o
como Optical Character
Recognition, tornando o termo OCR
um padrão na indústria para essa
tecnologia.
Qual tecnologia está por trás do OCR?
Existem dois principais Sistemas de OCR:
1 - Matriz de correspondência
Matriz de correspondência (também conhecido como correspondência de
padrões) associa o que o scanner percebe como um caracter com um
conjunto armazenado de padrões de bitmap ou contornos de caracteres.
Quando uma imagem corresponde a um destes
bitmaps selecionados dentro de um certo grau de semelhança, o programa
identifica esta imagem como o caractere de texto equivalente. Uma
desvantagem evidente deste sistema é que ele só pode ser usado para as
fontes e tamanhos em seu repertório.
2 - Extração de características
Extração de recurso também é conhecida como reconhecimento de
caracteres inteligente (ICR), ou análise de característica topológica. É um
tipo de reconhecimento óptico de caracteres que não dependem de
correspondência exata para definir modelos. O programa procura por
elementos comuns, como espaços abertos, formas fechadas, linhas -
diagonais que se interceptam e assim por diante.
Como Funciona?
Primeiro, o programa analisa a estrutura da imagem do documento. Ele
divide a página em elementos como blocos de texto, tabelas, imagens, etc.
As linhas são divididas em palavras e, então, em caracteres. Uma vez
separados os caracteres, o programa compara-os com um conjunto de
imagens padrão.
O segundo passo, consiste em comparar cada caracter com modelos de
fontes suportadas pelo OCR. Havendo uma certa percentagem de
coincidência, o caracter é reconhecido. Nos caracteres não reconhecidos,
é aplicado um segundo processo bem mais minucioso, que consiste em
analisar geometricamente cada caracter, calculando a altura, largura, e
combinações de retas, curvas e áreas em branco.
Novamente, é usada a lei da probabilidade: um caracter com uma curva em
forma de meia lua que continua na forma de uma reta, por exemplo, tem
uma grande chance de ser um "d" minúsculo por exemplo. Este segundo
processo é muito mais demorado, pois para cada letra é preciso gerar todo
um novo conjunto de caracteres gráficos.
Se mesmo com o exame minucioso, não for possível reconhecer o caracter,
o programa poderá utilizar um corretor ortográfico para corrigir erros
bobos, ou preencher espaços vazios.
Qual as Vantagens?
Já tentou digitar um texto de uma revista para poder reproduzir em
algum lugar? Se for um texto curto, de uma página recomendo que
coloque do lado e digite, nosso OCR original, de fábrica, chamado
cérebro é muito mais rápido do que qualquer outro dispositivo e
certamente vai fazer o trabalho em menos tempo. Ou seja, para textos
curtos não vale a pena. Mas imagine ter que digitar vários
textos, ou então um livro ou revista.
Ai já vale a pena usar o OCR pois
ele fará o trabalho repetitivo e seu
trabalho será apenas alimentar o
scanner ou outro dispositivo de
captura de imagens qualquer, como
uma câmara digital.
Qual as Desvantagens?
O resultado final depende de muitos parâmetros, há programas de OCR
que não reconhecem os acentos da língua portuguesa.
Múltiplas fontes no mesmo texto também causam problemas e
certamente o texto vai precisar de uma revisão antes de ser utilizado.
Não suporta todos idiomas nem todos os tipos de fontes.
Podes mencionar alguns Softwares
Existentes?
OCR Convert.OCR Terminal Beta.Online OCR.NewOCR.com.Free OCR to Word.ABBYY FineReader .
OCR é um tecnologia que vale apena usar, a poisar que raramente
pessoas não fazem uso deste recurso talvez por falta de
informação , é um software que pode se encontrar na net de graça
e em versões muita avançadas a que pagar uma certa quantia.
Conclusão
E onde foste pegar essas
informações?
http://interfaceinterativa.blogspot.com/2009/02/ocr-voce-sabe-o-que-e-isso.htmlhttp://www.tecmundo.com.br/google/8862-sistema-ocr-da-google-possui-suporte-a-34-idiomas.htmhttp://www.abbyy.com.br/ocr/http://www.ehow.com.br/funciona-ocr-como_5500/http://www.ibytes.com.br/scanner-le-e-converte-elementos-escuros-da-leitura-em-um-mapa-de-bits/
Imagenswww.Google.pt
Bibliografia
“A duvida é o Principio da Sabedoria”?
Top Related