Automação de Arquivos Gerenciamento Eletrônico de imagens de documentos
description
Transcript of Automação de Arquivos Gerenciamento Eletrônico de imagens de documentos
Automação de ArquivosGerenciamento Eletrônico
de imagens de documentos
Prof. Carlos H. [email protected]
Arquivos em formato “mapa de bits”:
•
ARQUIVOS “MAPA-DE-BITS – “BIT MAP”
Arquivos em formato “mapa de bits”: como reconhecer um caracter?
A a A a A a a
a A ? ? ? ? ?
Processo de digitalização• Os sistemas de gerenciamento de
imagens eletrônicas de documentos associam a cada arquivo de imagem, um registro de uma base de dados com conteúdos textuais codificados, para fins de busca/recuperação de informações
Tipo | Num. | Setor | Data | Assunto |
Processo de digitalização
A digitalização é o processo de transformar documentos em papel em arquivos digitais de imagem tipo ¨mapa-de-bits¨
Nos arquivos de imagem tipo “mapa-de-bits” cada ponto de um documento, cada ponto de cada caracter de um documento é desenhado e não representado por um código como no conjunto de caracteres ASCII
Vantagens do Gerenciamento Eletrônico de Imagens de Documentos
Maior “densidade” de informações por unidade de armazenamento: um CD-ROM pode conter cerca de 40.000 folhas de papel A4 digitalizadas a 300 dpi
As imagens de documentos podem ser acessadas através de redes, dispensando o acesso ao documento original
Isso ajuda a preservar os documentos originais
Processo de digitalização
Imagens são formadas por pontosPontos são representados por um número X de “bits”
Bitonal ou preto-e-branco: 1 bit por ponto:
pontos pretos: “1”pontos brancos: “0”
Monocromático: preto-e-branco com diversas intensidades – 4 bits, 6 bits, 8 bits, por ponto)Colorido
8 bits por ponto: 256 cores12 bits por ponto : 4096 cores24 bits por ponto : 16.800.000 cores (“true color”)
Processo de digitalização - RESOLUÇÃO
• Relação entre número de pontos de uma imagem / Área
• Unidade: “dpi” (“dots per inch”) pontos por polegada quadrada
• A resolução é uma medida da LEGIBILIDADE de uma imagem
Processo de digitalização - RESOLUÇÃO
• Corresponde à capacidade de detalhamento de uma imagem, quanto maior a resolução da imagem, maior será a sua capacidade de exibir detalhes.
Processo de digitalização
RESOLUÇÃO - aplicação da digitalização em DOCUMENTOS
Arquivos de imagens ( de documentos) com baixa resolução são POUCO LEGÍVEIS (abaixo de 50 dpi)
Acima de 800 dpi a vista humana NÃO DISTINGUE MAIS MELHORAS DE LEGIBILIDADE
Quanto maior a resolução de uma imagem, maior o tamanho do arquivo que vai armazena-la
Resolução razoável para documentos: 300 dpi
Processo de digitalização
• Como não existe um código único para cada caracter,
A a A a A a a a A a,
• nos arquivos “mapa-de-bits” não é possível fazer busca por conteúdo
Processo de digitalização - Etapas
• Preparação - desarquivamento, retirada de grampos e “clips” restauração, agrupamento em lotes para a digitalização.– Fatores críticos de sucesso
• o estado dos documentos• uniformidade dos documentos• critério de grupamento em lotes
- Digitalização - alimentação e digitalização dos lotes no escaner– Os fatores críticos de sucesso desta etapa são
• velocidade do escaner• cores da imagem: preto-e-branco, colorido, tons-de-cinza,• uniformidade dos lotes, evitando interrupção e re-
ajustamento do escaner• resolução utilizada
- Conferência - exame das imagens geradas para controle de qualidade, agrupamento de imagens formando documentos, eventualmente re-escaneamento
Processo de digitalização - Etapas
Processo de digitalização - Etapas
• Indexação - associação a cada arquivo de imagem ou a cada grupo de imagens que formam um documento, um conjunto de termos de indexação visando a recuperação da(s) imagem(ns) do documento digitalizado– Fatores críticos de sucesso desta etapa são
• facilidade/velocidade de extração dos termos de indexação a partir da imagem do documento
• padronização do “lay-out” do documento
Processo de digitalização - “hardware” e “software” envolvidos
• Hardware– escaner: de mesa, com bandeja– gravador de CD-ROM– “Jukebox”: dispositivo leitor com
capacidade de 8 a 48 CD-ROMs, geralmente com 4 a 8 cabeçotes de leitura
Digitalização – componentes de “hardware”
escaner
Gravador CD
“Jukebox”
“Software” de GED
Estações p. consulta
Impressora
Sistema COM
O escaner – características técnicas
Fonte de luz
Documento
Sensor – matriz de fotocélulas (resolução de “hardware”)
O escaner – características técnicas
• Alimentador de folhas – capacidade (no. Folhas, peso• Tipo de interface• Resolução máxima por hardware: resolução real do
sensor do escaner em dpi• Resolução interpolada: resolução obtida através de
software• Modo de digitalização: simplex (uma face) ou duplex
(ambas as faces)• Velocidade: em páginas (ppm) por minuto, num
determinado modo e numa determinada resolução• Tamanho dos documentos: capacidade de receber folhas
de papel em formatos An
O escaner
“JUKEBOX” – características técnicas
“Vitrola” robótica capaz de disponibilizar um grande número de CDs gravados com imagens de documentos
• Características:– Capacidade de armazenamento em GB – Número de discos– Número de leitores de discos– Tempo de troca de discos
SISTEMAS COM– características técnicas
“Computer Output on MicroFiche – permite a saída de relatórios diretamente em microfichas
• “Software”– FUNÇÕES
•entrada:
– Escaneamento
– Conferência
– Indexação
– Gravação
•saída: - recuperação pelos pontos de acesso estabelecidos na indexação
Processo de digitalização - “hardware” e “software” envolvidos
• Baseados em SGBDs
– usam “representações” de documentos; permitem armazenar e recuperar “representações” de documentos.
• Sistemas de Gerenciamento de Imagens de Documentos – GED
– permitem associar a “representações” de documentos imagens digitais desses documentos
• Sistemas de gerenciamento de fluxo de trabalho – “workflow”
– Permitem controlar o ciclo de vida de documentos – sua tramitação
Sistemas de Gestão Documentos
Processo de digitalização - OCR
• “Optical Character Recognition” - Reconhecimento ótico de caracteres: processo de submeter uma arquivo de imagens .bitmap a um software especial, que reconhece as imagens dos caracteres e transforma a imagem de cada caracter no seu equivalente codificado (p.ex. em ASCII)
• Vantagem : um arquivo textual codificado pode ser objeto de busca por conteúdo
Arquivo “bitmap Arquivo codificado