Post on 31-May-2020
Objetos Complexos em Bibliotecas Digitais:Analisando o Gerenciamento de Componentes de
Imagens
Nadia Puchalski Kozievitch
1Universidade Estadual de Campinas - Unicamp
15 de junho de 2011
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 1 / 82
Sumario
1 Introducao
2 Trabalhos Relacionados
3 Estudos de Caso Preliminares e AplicacoesSuperimposed Image Description and Retrieval Tool - SuperIDRA integracao de bibliotecas digitais de impressoes digitaisNo-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp
4 Formalizacao de CO e CBIR
5 Analisando as Tecnologias de CO da Perspectiva do 5S
6 Uma Infraestrutura baseada em DCC-OAI para ICOs
7 Cenarios de Aplicacao de nossa Infraestrutura
8 Conclusoes e Trabalhos Futuros
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 2 / 82
Sumario
Agradecimentos
Ao Prof. Ricardo;
A minha querida famılia e amigos;
Aos amigos do LIS, Recod e DLIB;
A Profa. Claudia Bauzer Medeiros, Andre Santanche, MarcosGoncalves, professores e alunos do Departamento de Biologia daUnicamp;
Aos Profs. Edward A. Fox, Michael Hsiao, Lynn Abbott, EricHallermann.
Aos Professores e Funcionarios do Instituto de Computacao;
Aos inumeros alunos que tive durante este processo:iniciacao cientıfica junior (Maria,Scheila, Naira) ;alunos gerenciados durante a estadia na Virginia Tech (Sherley, Jennifer, etc.);alunos da biologia - Unicamp;alunos de graduacao de MC536.
Capes, FAPESP, CNPq, NIJ (National Institute of Justice), BAESystems, e NSF IIS-0910183, IIS-0916733, DUE-0840719, eCCF-0722259.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 3 / 82
Introducao
Sumario
1 Introducao
2 Trabalhos Relacionados
3 Estudos de Caso Preliminares e AplicacoesSuperimposed Image Description and Retrieval Tool - SuperIDRA integracao de bibliotecas digitais de impressoes digitaisNo-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp
4 Formalizacao de CO e CBIR
5 Analisando as Tecnologias de CO da Perspectiva do 5S
6 Uma Infraestrutura baseada em DCC-OAI para ICOs
7 Cenarios de Aplicacao de nossa Infraestrutura
8 Conclusoes e Trabalhos Futuros
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 4 / 82
Introducao
IntroducaoPONTOS CHAVE
Por que objetos complexos? Busca Baseada em Conteudo?
Conceitos e perspectivas tratadas?
Desafios?
Contribuicoes?
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 5 / 82
Introducao
IntroducaoMotivacao
Abstracao dos conceitos de grupo, componentes heterogeneos,componente unico, integracao, interface.
Entidades fısicas do mundo real x entidades fısicas digitais
Definicao de granularidade, inclusao de links, sup-partes, referencias,etc.
Objetos Complexos: Objeto Complexo (Complex Object - CO):composto por varios componentes, conectados entre si.
A heterogeneidade de COs enfrenta os seguintes desafios:
ha pouco suporte por softwares de bibliotecas digitais;particularidades como direitos autorais dificultam que um CO sejatratado como um objeto unico;a busca tem que permitir nao somente a busca dos componentesindividuais como a busca do CO como um objeto unico.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 6 / 82
Introducao
Os principais desafios
Formalizacao de CO e seus componentes?
Tratamento da estrutura do CO? CO mınimo?
O relacionamento de componentes de um objeto complexo?
O acesso aos servicos do CO e de seus componentes heterogeneos?
A integracao de dados (como a integracao de dois COs diferentes) eseus servicos?
A descricao e integracao de tecnologias relacionadas a COs?
Como resolver as mesmas questoes no domınio de imagens?
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 7 / 82
Introducao
As diferentes perspectivas da informacao
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 8 / 82
Introducao
As perspectivas tratadas
Tecnologias Formalização
Aplicações
CO
CBIR
ICO
objetodigital
identificador
componentes
estrutura
Buckets
DCC
OAI-ORE ObjetoComplexo
scorm
MPEG-21
METS
HDF
CtrNET
ImpressõesDigitais
SuperIDR
GIS
DLsMultilíngües
Figura: As perspectivas de CO tratadas nesta tese.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 9 / 82
Introducao
As principais contribuicoes deste trabalho sao:1 formalizacao de conceitos relacionados a CO, ICOs e CBIR;2 comparacao e analise das tecnologias DCC, Buckets e OAI-ORE;3 proposta e desenvolvimento de um prototipo que prove:
o bf acesso e gestao homogenea ao processo CBIR, e fontes de dados;a facil integracao do processo da busca de imagens por similaridadeatraves da componentizacao e encapsulamento;a distribuicao e coleta de metadados de ICOs, juntamente com seuscomponentes;o acesso aos componentes individuais e ao CO como entidade unica;a centralizacao do processamento, encapsulamento, publicacao ecoleta do ICO.
4 reuso em buscas multimodais;5 reuso em sumarizacao de vıdeos;6 exemplos e descricao de cenarios;7 exemplo de integracao de dados e processos no SuperIDR;8 exemplo de integracao de dados de impressoes digitais.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 10 / 82
Introducao
A organizacao da tese
1.Introdução
MotivaçãoMétodo de Pesquisa
Perguntas de Pesquisa
2. Trabalhos Relacionados
Bibliotecas DigitaisObjetos Complexos
CBIR
Objetos Complexos (CO) em Bibliotecas Digitais
4. Formalização deCO e CBIR
5. Analisando tecnologiasde CO da perspectiva
5S
6. Uma Infraestruturabaseada em DCC-OAI
7. Reuso da Infraestrutura:
Impressões Digitais,Busca Multimodal, eEstórias em Vídeo
8. Conclusão eTrabalhos Futuros
3. Aplicações
SuperIDRImpressões Digitais
No-Rau
Figura: A organizacao desta apresentacao.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 11 / 82
Introducao
Principais Termos e Acronimos Utilizados
Arcabouco 5S (5S Framework): Stream, Structures (Estruturas), Spaces(Espacos), Scenarios (Cenarios) e Societies (Sociedades).Biblioteca Digital (Digital Library - DL)): organizacoes que fornecem recursos,incluindo o suporte especializado para selecionar, organizar, interpretar, distribuir,preservar a integridade e garantir a persistencia ao longo do tempo de colecoesdigitais de obras.Busca de Imagens por Conteudo - (Content-Based Image Retrieval- CBIR):consiste na recuperacao automatica de imagens, com base nas propriedadesvisuais, tais como textura, forma ou cor.Objeto Complexo (Complex Object - CO)Digital Content Component (DCC) : modelo baseado em componentes, capazde encapsular e tratar exclusivamente conteudo em componentes.Objeto Complexo de Imagem (Image Complex Object - ICO)Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH)
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 12 / 82
Trabalhos Relacionados
Sumario
1 Introducao
2 Trabalhos Relacionados
3 Estudos de Caso Preliminares e AplicacoesSuperimposed Image Description and Retrieval Tool - SuperIDRA integracao de bibliotecas digitais de impressoes digitaisNo-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp
4 Formalizacao de CO e CBIR
5 Analisando as Tecnologias de CO da Perspectiva do 5S
6 Uma Infraestrutura baseada em DCC-OAI para ICOs
7 Cenarios de Aplicacao de nossa Infraestrutura
8 Conclusoes e Trabalhos Futuros
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 13 / 82
Trabalhos Relacionados
Trabalhos RelacionadosPONTOS CHAVE
Objetos Complexos
Arcabouco 5S
DCC
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 14 / 82
Trabalhos Relacionados
Objetos Complexos
modos diferentes de estruturar objetos: atomico, composto e complexo.
Krafft et al.: COs sao entidades individuais que sao compostos de varios objetos digitais,cada uma dos quais e uma entidade em si;
Cheung et al. definiram o CO como o encapsulamento de varios conjuntos de dados e osrecursos gerados ou utilizados durante um experimento cientıfico, ou processo dedescoberta, dentro de uma unica unidade, para a publicacao e intercambio;
Perspectivas de CO:
ontologias: Gerber et al. especificaram por exemplo, uma ontologia para o encapsulamento derecursos digitais e registros bibliograficos;granularidade: Fonseca et al. mencionam a navegacao vertical;estabelecimento de padroes: Candela et al. exploraram a integralidade do CO;prioridade sobre os demais componentes: Candela et al. tambem examinaram a prioridade deum componente em relacao ao conjunto completo;portabilidade para a estrutura do CO: Park et al. exploraram a adaptacao da estrutura de COpara domınios diferentes;acesso aos componentes: Manghi et al. mencionaram os diferentes perfis de acesso paracomponentes distintos, como sugerido nos servicos de autenticacao e autorizacao;reutilizacao e preservacao digital: Rehberger et al. examinaram o papel secundario que osrepositorios podem desempenhar na preservacao e acesso de materiais digitais e patrimonioshistoricos;outros: rastreamento de proveniencia, e variacao temporal.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 15 / 82
Trabalhos Relacionados
Bibliotecas Digitais e Formalismos
1995 1998 2001
GrossmanDLF
2003
DL Report
Dexter
Amsterdam
TEI-P5
Delos
2005 2007 2009 2011
OPMEuropeana
Trabalhos Relacionados
Tempo
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 16 / 82
Trabalhos Relacionados
Formalismo 5S
1995 1998 2001
GrossmanDLF
2003
DL Report
Dexter
Amsterdam
TEI-P5
Delos
2005 2007 2009 2011
OPMEuropeana
5SL5Graph5S Framework
5S Suite
Quality
Min DLPDL
5S QUAL
DspaceIntegration
Trabalhos Relacionados
Tempo
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 17 / 82
Trabalhos Relacionados
Tecnologias de CO
1995 1998 2001
GrossmanDLF
Tempo
Trabalhos Relacionados
2003
DL Report
Dexter
Amsterdam
TEI-P5
Delos
2005 2007 2009 2011
OPMEuropeana
5SL5Graph5S Framework
5S Suite
Quality
Min DLPDL
5S QUAL
DspaceIntegration
DCC Ras x ims-cpFluid Web
Building Blocks
MPEGMPEG RDFMPEG RDFOWL
OAI-PMH
DC
SCORM
OAI-ORE
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 18 / 82
Trabalhos Relacionados
Arcabouco 5S
No formalismo 5S:Streams descrevem propriedades de conteudo, para material textual ou formas particulares de dados multimıdia;
Structures (Estruturas) especificam aspectos organizacionais (formatos de metadados, hipertextos, taxonomias, esquemas de classificacao);
Spaces (Espacos) definem visoes logicas e de apresentacao de varios componentes;
Scenarios (Cenarios) detalham o comportamento de servicos;
Societies (Sociedades) definem gerentes (responsaveis pela execucao de servicos), atores (usuarios desses servicos), e relacionamentos.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 19 / 82
Trabalhos Relacionados
Digital Content Component
A DCC e composto de quatro subdivisoes distintas:(a) conteudo: o conteudo em si;
(b) estrutura: a declaracao de uma estrutura de gestao que define como os componentesdentro de um DCC se relacionam entre si, em XML;
(c) interface: especificacao da interface do DCC usando padroes abertos para a descricaoda interface - WSDL e OWL-S (semantica);
(d) metadados: metadados para descrever versao, a funcionalidade, aplicabilidade, erestricoes de uso - usando OWL.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 20 / 82
Trabalhos Relacionados
Buckets
Sao objetos ativos de repositorios, e podem comunicar-se entre si, em forma de rede, ouem forma de servicos arbitrarios.
author tool e management tool;
e escrito em Perl 5;
faz uso do HTTP como um protocolo de transporte;
armazena os metadados na RFC 1807 (um formato para registros bibliograficos);
arquivos reunidos em um unico diretorio Unix.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 21 / 82
Trabalhos Relacionados
OAI-ORE
normas para a descricao e intercambio de agregacoes de recursos da Web;
mecanismos para de interoperabilidade para expressar COs;
congruente com a arquitetura Web, constituıda essencialmente por:
URIs para identificar objetos;recursos - itens que serao mapeados;protocolo padrao, como HTTP, habilitando o acesso aos recursos;links via referencias a URIs;named graphs para encapsular a informacao em objeto composto.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 22 / 82
Trabalhos Relacionados
Recuperacao de Imagens por Conteudo
recuperacao automatica de imagens, com base nas propriedades visuais, tais comotextura, forma ou cor;
descritores de imagens, que sao caracterizadas por:um algoritmo de extracao (descritor) para codificar caracterısticas da imagem em vetores decaracterısticas;uma medida de similaridade para comparar duas imagens;
N. P. Kozievitch, S. Codio, J. A. Francois, E. Fox, and R. da S. Torres. Exploring CBIR concepts in the CTRnet Project. Technical Report IC-10-32,University of Campinas, 2010.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 23 / 82
Estudos de Caso Preliminares e Aplicacoes
Sumario
1 Introducao
2 Trabalhos Relacionados
3 Estudos de Caso Preliminares e AplicacoesSuperimposed Image Description and Retrieval Tool - SuperIDRA integracao de bibliotecas digitais de impressoes digitaisNo-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp
4 Formalizacao de CO e CBIR
5 Analisando as Tecnologias de CO da Perspectiva do 5S
6 Uma Infraestrutura baseada em DCC-OAI para ICOs
7 Cenarios de Aplicacao de nossa Infraestrutura
8 Conclusoes e Trabalhos Futuros
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 24 / 82
Estudos de Caso Preliminares e Aplicacoes
Estudos de Caso Preliminares e AplicacoesPONTOS CHAVE
Heterogeneidade na informacao
Impacto em servicos
O uso de composicao nos conceitos
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 25 / 82
Estudos de Caso Preliminares e Aplicacoes Superimposed Image Description and Retrieval Tool - SuperIDR
Superimposed Image Description and Retrieval Tool -SuperIDR
especificacao e implementacao de uma aplicacao para o suporte de busca e anotacao deimagens;e possıvel selecionar, anotar e recuperar partes de imagens no contexto da a imagemoriginal;validar o uso do tablet PC em um novo domınio (Parasitologia - Unicamp).
N. P. Kozievitch, R. da S. Torres, T. Falcao, E. Ramos, F. Andrade, S. M. Allegretti, M. T. Ueta, R. R. Madi, U. Murthy, E. A. Fox, Y. Chen, and E.Hallerman. Evaluation of a Tablet PC image annotation and retrieval tool in the parasitology domain. Technical Report IC-09-23, University of Campinas,2009.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 26 / 82
Estudos de Caso Preliminares e Aplicacoes Superimposed Image Description and Retrieval Tool - SuperIDR
Superimposed Image Description and Retrieval Tool -SuperIDR
Figura: Exemplos de imagens de parasitas.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 27 / 82
Estudos de Caso Preliminares e Aplicacoes A integracao de bibliotecas digitais de impressoes digitais
A integracao de bibliotecas digitais de impressoes digitais
unificacao de quatro bibliotecas digitais diferentes:
(DL1)- armazenamento de impressoes de digitais em bancos de dados;(DL2)- materiais de treinamento para examinadores de impressoes digitais;(DL3)- cena de crime;(DL4)- experimentos, analise, medidas de qualidade, e metodos de pareacao em bibliotecasdigitais.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 28 / 82
Estudos de Caso Preliminares e Aplicacoes A integracao de bibliotecas digitais de impressoes digitais
A integracao de bibliotecas digitais de impressoes digitais
Uma nocao de escala:suponha que uma imagem gera 100 imagens distorcidas.Multiplique por 25 milhoes de possıveis suspeitos.Em seguida, compare com uma imagem da cena do crime, que possui 55 impressoes digitaisparciais.Finalmente, selecione e relacione bons exemplos para uso em um treinamento.
N. P. Kozievitch, R. da S. Torres, S. H. Park, E. A. Fox, N. Short, A. L. Abbott, S. Misra, and M. Hsiao. Rethinking Fingerprint evidence throughintegration of very large digital libraries. VLDL-(ECDL2010), 2010.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 29 / 82
Estudos de Caso Preliminares e Aplicacoes No-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp
No-Rau: Biblioteca Digital de Teses e Dissertacoes daUnicamp
No-Rau 1 centraliza as teses digitais de estudantes da Unicamp para a comunidade emgeral;
centraliza documentos digitais de graduacao, mestrado, PhD e especializacoes;
problemas:
carece da agregacao de objetos digitais distintos (como audio, texto e imagem) e seus softwares;restricoes de acesso, devido a direitos legais especıficos ou restricoes de alguns produtos;diferente qualidade dos metadados;o uso de arquivos distintos (como audio e vıdeo).
outras aplicacoes ja enfrentaram os seguintes problemas:
softwares de DLs nao suportavam COs;como os componentes do CO tinham direitos legais distintos, eles nao poderiam ser tratadoscomo um objeto unico;suportar nao somente a busca dos componentes individuais, mas tambem a busca em que oscomponentes estao relacionados como um objeto unico.
1http://libdigi.unicamp.br/ (ultimo acesso em 05/05/11).Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 30 / 82
Formalizacao de CO e CBIR
Sumario
1 Introducao
2 Trabalhos Relacionados
3 Estudos de Caso Preliminares e AplicacoesSuperimposed Image Description and Retrieval Tool - SuperIDRA integracao de bibliotecas digitais de impressoes digitaisNo-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp
4 Formalizacao de CO e CBIR
5 Analisando as Tecnologias de CO da Perspectiva do 5S
6 Uma Infraestrutura baseada em DCC-OAI para ICOs
7 Cenarios de Aplicacao de nossa Infraestrutura
8 Conclusoes e Trabalhos Futuros
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 31 / 82
Formalizacao de CO e CBIR
Formalizacao de CO e CBIRPONTOS CHAVE
Por que a representacao formal?
A representacao formal do CO
A representacao formal do ICO
Qual o uso do CO mınimo?
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 32 / 82
Formalizacao de CO e CBIR
Formalizacao de CO e CBIR
Um objeto complexo e uma tupla cdo = (h,SCDO = DO ∪ SM,S), onde:
1 h ∈ H, onde H e um conjunto universal de identificadores unicos (labels);
2 DO = {do1, do2, . . . , don}, onde doi e um objeto digital ou outro objeto complexo;
3 SM = {sm1, sm2, . . . , smn} e um conjunto de streams;
4 S e uma estrutura que compoe o objeto complexo cdo em suas partes em SCDO.
Nesta definicao:
Os componentes DO e SM sao conjuntos finitos, portanto, a estrutura S tambem e finita,delimitando o que pertence ao objeto complexo ou nao;
A estrutura S no objeto complexo nao e especificada;
considerar uma abordagem de alto nıvel: agregar logicamente e ate fisicamente, objetosdistintos;
a diferenca entre CO e colecao?
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 33 / 82
Formalizacao de CO e CBIR
Formalizacao de CO e CBIR
Um objeto complexo mınimo e uma tupla cdo = (h,SCDO = DO ∪ SM,S),onde:
1 h ∈ H, onde H e um conjunto universal de identificadores unicos (labels);
2 DO = {do1}, onde do1 e um objeto digital;
3 SM = {sm1, sm2, . . . , smn} e um conjunto de streams;
4 S e uma estrutura que indica que {do1} e um componente de cdo.
Nesta definicao:
o CO mınimo tem por objetivo definir a menor granularidade permitida;
caso nao sejam necessarias as agregacoes, o conceito de objeto digital pode ser utilizado.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 34 / 82
Formalizacao de CO e CBIR
Formalizacao de CO e CBIR
O objeto complexo que representa esta tese tem a estrutura
co = (h, SCDO = DO ∪ SM, S), onde:
h1 e um identificador unico que representa co;DO = {do1, do2, do3}, onde do1 e a tese, do2 e um arquivo Powerpoint, e do3 e um vıdeo;SM = {sm1, sm2, . . . , smn} e um conjunto de streams;S e a estrutura que identifica como do1, do2, e do3 estao agregados.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 35 / 82
Formalizacao de CO e CBIR
Formalizacao de CO e CBIRFormalizacao de conceitos de CBIR
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 36 / 82
Formalizacao de CO e CBIR
Formalizacao de CO e CBIR
Uma stream de imagem (ou simplesmente imagem) I e um par (DI ,~I ), onde:
DI e um conjunto finito de pixels (pontos em 2, em que DI ⊂2), e~I : DI → D′ e uma funcao que assigna cada pixel p em DI a um~I (p) de valores em um espaco arbitrario D′ (por examplo,
D′ = IR3 quando uma cor no sistema RGB e assignada a um pixel).
Um vetor de caracterısticas ~fvI
de uma imagem I e um ponto no espaco n : ~fvI
= (fv1, fv2, ..., fvn), onde n e a dimensao do vetor.
Um objeto digital vetor de caracterısticas e um objeto digital do = (h, SM, ST, StructuredStreams) que representa o vetor de caracterısticas.
Dada a estrutura (G, L,F), G = (V , E) e um vetor de caracterısticas ~fvI
, um StructuredFeatureVector e uma funcao V →n que associa
cada nodo vk ∈ V com fvi ∈ ~fv I.
Um descritor de conteudo de imagem simples (em resumo, descritor de imagem) D e definido como uma tupla (hdesc , εD , δD ), onde:
hdesc ∈ H, onde H e o conjunto de identificadores universais unicos (labels);
εD : {I} →n e uma funcao que extrai um vetor de caracterısticas ~f v I de uma imagem I .δD :n ×n → e uma funcao de similaridade (por ex., baseada na distancia metrica) que computaa similaridade entre duas imagens como uma funcao da distancia entre os correspondentesvetores de caracterısticas.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 37 / 82
Formalizacao de CO e CBIR
Formalizacao de CO e CBIR
Um descritor de imagem composto D e uma tupla (hdesc ,D, δD), onde:
hdesc ∈ H, onde H e um conjunto dos identificadores universais unicos (labels);
D = {D1, D2, . . . , Dk} e um conjunto de k descritores de imagens simples pre-definidos.
δD e a funcao de similaridade que combina o valor de similaridade obtido de cada descritor Di ∈ D, i = 1, 2, . . . , k.
Uma descricao de conteudo de imagem ICD e uma tupla (FV , STFVs , StructuredFVs ), onde
FV = { ~fv1,~fv2, . . . ,
~fvk} e um conjunto de vetores de caracterısticas;
STFVs = {stfv1, stfv2, . . . , stfvm} e um conjunto de structural metadata specifications;
StructuredFVs = {strfv1, strfv2, . . . , strfvm} e um conjunto de funcoes StructuredFeatureVector definidas a partir dos vetores decaracterısticas no conjunto FV (o primeiro componente) da descricao de conteudo de imagem e das estruturas do conjunto STFVs (osegundo componente).
Um objeto digital imagem ido e um objeto digital = (h, SM, ST , StrStreams, ICD, StrICDStreams),onde:
1 h ∈ H, onde H e um conjunto de identificadores universais unicos (labels);2 SMsd = {smsd [i, j]} ∈ SM, onde smsd [i, j] =〈ai , . . . , aj 〉, 0 ≤ i ≤ j ≤ n. smsd [i, j] refere-se a substreams (regioes) de uma imagem stream.
3 ST = {st1, st2, . . . , stm} e um conjunto de structural metadata specifications;4 StrStreams = {stD1, stD2, . . . , stDm} e um conjunto de funcoes StructuredStream definidas de substreams da imagem no
conjunto SM (o segundo componente) do objeto digital e das estruturas do conjunto ST (o terceiro componente).5 ICD e uma descricao do conteudo da imagem.6 StrICDStreams = {stimgD1, stimgD2, . . . , stimgDm} e um conjunto de funcoes StructuredStream definidas a partir da stream de
imagem no conjunto SM (o segundo componente) do objeto digital de imagem e das estruturas do conjunto STFVs ∈ ICD(2).
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 38 / 82
Formalizacao de CO e CBIR
Formalizacao de CO e CBIR
Uma colecao de imagens ImgC e uma tupla (C , Simgdesc ,FVimgdesc ), onde C e uma colecao,Simgdesc e um conjunto de descritores de imagem, e FVdesc e uma funcaoFVdesc : {C × Simgdesc} → ICD(1), onde ICD e ido(5) e ido ∈ C .
A funcao FVdesc define como um vetor de caracterısticas foi obtido, dado um objeto digitalde imagem ido ∈ C e um descritor de imagem D ∈ Simgdesc .
Seja Simgdesc um conjunto de descritores de imagem com k identificadores em H. Umcatalogo de metadados de descritores de imagem DMSimgdesc
para Simgdesc e um conjunto
de pares {(h, {dmdesc1, . . . , dmdesckh})}, onde h ∈ H e dmdesci sao Descriptive
metadata specifications para descritores de imagem.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 39 / 82
Formalizacao de CO e CBIR
Formalizacao de CO e CBIR
Exemplo: busca de imagem por conteudo da imagem 01 ancylostoma.jpg : vetor decaracterısticas, e medidas de distancia para outras imagens da colecao.
<?xml version="1.0" encoding="UTF8"?><image>01_ancylostoma.jpg
<image_name>01_ancylostoma.jpg</image_name><image_path>/home/nadiapk/data/uploads/01_ancylostoma.jpg</image_path><image_feature_vector_name>/data/fv/01_ancylostoma.txt
</image_feature_vector_name><image_descriptor>Bic <image_name>01_ancylostoma.jpg<image_dist_value>0
</image_dist_value></image_name> <image_name>13_clonorchis.jpg<image_dist_value>80 </image_dist_value></image_name> <image_name>25_echinoc_granul_5x.jpg<image_dist_value>85 </image_dist_value></image_name> <image_name>09_cerccarat.jpg<image_dist_value>88 </image_dist_value></image_name> <image_name>16_Paramphystomidae.jpg<image_dist_value>88 </image_dist_value></image_name>
</image_descriptor> </image></image>
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 40 / 82
Formalizacao de CO e CBIR
Formalizacao de CO e CBIRO objeto complexo de imagem (ICO) tem a estrutura ico = (h, SCDO = DO ∪ SM, S), onde:
h1 e um identificador unico;
DO = {do1, do21...do2k, do31, ...do3k}, onde do1 e uma imagem, k e o numero de descritores, do21...do2k e um conjunto de objetosdigitais do tipo StructuredFeatureVector, e do31...do3k e um conjunto de StructuredFeatureVectors (com as medidas de distancia);
SM = {sm1, sm2, . . . , smn} e um conjunto de streams;
S e a estrutura que identifica como do1, do21...do2k, e do31, ...do3k estao agregados.
Na ferramenta SuperIDR, cada ICO tem a estrutura ico = (h, SCDO = DO ∪ SM, S), onde:
h1 e um identificador unico que identifica ico;
DO = {do1, do21, do31}, onde do1 e uma imagem de parasita, k = 1 (descritor BIC), do21 e um objeto digital do tipoStructuredFeatureVector, e do31 e um StructuredFeatureVector;
SM = {sm1, sm2, . . . , smn} e um conjunto de streams;
S e uma estrutura XML que identifica como do1, do2, and do3 estao agregados.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 41 / 82
Analisando as Tecnologias de CO da Perspectiva do 5S
Sumario
1 Introducao
2 Trabalhos Relacionados
3 Estudos de Caso Preliminares e AplicacoesSuperimposed Image Description and Retrieval Tool - SuperIDRA integracao de bibliotecas digitais de impressoes digitaisNo-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp
4 Formalizacao de CO e CBIR
5 Analisando as Tecnologias de CO da Perspectiva do 5S
6 Uma Infraestrutura baseada em DCC-OAI para ICOs
7 Cenarios de Aplicacao de nossa Infraestrutura
8 Conclusoes e Trabalhos Futuros
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 42 / 82
Analisando as Tecnologias de CO da Perspectiva do 5S
Analisando as Tecnologias de CO da Perspectiva doArcabouco 5SPONTOS CHAVE
Por que o 5S?
Por que DCC, Buckets e OAI-ORE?
Por que os conceitos de identidade, os componentes, aestrutura e a delimitacao do objeto?
A estrutura dos componentes e sempre a mesma (por ex.: 5S,DCC)?
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 43 / 82
Analisando as Tecnologias de CO da Perspectiva do 5S
Conceitos Manipulados
Manipulam uma quantidade grande de conceitos:
O DCC foca em:
uma identidade unica;uma delimitacao persistente do objeto, definindo o que e parte dele ou nao;a concessao da composicao diversificada dos componentes; ea composicao de COs, criando hierarquias e camadas.
Buckets, em contrapartida, requer:
handles,componentes (chamados de packages),elementos,metodos de acesso econtainers.
Finalmente, a arquitetura do OAI-ORE essencialmente consiste de:
identificadores;recursos;protocolo padrao, como o HTTP, para o acesso ao dado;links atraves da referencia URI; enamed graphs para encapsular a informacao em um objeto composto.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 44 / 82
Analisando as Tecnologias de CO da Perspectiva do 5S
DCC
Um CO no DCC pode ser descrito como um elementocdo = (h,SCDO = DO ∪ SM,S), onde:
1 h ∈ H, e H e um conjunto de identificadores unicos (URIs e URIs relativas);
2 DO = {do1, do2, . . . , don}, onde doi e um DCC;
3 SM = {sm1, sm2, . . . , smn} e um conjunto de streams;
4 S e uma estrutura XML que compoe o objeto complexo cdo em suas partespresentes em SCDO.
Societies: atraves dos diferentes DCCs, software, regras de acesso e papeis;
Scenario: funcoes disponıveis na interface do DCC;
Structures: XML organiza os componentes no DCC;
Streams: os diferentes tipos de multimıdia manipulados;
Space: vocabulario para descricao do conteudo, estrutura, interface, metadados, versoes,funcionalidade, e aplicabilidade;
→ Nao necessariamente uma estrutura no 5S representa a mesma estrutura no DCC.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 45 / 82
Analisando as Tecnologias de CO da Perspectiva do 5S
Buckets
Um objeto complexo em Buckets pode ser representado por um elementocdo = (h,SCDO = DO ∪ SM,S), onde:
1 h ∈ H, onde H e um conjunto de identificadores unicos;
2 DO = {do1, do2, . . . , don}, onde doi e um elemento, um package ou umbucket;
3 SM = {sm1, sm2, . . . , smn} e um conjunto de streams;
4 S e uma estrutura de diretorio Unix.
Societies: os diferentes grupos que acessam packages, elementos ou buckets;
Scenario: funcoes disponıveis para a manipulacao do bucket;
Structures: a estrutura dos elementos em buckets, e packages;
Streams: os diferentes tipos de multimıdia manipulados;
Space: vocabulario usado como metadado do bucket, informacoes do package, informacoes doselementos, termos utilizados no bucket e restricoes
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 46 / 82
Analisando as Tecnologias de CO da Perspectiva do 5S
OAI-ORE
Um objeto complexo em OAI-ORE pode ser representado por um elementocdo = (h,SCDO = DO ∪ SM,S), onde:
1 h ∈ H, where H e um conjunto de identificadores unicos (URIs);
2 DO = {do1, do2, . . . , don}, onde doi e um recurso;
3 SM = {sm1, sm2, . . . , smn} e um conjunto de streams;
4 S e um resource map presente no OAI-ORE que compoe o objeto complexocdo a partir de suas partes em SCDO.
Societies: comunidades que realizam troca e intercambio de recursos;
Scenario: processos de autores, deposito, troca, visualizacao, reuso e preservacao de agregacoes.
Structures: RDF/XML e RDFa;
Streams: os diferentes tipos de multimıdia manipulados;
Space: tipos de links entre recursos, propriedades dos recursos (como tipo semantico, tipo de mıdia, eformato).
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 47 / 82
Analisando as Tecnologias de CO da Perspectiva do 5S
Conceitos Basicos de CO da Perspectiva de DCC, Buckets,e OAI-ORE.
Descricao DCC Buckets OAI-ORE
Identificador URI Handle URI
unico
Componentes DCC Passivo e Diretorios Unix Resource map,
internos de Processo agregacoes
A Composicao Partes acessadas atraves Packages e Buckets Resource map e
do CO da URI relativa, DCCs agregados agregacoes
O que pode ser Metadados, conteudo, Metadados, conteudo Metadados
encapsulado? processos
Utilizacao Encapsulamento de Construcao de Container Reuso de objetos,
conteudo independente do intercambio
repositorio
Formato Conteudo, estrutura, RFC-1807, Mapeamento atraves
interface e metadados Diretorios Unix doresource map, URIs,
agregacao
Implementacao Arquivo Jar, extensıvel Acesso atraves do Mapeamento de recursos
para outras linguagens Author e Management atraves do resource map
Tool
Vantagens Ontologia, interface, Ponteiros para package Intercambio de repositorios,
encapsula software remotos, redes ou utilizado como padrao entre
base de dados, log sistemas distintos
Administracao de Encapsula conteudo Como um arquivo Como um arquivo
software? e software normal normal
Principal uso Encapsula conteudo Objetos de Repositorios Para descrever objetos
na literatura em aplicacoes e web ativos e agregacoes
Preservacao Encapsula conteudo Diretorios podem ser A descricao facilita o
executavel e nao executavel, zipados para backup ou trasporte e reuso
estrutura, metadados, transporte
e permite reuso
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 48 / 82
Analisando as Tecnologias de CO da Perspectiva do 5S
Caso de Estudo: Integrando uma DL de ImpressoesDigitais
N. P. Kozievitch, R. da S. Torres, S. H. Park, E. A. Fox, N. Short, A. L. Abbott, S. Misra, and M. Hsiao. Rethinking Fingerprint evidence throughintegration of very large digital libraries. VLDL-(ECDL2010), 2010.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 49 / 82
Analisando as Tecnologias de CO da Perspectiva do 5S
Caso de Estudo: Integrando uma DL de ImpressoesDigitais
Temos CO1= (h,SCDO = DO ∪ SM,S), onde:
1 h e um identificador unico que representa CO1, e h ∈ H, onde H eum conjunto de identificadores unicos universais (labels);
2 DO = {A.1,B.1,C .1 e D.1};
3 SM = {sm1, sm2, . . . , smn} e um conjunto de streams;
4 S e uma estrutura XML que compoe o objeto complexo cdo em suaspartes em SCDO.
Society: agencias de justica criminal, os academicos, os estudantes epesquisadores.
Structures: organizacao da informacao referentes a um mesmoindivıduo.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 50 / 82
Uma Infraestrutura baseada em DCC-OAI para ICOs
Sumario
1 Introducao
2 Trabalhos Relacionados
3 Estudos de Caso Preliminares e AplicacoesSuperimposed Image Description and Retrieval Tool - SuperIDRA integracao de bibliotecas digitais de impressoes digitaisNo-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp
4 Formalizacao de CO e CBIR
5 Analisando as Tecnologias de CO da Perspectiva do 5S
6 Uma Infraestrutura baseada em DCC-OAI para ICOs
7 Cenarios de Aplicacao de nossa Infraestrutura
8 Conclusoes e Trabalhos Futuros
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 51 / 82
Uma Infraestrutura baseada em DCC-OAI para ICOs
Uma Infraestrutura baseada em DCC-OAI para ObjetosComplexos de ImagemPONTOS CHAVE
Qual a inovacao?
Vantagens?
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 52 / 82
Uma Infraestrutura baseada em DCC-OAI para ICOs
Arquitetura de uma biblioteca digital baseada em COs.
SERVIÇOS
Texto, Áudio, Vídeo, Imagem,
etc.
Artigo, Vídeo,Documento, Livro,
Software, etc.
XML, MP3, DOC, EXE,
PDF, etc.
Tipo de Mídia FormatoTipo SemânticoAnotação,Links, etc.
Outros
OBJETOS COMPLEXOS
...
PR
OC
ESS
AM
EN
TO
APLICAÇÕES DE BIBLIOTECAS DIGITAIS
ENC
APS
ULA
ME
NTO
PU
BLIC
AÇÃ
O
NAV
EG
AÇ
ÃO
BU
SCA
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 53 / 82
Uma Infraestrutura baseada em DCC-OAI para ICOs
Utilizando DCCs para ICOs
ImageDCC:(a) conteudo: a imagem 06 Ancylostoma.jpg;
(b) estrutura: a estrutura delimitando a imagem;
(c) interface: a interface do ImageDCC com a operacao GetImage;
(d) metadados: descricao sobre a imagem cujo nome e 06 Ancylostoma.
O ImageCODCC:(a) conteudo: o ImageDCC (outro DCC) encapsulando a imagem 06 Ancylostoma.jpg, o vetor de caracterısticas, e as medidas de distancia;
(b) estrutura: a estrutura relaciona a imagem, o vetor de caracterıstica, e a medidas de distancia em um arquivo XML;
(c) interface: operacoes para acessar o vetor de caracterısticas, as medidas de distancia e o ImageDCC;
(d) metadados: descricao sobre o processo CBIR.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 54 / 82
Uma Infraestrutura baseada em DCC-OAI para ICOs
A estrutura do ImageCODCC e o DescriptorDCC
<?xml version="1.0" encoding="UTF8"?><image>01_ancylostoma.jpg
<image_name>01_ancylostoma.jpg</image_name><image_path>/home/nadiapk/data/uploads/01_ancylostoma.jpg</image_path><image_feature_vector_name>/data/fv/01_ancylostoma.txt
</image_feature_vector_name><image_descriptor>Bic <image_name>01_ancylostoma.jpg<image_dist_value>0
</image_dist_value></image_name> <image_name>13_clonorchis.jpg<image_dist_value>80 </image_dist_value></image_name> <image_name>25_echinoc_granul_5x.jpg<image_dist_value>85 </image_dist_value></image_name> <image_name>09_cerccarat.jpg<image_dist_value>88 </image_dist_value></image_name> <image_name>16_Paramphystomidae.jpg<image_dist_value>88 </image_dist_value></image_name>
</image_descriptor> </image></image>
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 55 / 82
Uma Infraestrutura baseada em DCC-OAI para ICOs
A Infraestrutura para Busca de Imagens por Conteudo
DescriptorLibraryDCC
CBIRProcessDCC ManagerDCC
DescriptorDCC ExtractionDCC
DistanceDCC
DCCs de Processo DCCs Passivos
ImageDCC
RetrievalDCC
ImageCODCC
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 56 / 82
Uma Infraestrutura baseada em DCC-OAI para ICOs
A Publicacao de Objetos Complexos
alem dos metadados textuais, tambem estao disponıveis os metadados visuais.
2 verbos adicionais foram implementados:1 ListFeatureVectors: lista de vetores de caracterısticas para todas as imagens disponıveis2 GetFeatureVector: vetores de caracterısticas.
MetadadosVisuais
...
Coleção de ICOs
Descritor
MetadadosTextuais
...
Biblioteca de Descritores
Extração
DistânciaDescriptor
Extraction
Distance
MetadadosTextuais
ImagemMetadadosTextuais
ICOMetadadosTextuais
MetadadosVisuais
ImagemMetadadosTextuais
ICOMetadadosTextuais
Descritor
Extração
Distância
MetadadosTextuais
MetadadosTextuais
MetadadosTextuais
MetadadosTextuais
MetadadosTextuais
<OAI-PMH xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"><responseDate>2010-12-27T20:49:56Z</responseDate><request verb="ListFeatureVectors" metadataPrefix="zip">http://localhost:8180/oai/provider</request>−<ListFeatureVectors>−<header><feature_vector::ImageName>Ancylostoma_caninum.jpg<\feature_vector::ImageName><feature_vector::DescriptorName>ContourMSFractalDimension<\feature_vector::DescriptorName><feature_vector::X> <feature_vector::value>0.950999999999999<\feature_vector::value> <feature_vector::value>1.000999999999999<\feature_vector::value> <feature_vector::value>3.950999999999999<\feature_vector::value> (…) <feature_vector::value>0.950999999999999<\feature_vector::value> <feature_vector::value>0.950999999999999<\feature_vector::value> <feature_vector::value>0.950999999999999<\feature_vector::value> <feature_vector::value>0.950999999999999<\feature_vector::value> <feature_vector::value>0.950999999999999<\feature_vector::value><\feature_vector::X></header></ListFeatureVectors></OAI-PMH></OAI-PMH>
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 57 / 82
Uma Infraestrutura baseada em DCC-OAI para ICOs
Estudo de caso - SuperIDR
imagens de parasitas da Biologia;
descritor Border/Interior pixel Classification (BIC);
publicacao com o software jOAI2;
A implementacao do prototipo foi realizada em cinco fases:a “descoberta” e definicao de cada parte do CO;a identificacao das partes do CO;o processo de CBIR;o encapsulamento do imagem e metadados;a publicacao do CO.
2http://www.dlese.org/dds/services/joai software.jspNadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 58 / 82
Uma Infraestrutura baseada em DCC-OAI para ICOs
Estudo de caso - SuperIDR - SpeciesDCC.
<?xml version="1.0" encoding="UTF8"?><species>Ancylostoma caninum <species_family>Ancylostomotidae</species_name> <species_genus> Ancylostoma</species_genus> <species_class> Nematoda</species_class> <image>01_ancylostoma.jpg
<image_name>01_ancylostoma.jpg</image_name><image_feature_vector_name>/home/nadiapk/data/fv/01_ancylostoma.txt</image_feature_vector_name><image_descriptor>Bic
<image_name>01_ancylostoma.jpg <image_dist_value>0</image_dist_value></image_name> <image_name>13_clonorchis.jpg<image_dist_value>80</image_dist_value></image_name> <image_name>25_echinoc_granul_5x.jpg<image_dist_value>85</image_dist_value></image_name> <image_name>09_cerccarat.jpg<image_dist_value>88</image_dist_value></image_name> <image_name>16_Paramphystomidae.jpg<image_dist_value>88</image_dist_value></image_name>
</image_descriptor> </image> <image>06_ancylostoma.jpg
<image_name>06_ancylostoma.jpg</image_name><image_feature_vector_name>/home/nadiapk/data/fv/06_ancylostoma.txt</image_feature_vector_name><image_descriptor>Bic
<image_name>06_ancylostoma.jpg <image_dist_value>0</image_dist_value></image_name> <image_name>26_taeniasoliumescol2_5xpp.jpg<image_dist_value>34</image_dist_value></image_name> <image_name>07_cecariaparyphostomum.jpg<image_dist_value>35</image_dist_value></image_name> <image_name>04a_NECATOR10X.jpg<image_dist_value>41</image_dist_value></image_name> <image_name>12_furcocerc.jpg<image_dist_value>41</image_dist_value></image_name>
</image_descriptor> </image></species>
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 59 / 82
Uma Infraestrutura baseada em DCC-OAI para ICOs
Benefıcios da Infraestrutura
o gerenciamento uniforme da colecao de imagens, metadados, edescritores;
a disponibilidade de integracao de CBIR em outros domınios;
as aplicacoes podem manipular diretamente os DCCs, sem sepreocupar com detalhes;
a flexibilidade para combinar componentes e servicos;
o intercambio e disponibilidade de informacoes;
a publicacao de imagens, ICOs, e descritores, com metadados visuaise textuais; e
a centralizacao do processamento, encapsulamento, publicacao ecoleta de ICOs em somente uma infraestrutura.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 60 / 82
Cenarios de Aplicacao de nossa Infraestrutura
Sumario
1 Introducao
2 Trabalhos Relacionados
3 Estudos de Caso Preliminares e AplicacoesSuperimposed Image Description and Retrieval Tool - SuperIDRA integracao de bibliotecas digitais de impressoes digitaisNo-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp
4 Formalizacao de CO e CBIR
5 Analisando as Tecnologias de CO da Perspectiva do 5S
6 Uma Infraestrutura baseada em DCC-OAI para ICOs
7 Cenarios de Aplicacao de nossa Infraestrutura
8 Conclusoes e Trabalhos Futuros
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 61 / 82
Cenarios de Aplicacao de nossa Infraestrutura
Cenarios de Aplicacao de nossa InfraestruturaPONTOS CHAVE
Como e feito o reuso?
Foi realizado um teste com usuarios ou de performance?
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 62 / 82
Cenarios de Aplicacao de nossa Infraestrutura
A Integracao de Bibliotecas Digitais de Impressoes Digitais
A implementacao do prototipo foi realizada em cinco fases:a “descoberta” e definicao de cada parte do CO;
a identificacao das partes do CO;
o processo de CBIR;
o encapsulamento do imagem e metadados;
a publicacao do CO.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 63 / 82
Cenarios de Aplicacao de nossa Infraestrutura
A Integracao de Bibliotecas Digitais de Impressoes Digitais
Fase 3: O processo CBIR:
descritor Statistical Analysis of Structural Information (SASI);
Resultado da consulta CBIR para a Figura A - parte 11 e Figura B -parte 3:
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 64 / 82
Cenarios de Aplicacao de nossa Infraestrutura
A Integracao de Bibliotecas Digitais de Impressoes Digitais
Fase 4: O encapsulamento utilizando o IndividualDCC.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 65 / 82
Cenarios de Aplicacao de nossa Infraestrutura
A Integracao de Bibliotecas Digitais de Impressoes Digitais
XML para a agregacao do conceito de indivıduo:
<?xml version="1.0" encoding="UTF8"?><individual>Joseph Murch <individual_name>Joseph Murch</individual_name> <individual_age>22</individual_age> <individual_sex> M</individual_sex> <image_DL_indiv>Joseph Murch
<image_DL>Police Prints Digital Library</image_DL> <image> Murch_110050328.jpg <image_name>Murch_110050328.jpg</image_name>
<image_feature_vector_name>/home/nadiapk/data/fv/Murch_110050328.jpg.txt</image_feature_vector_name><image_descriptor>SASI
<image_name> Murch_110050328.jpg <image_dist_value>0</image_dist_value></image_name> <image_name>Fox_110050395.jpg<image_dist_value>0.0033</image_dist_value></image_name> <image_name>Fox_110050350.jpg<image_dist_value>0.0037</image_dist_value></image_name> <image_name>Murch_110050327.jpg<image_dist_value>0.0038</image_dist_value></image_name> <image_name>Fox_110050392.jpg<image_dist_value>0.0039</image_dist_value></image_name>
</image_descriptor><\image></image_DL_indiv> <image_DL_indiv>Joseph Murch
<image_DL>Crime Scene Digital Library</image_DL><image> 524d_4_2.jpg
<image_name>524d_4_2.jpg</image_name><image_feature_vector_name>/home/nadiapk/data/fv/524d_4_2 .txt</image_feature_vector_name><image_descriptor>SASI
<image_name> 524d_4_2.jpg <image_dist_value>0</image_dist_value></image_name> <image_name>524D_10_1.jpg<image_dist_value>0.0045</image_dist_value></image_name> <image_name>524D_22_1.jpg<image_dist_value>0.0059</image_dist_value></image_name> <image_name>524D_25_2.jpg<image_dist_value>0.0060</image_dist_value></image_name> <image_name>524D_4_1.jpg<image_dist_value>0.0082</image_dist_value></image_name>
</image_descriptor> </image> </image_DL_indiv><individual>
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 66 / 82
Cenarios de Aplicacao de nossa Infraestrutura
SuperIDR e Busca Multimodal
baseada em re-rank e rank-aggregation;cada ranking a ser combinado pode ser calculado por um descritor diferente;se duas imagens sao semelhantes, as suas ranked lists devem ser semelhantes tambem;algoritmo de re-ranking: como entrada um conjunto de ranked lists e funcao paracomputar uma matriz de distancia resultante.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 67 / 82
Cenarios de Aplicacao de nossa Infraestrutura
SuperIDR e Busca Multimodal - Estudo de Caso
Busca Visual.
Busca Textual.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 68 / 82
Cenarios de Aplicacao de nossa Infraestrutura
SuperIDR e Busca Multimodal - Estudo de Caso
Busca Multimodal: incorporar a busca textual e a busca multimodal (com os algoritmosde re-rank e rank-aggregation);
Posteriormente, os mesmos COs apresentados na secao 6.3 foram disponibilizados para apublicacao.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 69 / 82
Cenarios de Aplicacao de nossa Infraestrutura
Busca em Estorias de Vıdeo
agrupar quadros de vıdeos com conteudo semelhante;
um julgamento relevante para um frame de vıdeo possa ser aplicado a todos os framessemelhantes.
Figura: Um exemplo de estorias - vıdeo A New Horizon, segment 04.
N. P. Kozievitch, J. Almeida, R. da S. Torres, A. Santanche, N. Leite. Reusing a Compound-Based Infrastructure for Searching Video Stories. IRI-2011.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 70 / 82
Cenarios de Aplicacao de nossa Infraestrutura
Utilizando DCCs para a Busca de Estorias
Figura: A estrutura do CBIRStoryDCC.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 71 / 82
Cenarios de Aplicacao de nossa Infraestrutura
Estudo de Caso
50 vıdeos foram selecionadas randomicamente do Open Video Project3;
a agregacao trataria o conceito das estorias para cada vıdeo:
Se analisarmos as cinco imagens mais semelhantes, na regiao inferior da Figura 4, temos
que:1 as tres primeiras imagens mais semelhantes sao relativas a mesma estoria, do mesmo vıdeo;2 a quarta imagem e relativa a uma estoria no vıdeo Drift Ice as a Geologic Agent, segment 03 ; e3 a quinta imagem e relativa a uma estoria no vıdeo Exotic Terrane, segment 02.
3http://www.open-video.org/Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 72 / 82
Conclusoes e Trabalhos Futuros
Sumario
1 Introducao
2 Trabalhos Relacionados
3 Estudos de Caso Preliminares e AplicacoesSuperimposed Image Description and Retrieval Tool - SuperIDRA integracao de bibliotecas digitais de impressoes digitaisNo-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp
4 Formalizacao de CO e CBIR
5 Analisando as Tecnologias de CO da Perspectiva do 5S
6 Uma Infraestrutura baseada em DCC-OAI para ICOs
7 Cenarios de Aplicacao de nossa Infraestrutura
8 Conclusoes e Trabalhos Futuros
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 73 / 82
Conclusoes e Trabalhos Futuros
Conclusoes e Trabalhos FuturosPONTOS CHAVE
Principais conceitos?
Benefıcios e Vantagens?
aspectos teoricos + praticos de COs em DLs = maior suporte paracriacao, manutencao e integracao de sistemas heterogeneos.
formalizacao + tecnologias de CO + aplicacoes;
DCC, Buckets e OAI-ORE;
infraestrutura para suportar o processo de CBIR e ICOs;
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 74 / 82
Conclusoes e Trabalhos Futuros
Conclusoes e Trabalhos Futuros
As principais contribuicoes deste trabalho sao:1 formalizacao de conceitos relacionados a CO, ICOs e CBIR;2 comparacao e analise das tecnologias DCC, Buckets e OAI-ORE;3 proposta e desenvolvimento de um prototipo que prove:
o acesso e gestao homogenea ao processo CBIR, e fontes de dados;a facil integracao do processo CBIR atraves da componentizacao eencapsulamento;a distribuicao e coleta de metadados de ICOs, juntamente com seuscomponentes;o acesso aos componentes individuais e ao CO como entidade unica;a centralizacao do processamento, encapsulamento, publicacao ecoleta do ICO.
4 reuso em buscas multimodais e sumarizacao de vıdeos;5 exemplos e descricao de cenarios;6 exemplo de integracao de dados e processos no SuperIDR e impressoes
digitais.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 75 / 82
Conclusoes e Trabalhos Futuros
Conclusoes e Trabalhos Futuros
Trabalhos futuros, tanto do ponto de vista teorico quanto deimplementacao:
formalizacao de aspectos como qualidade de dados, granularidade, persistencia, versoes;utilizacao do OAI-ORE;utilizacao de outros descritores, alem da composicao dos mesmos;uso da aplicacao em outros domınios;uso da aplicacao com outras mıdias.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 76 / 82
Conclusoes e Trabalhos Futuros
Contribuicoes
Aplicações
Formalismo
Cos eTecnologias
JCDL2009
VLDL2010
JIDM2011
IJDL2011I3 Journal2011
Artigos SubmetidosArtigos Aceitos
VTGIS2010
IRI2011
ICADL2010
ECDL2010CESCA42010
CESCA32010
CESCA22010
CESCA12010
Relatórios
TR-10-05
IC-09-23
IC-10-32IC-11-01
Geoinfo2010Ipes2010
Wipte2010
SBBD2008
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 77 / 82
Conclusoes e Trabalhos Futuros
Referencias
N. P. Kozievitch. Complex objects in digital libraries. In JCDL 09, Doctoral Consortium, 2009.
U. Murthy, N. P. Kozievitch, E. A. Fox, R. da S. Torres, and E. Hallerman. SuperIDR: A tablet PC tool for Image Description and Retrieval,
Wipte, 2010.
N. P. Kozievitch, R. da S. Torres, S. H. Park, E. A. Fox, N. Short, A. L. Abbott, S. Misra, and M. Hsiao. Rethinking Fingerprint evidence
through integration of very large digital libraries. VLDL Workshop ECDL2010, 2010.
N. P. Kozievitch, J. Almeida, R. da S. Torres, A. Santanche, and N. Leite. Reusing a Compound-Based Infrastructure for Searching Video
Stories. In 12th IRI- 2011.
N. P. Kozievitch and R. da S. Torres. Describing oai-ore from the 5s framework perspective. ICADL10, 2010.
N. P. Kozievitch, R. da S. Torres, F. Andrade, U. Murthy, E. Fox, and E. Hallerman. A teaching tool for parasitology: enhancing learning with
annotation and image retrieval. ECDL10, 2010.
N. P. Kozievitch, R. da S. Torres, S. H. Park, E. A. Fox, N. Short, A. L. Abbott, S. Misra, and M. Hsiao. Database for Fingerprint experiments.
Poster for CESCA, 2010.
N. P. Kozievitch, T. R. C. Falcao, and R. da S. Torres. A .Net Implementation of a Content-Based Image Search Component. SBBD, 2008.
N. P. Kozievitch, R. da S. Torres, T. Falcao, E. Ramos, F. Andrade, S. M. Allegretti, M. T. Ueta, R. R. Madi, U. Murthy, E. A. Fox, and E.
Hallerman. A Geographic Annotation Service in SuperIDR. VT-GIS, 2010.
N. P. Kozievitch, R. da S. Torres, T. Falcao, E. Ramos, F. Andrade, S. M. Allegretti, M. T. Ueta, R. R. Madi, U. Murthy, E. A. Fox, Y. Chen,
and E. Hallerman. Evaluation of a Tablet PC image annotation and retrieval tool in the parasitology domain. Technical Report IC-09-23, 2009.
U. Murthy, N. P. Kozievitch, J. Leidig, R. da S. Torres, S. Yang, M. Goncalves, L. Delcambre, D. Archer, and E. A. Fox. Extending the 5s
framework of digital libraries to support complex objects, superimposed information, and content-based image retrieval services. Technical
Report TR-10-05, 2010.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 78 / 82
Conclusoes e Trabalhos Futuros
Referencias
N. P. Kozievitch, S. Codio, J. A. Francois, E. Fox, and R. da S. Torres. Exploring CBIR concepts in the CTRnet Project. Technical Report
IC-10-32, 2010.
N. P. Kozievitch, E. Fox, and R. da S. Torres. Analyzing Compound Object Technologies from the 5S Perspective. Technical Report IC-11-01,
2011.
F. B. Gil, N. P. Kozievitch, and R. da S. Torres. A geographic annotation service for biodiversity systems. In Proceedings of XV GeoInfo, 2010.
S. H. Park, N. P. Kozievitch, E. A. Fox, N. Short, A. L. Abbott, S. Misra, and M. Hsiao. Model-based Fingerprint image quality analysis. Poster
for CESCA, 2010.
S. Misra, N. Short, A. L. Abbott, M. Hsiao, N. P. Kozievitch, and E. A. Fox. Fingerprint sufficiency. Poster for CESCA, 2010.
N. Short, S. Misra, A. L. Abbott, M. Hsiao, N. P. Kozievitch, and E. A. Fox. Latent Fingerprint matching. Poster for CESCA, 2010.
S. Yang, V. Srinivasan, N. P. Kozievitch, L. T. Li, R. da Silva Torres, T. Whalen, A. Kavanaugh, S. D. Sheetz, D. Shoemaker, and E. A. Fox.
CTRnet DL for Disaster Information Services. In JCDL 11, 2011.
M. Hsiao, N. P. Kozievitch, S. H. Park, E. A. Fox, N. Short, A. L. Abbott, S. Misra, R. Murch, and B. Budowle. Toward a quantitative basis for
sufficiency of friction ridge pattern detail. Impression Pattern Evidence Symposium, 2010.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 79 / 82
Conclusoes e Trabalhos Futuros
Perguntas????
Perguntas??
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 80 / 82
Conclusoes e Trabalhos Futuros
Metodologia
Figura: Visao geral da metodologia empregada nesta tese.
N. P. Kozievitch. Complex objects in digital libraries. In JCDL 09: Proceedings of the 9th ACM/IEEE-CS joint conference on Digital libraries, Doctoral
Consortium, 2009.
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 81 / 82
Conclusoes e Trabalhos Futuros
Formalizacao de CO e CBIR
Um objeto digital e uma tupla do = (h,SM,ST , StructuredStreams), onde:
1 h ∈ H, onde H e um conjunto de identificadores universais unicos (labels);
2 SM = {sm1, sm2, . . . , smn} e um conjunto de streams;
3 ST = {st1, st2, . . . , stm} e um conjunto de Structural Metadata Specifications;
4 StructuredStreams = {stsm1, stsm2, . . . , stsmp} e um conjunto de funcoes de StructuredStreamdefinidas a partir de streams no conjunto SM do objeto digital e de estruturas no conjunto ST .
Nesta definicao:
Streams sao sequencias de elementos de um tipo arbitrario (como bits, characters, imagens, etc.).
Structural Metadata Specifications sao relacoes entre o objeto e suas partes (como os capıtulos de um livro).
Structured Streams definem o mapeamento de uma estrutura para streams (como capıtulos, secoes, introducao, etc.sao organizados para definir um livro).
Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 82 / 82