Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Gestão da Informação em Grandes Repositórios de Dados Multimidia

Marcos André GonçalvesProfessor Adjunto

Departamento de Ciência da ComputaçãoUniversidade Federal de Minas Gerais

Simpósio Jovem Cientista

Academia Brasileira de CiênciasRio de Janeiro, 05 de Maio de 2008

Page 2: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Ciência da Computação

Foco na Resolução de Problemas!

“Ciência da computação tem tanto a ver com o computador como a Astronomia com o telescópio, a Biologia com o microscópio, ou a Química com os tubos de ensaio.” (Dijkstra)

Aspectos de Ciência, Matemática, e Engenharia

Grande interdisciplinaridade

Se tornando ubíqua!

nivio

Categorizacao: classifica docs por categoriaSemi-estruturados: pag.Web, pobres em estruturaModelos de RI: melhorar a precisao das respostasEficiencia em RI: eficiencia de tempo e espacoMineracao: regras de associacao em modelos RI; mineracao de ocorrencias em BD distribuidos

Page 3: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Computação: Interface Com outras Ciências e Engenharias

Computação

Matemática

BiologiaEngenhariaEletrica/Eletrônica

Física

Ciência daInformação

EstatisticaE muitos outras...

Page 4: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Ciência da Computação – Grandes Áreas (ACM) Hardware Computer Systems Organization Software Data Theory of Computation Mathematics of Computing Information Systems

MODELS AND PRINCIPLES DATABASE MANAGEMENT INFORMATION STORAGE AND RETRIEVAL INFORMATION SYSTEMS APPLICATIONS INFORMATION INTERFACES AND PRESENTATION (e.g., HCI)

Computing Methodologies Computer Applications

Page 5: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Ciência da Computação – Grandes Desafios 2006-2016 (Brasil)1. Gestão da informação em grandes volumes de dados

multimídia distribuídos

2. Modelagem computacional de sistemas complexos artificiais, naturais e sócioculturais e da interação homem-natureza

3. Impactos para a área da computação da transição do silício para novas tecnologias

4. Acesso participativo e universal do cidadão brasileiro ao conhecimento

5. Desenvolvimento tecnológico de qualidade: sistemas disponíveis, corretos, seguros, escaláveis, persistentes e ubíquos

Page 6: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Gestão da Informação em Grandes Volumes de Dados Multimídia Distribuídos

Problema: Quase tudo que vemos, lemos, ouvimos, escrevemos,

medimos é coletado e disponibilizado em sistemas de informação computacionais

Captura-se cada vez mais dados da natureza. Como viver, trabalhar, ter lazer e evoluir nesse universo informacional? Como tornar isso um ganho para a sociedade?

Objetivo: Desenvolver soluções para o tratamento, a recuperação e a

disseminação de informação relevante, a partir de volumes exponencialmente crescentes de várias modalidades de dados, incluindo multimídia

Page 7: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Soluções em Ciência da Computação

Algoritmos e estruturas de dados formam o núcleo da ciência da computação

Algoritmo

Descrição de um padrão de comportamento, expresso em termos de um conjunto finito de ações (Dijkstra, 1971)

Implementável como conjuntos de instruções de máquina

Manipulam dados

Estruturas de Dados

Representação organizada dos dados para fins de manipulação eficiente

Page 8: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Foco da Pesquisa

Teorias e Métodos para Sistemas de Informação Complexos Bibliotecas Digitais

Algoritmos e Métodos para Recuperação de Informação e Bancos de Dados Aprendizado de Máquina

Page 9: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Teorias e Métodos para Sistemas de Informação Complexos Bibliotecas Digitais

Sistemas de informação bastante complexos que envolvem coleções de objetos digitais e conjuntos de serviços (e.g., busca, navegação, recomendação) normalmente customizados para uma comunidade alvo.

Page 10: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Teorias e Métodos para Sistemas de Informação Complexos Contribuições Teóricas:

Modelo 5S (Streams, Structures, Spaces Scenarios, Societies) 1o. Modelo Teórico-Formal para a área

Modelos de Qualidade Ontologias.

Contribuições Práticas: Ferramentas de Design: 5SGraph Ferramentas de Geração de Código: 5SL + 5SGen Arcabouços de Componentes: WS-ODL Ferramentas de Aferição de Qualidade: 5SQual

Page 11: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Page 12: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Page 13: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Algoritmos e Métodos para Recuperação de Informação e Bancos de Dados

?Tecnologia

Repositório(Web, Bibliotecas Digitais, Bancos de Dados)

Page 14: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Exemplos de Tópicos de Pesquisa Modelos de RI e Técnicas de Busca: Determinam a qualidade da resposta a consultas e

formam a base tecnológica do componente principal de qualquer sistema de RI, o processador de consultas

nivio

Categorizacao: classifica docs por categoriaSemi-estruturados: pag.Web, pobres em estruturaModelos de RI: melhorar a precisao das respostasEficiencia em RI: eficiencia de tempo e espacoMineracao: regras de associacao em modelos RI; mineracao de ocorrencias em BD distribuidos

Page 15: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Modelos de RI e Técnicas de BuscaModelos de RI e Técnicas de Busca

Lazy Associative Ranking (SIGIR 2008)

CCA (SIGIR 2007)

Page 16: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Modelos de RI e Técnicas de BuscaModelos de RI e Técnicas de Busca

Page 17: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Exemplos de Tópicos de Pesquisa Modelos de RI para Recuperação de Imagens

baseada em Conteúdo Permitem a recuperação de imagens baseadas em

seu conteúdo (cor, forma, textura) Problemas: propriedades subjetivas da imagem são

muito difíceis de capturar, diferentes percepções para diferentes usuários

Solução: combinar diferentes descritores para capturar as diversas propriedades da imagem Descritor: função de extração de características + função

de similaridade Abordagem de combinação proposta: programação

genética

nivio

Categorizacao: classifica docs por categoriaSemi-estruturados: pag.Web, pobres em estruturaModelos de RI: melhorar a precisao das respostasEficiencia em RI: eficiencia de tempo e espacoMineracao: regras de associacao em modelos RI; mineracao de ocorrencias em BD distribuidos

Page 18: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Exemplos de Tópicos de Pesquisa Modelos de RI para Recuperação de Imagens

baseada em Conteudo

TORRES, Ricardo da Silva ; FALção, Alexandre X ; GONÇALVES, Marcos André ; Papa, J. P. ; ZHANG, Bãoping ; FAN, Weiguo FOX, Edward A . A Genetic Programming Framework for Content-based Image Retrieval. Pattern Recognition, 2008.

nivio

Categorizacao: classifica docs por categoriaSemi-estruturados: pag.Web, pobres em estruturaModelos de RI: melhorar a precisao das respostasEficiencia em RI: eficiencia de tempo e espacoMineracao: regras de associacao em modelos RI; mineracao de ocorrencias em BD distribuidos

Page 19: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Exemplos de Tópicos de Pesquisa Classificação Automatica de Texto

Tarefa de assinalar automaticamente um documento a categorias semânticas pré-definidas

Baseada em aprendizado de máquina Coleção de treino para geração de um classificador

Mas as características dos documentos podem mudar ao longo do tempo Novas informações são geradas Novos termos são introduzidos Novos campos de conhecimento emergem e grandes

campos são divididos em campos mais especializados Dimensão temporal ignorada pelas técnicas atuais de

classificação automática de texto

nivio

Categorizacao: classifica docs por categoriaSemi-estruturados: pag.Web, pobres em estruturaModelos de RI: melhorar a precisao das respostasEficiencia em RI: eficiencia de tempo e espacoMineracao: regras de associacao em modelos RI; mineracao de ocorrencias em BD distribuidos

Page 20: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Exemplos de Tópicos de Pesquisa Classificação Automatica de Texto

• 1o. trabalho a estudar e propor uma metodologia para analisar os fatores temporais em classificação• Conclui-se que ganhos de até 20% na performance do classificador podem ser obtidos se esses fatores são isolados

Rocha, L. ; Mourão, F. ; GONÇALVES, Marcos André ; MEIRA JR, Wagner . Characterizing and Understanding the Impact of Temporal Evolution on Document Classification. In Proceedings of the First ACM International Conference on Web Search and Data Mining -- WSDM 2008.

nivio

Categorizacao: classifica docs por categoriaSemi-estruturados: pag.Web, pobres em estruturaModelos de RI: melhorar a precisao das respostasEficiencia em RI: eficiencia de tempo e espacoMineracao: regras de associacao em modelos RI; mineracao de ocorrencias em BD distribuidos

Page 21: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Classificação Automatica de Texto

Page 22: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Exemplos de Tópicos de Pesquisa Deduplicação em Bancos de Dados

Bancos de Dados podem conter dados replicados devido a: falta de padronização erros na entradas dos dados falta de chaves de identificação, etc.

Dados duplicados causam degradação de performance, perda da qualidade da informação, aumento de custos operacionais, etc.

Identificação de replicas manual: tarefa cara e custosa Solução proposta: método que usa programação genética para

identificar e combinar as melhores evidências para produzir uma função de similaridade que maximiza a performance Identificar o maior número possível de réplicas sem produzir erros Evidência: similaridade entre dois campos do banco de dados

nivio

Categorizacao: classifica docs por categoriaSemi-estruturados: pag.Web, pobres em estruturaModelos de RI: melhorar a precisao das respostasEficiencia em RI: eficiencia de tempo e espacoMineracao: regras de associacao em modelos RI; mineracao de ocorrencias em BD distribuidos

Page 23: Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Exemplos de Tópicos de Pesquisa Deduplicação em Bancos de Dados

Carvalho, CARVALHO, Moises Gomes de ; LAENDER, Alberto H F ; GONÇALVES, Marcos André ; SILVA, Altigran Soares da . Replica Identification using Genetic Programming. In: ACM Symposium on Applied Computing, 2008, Fortaleza. Proceedings of the 2008 ACM Symposium on Applied Computing.

nivio

Categorizacao: classifica docs por categoriaSemi-estruturados: pag.Web, pobres em estruturaModelos de RI: melhorar a precisao das respostasEficiencia em RI: eficiencia de tempo e espacoMineracao: regras de associacao em modelos RI; mineracao de ocorrencias em BD distribuidos