Gestão da Informação em Grandes Repositórios de Dados Multimidia
Marcos André GonçalvesProfessor Adjunto
Departamento de Ciência da ComputaçãoUniversidade Federal de Minas Gerais
Simpósio Jovem Cientista
Academia Brasileira de CiênciasRio de Janeiro, 05 de Maio de 2008
Ciência da Computação
Foco na Resolução de Problemas!
“Ciência da computação tem tanto a ver com o computador como a Astronomia com o telescópio, a Biologia com o microscópio, ou a Química com os tubos de ensaio.” (Dijkstra)
Aspectos de Ciência, Matemática, e Engenharia
Grande interdisciplinaridade
Se tornando ubíqua!
Computação: Interface Com outras Ciências e Engenharias
Computação
Matemática
BiologiaEngenhariaEletrica/Eletrônica
Física
Ciência daInformação
EstatisticaE muitos outras...
Ciência da Computação – Grandes Áreas (ACM) Hardware Computer Systems Organization Software Data Theory of Computation Mathematics of Computing Information Systems
MODELS AND PRINCIPLES DATABASE MANAGEMENT INFORMATION STORAGE AND RETRIEVAL INFORMATION SYSTEMS APPLICATIONS INFORMATION INTERFACES AND PRESENTATION (e.g., HCI)
Computing Methodologies Computer Applications
Ciência da Computação – Grandes Desafios 2006-2016 (Brasil)1. Gestão da informação em grandes volumes de dados
multimídia distribuídos
2. Modelagem computacional de sistemas complexos artificiais, naturais e sócioculturais e da interação homem-natureza
3. Impactos para a área da computação da transição do silício para novas tecnologias
4. Acesso participativo e universal do cidadão brasileiro ao conhecimento
5. Desenvolvimento tecnológico de qualidade: sistemas disponíveis, corretos, seguros, escaláveis, persistentes e ubíquos
Gestão da Informação em Grandes Volumes de Dados Multimídia Distribuídos
Problema: Quase tudo que vemos, lemos, ouvimos, escrevemos,
medimos é coletado e disponibilizado em sistemas de informação computacionais
Captura-se cada vez mais dados da natureza. Como viver, trabalhar, ter lazer e evoluir nesse universo informacional? Como tornar isso um ganho para a sociedade?
Objetivo: Desenvolver soluções para o tratamento, a recuperação e a
disseminação de informação relevante, a partir de volumes exponencialmente crescentes de várias modalidades de dados, incluindo multimídia
Soluções em Ciência da Computação
Algoritmos e estruturas de dados formam o núcleo da ciência da computação
Algoritmo
Descrição de um padrão de comportamento, expresso em termos de um conjunto finito de ações (Dijkstra, 1971)
Implementável como conjuntos de instruções de máquina
Manipulam dados
Estruturas de Dados
Representação organizada dos dados para fins de manipulação eficiente
Foco da Pesquisa
Teorias e Métodos para Sistemas de Informação Complexos Bibliotecas Digitais
Algoritmos e Métodos para Recuperação de Informação e Bancos de Dados Aprendizado de Máquina
Teorias e Métodos para Sistemas de Informação Complexos Bibliotecas Digitais
Sistemas de informação bastante complexos que envolvem coleções de objetos digitais e conjuntos de serviços (e.g., busca, navegação, recomendação) normalmente customizados para uma comunidade alvo.
Teorias e Métodos para Sistemas de Informação Complexos Contribuições Teóricas:
Modelo 5S (Streams, Structures, Spaces Scenarios, Societies) 1o. Modelo Teórico-Formal para a área
Modelos de Qualidade Ontologias.
Contribuições Práticas: Ferramentas de Design: 5SGraph Ferramentas de Geração de Código: 5SL + 5SGen Arcabouços de Componentes: WS-ODL Ferramentas de Aferição de Qualidade: 5SQual
Algoritmos e Métodos para Recuperação de Informação e Bancos de Dados
?Tecnologia
Repositório(Web, Bibliotecas Digitais, Bancos de Dados)
Exemplos de Tópicos de Pesquisa Modelos de RI e Técnicas de Busca: Determinam a qualidade da resposta a consultas e
formam a base tecnológica do componente principal de qualquer sistema de RI, o processador de consultas
Modelos de RI e Técnicas de BuscaModelos de RI e Técnicas de Busca
Lazy Associative Ranking (SIGIR 2008)
CCA (SIGIR 2007)
Modelos de RI e Técnicas de BuscaModelos de RI e Técnicas de Busca
Exemplos de Tópicos de Pesquisa Modelos de RI para Recuperação de Imagens
baseada em Conteúdo Permitem a recuperação de imagens baseadas em
seu conteúdo (cor, forma, textura) Problemas: propriedades subjetivas da imagem são
muito difíceis de capturar, diferentes percepções para diferentes usuários
Solução: combinar diferentes descritores para capturar as diversas propriedades da imagem Descritor: função de extração de características + função
de similaridade Abordagem de combinação proposta: programação
genética
Exemplos de Tópicos de Pesquisa Modelos de RI para Recuperação de Imagens
baseada em Conteudo
TORRES, Ricardo da Silva ; FALção, Alexandre X ; GONÇALVES, Marcos André ; Papa, J. P. ; ZHANG, Bãoping ; FAN, Weiguo FOX, Edward A . A Genetic Programming Framework for Content-based Image Retrieval. Pattern Recognition, 2008.
Exemplos de Tópicos de Pesquisa Classificação Automatica de Texto
Tarefa de assinalar automaticamente um documento a categorias semânticas pré-definidas
Baseada em aprendizado de máquina Coleção de treino para geração de um classificador
Mas as características dos documentos podem mudar ao longo do tempo Novas informações são geradas Novos termos são introduzidos Novos campos de conhecimento emergem e grandes
campos são divididos em campos mais especializados Dimensão temporal ignorada pelas técnicas atuais de
classificação automática de texto
Exemplos de Tópicos de Pesquisa Classificação Automatica de Texto
• 1o. trabalho a estudar e propor uma metodologia para analisar os fatores temporais em classificação• Conclui-se que ganhos de até 20% na performance do classificador podem ser obtidos se esses fatores são isolados
Rocha, L. ; Mourão, F. ; GONÇALVES, Marcos André ; MEIRA JR, Wagner . Characterizing and Understanding the Impact of Temporal Evolution on Document Classification. In Proceedings of the First ACM International Conference on Web Search and Data Mining -- WSDM 2008.
Classificação Automatica de Texto
Exemplos de Tópicos de Pesquisa Deduplicação em Bancos de Dados
Bancos de Dados podem conter dados replicados devido a: falta de padronização erros na entradas dos dados falta de chaves de identificação, etc.
Dados duplicados causam degradação de performance, perda da qualidade da informação, aumento de custos operacionais, etc.
Identificação de replicas manual: tarefa cara e custosa Solução proposta: método que usa programação genética para
identificar e combinar as melhores evidências para produzir uma função de similaridade que maximiza a performance Identificar o maior número possível de réplicas sem produzir erros Evidência: similaridade entre dois campos do banco de dados
Exemplos de Tópicos de Pesquisa Deduplicação em Bancos de Dados
Carvalho, CARVALHO, Moises Gomes de ; LAENDER, Alberto H F ; GONÇALVES, Marcos André ; SILVA, Altigran Soares da . Replica Identification using Genetic Programming. In: ACM Symposium on Applied Computing, 2008, Fortaleza. Proceedings of the 2008 ACM Symposium on Applied Computing.
Agradecimentos
CNPq CAPES Fapemig UFMG NSF AOL Alunos de doutorado e de mestrado
??
Top Related