Gestão da Informação- desafios em: escala, contexto...
Transcript of Gestão da Informação- desafios em: escala, contexto...
Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos
SEMISH 2007 Marta Mattoso, COPPE/UFRJ
Desafio 1: Gestão da informação em grandes volumes de dados
multimídia distribuídos
Marta Mattoso
Flávio Wagner
Lisandro Granville
Edison Ishikawa
Coordenação:
Semish 2007
30 de junho a 02 de julho
UFRGS
UFRGS
Gestão da Informação-desafios em: escala, contexto,
distribuição, curadoria, ...
Marta MattosoEngenharia de SistemasCOPPEUniversidade Federal do Rio de [email protected]
Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos
SEMISH 2007 Marta Mattoso, COPPE/UFRJ
Problemas técnicos e científicos:
Escala1. Redução (abstração e sumarização) das massas de dados por
meio de modelagem computacional, simulações e outros;
2. Utilização de processamento paralelo envolvendo recursos heterogêneos como nas grades (grids) computacionais;
3. Estudos em modelos e mecanismos de conciliação e integração de dados com larga escala de heterogeneidade;
4. Utilização de estruturas de indexação dinâmicas e distribuídas do tipo P2P;
5. Estudo de infra-estruturas adaptáveis e inteligentes para o processamento distribuído de informações;
Problemas técnicos e científicos:Contexto
6. Definição e uso da noção de contexto para a recuperação de informação, considerando fatores como localização do usuário, perfil de interesses, objetivos dentre outros;
7. Projeto e implementação de descritores de conteúdomultimodal e algoritmos para extração e indexação desses descritores, permitindo buscas multimodais;
8. Consideração, no armazenamento e recuperação, de fatores inerentes à heterogeneidade na aquisição de dadostais como sensores, celulares, PDAs, etc. ;
9. Trabalho em modelos conceituais dos domínios ou gêneros do entretenimento digital, incluindo o desenvolvimento de métodos e implementando sistemas de manipulação de enredos, ganhando experiência com os requisitos dos diferentes tipos de aplicação;
Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos
SEMISH 2007 Marta Mattoso, COPPE/UFRJ
Problemas técnicos e científicos:Curadoria
10. Estudo de formas alternativas de disponibilização da informação, incluindo pesquisa em novos tipos de interfaces;
11. Tratamento da confiabilidade e validade dos dados e da propriedade intelectual;
Detalhando
• Escala• Contexto• Curadoria
Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos
SEMISH 2007 Marta Mattoso, COPPE/UFRJ
Problemas técnicos e científicos:
Escala 1. Redução (abstração e sumarização) das
massas de dados por meio de modelagem computacional, simulações e outros;
Engenharia Computacional
Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos
SEMISH 2007 Marta Mattoso, COPPE/UFRJ
DESAFIOS paraCiência & Tecnologia
• Evolução da Ciência & Ciência em Tempo real
• Complexidade dos fenômenos• Avalanche de informações e
conhecimentos• Gestão: Monitorar informação, extrair
conhecimento e transformar em decisão
Evolução da Ciência
• Ciência baseada em Observações– Cientista obtém dados por observação direta– Cientista analisam dados
• Ciência baseada em Análises– Cientista constrói o modelo analítico– Realiza previsões
• Ciência baseada em Simulações– Simula o modelo analítico– Valida o modelo e realiza previsões
Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos
SEMISH 2007 Marta Mattoso, COPPE/UFRJ
Evolução da Ciência (cont.)
• Ciência baseada em Observações• Ciência baseada em Análises• Ciência baseada em Simulações• Ciência baseada em Dados
– Dados obtidos por instrumentos, sensores ou dados gerados por simulação
– Processados por software– Armazenados em bases de dados/arquivos– Cientista analisa bases de dados/arquivos
Recursos – armazenar, gerenciar, manipular ...
– Modelos• Conjunto de idéias que descrevem um processo natural• Algoritmos
– Programas• implementação computacional de um modelo
– Dados• Obtidos em redes de sensores• Gerados por mecanismos de “coleta”• Gerados por programas científicos
– Workflows• Combinação de modelos ou programas e dados
– Experimentos• Execução de programas e workflows
Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos
SEMISH 2007 Marta Mattoso, COPPE/UFRJ
Recursos
Fonte: adaptado de Carole Goble, myGrid
Recursos Científicos -isolados
Dados isolados dos Processos que os geraram
Dados isolados dos Processos que os geraram
Filtros, transformadores deformato de dados
Filtros, transformadores deformato de dados
Execução isolada de programas e workflowsExecução isolada de
programas e workflows
Resultado do Wf
isolado de parametros
Resultado do Wf
isolado de parametros
Inúmeros programas
disponíveisInúmeros programas
disponíveis
Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos
SEMISH 2007 Marta Mattoso, COPPE/UFRJ
Com imagens ainda maiscrítico
Como essas imagens foram criadas ?São do mesmo paciente ?
Usam o mesmo padrão de cores ?
Fonte: adaptado de Juliana Freire, VisTrails
Recursos Científicos isolados não “escalam”
• Re-trabalho, Inconsistências• Relacionamento implícito• Sem compartilhamento de experiências• Conhecimento científico localizado• Perda de informação
Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos
SEMISH 2007 Marta Mattoso, COPPE/UFRJ
Problemas técnicos e científicos:
Escala 2. Utilização de processamento paralelo
envolvendo recursos heterogêneos como nas grades (grids) computacionais;
Open Science Grid
• Construído pelo iVDGL (International Virtual Data Grid Laboratory)• No pico:
– Agrega 59 sítios de grid através dos EUA, Brasil e Coréia Sul– Mais de 15000 CPUs só nos EUA– 69.000 Terabytes de espaço em disco
2006
Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos
SEMISH 2007 Marta Mattoso, COPPE/UFRJ
[http://www.gridworkflow.org/kwfgrid/gwes/docs/]
Perspectivas de formação em Grid
Congresso da SBC 2007 – IME- Rio• Segunda Escola de Grid
http://www.sbc.de9.ime.eb.br/br/eventos/2gs.htm
VLDB 2007 & Vecpar 2008 – Toulouse, FR• Workshop em HP Data Grid
Projeto EELA – UFRJ• Tutoriais e escolas Grid- (http://www.eu-eela.org/)
Sinapad- MCT• Laboratórios
Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos
SEMISH 2007 Marta Mattoso, COPPE/UFRJ
Perspectivas de formação em Grid
Congresso da SBC 2007 – IME- Rio• Segunda Escola de Grid
http://www.sbc.de9.ime.eb.br/br/eventos/2gs.htm
Vecpar 2008 – Toulouse, FR• Segundo Workshop em HP Data Grid
Projeto EELA – UFRJ• Tutoriais e escolas Grid- (http://www.eu-eela.org/)
Sinapad- MCT• Laboratórios
Mais detalhes em:
Grid Data Management: open problems and new issues
Esther Pacitti, Patrick Valduriez, Marta Mattoso
Journal of Grid Computing, Springer(to appear)
Problemas técnicos e científicos:
Escala 3. Estudos em modelos e mecanismos de
conciliação e integração de dados com larga escala de heterogeneidade;
Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos
SEMISH 2007 Marta Mattoso, COPPE/UFRJ
Gerência Universal de Dados
Data Server Data ServerWWWDigitalLibraries......
Fonte: Prof. Bernhard Mitschang, http://www.nexus.uni-stuttgart.de/index.en.html
Panorama
Data Server Data ServerWWWDigitalLibraries......
Fonte: Prof. Bernhard Mitschang, http://www.nexus.uni-stuttgart.de/index.en.html
Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos
SEMISH 2007 Marta Mattoso, COPPE/UFRJ
Visão de pesquisas
Data Server Data ServerWWWDigitalLibraries......
Data/Content Management
Information Integration
Web Services andWorkflow
Business Processes (BPEL)
. . .
Dat
a G
RID
Dat
a Pl
acem
.Tr
ansa
ctio
n
Anal
ysis
Met
adat
a
Opt
imim
izat
ion
Fonte: Prof. Bernhard Mitschang, http://www.nexus.uni-stuttgart.de/index.en.html
Problemas técnicos e científicos:
Contexto 5. Definição e uso da noção de contexto
para a recuperação de informação, considerando fatores como localização do usuário, perfil de interesses, objetivos dentre outros;
Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos
SEMISH 2007 Marta Mattoso, COPPE/UFRJ
Problemas técnicos e científicos:
Contexto 6. Projeto e implementação de descritores de conteúdo multimodal
e algoritmos para extração e indexação desses descritores, permitindo buscas multimodais;
7. Consideração, no armazenamento e recuperação, de fatores inerentes à heterogeneidade na aquisição de dados tais como sensores, celulares, PDAs (i.e., personal digital assistant), etc. ;
8. Trabalho em modelos conceituais dos domínios ou gêneros do entretenimento digital, incluindo o desenvolvimento de métodos e implementando sistemas de manipulação de enredos, ganhando experiência com os requisitos dos diferentes tipos de aplicação;
Projetos visionários - Nexus
Professor Bernhard MitschangApplications of Parallel and Distributed
Systems: Department
Stuttgart University, [email protected]
http://www.nexus.uni-stuttgart.de/index.en.html
Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos
SEMISH 2007 Marta Mattoso, COPPE/UFRJ
Contexto: Vizinhança
WGS84:9,175E, 48,7826N
WGS84:9,175E, 48,7826N
Restaurantin 100m?
H
H
H
16:14
16:19
16:17
Time TableTime Table
Musikhochschule Stuttgart
Que contexto é necessário ?
• Geographic context: map data– Streets, buildings, land marks, points of interest, ... – Data source: geographic information systems (GIS)– Stationary objects, rarely chaning
• Dynamic context: movement and change– Persons, vehicles,traffic situation, weather, ...– Data source: sensors
• Information context: digital world, "cyberspace"– web sites, documents, game objects, ...
• Technical context: infrastructure– access networks, topology, services
(printer, projector, ...)
Musikhochschule Stuttgart
http://www.nexus.uni-stuttgart.de/index.en.html
Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos
SEMISH 2007 Marta Mattoso, COPPE/UFRJ
Problemas técnicos e científicos:Curadoria
10. Estudo de formas alternativas de disponibilização da informação, incluindo pesquisa em novos tipos de interfaces;
11. Tratamento da confiabilidade e validade dos dados e da propriedade intelectual;
Projetos visionários -myGrid
• myExperiments, Taverna
Professor Carole GobleThe University of Manchester, [email protected]
UK e-Science project
Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos
SEMISH 2007 Marta Mattoso, COPPE/UFRJ
Alguns Desafios
• De onde vem o conhecimento (Fala com o Nelson)?• Como modelamos a qualidade (Fala com a Ana)?• Escalabilidade da tecnologia da Web Semantica ?• Visualização do conhecimento (Ver com Gerson)?• Qual o ciclo de vida da proveniência ?• Modelos diferentes de conhecimento para domínios diferentes ?
• Camadas de proveniência• Proveniência que faz parte do conhecimento do domínio• Proveniência para o contexto vs execução• Pessoas vs máquina• Modelos diferentes para itens diferentes, mas precisam de
integração• Tecnologias flexíveis para compartilhamento e integração
knowledge
workflow provenance
Fonte: adaptado de Carole Goble, myGrid
• Engenharia de Aplicações Científicas• Gerência de Workflow Científico• Ambientes Computacionais (HPC) em Grid,
redes móveis, sensores, etc• Proveniência e curadoria de dados• Mecanismos para Gerenciamento e
Manutenção de Conhecimento Científico
Mãos à obra !
Processos e Técnicas
Desafio 1: Gestão da informação em grandes volumes de dados multimídia distribuídos
SEMISH 2007 Marta Mattoso, COPPE/UFRJ
Marta MattosoCOPPE/ Sistemas
Universidade Federal do Rio de [email protected]
Obrigada !
Workshop on E-ScienceSDDD/SBES 2007
Submissões abertas !
Workshop on E-ScienceSDDD/SBES 2007
Submissões abertas !