Post on 01-Feb-2016
description
Bio AXS: Uma Arquitetura para Bio AXS: Uma Arquitetura para Integração de Fontes de Dados e Integração de Fontes de Dados e Aplicações da Biologia MolecularAplicações da Biologia Molecular
Departamento de Informática
PUC-Rio
Aluno:Luiz Fernando Bessa Seibel
(seibel@inf.puc-rio.br)
Orientador:Sérgio Lifschitz
(lifschitz@inf.puc-rio.br)
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
22
Bio AXS
Agenda
Introdução Motivação Abordagens de integração
– no contexto da biologia molecular– Trabalhos relacionados
A solução proposta - via framework– Funcionalidades– Instanciação dos hot spots– Modelo de dados da arquitetura
Modelo conceitual de informações biológicas Comparação entre as arquiteturas de integração Implementação da solução proposta Estudos de caso Contribuições Trabalhos futuros
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
33
Bio AXS
IntroduçãoIntrodução
Proposta inicial do doutorado: Pesquisa na área Proposta inicial do doutorado: Pesquisa na área de Bioinformática de Bioinformática
Primeiro contato com FioCruz: 97Primeiro contato com FioCruz: 97 Resposta à questão: “que modelo de dados é Resposta à questão: “que modelo de dados é
apropriado ?”apropriado ?” Importância de arquitetura de integração que Importância de arquitetura de integração que
atendesse requisitos da pesquisaatendesse requisitos da pesquisa Importância de construção de índices para Importância de construção de índices para
sequências (melhorar desempenho do BLAST)sequências (melhorar desempenho do BLAST) Poucos grupos de pesquisa na área de bancos Poucos grupos de pesquisa na área de bancos
de dados e bioinformática: de dados e bioinformática: S. Davidson, N. Paton, N. S. Davidson, N. Paton, N. Goodman, V. MarkowitzGoodman, V. Markowitz
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
44
Bio AXS
MotivaçãoMotivaçãoRequisitos da PesquisaRequisitos da Pesquisa em em BioinformáticaBioinformática
Desafios:– Lidar com enormes volumes de dados de
sequências e outras anotações biológicas, armazenadas em inúmeras fontes de dados heterogêneas, que estão distribuídas
– Desenvolver algoritmos de suporte à interpretação dos dados
– Novas descobertas precisam ser incorporadas às fontes de dados e podem exigir reconstrução dos algoritmos
– Novo ramo da ciência: Bioinformática
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
55
Bio AXS
MotivaçãoMotivaçãoRequisitos da PesquisaRequisitos da Pesquisa em em BioinformáticaBioinformática
Problemas a resolver:– acesso eficiente e integrado às informações– tratamento da evolução dos esquemas das fontes
de dados– tratamento da heterogeneidade das fontes de
dados– formulação de consultas complexas– acesso a dados atualizados– uso de estruturas de índices para acesso aos dados– desenvolvimento de algoritmos específicos– qualidade das informações armazenadas
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
66
Bio AXS
MotivaçãoFontes de Dados de Biologia Molecular
Arquivos texto Bancos de dados que usam modelos
de dados distintos (relacional, orientado a objetos, relacional-objeto, semi-estruturados)
Arquivos com formatos apropriados para a execução de algoritmos específicos (ex: FASTA, BLAST)
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
77
Bio AXS
MotivaçãoFontes de Dados de Biologia Molecular
Armazenam informações complementares do domínio do conhecimento – sequências de nucleotídeos e de proteínas– estruturas de proteínas– microarrays de DNA– anotações de fenômenos biológicos– taxonomia– publicações– pessoas e centros de pesquisa
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
88
Bio AXS
MotivaçãoFontes de Dados de Biologia Molecular
Contém dados de:– diversos organismos [GenBank, PIR,
Swiss-Prot]– um organismo [AceDB, TcruziDB]– células específicas (ou partes de)
[Mitomap]– funções biológicas específicas [ExPASy]– mutações [Human Mutation Databases]
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
99
Bio AXS
MotivaçãoMotivaçãoAplicações e FerramentasAplicações e Ferramentas Estão associadas às fontes de dados Cada fonte disponibiliza um conjunto reduzido
de aplicações Podem exigir formatos específicos Existe código fonte público Exemplos:
– Depuração das sequências [LabBase]– Sistema automático de submissão de sequências [LabBase]– Montagem de fragmentos [Phred-Phrap]– Pesquisa de genes [GeneFinder]– Comparação de sequências [FAST, BLAST]– Alinhamento de sequências [ClustalW]– Visualização do mapa do cromossomo / fragmento [AceDB]
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
1010
Bio AXS
Abordagens de Integração Abordagens de Integração no Contexto da Biologia no Contexto da Biologia MolecularMolecular(Trabalhos Relacionados) Via SGBDDH Via multidatabase
– CPL/Kleisli por P. Buneman, S. Davidson et al. Via data warehouse
– GIMS por N. Paton, C. Goble et al. Via mediador
– proposto por P. Karp Outras formas de integração usadas em biologia
– Via navegação hipertexto entre registros de fontes de dados
Entrez (NCBI)– Via sistemas de links entre fontes de dados
SRS (EBI)
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
1111
Bio AXS
Discussão das Abordagens Discussão das Abordagens de Integração da Biologia de Integração da Biologia MolecularMolecularFerramentas apresentam limitações: São pouco flexíveis
– adotam modelo de dados / esquema próprio– tem dificuldades inerentes à alteração dos
esquemas– não permitem o uso das aplicações disponíveis
Apresentam baixa performance Não são extensíveis
– não permitem incorporar aplicações existentes– limitam o uso das fontes de dados envolvidas – não permitem a instanciação de uma fonte de
dados apropriada a uma pesquisa específica
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
1212
Bio AXS
Por que a integração via framework ?
Definição:
“Um Framework é uma arquitetura abstrata de software, flexível e
extensível, que contém componentes pré-definidos (frozen spots) e outros
que devem ser instanciados (hot spots) para a implementação de um
desejado e particular sistema”
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
1313
Bio AXS
A Solução Proposta
O framework proposto propicia: Flexibilidade, através da
– captura dos esquemas das fontes de dados da biologia
– definição e manutenção de um esquema próprio – definição de um modelo de dados / ontologia
efetivamente usada nas fontes de dados existentes– utilização das aplicações disponíveis
Alta performance no acesso aos dados Extensibilidade, através da
– incorporação de qualquer aplicação existente– incorporação de qualquer fonte de dados de biologia – instanciação de uma fonte de dados para uma
pesquisa específica
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
1414
Bio AXS
A Solução PropostaA Solução Proposta
O framework proposto também propicia: Tratar a evolução dos esquemas das fontes
de dados– detecta alteração de esquemas, via agente de
monitoração– informa ao usuário administrador que houve
alteração– usuário administrador procede a uma nova captura,
no momento adequado => alteração dos esquemas é assíncrona !
Tratar a evolução dos esquemas específicos– a qualquer momento, por ação do administrador
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
1515
Bio AXS
A Solução PropostaA Solução Proposta
O framework propicia ainda: Tratar a atualização das instâncias de dados
– monitora atualização da fonte de dados – procede à alteração de forma autônoma– termina atualização por ação do
administrador
O framework é uma solução de O framework é uma solução de integração mais geral do que as integração mais geral do que as existentes e pode ser aplicado a outros existentes e pode ser aplicado a outros domínios, desde que tenham os mesmos domínios, desde que tenham os mesmos requisitos requisitos
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
1616
Bio AXS
Apresentação da Apresentação da ArquiteturaArquitetura
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
1717
Bio AXS
Fonte 1
Fontes de Dados da Biologia
Fonte 2 Fonte 3
MetadadosDados Wrapper 3
Wrapper 2
Wrapper 1
Conversor (Wrappers)
Capturador
Administrador
Modelo da Biologia Drivers de Aplicação
Driver1
Driver3
Driver2
Aplic.1 Aplic.2 Aplic.3
Arquitetura do Framework
Aplicações da Biologia
Usuários
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
1818
Bio AXS
FuncionalidadesFuncionalidades
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
1919
Bio AXS
Fonte 1
Metadados Wrapper
1
Conversor (Wrappers)
Capturador
Administrador
Arquitetura do Framework
Usuário Administrador
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
2020
Bio AXS
FuncionalidadesFuncionalidades
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
2121
Bio AXS
Metadados
Capturador
Administrador
Modelo da Biologia
Arquitetura do Framework
Usuário Administrador• Identifica Objetos• Relaciona Objetos• Define Ontologia
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
2222
Bio AXS
FuncionalidadesFuncionalidades
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
2323
Bio AXS
Metadados
Capturador
Administrador
Modelo da Biologia
Arquitetura do Framework
Usuário Administrador• Seleciona objetos do modelo
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
2424
Bio AXS
FuncionalidadesFuncionalidades
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
2525
Bio AXS
Fonte 1
Fontes de Dados da Biologia
Fonte 2
MetadadosDados Wrapper 2
Wrapper 1
Conversor (Wrappers)
Capturador
Administrador
Modelo da Biologia
Arquitetura do Framework
Usuário Administrador
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
2626
Bio AXS
FuncionalidadesFuncionalidades
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
2727
Bio AXS
MetadadosDados
Capturador
Administrador
Drivers de Aplicação
Driver1
Aplic.1
Arquitetura do Framework
Usuário Administrador
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
2828
Bio AXS
FuncionalidadesFuncionalidades
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
2929
Bio AXS
MetadadosDados
Capturador
Administrador
Arquitetura do Framework
Usuário
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
3030
Bio AXS
FuncionalidadesFuncionalidades
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
3131
Bio AXS
MetadadosDados
Capturador
Administrador
Arquitetura do Framework
Usuário
Modelo da Biologia
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
3232
Bio AXS
FuncionalidadesFuncionalidades
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
3333
Bio AXS
Fonte 1
Fontes de Dados da Biologia
Fonte 2 Fonte 3
Metadados Wrapper
3 Wrapper
2 Wrapper
1
Conversor (Wrappers)
Capturador
Administrador
Arquitetura do Framework
Usuário Administrador
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
3434
Bio AXS
FuncionalidadesFuncionalidades
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
3535
Bio AXS
Fonte 1
Fontes de Dados da Biologia
Fonte 2
Metadados Wrapper
2 Wrapper
1
Conversor (Wrappers)
Capturador
Administrador
Arquitetura do Framework
Usuário Administrador
Dados
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
3636
Bio AXS
FrameworkFrameworkInstanciação de Instanciação de WrappersWrappers
GenBank ACeDB Swiss-Prot...
WrapperFonteDados
lerDados()lerEsquema()abrir()fechar()
FachadaWFB
capturarEsquema()capturarDados()obterConversoresDisponiveis()
<<facade>>
0..*
1
0..*
+listaConversores 1
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
3737
Bio AXS
FrameworkFrameworkInstanciação de DriversInstanciação de Drivers
GeradorFASTA GeradorDotAce geradorRegTxtDeBD...
FachadaDriverAplicacao
gerarDadosAplicacao()apresentarDriverDisponivel()escolherDriver()
<<facade>>
FachadaCapturador
capturarEsquema()excluirEsquema()capturarDados()excluirDadosDeEsquema()cadastrarEsquemaProprio()obterConversoresDisponiveis()consultarEsquema()obterEsquemasDisponiveis()obterDadosAplicacao()consultarDados()informarCasamento()
(from Capturador)
<<facade>>
GeradorDados
gerarDadosAplicacao()
1..*
1
1..*
+listaDrivers
1
gerarDadosParaAplicacao
1
1..*
1
1..*
obterDados
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
3838
Bio AXS
O uso de XML e XML O uso de XML e XML Schema Schema
XML possui características voltadas para XML possui características voltadas para solução de problemas de bioinformática:solução de problemas de bioinformática:– flexívelflexível– orientada à Internetorientada à Internet– usada para especificar padrões de dadosusada para especificar padrões de dados– pode ser lida por qualquer editor de textospode ser lida por qualquer editor de textos– Usada para troca de informações entre Usada para troca de informações entre
fontes de dadosfontes de dados– Diversas ferramentas disponíveisDiversas ferramentas disponíveis
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
3939
Bio AXS
O uso de XML e XML O uso de XML e XML Schema Schema XML Schema é mais completo para a XML Schema é mais completo para a
descrição de dados XML do que DTDdescrição de dados XML do que DTD Existem geradores automáticos de XML Existem geradores automáticos de XML
Schema a partir de XMLSchema a partir de XML XML Schema tem as construções necessárias XML Schema tem as construções necessárias
para descrever esquemaspara descrever esquemas RDF é aplicado a outro tipo de problemaRDF é aplicado a outro tipo de problema
– XML representa uma estrutura hierárquica cujos XML representa uma estrutura hierárquica cujos nós estão presentes em um documentonós estão presentes em um documento
– RDF respresenta um grafo rotulado cujos nós são RDF respresenta um grafo rotulado cujos nós são recursos que normalmente estão externos ao recursos que normalmente estão externos ao documentodocumento
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
4040
Bio AXS
Modelo da BiologiaModelo da Biologia
OMG apresenta propostas de parte do OMG apresenta propostas de parte do modelo da biologia (foco no genoma)modelo da biologia (foco no genoma)
GIMS apresenta proposta incompleta do GIMS apresenta proposta incompleta do modelo da biologia (ex: estruturas de modelo da biologia (ex: estruturas de proteínas)proteínas)
Modelos consideram aspectos não Modelos consideram aspectos não biológicos (ex: detalhes implementação - biológicos (ex: detalhes implementação - Corba)Corba)
Modelos não identificam aspectos Modelos não identificam aspectos tecnológicos (ex: fragmentos, tecnológicos (ex: fragmentos, experimentos com microarrays, etc.)experimentos com microarrays, etc.)
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
4141
Bio AXS
Modelo ConceitualModelo ConceitualGenomaGenoma
Plasmídeo DNA_Organelas
RegiaoComplexa
Operon Transposon Profago
ElementoExtraCromossomalGenoma 0..*0..*
GrupoRegiao
0..*
0..10..1
Cromossomomo
0..*0..*
0..*
11
0..*
1
0..*
1
FragmentoCromossomo0..1
0..1
0..1
ProximoAnterior 0..1
0..*
0..*
0..*
0..*
0..*
0..*Regiao
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
4242
Bio AXS
Modelo ConceitualModelo ConceitualGenomaGenoma
RegiaoNaoInformativa
PseudoGene RegiaoRepetitiva RegiaoDesconhecida
RepeticaoDireta RepeticaoInversa Palindromo RegiaoBaixaComplexidade
RegiaoInformativa
Regiao 0..*
0..*0..*0..*
0..*0..*
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
4343
Bio AXS
Modelo ConceitualModelo ConceitualGenomaGenoma
RegiaoInformativa
RegiaoNaoTranscrita
SequenciaRegulatoria ElementoCromossomal
Promotor Terminador Centromero Telomero ORIComponente
0..10..1
0..1ProximoAnterior
0..1
Intron UTR
Transcrito
0..*
1
0..*
1
2
1
2
1
Exon
1..*
1
1..*
1
Variacao
0..*
1
0..*
1
1..*Promotor_l RBS
UTR5_l
Terminador_l SitioPoliA
UTR3_l
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
4444
Bio AXS
Modelo ConceitualModelo ConceitualGenomaGenoma
Ordem
Proteina
Variacao
0..*
PeptideoPrimario
1..*
1
1..*
1EhModificado
mRNA
1..*
1
1..*
1
Contem
1
1
1
1TraduzPara
ProximoAnterior
0..1
0..1
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
4545
Bio AXS Sitio
Dominio
Familia
EstruturaTerciaria
0..*
0..1
0..*
0..1
EstruturaSecundaria
1..*
1..*
1..*
1..*
0..*
0..1
0..*
0..1
Proteina
0..*
0..1
0..*
0..1
0..*
1
0..*
10..*0..1 0..*0..1
0..*1 0..*1
0..*
1
0..*
1
0..1
0..*
0..1
Interacao
0..*
Modelo ConceitualModelo ConceitualProteomaProteoma
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
4646
Bio AXS
Comparação entre as Comparação entre as Arquiteturas de Arquiteturas de IntegraçãoIntegraçãoCritériosCritérios Permitir a formulação de consultas Permitir a formulação de consultas
complexas, via web, também via complexas, via web, também via interface amigávelinterface amigável
Permitir acesso a todas as fontes Permitir acesso a todas as fontes de dadosde dados
Lidar com o ambiente heterogêneoLidar com o ambiente heterogêneo Permitir transparência de esquema Permitir transparência de esquema
e de localizaçãoe de localização
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
4747
Bio AXS
Comparação entre as Comparação entre as arquiteturas de arquiteturas de integraçãointegraçãoCritériosCritérios Tratar atualização de esquemas e Tratar atualização de esquemas e
dadosdados Adotar esquema coerente com os das Adotar esquema coerente com os das
fontes de dadosfontes de dados Instanciar fonte específica para uma Instanciar fonte específica para uma
pesquisa biológicapesquisa biológica Permitir execução de todos os Permitir execução de todos os
aplicativos disponíveisaplicativos disponíveis Facilitar entendimento dos objetos Facilitar entendimento dos objetos
biológicosbiológicos
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
4848
Bio AXS
Comparação entre as Comparação entre as arquiteturas de arquiteturas de integraçãointegração
Ferramenta SRS OPM CPL/Kleisli K2 GUS IGD TAMBIS GIMS Bio-AXSCritério
1 ** **** **** **** **** **** **** **** ****2 Sim Não Não Não Não Sim Não Não Sim3 *** ** * ** ** *** * ** ****4 ** ** *** *** ---- ---- *** *** ****5 Não *** **** **** ** ** **** **** ****6 Não Sim Sim Sim Sim Sim Sim Sim Sim7 Não Sim Sim Sim Sim Sim Sim Sim Sim8 * *** * * *** * * **** ****9 ---- **** **** **** **** **** **** *** ****
10 Não Não Não Não Não Não Não Não Sim11 * * * * * * * * ****12 ** **** **** **** ** ** **** ** ***13 * * * * * * * * ****14 ---- *** *** *** * * **** * ****
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
4949
Bio AXS
Implementação da Implementação da Arquitetura PropostaArquitetura Proposta
Implementada em JavaImplementada em Java– Orientada a ObjetosOrientada a Objetos– PortabilidadePortabilidade– Reuso Reuso – Interface WebInterface Web
Persistência via Oracle 9iPersistência via Oracle 9i– Tipo de dados XMLTypeTipo de dados XMLType– Consultas: SQL e uso de expressões XPATHConsultas: SQL e uso de expressões XPATH– Índices em elementos XMLÍndices em elementos XML
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
5050
Bio AXS
Implementação da Implementação da Arquitetura PropostaArquitetura Proposta
Implementação dos wrappersImplementação dos wrappers– Swiss-Prot:Swiss-Prot:
Construção do analisador gerando código XMLConstrução do analisador gerando código XML Geração do esquema (via SPY)Geração do esquema (via SPY)
– GenBank:GenBank: Uso do analisador READSEQ, que gera código XMLUso do analisador READSEQ, que gera código XML Geração do esquema (via SPY)Geração do esquema (via SPY)
– PIR:PIR: Já disponibiliza dados em XMLJá disponibiliza dados em XML Geração do esquema (via SPY)Geração do esquema (via SPY)
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
5151
Bio AXS
Implementação da Implementação da Arquitetura PropostaArquitetura Proposta
Implementação do módulo AdministradorImplementação do módulo Administrador– Construção do aplicativo de integração de Construção do aplicativo de integração de
esquemas, definição do esquema próprio e esquemas, definição do esquema próprio e definição de ontologia, utilizando classe do definição de ontologia, utilizando classe do Oracle para análise e visualização de Oracle para análise e visualização de esquemas em XML Schema (Jtree)esquemas em XML Schema (Jtree)
Implementação de aplicativosImplementação de aplicativos– Externo: uso do BLAST (Gish)Externo: uso do BLAST (Gish)– Interno: uso do alinhamento ótimo (Meidanis)Interno: uso do alinhamento ótimo (Meidanis)
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
5252
Bio AXS Caso 1: Caso 1: CargaCarga de Dados do de Dados do Swissprot Swissprot Caso 2: Caso 2: ConstruçãoConstrução do do Esquema da Biologia Esquema da Biologia Caso 3: Caso 3: ConstruçãoConstrução do do Esquema Específico Esquema Específico Caso 4: Caso 4: InstanciaçãoInstanciação do do Esquema Específico Esquema Específico Caso 5: Caso 5: ExecuçãoExecução do BLAST do BLAST Caso 6: Caso 6: ExecuçãoExecução do do Algoritmo Algoritmo de de
Alinhamento Alinhamento Caso 7: Caso 7: SeleçãoSeleção de Dados de Dados Caso 8: Caso 8: ComparaçãoComparação de Keywords do de Keywords do
Swissprot Swissprot e PIR e PIR
ContribuiçõesContribuições
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
5353
Bio AXS
ContribuiçõesContribuições
Proposta de integração via framework, que atende aos requisitos da pesquisa na área de biologia molecular:– permite acesso a todas as fontes de dados – permite execução de qualquer aplicação– atende à performance exigida– trata atualização de esquemas e dados– Permite definir e instanciar um esquema específico
Proposta de um esquema conceitual de informações puramente biológicas sobre o dogma central da biologia– identificando aspectos tecnológicos– isento de aspectos de implementação
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
5454
Bio AXS
ContribuiçõesContribuições
Construção de um protótipo, que contempla algumas das funcionalidades necessárias, demonstrando:– integração de esquemas e de dados – definição de uma ontologia– execução de aplicativos e de consultas– criação de esquema específico para uma pesquisa– instanciação do esquema específico
Comparação entre as arquiteturas de integração existentes
Proposta de definição de uma ontologia, que pode ser confrontada com as existentes
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
5555
Bio AXS
Trabalhos PublicadosTrabalhos Publicados
Seibel L.F.B., Lifschitz S., Lemos M., “Bancos de Dados de Genoma”,Procs. of the Brasilian Database Simposium Tutorials, pp 514-553, 2000.
Lifschitz S., Seibel L.F.B., Uchôa E.M.A., “A Framework for Molecular Biology Data Integration”, Procs. Workshop on Information Integration on the Web (WIIW), pp 27-34, 2001.
Seibel L.F.B., Lifschitz S., “A Genome Databases Framework”, Proc. 12th Database and Expert Systems Applications (DEXA), ed. T. Bench-Capon et all, Springer-Verlag, pp 319-329, 2001.
Luiz Fernando Bessa Luiz Fernando Bessa SeibelSeibel
Bio AXS: Uma Arquitetura para IntegraçãoBio AXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biolo de Fontes de Dados e Aplicações da Biologia Moleculargia Molecular
5656
Bio AXS
Trabalhos FuturosTrabalhos Futuros
Implementação de novas funcionalidades ao protótipo– wrappers e aplicações– mediador – ferramenta amigável para consultas
Estudos com base no protótipo– desempenho das consultas à base XML– problemas reais da pesquisa em biologia molecular
Complemento do modelo conceitual da biologia molecular
Geração de descrições lógicas a partir da ontologia gerada, dotando a ferramenta da capacidade de inferir conhecimento, para investigação de comportamentos biológicos