Profa. Dra. Cecília Dias Flores - A Unisc - Universidade de ......Bancos de Dados Biológicos...
Transcript of Profa. Dra. Cecília Dias Flores - A Unisc - Universidade de ......Bancos de Dados Biológicos...
Profa. Dra. Cecília Dias Flores
Regente pela Disciplina de Bioinformática - Curso de Biomedicina
Depto. Ciências Exatas e Sociais Aplicadas
Coordenadora do curso Informática Biomédica
PPG em Ciências da Saúde e PPG em Ensino na Saúde
"Bioinformática é uma disciplina informática destinada ao armazenamento, recuperação, organização e análise de
dados biológicos".
2
3
Dad
os
Co
mp
lexo
s Tamanho
Quantidade
Significado
4
Tamanho
O DNA é uma enorme cadeia de caracteres
Composta somente por caracteres A, C,G e T Bactéria Escherichia coli
E o ser humano?
5
Tamanho
Exemplos de tamanho de genomas
pb = par de bases —um bp corresponde a aproximadamente 3.4 Å (1 Å = 10-10 m) Kb = kilo (quilo) pares de bases = 1.000 bp Mb = mega pares de bases = 1.000.000 bp Gb = giga pares de bases = 1.000.000.000 bp
6
Tamanho
Impressão do genoma humano Times New Roman
12 pt
2622 pb / página
Impressão em 1 lado
2415 pcts de 500 folhas
129 m
char[] humanDNA = char[3 200 000 000]; As linguagens de programação não permitem
7
Tamanho
Como armazenar um genoma em um arquivo?
Formato FASTA amplamente usados
Aceita comentários (>)
Armazena também sequências incompletas ou pequenas
8
Tamanho
Como armazenar um genoma em um arquivo?
Formato de 2 bits
A = 00
C = 01
G = 10
T = 11
Não pode ser lido por um ser humano
9
Tamanho
Genomas não são seqüenciados de uma vez só
Lê de 30-1000bp por vez
10
Quantidade
11 http://www.ncbi.nlm.nih.gov/genbank/statistics/
Quantidade
http://www.ncbi.nlm.nih.gov/
Quantidade
13
14
15
Significado
O que isso significa...
... para mim, como um indivíduo? ( Medicina personalizada )
... para minha população? (genômica e saúde pública )
... para a espécie humana ? (Ciência)
16
Significado
O DNA... É a menor estrutura presente em todos os organismos
vivos
Grande expectativa para a medicina
DNA não pode dizer tudo sobre o seu futuro
O DNA não é a única variável que causa doenças
O comportamento e o meio ambiente interferem na sua saúde
O DNA ainda desempenha um papel importante
17
Significado
Significado
18
Eu acabei de obter uma sequência. O que é sabido a respeito desta sequência? Ela é única?
Eu tenho uma sequência única. Ela tem similaridade com alguma outra sequência de função conhecida?
Eu encontrei uma nova proteína em um determinado organismo. Existe um ortólogo conhecido?
Eu decidi trabalhar com um gene novo. Eu não tenho como obter um clone contendo a sequência deste gene. Eu preciso da sequência do cDNA para fazer uma PCR.
Significado
19
20
O que se pode descobrir sobre um gene por meio de uma busca a um BD? Informação evolutiva: genes homólogos, frequências dos alelos, ...
Informação genômica: localização no cromossomo, intros, UTRs, regiões reguladoras, ...
Informação estrutural: estruturas da proteína correspondente, tipos de folds, domínios estruturais, ...
Informação de expressão: expressão específica a um dado tecido, fenótipos, doenças, ...
Informação funcional: função molecular/enzimática, papel em diferentes rotas, papel em doenças, ...
Significado
21
Busca de informação sobre genes e produtos gênicos
Geralmente organizados por sequência
Sequências genômicas codificam todas características de um organismo
Produtos gênicos são descritos unicamente por sua sequência
Sequências similares entre biomoléculas indica tanto uma função similar quanto um relacionamento evolutivo
Sequências de macromoléculas proporcionam chaves biologicamente significativas para busca em BD
Significado
22
Comece com uma sequência, encontre informação sobre ela
Muitos tipos de sequências de entrada
Pode ser uma sequência de aminoácidos ou de nucleotídeos
Genômica, cDNA/mRNA, proteína
Completa ou fragmentada
Matches exatos são raros
Em geral, o objetivo é recuperar um conjunto de sequências similares
Significado
Ênfase está se deslocando progressivamente do acúmulo de dados para a sua interpretação
Com os sequenciamentos realizados, um grande volume de dados tem sido gerado
Esses dados precisam agora ser analisados
Análise laboratorial é difícil e cara Ferramentas computacionais sofisticadas são
necessárias para a análise dos dados obtidos
23
24
Para muitas dessas análises, as ferramentas computacionais precisam lidar com dados imprecisos e ruidosos Técnicas de laboratório de Biologia Molecular quase
sempre geram dados com erros ou imprecisões
Erros na coleta de dados
Erros na construção de bases de dados
25
Aprendizagem de Máquina
Fornece técnicas para lidar com os problemas acima
Principal preocupação Como construir programas de computador que
automaticamente melhoram seu desempenho com a experiência?
Técnicas orientadas a dados Aprendem automaticamente a partir de grandes
volumes de dados
Geração de hipóteses a partir dos dados
26
Algumas Técnicas
Redes Neurais Artificiais (RNs) Máquinas de Vetores Suporte (SVMs) Algoritmos de Agrupamento (AA) Algoritmos Genéticos (AGs) Árvores de Decisão (ADs) Raciocínio Baseado em Casos (RBC) K-vizinhos mais próximos (kNN) Redes Probabilísticas (Cadeias de Markov, BN) ...
27
Por muitos anos, sub-áreas da Biologia têm inspirado técnicas de AM Redes Neurais
Algoritmos Genéticos
Programação Genética
Vida Artificial
Agora, diversas pesquisas na Biologia vêm utilizando técnicas de AM
28
29
BIOLOGIA
Redes Neurais, Algoritmos Genéticos
COMPUTAÇÃO
Bioinformática
Problemas da Biologia Molecular que podem ser tratados por AM
Reconhecimento de genes
Reconstrução de árvores filogenéticas
Análise de dados de expressão gênica
Previsão de estruturas de proteínas
Análise de interação entre genes
Montagem de fragmentos
Alinhamento de seqüências
30
Alinhamento de sequências Identificação de elementos que provavelmente surgiram de um
ancestral comum
Reconhecimento de genes Identificação de genes em sequências de DNA não caracterizadas
Análise de dados de expressão gênica Identificar:
Um agrupamento dos genes que seja funcionalmente significativo Novas subclasses de doenças Funções de genes desconhecidos
Predição de estrutura de proteínas Identificação de estruturas secundárias de proteínas
Reconstrução de árvores filogenéticas Encontrar estratégias eficientes para a obtenção da melhor árvore
ou mesmo de uma árvore sub-ótima 31
Qual é a estrutura de uma sequência na vida real?
32
Primária Secundária Terciária
Docagem Molecular É o procedimento que permite distinguir, do ponto de vista
energético, os complexos e/ou forma de coordenação que duas moléculas podem adotar
Métodos de Docking Algoritmo evolucionário; Método de Monte Carlo; Métodos de dinâmica molecular; Algoritmo de construção incremental e busca sistemática;
33
Design, desenvolvimento e gerenciamento de Bancos de Dados Biológicos
Processamento de Linguagem Natural (PLN)
Desenvolvimento de interfaces gráficas
Sistemas Distribuídos
Segurança
Bioquímica
Biofísica
Biologia molecular
Química orgânica e físico-química
34
A obtenção de significados a partir do DNA Difícil Complexa Consome tempo Trabalhosa
O conceito de similaridade é importante
Comparação com o que já é conhecido
35
Bioinformática : área muito interessante muitas oportunidades para adquirir e aplicar
conhecimentos Muitos problemas em aberto Oportunidades para novos projetos Oportunidades possiveis para estudantes de
computação de todos os semestres
Informática : melhorar a área da biologia trabalhando com dados biológicos
36
Revisão da disciplina de Biologia Molecular
Princípios da Bioinformática
Programação em linguagem Phython
Seminário
37
Questões éticas
Implicações legais
Discriminação Genética
Os ataques direcionados
Perda de reputação
Vazamento de informações
Problemas de privacidade
38
39
LABIOINFO: Implantação de Laboratório de Bioinformática e Biologia Computacional da UFCSPA
Emprego de ferramentas de Bioinformática para o estudo de vírus patogênicos humanos Análise filogenética e relação entre carga viral e evolução do quadro clínico. Descrição: O projeto tem por objetivo identificar e caracterizar vírus
pouco conhecidos - como o metapneumovírus humano (hMPV) e o bocavírus humano (HBoV) – em pacientes com infecção respiratória aguda (IRA) - principalmente crianças - no Rio Grande do Sul. O projeto inclui a construção de redes filogenéticas e moleculares para melhor compreensão do papel desses vírus na IRA, bem como a relação com os dados epidemiológicos.
O vírus influenza A (H1N1) em pacientes no Rio Grande do Sul: análise filogenética e relação entre carga viral e evolução do quadro clínico
Desenvolvimento de ferramenta computacional para integrar o BioPython para uso de modelos probabilísticos de biomoléculas. Projeto submetido ao Google Summer of Code, o qual foi aprovado.
40
Desenvolvimento de Objetos de Aprendizagem sobre Introdução à Biologia Molecular.
41
Baldi, P. e Brunak, S. (2001). Bioinformatics: the Machine Learning Approach. MIT Press.
de Souto, M. C. P., Lorena, A. C., Delbem, A. C. B. e de Carvalho, A. C. P. L. F. (2003). III Jornada de Mini-Curso de Inteligência Artificial – Livro Texto, capítulo Técnicas de Aprendizado de Máquina para Problemas de Biologia Molecular, pp. 103-152. Editora SBC.
Lesk, Arthur M. Introdução à Bioinformática (2008), Artmed.
Mitchell, T. (1997). Machine Learning. McGraw Hill, New York.
Setúbal, J. C (2003). A origem e o sentido da palavra bioinformática. Com Ciência – Revista Científica da SBPC. http://www.comciencia.br/reportagens/bioinformatica/bio10.shtml
Xiong, J. Essential Bioinformatics (2006), Cambridge University Press.
42