Download - Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Transcript

Page 1: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Técnicas de Aprendizado de Técnicas de Aprendizado de Máquina e Dados de Expressão Máquina e Dados de Expressão

GênicaGênica

Marcílio C. P. de SoutoDIMAp/UFRN

Dados de Expressão Gênica

AM e Dados de Expressão Gênica (1/2)

Algoritmos não supervisionados – descoberta de classes (e.g., grupos de genes co-regulados) Algoritmos de agrupamento hierárquico k-médias Mapas auto-organizáveis

Algoritmos supervisionados – previsão de classes (e.g., classificação de funções dos genes) Redes neurais artificiais Mapas de vetores suporte

Page 4: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

AM e Dados de Expressão Gênica (2/2)

Desafios para os algoritmos de AM Centenas de Amostras (exemplos) x Milhares de

genes (características) Overfitting (super-ajustamento aos dados)

Poucas Replicações & Alto Grau de Ruído Alta variância Valores faltosos Exemplos de treinamento rotulados incorretamente

Bases de dados não balaceadas

Page 5: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Agrupamento de Dados de Expressão Gênica

Agrupamento de genes Identificação de genes co-expressos/co-regulados Identificação de padrões temporais de expressão Redução de redundância

Agrupamento de amostras Identificação de novas classes de amostras

biológicas Novas classes de tumores Novos tipos de células

Detecção de artefatos nos experimentos

Page 6: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Agrupamento de Genes

Agrupamento de genes baseado nas suas Agrupamento de genes baseado nas suas expressõesexpressões

Dado: um conjunto de genes de um organismo, em que cada gene é um padrão

Faça: Agrupe os genes baseado na similaridade de seus valores de expressão

Page 7: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Genes: Agrupamento Hierárquico (1/2)

Eisen et al. (1998) Trabalho pioneiro Dados

6621 genes da levedura submetidos a quatro situações distintas

Divisão celular e respostas a diferentes estresses ambientais

Quatro séries temporais com 79 instantes de tempo Para o agrupamento foram usados apenas 2467 genes

Dados coletados por meio de microarrays de cDNA Técnica utilizada

Agrupamento hierárquico

Page 8: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Genes: Agrupamento Hierárquico (2/2)

Eisen et al. (1998) usam o agrupamento hierárquico com a ligação média

Similaridade entre genes é medida usando uma modificação do coeficiente de Pearson Consegue detectar relacionamento inversos Leva em consideração o deslocamento entre as

curvas Técnica antiga, também chamada UPGMA

em análise filogenética

Page 9: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Matriz de Expressão

gene

sexperimentosABCD

Eisen et al. (1998)

Page 10: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Correlação de Pearson

YXYX

YXr

iii

Eisen et al. (1998)

Page 11: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Matriz de Correlação

experimentos

gene

genes

gene

ABCD

Eisen et al. (1998)

Page 12: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Encontrar a Correlação Máxima

genes

gene

s 0.756

gene

experimentosABCD

Eisen et al. (1998)

Page 13: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Combine e Calcule as Correlações

genes

gene

experimentosAB

A B C D

Como um efeito colateral, o algoritmo produz um dendograma

Eisen et al. (1998)

Page 14: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Análise Posterior Seleção de aglomerados Seleção de um ordenamento dos genes

para visualização Determinação dos rótulos do aglomerados Determinação da significância dos

aglomerados

Eisen et al. (1998)

Page 15: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Resultados

Microarray data from Figure 2 of Eisen et al. (1998). Cluster Analysis and display of genome-wide expression patterns, Proc. Natl. Acad. Sci. 95: 14863-14868

(F) mitochondrial ribosome

(G) ATP synthesis

(H) chromatin structure(I) ribosome and translation

(J) DNA replication

Verificada a tendência de genes com seqüências similares ou com um mesmo papel em processos se encontrarem em regiões próximas no dendograma

Page 16: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Observou-se, por inspeção visual, que os aglomerados encontrados eram similares aqueles encontrado por Cho et al.

A periodicidade do ciclo celular foi automaticamente recuperada como um dos padrões mais proeminentes durante o crescimento da levedura

Genes: SOMs (1/2) Tamayo et al. (1999)

SOMs aplicados a dados sobre a diferenciação de células sanguíneas

Entradas: Para validar o programa (GENECLUSTER) Dados sobre o ciclo celular da levedura

Mesmos dados que Cho et al. (1998) Dados coletados por meio de microarrays de oligonucleotídeos 828 genes usados após filtro

Padrões normalizados SOM: uma grade 5 x 6, i.e., 30 aglomerados

Distância euclidiana

Tamayo et al. (1999)

Page 17: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Genes: SOMs (1/2) Entradas:

Dados sobre a diferenciação de células sanguíneas 4 linhagens de células hematopoéticas (HL-60, U937,

Jurkat, NB4) Dados coletados por meio de microarrays de

oligonucleotídeos 1036 genes usados após filtro

Padrões normalizados SOM: uma grade 6 × 4 SOM, i.e., 24 aglomerados

Distância euclidiana

Tamayo et al. (1999)

Foram identificados genes e vias já conhecidas no processo de diferenciação dos tipos de células estudadas

Page 18: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Genes: k-médias Tavazoie et al. (1999) Entradas:

Expressão relativa de 6220 genes da levedura em dois ciclos célulares - 15 experimentos

Dados coletados por meio de microarrays de oligonucleotídeos Utilzados apenas os 3000 genes que apresentaram maior

variância Foi utilizado o k-médias com a distância euclidiana para encontrar

10, 30 e 60 aglomerados Para a análise foi escolhido o resultado do k-médias com k=30

Tavazoie et al. (1999)

Observou-se que a metade dos aglomerados encontrados eram formados por genes funcionalmente relacionados

Page 19: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Agrupamento de Amostras

Descoberta de novas classes de doençasDescoberta de novas classes de doenças

Dado: um conjunto de experimentos de microarray, cada um realizado com células de pacientes diferentes, com um determinado grupo de doenças. Os níveis de expressão de cada paciente representam as características e as amostras os padrões.

Faça: Agrupe as amostras para encontrar células que não se ajustam bem as classes atuais. Assumir que essas pertencem a novas classificações de doenças.

Page 20: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Amostras: SOMs (1/2) Golub et al. (1999)

Trabalho pioneiro Dados

38 amostras de medula óssea 11 - Leucemia Mielóide Aguda (AML) 27 - Leucemia Aguda Limfoblástica (ALL)

6817 genes humanos Dados coletados com arrays de oligonucleotídeos

Técnica utilizada Mapas Auto-Organizáveis (SOMs)

Page 21: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Amostras: SOMs (2/2) Golub et al. (1999)

Inicialmente usam um SOM 2x1, i.e., 2 aglomerados

Depois usam um SOM 4x1, i.e., 4 aglomerados Diferentemente do trabalho de Tamayo et al.

(1999),os mapas são uni-dimensionais

Similaridade entre genes é medida usando a distância euclidiana Os dados são padronizados

Page 22: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Descoberta: Dados AML-ALL com 2 Descoberta: Dados AML-ALL com 2 AglomeradosAglomerados

Classe A1: maioria ALL (24/25 amostras)Classe A2: maioria AML (10/13 amostras)

Golub et al. (1999)

A2A2Resultados mostram que a distinção AML-ALL poderia ter sido descoberta sem um conhecimento biológico a priori!

Page 23: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Descoberta: Dados AML-ALL com 4 Descoberta: Dados AML-ALL com 4 AglomeradosAglomerados

Classe B1: AMLClasse B2: ALL Linhagem-TClasse B3: ALL Linhagem-BClasse B4: ALL Linhagem-B

Resultados mostram que não só a distinção AML-ALL poderia ter sido descoberta sem um conhecimento biológico a priori, como também entre as células ALL dos tipos B e T!

Golub et al. (1999)

Page 24: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Amostras: Agrupamento Hierárquico

Alizadeh et al. (2000) Entrada

Dados de 96 experimentos com 4026 genes humanos Os 96 experimentos foram realizados com biopsias de

pacientes com linfoma difuso de grandes células B (DLBCL)

Foi usado a técnica de agrupamento hierárquico UPGMA, com a mesma versão do coeficiente de Pearson em (Eisen et al., 1998). Dois sub-tipos de DLBCL, antes desconhecidos, identificados.

Sub-tipos correspondem aos prognósticos: “GC (Geminal-Center B-like)” -> 76% sobrevivência dos pacientes“Activated B-like” -> 16% sobrevivência dos pacientes

Page 25: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Outros Trabalhos Costa, I. G., de Carvalho, F. A. T., e de Souto, M. C.P. (2003). Comparative

study on proximity indices for cluster analysis of gene expression time series. Journal of Inteligent and Fuzzy Systems, A ser publicado.

Agrupamento dinâmico Dopazo, J. et al. (2001). Methods and approaches in the analysis of gene

expression data. Journal Immunol. Methods, 250(1/2):93--12. Self-Organizing Tree Algorithm

Raychaudhuri, S., Stuart, J. M., e Altman, R. B. (2000). Principal components analysis to summarize microarray experiments: Application to sporulation time series. In Proc. of Pacific Symposium on Biocomputing}, pp. 455--466.

Análise de componentes principais Sharan, R. e Shamir, R. (2002). CLICK: Clustering algorithm with

applications to gene expression analysis. In Proc. of Intelligent Systems for Molecular Biology}, pp. 307--316.

Page 26: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Previsão de Classes Predição de classes de doenças

Muitas doenças não podem ser distinguidas de forma confiável por meio de técnicas tradicionais

Diagnóstico de tecidos cancerosos e normais Classificação de tipos diferentes de cânceres

Vários tumores diferentes têm a mesma aparência em exames histológicos

Diagnóstico é fundamental para o sucesso do tratamento

Predição da função biológica de um gene

Page 27: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Previsão de Classes de Doenças

Predição de classes de doenças existentesPredição de classes de doenças existentes

Faça: aprenda um modelo que possa classificar de maneira precisa uma nova célula na categoria da doença apropriada.

Page 28: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Previsão de Classes de Funções: Redes Neurais

Khan et al. (2001) Problema

SRBCTs Neuroblastoma (NB) Rhabdomyosarcoma (RMS) Non Hodgkin lymphoma (NHL) The Ewing family of tumors (EWS) Todos têm aparência similar em exames

histológico Diagnóstico acurante é essencial

Abordagem Redes Neurais Artificiais (RNs)

Page 29: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Previsão de Classes de Funções: Redes Neurais

Microarray de cDNA com 6567 genes 63 exemplos de treinamento

Material da biopsia de tumores Linhagens celulares

Filtro para um número mínimo de expressão 2308 genes

Redução da dimensionalidade com PCA 10 componentes dominantes do PCA foram usadas (63% da

variância) Três-fold cross-validation 3750 redes neurais foram construídas (vote médio)

Khan et al. (2001)

Page 30: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Visão Esquemática do ProcessoKhan et al. (2001)

Page 31: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Análise dos Dados Arquitetura e parâmetros

Perceptron Linear (PL) 10 entradas representando componentes do PCA 4 nodos de saída – um para cada classe de tumor (EWS, BL,

NB e RMS) 44 parâmetros livres, incluindo quatro unidades de

threshold Treinamento realizado com o JETNET

=0.7; momentum=0.3 Taxa de aprendizado decrementada a cada iteração (0.99) Pesos iniciais escolhidos aleatoriamente em [-r,r] (r=0.1/F) Pesos atualizados a cada 10 épocas No máximo 100 épocas

Khan et al. (2001)

Page 32: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Observações Técnicas de diagnóstico de tumores são em geral

baseadas em histologia (morfologia) e imuno-histoquímica (expressão de proteínas)

Alternativa: Redes Neurais artificiais com dados de expressão

gênica Um dos primeiros trabalho a testar rigorosamente uma

técnica de classificação, com dados de expressão gênica, para o diagnósticos de mais de duas categorias

Não houve overfitting e o erro de classificação no conjunto de treinamento foi igual a zero

Dados Tumores e linhagem celulares Linhagens celulares para trinar RNs

Khan et al. (2001)

Page 33: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Previsão de Classes de Funções

Predição da função biológica de um genePredição da função biológica de um gene

Dado: um conjunto de genes cuja classificação funcional é conhecida, junto com a expressão desses genes em diferentes condições.

Faça: aprenda a predizer a categoria funcional de genes adicionais (não vistos durante o treinamento) baseado em um vetor de níveis de expressão formado de acordo com o conjunto de condições experimentais especificadas.

Page 34: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Previsão de Classes de Funções: Máquinas de Vetores Suporte (SVMs)

Conhecimento a priori sobre a função do gene

Exp 1Exp 2Exp 3

Exp i

Exp E

G1 G2 GN-1GN+

Page 35: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

SVMs (1/2)Conhecimento a priori da função do gene

Genes que codificam proteínas ribomosais Grupo A

Grupo A Não Grupo APadrões de Treino

{gene 1, 1}, {gene 2, 1}, … , {gene N-1, 1}, {gene N, 1}

{gene a, -1}, {gene b, -1}, …

Page 36: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

SVMs (2/2)

SVM treino

SVM teste

e1, e2, … , eN-1, eN

ea, eb, …

Perfil de expressãode um gene desconhecido

ex ?

Baseado nos dados de expressão

Grupo A Não Grupo APadrões de Treino

{gene 1, 1}, {gene 2, 1}, … , {gene N-1, 1}, {gene N, 1}

{gene a, -1}, {gene b, -1}, …

Page 37: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

SVMs: Treinamento

Não separável c/ um hiperplano no espaço de entradas

Separável com um hiperplanono espaço de características

Membros

Não membrosix )( ix

cxwxw 2211 cxwxwxw )()()( 332211

Page 38: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Previsão de Classes de Funções: SVMs

2467 genes da levedura

79 experimentos

6 classes funcionais do MYGD: ciclo TCA, respiração, ribossomos citoplasmáticos, proteasomos, histonas and protéinas hélice-volta-hélice

Dados de Microarray

Exemplos de Treino

Brown et al. (2000)

Page 39: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Resultados mostraram baixo número de falsos-positivos e falsos-negativos quando comparado com outras técnicas de aprendizado supervisionado, tais como janelas de Parzen, discriminate linear de Fisher e árvores de decisão.

Previsão de Classes de Funções: SVMs

Brown et al. (2000)

Page 40: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Outros Trabalhos

Eisen, M. B. et al. (1998). Cluster analysis and display of genome-wide expression pattern. In Proc. of National Academy of Sciences USA, volume 95, pp. 14863--14868.

Votação ponderada Shipp, M. A. et al. (2002). Diffuse large {B}-cell lymphoma

outcome prediction by gene-expression profiling and supervised machine learning. Nature Medicine}, 8(1):68--74.

k vizinhos mais próximos

Page 41: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Análise de Dados de Expressão Gênica:Observação

Algoritmos de agrupamentos diferentes geram resultados diferentes “Each clustering criterion imposes a certain

structure on the data, and if the data happens to conform to the requirements of a particular criterion, the true clusters are recovered.” (P. D’haeseleer)

Em geral, não se pode afirmar que há uma técnica melhor do que a outra Combinar resultados de diferentes técnicas

Page 42: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Análise de Dados de Expressão Gênica: Novas Direções

Combinar resultados de diferentes técnicas Combinar dados de expressão com outras

fontes de informação Artigos publicados Banco de dados de DNA & proteína Perfis filogenéticos Funções metabólicas Anotações funcionais de estudos experimentais

Page 43: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Referências Expressão Gênica:

Alberts, B. et al. (1997). Biologia Molecular da Célula. Editora Artes Médicas, terceira edição

Casley, D. (1992). Primer on Molecular Biology. Technical Report, U. S. Department of Energy, Office of Health and Environmental Research

Lewis, R. (2001). Human Genetics - Concepts and Applications. Mc Graw Hill, quarta edição

Page 44: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Referências Redes Neurais Artificiais:

Haykin, S. (1999). Neural Networks: A Comprehensive Foundation. Prentice Hall

Page 45: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Referências Máquinas de Vetores Suporte:

Cristianini, N. e Shawe-Taylor, J. (2000). An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press

Hearst, M. A. et al. (1998). Trends and controversies - support vector machines. IEEE Intelligent Systems, 13(4):18–28

Vapnik, V. N. (1995). The Nature of Statistical Learning Theory. Springer-Verlag

Page 46: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Referências Algoritmos de Agrupamento:

Jain, A. K. e Dubes, R. C. (1988). Algorithms for clustering data. Prentice Hall.

Jain, A. K., Murty, M. N., e Flynn, P. (1999). Data clustering: a review. ACM Computing Surveys, 3(31):264--323.

Sneath, P. H. A. e Sokal, R. R. (1973). Numerical Taxonomy. W. H. Freeman.

Kohonen, T. (1997). Self-Organizing Maps. Springer-Verlag. Quackenbush, J. (2001). Computational analysis of cDNA

microarray data. Nature Reviews, 6(2):418--428. Slonim, D. (2002). From patterns to pathways: gene

expression data analysis comes of age. Nature Genetics, 32:502--508.

Page 47: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Referências Descoberta de Padrões:

Eisen, M. B. et al. (1998). Cluster analysis and display of genome-wide expression pattern. In Proc. of National Academy of Sciences USA, volume 95, pp. 14863--14868.

Tamayo, P. et al. (1999). Interpreting patterns of gene expression with self-organizing maps: methods and application to hematopoietic differentiation. In Proc. Natl. Acad. Sci. USA, 96:2907--2912.

Tavazoie, S. et al. (1999). Systematic determination of genetic network architecture. Nature Genetics, 22:281--285.

Brazma, A. e Vilo, J. (2000). Gene expression data analysis. FEBS Letters, 480(1):17--24.

Page 48: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Referências Descoberta de Padrões:

Golub, T. et al. (1999). Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 5439(286):531--537.

Alizadeh, A. A. et al. (2000). Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling. Nature, 403:503--511.

Page 49: Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Referências Descoberta de Classes:

Khan, J. et al. (2001). Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks. Nature Medicine, 7:673--679.

Brown, M. P. et al. (2000). Knowledge-based analysis of microarray gene expression data by using support vector machines. In Proc. of National Academy of Sciences {USA}}, volume 97, pp. 262--267.

Top Related