Técnicas de Aprendizado de Técnicas de Aprendizado de Máquina e Dados de Expressão Máquina e Dados de Expressão
GênicaGênica
Marcílio C. P. de SoutoDIMAp/UFRN
Dados de Expressão Gênica
AM e Dados de Expressão Gênica (1/2)
Algoritmos não supervisionados – descoberta de classes (e.g., grupos de genes co-regulados) Algoritmos de agrupamento hierárquico k-médias Mapas auto-organizáveis
Algoritmos supervisionados – previsão de classes (e.g., classificação de funções dos genes) Redes neurais artificiais Mapas de vetores suporte
AM e Dados de Expressão Gênica (2/2)
Desafios para os algoritmos de AM Centenas de Amostras (exemplos) x Milhares de
genes (características) Overfitting (super-ajustamento aos dados)
Poucas Replicações & Alto Grau de Ruído Alta variância Valores faltosos Exemplos de treinamento rotulados incorretamente
Bases de dados não balaceadas
Agrupamento de Dados de Expressão Gênica
Agrupamento de genes Identificação de genes co-expressos/co-regulados Identificação de padrões temporais de expressão Redução de redundância
Agrupamento de amostras Identificação de novas classes de amostras
biológicas Novas classes de tumores Novos tipos de células
Detecção de artefatos nos experimentos
Agrupamento de Genes
Agrupamento de genes baseado nas suas Agrupamento de genes baseado nas suas expressõesexpressões
Dado: um conjunto de genes de um organismo, em que cada gene é um padrão
Faça: Agrupe os genes baseado na similaridade de seus valores de expressão
Genes: Agrupamento Hierárquico (1/2)
Eisen et al. (1998) Trabalho pioneiro Dados
6621 genes da levedura submetidos a quatro situações distintas
Divisão celular e respostas a diferentes estresses ambientais
Quatro séries temporais com 79 instantes de tempo Para o agrupamento foram usados apenas 2467 genes
Dados coletados por meio de microarrays de cDNA Técnica utilizada
Agrupamento hierárquico
Genes: Agrupamento Hierárquico (2/2)
Eisen et al. (1998) usam o agrupamento hierárquico com a ligação média
Similaridade entre genes é medida usando uma modificação do coeficiente de Pearson Consegue detectar relacionamento inversos Leva em consideração o deslocamento entre as
curvas Técnica antiga, também chamada UPGMA
em análise filogenética
Matriz de Expressão
gene
sexperimentosABCD
Eisen et al. (1998)
Correlação de Pearson
n
YY
n
XX
n
YXYX
YXr
ii
ii
ii
ii
ii
ii
iii
2
2
2
2
,
Eisen et al. (1998)
Matriz de Correlação
experimentos
gene
s
genes
gene
s
ABCD
Eisen et al. (1998)
Encontrar a Correlação Máxima
genes
gene
s 0.756
gene
s
experimentosABCD
Eisen et al. (1998)
Combine e Calcule as Correlações
genes
gene
s
gene
s
experimentosAB
CD
A B C D
Como um efeito colateral, o algoritmo produz um dendograma
Eisen et al. (1998)
Análise Posterior Seleção de aglomerados Seleção de um ordenamento dos genes
para visualização Determinação dos rótulos do aglomerados Determinação da significância dos
aglomerados
Eisen et al. (1998)
Resultados
Microarray data from Figure 2 of Eisen et al. (1998). Cluster Analysis and display of genome-wide expression patterns, Proc. Natl. Acad. Sci. 95: 14863-14868
(F) mitochondrial ribosome
(G) ATP synthesis
(H) chromatin structure(I) ribosome and translation
(J) DNA replication
Verificada a tendência de genes com seqüências similares ou com um mesmo papel em processos se encontrarem em regiões próximas no dendograma
Observou-se, por inspeção visual, que os aglomerados encontrados eram similares aqueles encontrado por Cho et al.
A periodicidade do ciclo celular foi automaticamente recuperada como um dos padrões mais proeminentes durante o crescimento da levedura
Genes: SOMs (1/2) Tamayo et al. (1999)
SOMs aplicados a dados sobre a diferenciação de células sanguíneas
Entradas: Para validar o programa (GENECLUSTER) Dados sobre o ciclo celular da levedura
Mesmos dados que Cho et al. (1998) Dados coletados por meio de microarrays de oligonucleotídeos 828 genes usados após filtro
Padrões normalizados SOM: uma grade 5 x 6, i.e., 30 aglomerados
Distância euclidiana
Tamayo et al. (1999)
Genes: SOMs (1/2) Entradas:
Dados sobre a diferenciação de células sanguíneas 4 linhagens de células hematopoéticas (HL-60, U937,
Jurkat, NB4) Dados coletados por meio de microarrays de
oligonucleotídeos 1036 genes usados após filtro
Padrões normalizados SOM: uma grade 6 × 4 SOM, i.e., 24 aglomerados
Distância euclidiana
Tamayo et al. (1999)
Foram identificados genes e vias já conhecidas no processo de diferenciação dos tipos de células estudadas
Genes: k-médias Tavazoie et al. (1999) Entradas:
Expressão relativa de 6220 genes da levedura em dois ciclos célulares - 15 experimentos
Dados coletados por meio de microarrays de oligonucleotídeos Utilzados apenas os 3000 genes que apresentaram maior
variância Foi utilizado o k-médias com a distância euclidiana para encontrar
10, 30 e 60 aglomerados Para a análise foi escolhido o resultado do k-médias com k=30
Tavazoie et al. (1999)
Observou-se que a metade dos aglomerados encontrados eram formados por genes funcionalmente relacionados
Agrupamento de Amostras
Descoberta de novas classes de doençasDescoberta de novas classes de doenças
Dado: um conjunto de experimentos de microarray, cada um realizado com células de pacientes diferentes, com um determinado grupo de doenças. Os níveis de expressão de cada paciente representam as características e as amostras os padrões.
Faça: Agrupe as amostras para encontrar células que não se ajustam bem as classes atuais. Assumir que essas pertencem a novas classificações de doenças.
Amostras: SOMs (1/2) Golub et al. (1999)
Trabalho pioneiro Dados
38 amostras de medula óssea 11 - Leucemia Mielóide Aguda (AML) 27 - Leucemia Aguda Limfoblástica (ALL)
6817 genes humanos Dados coletados com arrays de oligonucleotídeos
Técnica utilizada Mapas Auto-Organizáveis (SOMs)
Amostras: SOMs (2/2) Golub et al. (1999)
Inicialmente usam um SOM 2x1, i.e., 2 aglomerados
Depois usam um SOM 4x1, i.e., 4 aglomerados Diferentemente do trabalho de Tamayo et al.
(1999),os mapas são uni-dimensionais
Similaridade entre genes é medida usando a distância euclidiana Os dados são padronizados
Descoberta: Dados AML-ALL com 2 Descoberta: Dados AML-ALL com 2 AglomeradosAglomerados
Classe A1: maioria ALL (24/25 amostras)Classe A2: maioria AML (10/13 amostras)
Golub et al. (1999)
A2A2Resultados mostram que a distinção AML-ALL poderia ter sido descoberta sem um conhecimento biológico a priori!
Descoberta: Dados AML-ALL com 4 Descoberta: Dados AML-ALL com 4 AglomeradosAglomerados
Classe B1: AMLClasse B2: ALL Linhagem-TClasse B3: ALL Linhagem-BClasse B4: ALL Linhagem-B
Resultados mostram que não só a distinção AML-ALL poderia ter sido descoberta sem um conhecimento biológico a priori, como também entre as células ALL dos tipos B e T!
Golub et al. (1999)
B1
B2
B3
B4
Amostras: Agrupamento Hierárquico
Alizadeh et al. (2000) Entrada
Dados de 96 experimentos com 4026 genes humanos Os 96 experimentos foram realizados com biopsias de
pacientes com linfoma difuso de grandes células B (DLBCL)
Foi usado a técnica de agrupamento hierárquico UPGMA, com a mesma versão do coeficiente de Pearson em (Eisen et al., 1998). Dois sub-tipos de DLBCL, antes desconhecidos, identificados.
Sub-tipos correspondem aos prognósticos: “GC (Geminal-Center B-like)” -> 76% sobrevivência dos pacientes“Activated B-like” -> 16% sobrevivência dos pacientes
Outros Trabalhos Costa, I. G., de Carvalho, F. A. T., e de Souto, M. C.P. (2003). Comparative
study on proximity indices for cluster analysis of gene expression time series. Journal of Inteligent and Fuzzy Systems, A ser publicado.
Agrupamento dinâmico Dopazo, J. et al. (2001). Methods and approaches in the analysis of gene
expression data. Journal Immunol. Methods, 250(1/2):93--12. Self-Organizing Tree Algorithm
Raychaudhuri, S., Stuart, J. M., e Altman, R. B. (2000). Principal components analysis to summarize microarray experiments: Application to sporulation time series. In Proc. of Pacific Symposium on Biocomputing}, pp. 455--466.
Análise de componentes principais Sharan, R. e Shamir, R. (2002). CLICK: Clustering algorithm with
applications to gene expression analysis. In Proc. of Intelligent Systems for Molecular Biology}, pp. 307--316.
Previsão de Classes Predição de classes de doenças
Muitas doenças não podem ser distinguidas de forma confiável por meio de técnicas tradicionais
Diagnóstico de tecidos cancerosos e normais Classificação de tipos diferentes de cânceres
Vários tumores diferentes têm a mesma aparência em exames histológicos
Diagnóstico é fundamental para o sucesso do tratamento
Predição da função biológica de um gene
Previsão de Classes de Doenças
Predição de classes de doenças existentesPredição de classes de doenças existentes
Dado: um conjunto de experimentos de microarray, cada um realizado com células de pacientes diferentes, com um determinado grupo de doenças. Os níveis de expressão de cada paciente representam as características e as amostras os padrões.
Faça: aprenda um modelo que possa classificar de maneira precisa uma nova célula na categoria da doença apropriada.
Previsão de Classes de Funções: Redes Neurais
Khan et al. (2001) Problema
SRBCTs Neuroblastoma (NB) Rhabdomyosarcoma (RMS) Non Hodgkin lymphoma (NHL) The Ewing family of tumors (EWS) Todos têm aparência similar em exames
histológico Diagnóstico acurante é essencial
Abordagem Redes Neurais Artificiais (RNs)
Previsão de Classes de Funções: Redes Neurais
Microarray de cDNA com 6567 genes 63 exemplos de treinamento
Material da biopsia de tumores Linhagens celulares
Filtro para um número mínimo de expressão 2308 genes
Redução da dimensionalidade com PCA 10 componentes dominantes do PCA foram usadas (63% da
variância) Três-fold cross-validation 3750 redes neurais foram construídas (vote médio)
Khan et al. (2001)
Visão Esquemática do ProcessoKhan et al. (2001)
Análise dos Dados Arquitetura e parâmetros
Perceptron Linear (PL) 10 entradas representando componentes do PCA 4 nodos de saída – um para cada classe de tumor (EWS, BL,
NB e RMS) 44 parâmetros livres, incluindo quatro unidades de
threshold Treinamento realizado com o JETNET
=0.7; momentum=0.3 Taxa de aprendizado decrementada a cada iteração (0.99) Pesos iniciais escolhidos aleatoriamente em [-r,r] (r=0.1/F) Pesos atualizados a cada 10 épocas No máximo 100 épocas
Khan et al. (2001)
Observações Técnicas de diagnóstico de tumores são em geral
baseadas em histologia (morfologia) e imuno-histoquímica (expressão de proteínas)
Alternativa: Redes Neurais artificiais com dados de expressão
gênica Um dos primeiros trabalho a testar rigorosamente uma
técnica de classificação, com dados de expressão gênica, para o diagnósticos de mais de duas categorias
Não houve overfitting e o erro de classificação no conjunto de treinamento foi igual a zero
Dados Tumores e linhagem celulares Linhagens celulares para trinar RNs
Khan et al. (2001)
Previsão de Classes de Funções
Predição da função biológica de um genePredição da função biológica de um gene
Dado: um conjunto de genes cuja classificação funcional é conhecida, junto com a expressão desses genes em diferentes condições.
Faça: aprenda a predizer a categoria funcional de genes adicionais (não vistos durante o treinamento) baseado em um vetor de níveis de expressão formado de acordo com o conjunto de condições experimentais especificadas.
Previsão de Classes de Funções: Máquinas de Vetores Suporte (SVMs)
Conhecimento a priori sobre a função do gene
Exp 1Exp 2Exp 3
Exp i
Exp E
G1 G2 GN-1GN+
SVMs (1/2)Conhecimento a priori da função do gene
Genes que codificam proteínas ribomosais Grupo A
Grupo A Não Grupo APadrões de Treino
{gene 1, 1}, {gene 2, 1}, … , {gene N-1, 1}, {gene N, 1}
{gene a, -1}, {gene b, -1}, …
SVMs (2/2)
SVM treino
SVM teste
e1, e2, … , eN-1, eN
ea, eb, …
Perfil de expressãode um gene desconhecido
ex ?
Baseado nos dados de expressão
Grupo A Não Grupo APadrões de Treino
{gene 1, 1}, {gene 2, 1}, … , {gene N-1, 1}, {gene N, 1}
{gene a, -1}, {gene b, -1}, …
SVMs: Treinamento
Não separável c/ um hiperplano no espaço de entradas
Separável com um hiperplanono espaço de características
Membros
Não membrosix )( ix
cxwxw 2211 cxwxwxw )()()( 332211
Previsão de Classes de Funções: SVMs
2467 genes da levedura
79 experimentos
6 classes funcionais do MYGD: ciclo TCA, respiração, ribossomos citoplasmáticos, proteasomos, histonas and protéinas hélice-volta-hélice
Dados de Microarray
Exemplos de Treino
Brown et al. (2000)
Resultados mostraram baixo número de falsos-positivos e falsos-negativos quando comparado com outras técnicas de aprendizado supervisionado, tais como janelas de Parzen, discriminate linear de Fisher e árvores de decisão.
Previsão de Classes de Funções: SVMs
Brown et al. (2000)
Outros Trabalhos
Eisen, M. B. et al. (1998). Cluster analysis and display of genome-wide expression pattern. In Proc. of National Academy of Sciences USA, volume 95, pp. 14863--14868.
Votação ponderada Shipp, M. A. et al. (2002). Diffuse large {B}-cell lymphoma
outcome prediction by gene-expression profiling and supervised machine learning. Nature Medicine}, 8(1):68--74.
k vizinhos mais próximos
Análise de Dados de Expressão Gênica:Observação
Algoritmos de agrupamentos diferentes geram resultados diferentes “Each clustering criterion imposes a certain
structure on the data, and if the data happens to conform to the requirements of a particular criterion, the true clusters are recovered.” (P. D’haeseleer)
Em geral, não se pode afirmar que há uma técnica melhor do que a outra Combinar resultados de diferentes técnicas
Análise de Dados de Expressão Gênica: Novas Direções
Combinar resultados de diferentes técnicas Combinar dados de expressão com outras
fontes de informação Artigos publicados Banco de dados de DNA & proteína Perfis filogenéticos Funções metabólicas Anotações funcionais de estudos experimentais
Referências Expressão Gênica:
Alberts, B. et al. (1997). Biologia Molecular da Célula. Editora Artes Médicas, terceira edição
Casley, D. (1992). Primer on Molecular Biology. Technical Report, U. S. Department of Energy, Office of Health and Environmental Research
Lewis, R. (2001). Human Genetics - Concepts and Applications. Mc Graw Hill, quarta edição
Referências Redes Neurais Artificiais:
Haykin, S. (1999). Neural Networks: A Comprehensive Foundation. Prentice Hall
Referências Máquinas de Vetores Suporte:
Cristianini, N. e Shawe-Taylor, J. (2000). An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press
Hearst, M. A. et al. (1998). Trends and controversies - support vector machines. IEEE Intelligent Systems, 13(4):18–28
Vapnik, V. N. (1995). The Nature of Statistical Learning Theory. Springer-Verlag
Referências Algoritmos de Agrupamento:
Jain, A. K. e Dubes, R. C. (1988). Algorithms for clustering data. Prentice Hall.
Jain, A. K., Murty, M. N., e Flynn, P. (1999). Data clustering: a review. ACM Computing Surveys, 3(31):264--323.
Sneath, P. H. A. e Sokal, R. R. (1973). Numerical Taxonomy. W. H. Freeman.
Kohonen, T. (1997). Self-Organizing Maps. Springer-Verlag. Quackenbush, J. (2001). Computational analysis of cDNA
microarray data. Nature Reviews, 6(2):418--428. Slonim, D. (2002). From patterns to pathways: gene
expression data analysis comes of age. Nature Genetics, 32:502--508.
Referências Descoberta de Padrões:
Eisen, M. B. et al. (1998). Cluster analysis and display of genome-wide expression pattern. In Proc. of National Academy of Sciences USA, volume 95, pp. 14863--14868.
Tamayo, P. et al. (1999). Interpreting patterns of gene expression with self-organizing maps: methods and application to hematopoietic differentiation. In Proc. Natl. Acad. Sci. USA, 96:2907--2912.
Tavazoie, S. et al. (1999). Systematic determination of genetic network architecture. Nature Genetics, 22:281--285.
Brazma, A. e Vilo, J. (2000). Gene expression data analysis. FEBS Letters, 480(1):17--24.
Referências Descoberta de Padrões:
Golub, T. et al. (1999). Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 5439(286):531--537.
Alizadeh, A. A. et al. (2000). Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling. Nature, 403:503--511.
Referências Descoberta de Classes:
Khan, J. et al. (2001). Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks. Nature Medicine, 7:673--679.
Brown, M. P. et al. (2000). Knowledge-based analysis of microarray gene expression data by using support vector machines. In Proc. of National Academy of Sciences {USA}}, volume 97, pp. 262--267.
Top Related