Arthur Gonçalves – agc Christian Diego – cdad Icamaan Viegas – ibvs Recife, 18 de Dezembro de...
-
Upload
henrique-pereira-de-santarem -
Category
Documents
-
view
214 -
download
1
Transcript of Arthur Gonçalves – agc Christian Diego – cdad Icamaan Viegas – ibvs Recife, 18 de Dezembro de...
Introdução Clustering Biclustering Algoritmo de Cheng e Church Coupled Two-way Clustering Algoritmo Interative Signature Conclusão
Gene Expression Profiling se estabeleceu na última década como técnica padrão para obter impressão digital de tecidos ou células em diferentes condições biológicas
Baseado na disponibilidade de sequências inteira de genoma, a tecnologia de microarray permite a medida, simultaneamente, de níveis de mRNA para milhares de genes
Gene Expression Profiling são poderosas fontes de informações e tem revolucionado o modo como são estudadas e compreendidas funções em um sistema biológico
Dado um conjunto de perfis de expressões gênicas, organizadas juntas como uma matriz com linhas correspondente a genes e colunas correspondendo a condições
Agrupar condições e genes em subconjuntos que conduzem a um significado biológico, é uma tarefa conhecida como clustering
Dentro de cada cluster os vetores de atributos são similares enquanto vetores de clusters disjuntos são dissimilares
Analises via clustering fazem muitas suposições a priori que podem não ser perfeitamente adequadas em todas as circunstancias
Clustering devem ser aplicados EXCLUSIVAMENTE a genes ou amostras, implicitamente, direcionando a analise a um particular aspecto do sistema
Algoritmos de clustering geralmente procuram agrupar o conjunto de elementos em grupos disjuntos, exigindo que nenhum gene ou amostra pertença a mais que um grupo
Podemos caracterizar um fenômeno biológico por uma coleção de biclusters, cada um representando um diferente tipo de comportamento, ligando um conjunto de genes a um correspondente conjunto de amostra
A falta de restrições estruturais em soluções de biclustering permite maior liberdade mas é conseqüentemente mais vulnerável a overfitting
Em aplicações clínicas, análise de expressões gênicas é feita em tecidos de pacientes com uma condição médica
Usando tais análises, biólogos tem identificado impressões digitais moleculares que podem ajudar na classificação e diagnóstico do status do paciente e guia protocolos de tratamento
Um importante aspecto de dados de expressão gênica é seu alto nível de ruídos
Microarrays provêem apenas uma rude aproximação de níveis de expressão, e são sujeitos a erros de até 2x o valor mensurado
Cheng e Church foram os primeiros a introduzir biclustering para análise de expressão gênica
Seu framework representa o problema de biclustering como um problema de otimização, definindo um score para cada bicluster candidato e desenvolvendo heurísticas para resolver o problema de otimização das restrições
As restrições forçam a uniformidade da matriz, o procedimento dá preferência a sub-matrizes maiores e a heurística é um algoritmo guloso
Cheng e Church implicitamente assumem que pares (gene, condição) em um “bom” bicluster tem um nível de expressão constante, além de possivelmente linhas aditivas e efeitos específicos de colunas
Após remover as médias de linhas, colunas e sub-matrizes o nível residual deverá ser tão pequeno quanto possível
Mais formalmente Dado a matriz de expressão gênica E Um subconjunto de genes I Um subconjunto de condições J
Nós definimos
Ie
e Ii jijI
,, J
ee Jj jiJi
,
, JI
ee JjIi ji
JI , ,
,
JIJijIjiJI eeeejiRS ,,,,, ),(
JjIiji
JIRS
JIH,
2,),(
A intuição por trás dessa definição pode ser compreendida por um exemplo Uma matriz completamente uniforme terá score
Zero
Dada a definição de score o problema de máximo bicluster procura um bicluster de tamanho máximo entre todos os biclusters com score não excedendo um determinado limiar
O tamanho pode ser definido de muitos modos, por exemplo o numero de células na matriz ou o numero de linhas mais o número de colunas
O problema de máximo bicluster é NP-Hard se nós forçarmos todas as soluções a serem matrizes quadradas ou se nós usarmos o número total de células da sub-matriz como nosso objetivo de otimização
Cheng e Church sugeriram uma heurística gulosa para rapidamente convergir para uma sub-matriz máxima local com score menor que o limiar
A idéia é que linhas/colunas com alta contribuição para o score possam ser removidas com garantias de melhoramento no total do score residual médio quadrado
Uma possível variação dessa heurística remove todas as linhas e colunas com uma contribuição, para o score residual, maior que um limiar
Para descobrir mais que um bicluster foi utilizado o algoritmo de bicluster em matrizes modificadas A modificação inclui randomização dos valores nas
células dos biclusters descobertos anteriormente Isto tem o efeito de eliminar a identificação do
bicluster com significantes sobreposições
Coupled two-way clustering (CTWC), introduzido por Getz, Levine e Domany, define um esquema genérico para transformar um algoritmo de cluster unidimensional (padrão) em um algoritmo de biclustering
O algoritmo se basea em ter um algoritmo de cluster unidimensional que possa descobrir clusters significantes (estáveis)
A implementação garante que cada par de subconjunto não é encontrado mais que uma vez
Note que o procedimento evita a consideracao de subconjuntos com todas as linhas ou colunas, começando de um conjunto de linhas estabelecido quando estiver formando subclusters de subconjuntos de colunas estabelecidos
O sucesso da estratégia CTWC depende da performance do dado algoritmo de clustering unidimensional
Muitos algoritmos populares, K-means, Hierárquico, não podem ser acoplados ao CTWC, devido a não distinguirem clusters significantes imediatamente de clusters não significantes e/ou fazerem suposição a priori do numero de clusters
Getz et al. reportou bons resultados usando o algoritmo SPC hierárquico Cada cluster de genes (condição) estável é gerado
dado um subconjunto de condições (resp. gene) Esta relação hierárquica é importante quando
tentamos entender o contexto do comportamento de genes ou condições comuns
No algoritmo de assinatura iterativa (ISA) a noção de um bicluster significante é definido intrinsecamente nos genes e exemplos do bicluster
A intuição é que genes num bicluster são co-regulados e, então, para cada exemplo (gene) a expressão gênica média sobre todos os genes (resp. exemplos) do bicluster deveria ser surpreendente (usualmente alta ou baixa)
O ISA converge para um ponto fixo e aproximado que é considerado um bicluster
O ponto fixo depende do conjunto inicial Vin e dos limiares TC e TG
Para gerar um conjunto representativo de biclusters, pode-se executar o ISA com várias condições iniciais, incluindo conjuntos conhecidos de genes associados ou conjuntos aleatórios
Depois de limitar redundâncias (pontos fixos repetidos), o conjunto de pontos fixos pode ser analisado como um conjunto de biclusters
O ISA pode ser generalizado atribuindo pesos para cada gene/exemplo de forma que genes/exemplos com comportamento significativo terão maior peso Substituindo as médias simples por médias
ponderadas, e o algoritmo pode ser representado utilizando operações matriciais
BicAT: http://www.tik.ee.ethz.ch/sop/bicat/
Há uma infinidade de algoritmos para biclustering
A escolha dos 3 algoritmos apresentados se baseou nos métodos mais práticos segundo [1]
Enquanto clustering restringe a análise a um aspecto particular, biclustering tem um alto poder de representação
[1] Livro Texto, capítulo 26 – Biclustering Algorithms: A Survey
[2] Dissertação de Mestrado – Daniele Sunaga
[3] http://arep.med.harvard.edu/biclustering
[4] http://ctwc.weizmann.ac.il
[5] http://barkai-serv.weizmann.ac.il/GroupPage