Análises agrupamento e dissimilaridade no Genes

Post on 19-Jun-2015

4.452 views 2 download

Transcript of Análises agrupamento e dissimilaridade no Genes

ANÁLISES DE ANÁLISES DE AGRUPAMENTO E AGRUPAMENTO E DISSIMILARIDADEDISSIMILARIDADE

Mestrando: Cristiano Lemes

Prof: Giovani Benin

Teoria da Seleção - 2012

ANÁLISES QUE SERÃO ANÁLISES QUE SERÃO ABORDADASABORDADAS

Métodos de Agrupamento: Variáveis Canônicas Componentes Principais Transformar matriz de similaridade em dissimilaridade

Dissimilaridade: Distância Euclidiana (baseada no arquivo de médias) Distância Mahalabonis (considera as repetições) Correlação cofenética e Ponto de corte

Bootstrap e ponto de corte em dendogramas

Dissimilaridade através de marcadores: morfológicos Moleculares

TÉCNICAS DE AGRUPAMENTO

Os métodos de agrupamento têm por finalidade separar um grupo original de observações em vários subgrupos, de forma a obter homogeneidade dentro e heterogeneidade entre os subgrupos.

Dentre estes métodos, os hierárquicos e os de otimização são empregados em grande escala pelos melhoristas de plantas.

Principais análises

1 - Estimativa de uma medida de distância1 - Estimativa de uma medida de distância

Distancia generalizada de Mahalanobis

Distancia Euclidiana

2 - Adoção de uma técnica de agrupamento2 - Adoção de uma técnica de agrupamento

Variáveis canônicas

Componentes principais

Agrupamento de Tocher

Agrupamento (Vizinho mais próximo, mais distante e distância média)

Dispersão gráfica

FINALIDADE:

Reunir os genitores em grupos

Homogeneidade dentro de grupos

Heterogeneidade entre grupos

Segundo critérios de similaridade ou dissimilaridade

Etapas: 1 – Estimativa das distâncias

2 – Adoção de uma técnica de agrupamento

OBJETIVOS:

Identificação do par de genitores mais similares

Avalia a possibilidade de inclusão de novos genitores

VARIÁVEIS CANÔNICASVARIÁVEIS CANÔNICAS- Técnica de Dispersão Gráfica- exige experimento com delineamento experimental (repetições)- Para serem representativos as 2 primeiras variáveis devem

explicar pelo menos 80% da variação original dos dados;

- Abrir arquivo de médias

- Em “Dispersão” completar com o “cre”

- Declarar o número de variáveis

- Nomear variáveis

Nesse caso as 2 Nesse caso as 2 primeiras primeiras variáveis variáveis explicam explicam

mais de 80% da mais de 80% da variação original variação original

dos dadosdos dados

COMPONENTES PRINCIPAIS - Técnica de Dispersão Gráfica- Permitem a identificação da divergência genética- Não exige experimentos com delineamento experimental (usa-se

apenas o arquivo de médias)- Para ser representativo os 2 primeiros componentes devem

explicar pelo menos 80% da variação original dos dados.

Nesse caso os 2 Nesse caso os 2 primeiros primeiros

componentes componentes explicam explicam

mais de 80% da mais de 80% da variação original variação original

dos dadosdos dados

C. PRINCIPAIS VS V. CANÔNICAS

SEMELHANÇAS: Permitem a identificação da divergência genética;

Possibilidade de resumir o conjunto de variáveis originais em poucos componentes, o que significará ter uma boa aproximação do comportamento dos indivíduos de um espaço dimensional em um espaço bi ou tri dimensional;

Para serem representativos os 2 primeiros

componentes devem explicar pelo menos 80% da variação original dos dados;

Os componentes são independentes entre si;

Ambas utilizam dados padronizados.

TOCHER- Método de Agrupamento

- A média das medidas de distância dentro de cada grupo deve ser menor do que as distâncias médias entre quaisquer grupo

- Não permite comparar acessos dentro do mesmo do mesmo grupo

DISSIMILARIDADE - DISTÂNCIA DE EUCLIDIANA

Observações individuais

Experimentos que não contemplam delineamento

Experimentos com delineamento - Médias das repetiçõesDeve ser evitado

Menor precisão em relação a distancia generalizada de Mahalanobis

- Saída do Dendograma

- Desvantagem do Genes:

- Pouca possibilidade para editar e formatar as figuras

Dissimilaridade - Distância de MahalanobisDissimilaridade - Distância de Mahalanobis- Leva em conta as variâncias e covariâncias e correlações residuais - Leva em conta as variâncias e covariâncias e correlações residuais

entre os caracteres aferidos.entre os caracteres aferidos.

-Considera as repetições experimentaisConsidera as repetições experimentais

-é possível destacar a distância generalizada de Mahalanobis Dé possível destacar a distância generalizada de Mahalanobis D22

- Leva em consideração a existência de correlações entre os caracteres Leva em consideração a existência de correlações entre os caracteres analisados, analisados,

Necessita de ensaios experimentais com repetiçõesNecessita de ensaios experimentais com repetições

-Nomear as VariáveisNomear as Variáveis

- Gerar MatrizGerar Matriz

-Processar AgrupamentoProcessar Agrupamento

-BootstrapBootstrap

-Testa a consistência das bifurcações em porcentagem a partir de um Testa a consistência das bifurcações em porcentagem a partir de um número determinado de simulaçõesnúmero determinado de simulações

CONTRIBUIÇÃO RELATIVA DOS CARACTERES – SINGH 1981

Identificação dos caracteres que mais contribuíram para a

dissimilaridade genética entre os genótipos avaliados

Dendograma gerado a partir da matriz de distância de Mahalanobis

CORRELAÇÃO COFENÉTICA (CCC) Mede a correlação (ajuste) entre a matriz de distância original e as distâncias Mede a correlação (ajuste) entre a matriz de distância original e as distâncias apresentadas no dendrograma.apresentadas no dendrograma.

Muito importante quando são realizadas inferências com base no Muito importante quando são realizadas inferências com base no dendrogramadendrograma

Valores de CCC acima de 0,70 indicam uma representação confiável entre a Valores de CCC acima de 0,70 indicam uma representação confiável entre a matriz de distância original e as distâncias gráficasmatriz de distância original e as distâncias gráficas

Abrir a “matriz de distância genética” que se deseja analisar

CONSTRUINDO DENDOGRAMAS NO NTSYS

- Abrir a “matriz de distância genética” no Genes

- Exportá-lo para o Excel

- Formatá-lo conforme o modelo ao lado

- No NTSYS, em clustering, clicar em SAHN, e no Imput file abrir a matriz de dissimilaridade

(Excel)-

No No output tree fileoutput tree file, digitar , digitar um nome de saída um nome de saída

(exemplo DE = (exemplo DE = dendrograma) dendrograma)

Em Em Clustering methodsClustering methods deixar UPGMAdeixar UPGMA; aí ; aí pedir para rodar (Compute), Com isso vai pedir para rodar (Compute), Com isso vai abrir uma janela de escritas que pode ser abrir uma janela de escritas que pode ser

fechada, e após deves buscar no canto fechada, e após deves buscar no canto inferior esquerdo da janela uma figura inferior esquerdo da janela uma figura pequena em forma de dendrograma: pequena em forma de dendrograma:

Clicando nela aparece a FIGURA que pode Clicando nela aparece a FIGURA que pode ser formatada conforme interesse, sendo ser formatada conforme interesse, sendo

salva formato salva formato metafilemetafile..

Conforme exposto acima, o programa Ntsys possui vários Conforme exposto acima, o programa Ntsys possui vários mecanismos que podem ser ajustados para formatar os mecanismos que podem ser ajustados para formatar os

dendogramas da mais adequada a cada situaçãodendogramas da mais adequada a cada situação

Dendograma feito no Ntsys

MATRIZ MAHALANOBIS - NTSYS

Idem passos anteriores para Idem passos anteriores para construção do dendograma a partir construção do dendograma a partir da matriz de Distância Euclidianada matriz de Distância Euclidiana

CCC NO NTSYS

Lembrar do arquivo de saída

que foi salvo anteriormente

- Antes de começar o cálculo do CCC refazer analise de dissimilaridade no Ntsys, substituindo o nome dos genótipos por letras.

- Calcular a matriz cofenética a partir do dentrograma que foi salvo (DE). Isto é feito no mesmo local clustering, clicar em Cophenetic values, e em Imput tree file abrir o DE e na Output Coph file, colocar um nome de saída (CCC).

- Após isso clicar em “Compute”.

-Depois, clicar em Graphics, em seguida em Matrix comprison plot, e no Input file 1 (X) abrir a matriz de dissimilaridade do Excel, aquela do inicio, e no Input file 2 (X), abrir a matriz cofenética de nome salvo (CCC).

- No Input file 3 (X) não vai nada. No Number of permutations, digitar 1000. (feito isso pedir para rodar). Vai abrir um gráfico que quando fechado aparece uma janela de escritas, e em uma delas aparece o valor da correlação entre as matrizes e que é o valor cofenético.

CÁLCULO DE SIMILARIDADE GENÉTICA A PARTIR DE MARCADORES MOLECULARES

- Juntar todos os marcadores polimórficos em única planilha do Excel

- Colocar nome dos genótipos e números de códigos (exemplo 1=cálculo da similaridade; 10=número de genótipos; 182=número de marcadores utilizados)

- No NTSYS: entrar em Similarity, depois em quantitative date e no Input file one buscar a planilha de dados do Excel com os códigos, genótipos e marcadores.

- Deixar clicado X em By rows, Coefficient clicar em DICE, e em Output file escrever qualquer nome de saída do arquivo de similaridade (só escrever o nome que ele salva no mesmo lugar que foi buscada a planilha de dados anterior.

- Rodar a análise (compute) e depois editar o dendograma

Transformá-la em dissimilaridade

genética (1 menos os valores de

similaridade que abrirem

Após, sem números em Após, sem números em formato de fórmula, inserir uma formato de fórmula, inserir uma coluna e duas linhas, colocando coluna e duas linhas, colocando o nome dos genótipos em forma o nome dos genótipos em forma de matriz, porém, nas primeiras de matriz, porém, nas primeiras

três células da linha digitar os três células da linha digitar os códigos: 2=indica cálculo de códigos: 2=indica cálculo de

dissimilaridade, 10 e 10= dissimilaridade, 10 e 10= indicam a dimensão da matriz.indicam a dimensão da matriz.

OBRIGADO

cristianolemes.utfpr@gmail.com