Aplicação de análisesmultivariadas em estudosde comunidades vegetais
MariaW.PilConcurso Docente,UFPR– Palotina
03/12/[email protected]
d = 10
Canonical weights
d = 10
Arg Leu
Ser Thr
Pro
Ala Gly Val
Lys
Asn Gln
His
Glu
Asp Tyr Cys
Phe
Ile
Met
Trp
Canonical weights
x1
Arg Leu
Ser
Thr Pro
Ala Gly
Val
Lys Asn Gln
His
Glu
Asp Tyr
Cys
Phe
Ile
Met Trp
Cos(variates,canonical variates) Eigenvalues
d = 2
Scores and classes
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●●
●
●
●
●
● ●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●●
● ●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●
●
●
●
●●
●
●
● ●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
cyto memb
peri
RS1
RS2
RS3
RS4
RS5 RS6
RS7
RS8
RS9 RS10 RS11
RS12
RS13
RS14
RS15
RS16
RS17 RS18
RS19
Cos(components,canonical variates)
d = 0.5
Class scores cyto
memb
peri
2
Outline
• Comunidades vegetais• Tipos de dados• Tipos de estudos
• O que são Análises Multivariadas?• Vantagens e características• Escolha de métodos
• Exemplos de métodos• MANOVA• Análise Discriminante Linear• Análise de Componentes Principais
Comunidades vegetais
4
Comunidade de mangue
• Unidades de amostragem:
• E.g.: plots, transectos, quadrats• Geralmente em estrutura espacial ou temporal hierárquica
• Parâmetros registrados por taxas múltiplas em cada unidade• E.g.: contagem simples, densidades,% de cobertura vegetal,presença-ausência
• Variáveis ambientais registradas em cada unidade• pH, salinidade, temperatura, nutrientes, tipo de sedimento do solo,elevação
Dados de estudos de comunidades vegetais
• Examinar padrões temporais e espaciais na composição deespécies
• Relacionar padrões à variáveis ambientais das unidadesamostradas
• Determinar quais táxons são chave em “direcionar” ospadrões temporais e espaciais
Exemplos de objetivos em estudos decomunidade vegetal
7
Complexidade de variáveis
• Composição dacomunidade
• Característicasmorfológicas das espécies
• Características ambientais
O que são Análises Multivariadas?
• Dois grupos de métodos estatísticos: univariada emultivariada
• A análise multivariada (AMV) fornece métodosestatísticos para estudo das relações conjuntas devariáveis em dados que contêm intercorrelações.
• Porque muitas variáveis podem ser consideradassimultaneamente, as interpretações podem ser feitas quenão são possíveis com estatísticas univariadas.
8
AMV usa todos os dados disponíveis para capturar omáximo de informação possível. O princípio básico édiminuir o número de variáveis de centenas para um meropunhado.
9
O que são Análises Multivariadas?
AMV
[
Pluralitas non est ponenda sine necessitate.Tradução aproximada: "Não torne as coisas mais complicadas do que
precisam ser."
Análises multivariadas são baseadas na“Navalha de Ockham”
William of Ockham(1285-1347) 10
Williamde Ockham foi ummonge Inglês do século14, autor do princípio lógico de que a explicaçãopara qualquer fenômeno deve assumir apenas aspremissas estritamente necessárias à explicação domesmo e eliminar todas as que não causariamqualquer diferença aparente nas predições dahipótese ou teoria.
O termo "navalha" se explica porqueo princípioserve para cortar as partes desnecessárias de umateoria científica.
11
• O principal elemento da AMV é a redução da dimensionalidade.
Levado ao extremo, isso pode significar ir de centenas dedimensões (variáveis) para apenas algumas, o que nos permitecriar um gráfico bidimensional.
• Usando estes gráficos, que os nossos olhos e cérebros podemfacilmente manipular, somos capazes de perscrutar o banco dedados e identificar tendências e correlações.
Redução de dimensionalidade
Tmt X1 X4 X5 Rep Y avec Y sans
1 -1 -1 -1 1 2.51 2.74
1 -1 -1 -1 2 2.36 3.22
1 -1 -1 -1 3 2.45 2.56
2 -1 0 1 1 2.63 3.23
2 -1 0 1 2 2.55 2.47
2 -1 0 1 3 2.65 2.31
3 -1 1 0 1 2.45 2.67
3 -1 1 0 2 2.6 2.45
3 -1 1 0 3 2.53 2.98
4 0 -1 1 1 3.02 3.22
4 0 -1 1 2 2.7 2.57
4 0 -1 1 3 2.97 2.63
5 0 0 0 1 2.89 3.16
5 0 0 0 2 2.56 3.32
5 0 0 0 3 2.52 3.26
6 0 1 -1 1 2.44 3.1
6 0 1 -1 2 2.22 2.97
6 0 1 -1 3 2.27 2.92
Dados brutos:impossíveis deinterpretar
Gráficos interpretáveis
tendência
tendênciatendência
Y
XX
X
X
Nlinhas
Ncolunas
Redução de dimensionalidade
13
• Auxilianacompreensãodecomportamentoscomplexosnoambiente
• Acrescentainformaçõespotencialmenteúteis
• Permitepreservarascorrelaçõesnaturaisentreasmúltiplasinfluênciasdecomportamentosemisolarqualquerindivíduoouvariável
Vantagens
14
• Todasasvariáveisdevemserinter-relacionadas
• Diferentesefeitosdasvariáveisnãopodemserinterpretadosdeformaseparada
• Temopropósitodemedir,explicarepreverograuderelacionamentoentrecombinaçõesponderadasdevariáveis
• Consisteemcombinaçõesmúltiplasdevariáveis
Características
15
Como escolher o método
• Dependedoobjetivodoinvestigador
• Paracartografaroudescreveravegetação:classificação
• Paraavaliarrelaçõesentreavegetaçãoeoambiente:ordenação
• Classificação:identificaindivíduosouobjetosemgruposouclassessebaseandoemmedidasdasvariáveisatravésdealgumíndicedesimilaridadeE.g.:Análisediscriminante
• Ordenação:sumarizaumgrandenúmerodemedidasempoucasvariáveissintéticas(eixosoucomponentes)E.g.:PCA
Exemplos de Métodos
• Que determinam diferenças entre grupos:• ANOVA Fatorial;• MANOVA;• Análise Discriminante;
• Que determinam a estrutura da relação:
• Regressão Múltipla• Correlação Canônica• Análise de Componentes Principais;• Análise de Correspondência;• Análise de agrupamento;
17
• Uma extensão de ANOVA em que os efeitos principais einterações são avaliados em uma combinação de VDs
• Análise de variância realizada em múltiplas variáveisdependentes (VD) simultaneamente
• Compara várias médias de diferentes populações paraverificar se essas populações possuem médias de variáveisiguais ou não
• Testa se diferenças médias entre os grupos em umacombinação de VDs é provável de ocorrer por acaso
MANOVA
Teste Número deVI NúmerodeVD
Teste t 1 1
ANOVA Múltiplos 1
MANOVA Múltiplos Múltiplos
18
• H0: μ11 = μ12 =…= μ1k ; = μ21 = μ22 =…= μ2k• Onde μij significa a média populacional da variável i no grupoj. Essa Ho diz que a média da variável 1 é a mesma para todosos k grupos e que as médias da vaiável 2 são as mesmas parak grupos, e assim por diante.
• HA: As k populações não tem as mesmas médias paras asdiversas variáveis.
Teste de hipótese da MANOVA
19
• A MANOVA desenvolve uma combinação linear de variáveisdependentes
• Equação: Z = c1V1 + c2V2 + c3V3 + ...+ cnVn• Essa combinação leva em consideração todas as possíveiscorrelações entre as variáveis
Correlações da MANOVA
V1 V2 V3
V1 SSv1 SCPv1xv2 SCPv1xv3
V2 SCPv1xv2 SSv2 SCPv2xv3
V3 SCPv1xv3 SCPv2xv3 SSv3
SS=SomadosQuadradosSCP=SomadosProdutosCruzados
20
• Wilks’lambda(Λ)• TesteestatísticocomumenteusadoemMANOVA• H0 érejeitadaquandoovalordeΛ épequeno(0-1)• Λ sãonormalmentetransformadosemvaloresdeF or X2maisfamiliares
• TestedePillai-Bertlett• Nessecaso,valoresaltossignificamrejeiçãodeHo
• TambémétransformadoemestatísticadeF
Índices da MANOVA
21Reichetal.1999.Generality of leaf trait relationships:atest across six biomes.Ecology 80:1955–1969.
• Reich et al. (1999) examinou a generalidade dascaracterísticas foliares de espécies diferentes em umavariedade de ecossistemas e regiões geográficas.
• 2 populações, entre 3 e 11 espécies, 2 grupos funcionais(arbustos e árvores) e 5 variáveis: • área foliar específica, concentração de N2 na folha, capacidade
fotossintética líquida à base de massa, capacidade fotossintéticalíquida à base de área foliar e capacidadede condutância difusorafotossintética.
• Vamos testar os efeitos da localização e grupo funcional, esua interação, nessas cinco variáveis de resposta tomadasem conjunto
Exemplo de MANOVA
22
Exemplo de MANOVA
Aceitamos H0, portanto não há diferenças nas médias das variáveisentre as populações.
• Suponha duas classes• Assuma que elas são linearmente separáveis por uma fronteira l(θ)
• Otimizar o parâmetro θ para encontrar a melhor fronteira.
• Análise Discriminante gera uma combinação linear das variáveisque maximiza a probabilidade de observações serem atribuídascorretamente aos seus grupos pré-determinados
Ruim Boa
Análise Discriminante Linear
• Tenta encontrar uma transformação linear através damaximização da distância entre-classes e minimização dadistância intra-classe.
• O método tenta encontrar a melhor direção de maneira quequando os dados são projetados em um plano, as classespossam ser separadas.
Análise Discriminante Linear
25
Análise de Componentes Principais
• descreve os dados contidos num quadro indivíduos-variáveis numéricas: p variáveis serão mediadas com nindivíduos
• transforma um conjunto original de variáveis em outroconjunto: os componentes principais de dimensõesequivalentes
• detecta a estrutura nas relações entre as variáveis
26
1. Padronizar os dados2. Calcular a matriz de covariância3. Encontrar os eigenvalues e eigenvectors da matriz de
covariânciaEigenvalues: Conceitualmente podemser considerados comomedidor da força (comprimento relativo) de um eixo no espaço N-
dimensionalEigenvectors: Enquanto umeigenvalue é o comprimento de um eixo,o eigenvector determina a sua orientação no espaço
4. Plotar os componentes principais sobre os dados
Passos para a Análise deComponentes Principais
27
Exemplo de mangue
• Composição dacomunidade
• Característicasmorfológicas das espécies
• Características ambientais
28
ANTONINA
BABITONGA
GUARATUBA
fringe bacia transição
Características do solo: conteúdo de areia e argila, salinidade(PWsalinity),composição orgânica (O.M.), pH e capacidadede troca de cátions (CEC).
29
• Áreas não ficaram bemseparadas
• Maior partedosdadossumarizados poratributos dosolo.
• PCA1explica 36%davariância erepresentadoprincipalmente porconteúdo deareia
• PCA2explica 24%davariância,representadoprincipalmente porsalinidade
30
31
Mito ou verdade?
• Uma análise estatística com mais de 2 variáveis é uma análisemultivariada.
Mito. Quando mais de 2 variáveis estão inter-relacionados unscom os outros, podemos usar estatísticamultivariada.
• A finalidade da estatística multivariada é estabelecer correlaçãoentre os conjuntos de variáveis.
Verdade. Mas é objetivo não se limita a determinar relação entreconjunto de variáveis. Ele tende a controlar o efeito de algumasvariáveis que intervêmem relacionamento entre os conjuntos devariáveis.
32
Resumo
• Umacomunidadevegetalpodeserdefinidacomotodasasespécies queocupam uma determinada área circunscrita por umecólogo paraopropósito deumestudo
• AMV fornecem métodos estatísticos para estudo das relações conjuntas devariáveis em dados que contêm intercorrelações.
• O princípio básico da AMV é diminuir o número de variáveis correlacionadas(redução da dimensionalidade).
• Classificação:identificaindivíduos ouobjetosemgrupos ouclassessebaseandoemmedidasdasvariáveisatravésdealgumíndicedesimilaridadeE.g.:Análisediscriminante.
• Ordenação:sumarizaumgrandenúmerodemedidasempoucasvariáveissintéticas(eixosoucomponentes) E.g.:PCA.
• MANOVAé uma extensão de ANOVA em que os efeitos principais e interaçõessão avaliados em uma combinação de VDs.
• Análise Discriminante gera uma combinação linear das variáveis que maximizaa probabilidade de observações serem atribuídas corretamente aos seusgrupos pré-determinados.
• Análise de Componentes Principais transforma um conjunto original devariáveis em outro conjunto: os componentes principais de dimensõesequivalentes.
33
•Objetivo:
• explorar e identificar dimensões não reconhecidas queafetam o comportamento
• obter avaliações comparativas de objetos quando as basesespecíficas de comparação são desconhecidas ou identificadas
•Passos:
•- identificar todos os objetos relevantes
•- escolher entre dados de similaridade ou de preferência
•- selecionar uma análise agregada ou desagregada
Escalonamento Multidimensional
34
35
Top Related