Análise de Variáveis Canônicas Carlos Alberto Alves Varella Dimensionalidade das variáveis...

of 26 /26
Análise de Variáveis Canônicas Carlos Alberto Alves Varella Dimensionalidade das variáveis canônicas Vetores canônicos Porcentagem de variação das canônicas Exemplo de aplicação ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Embed Size (px)

Transcript of Análise de Variáveis Canônicas Carlos Alberto Alves Varella Dimensionalidade das variáveis...

  • Slide 1
  • Anlise de Variveis Cannicas Carlos Alberto Alves Varella Dimensionalidade das variveis cannicas Vetores cannicos Porcentagem de variao das cannicas Exemplo de aplicao ANLISE MULTIVARIADA APLICADA AS CINCIAS AGRRIAS PS-GRADUAO EM AGRONOMIA CINCIA DO SOLO: CPGA-CS
  • Slide 2
  • Introduo A anlise de variveis cannicas permite a reduo da dimensionalidade de dados; semelhante a componentes principais e correlaes cannicas. especialmente empregada em anlises discriminantes realizadas a partir de amostras com observaes repetidas.
  • Slide 3
  • Objetivo da anlise A anlise procura, com base em um grande nmero de caractersticas originais correlacionadas, obter combinaes lineares dessas caractersticas denominadas variveis cannicas de tal forma que a correlao entre essas variveis seja nula (KHATTREE & NAIK, 2000).
  • Slide 4
  • Vantagem da tcnica A utilizao dessa tcnica permite capturar o efeito simultneo de caractersticas originais; Pode capturar variaes no percebidas quando do uso de caractersticas originais isoladamente; A primeira varivel cannica a funo discriminante linear de Fisher; So funes discriminantes timas, ou seja, maximizam a variao entre tratamentos em relao variao residual
  • Slide 5
  • A variao cannica A variao de tratamentos, nesta anlise, expressa por uma matriz denominada H, composta pela soma de quadrados e produtos de tratamentos; A variao residual expressa pela matriz E, composta pela soma de quadrados e produtos do resduo; As matrizes H e E so obtidas de uma anlise de varincia multivariada: MANOVA.
  • Slide 6
  • Dimensionalidade das variveis A dimensionalidade o nmero de variveis cannicas obtidas na anlise; Pode tambm ser entendida como o nmero de razes no nulas da Equao1. (1) H= matriz de soma de quadrados e produtos de tratamentos; = autovalores da Equao 1; n e = graus de liberdade do resduo; =matriz de covarincia.
  • Slide 7
  • Teste de dimensionalidade Numa anlise de varincia varinica multivariada com k tratamentos, usualmente testamos a hiptese: Esta hiptese equivalente ao teste de que no h diferena entre os vetores de mdias de tratamentos, isto :
  • Slide 8
  • A importncia da dimensionalidade Se H 0 verdadeira, conclumos que os vetores so idnticos. Ento H 0 verdadeira implica em d=0. Se H 0 rejeitada, de importncia se determinar a real dimensionalidade d; Se d=t no h nenhuma restrio sobre os vetores de mdias; Em qualquer caso tem-se que:
  • Slide 9
  • Nmero de variveis cannicas Em uma anlise de varincia multivariada o nmero de variveis estudas normalmente maior que nmero de tratamentos; A regra significa que: o nmero de variveis cannicas ser no mximo igual ao nmero de graus de liberdade de tratamentos (q). d= dimenso mxima; p= nmero de variveis; q= nmero de graus de liberdade de tratamentos; k= nmero de tratamentos.
  • Slide 10
  • Porque existe a necessidade do teste Quando trabalhamos com dados observados, um autovalor pode ser muito pequeno sem propriamente ser nulo; Um teste de verificao da dimensionalidade torna-se necessrio; A aproximao mais adequada, nesse caso, segundo REGAZZI (2000), aquela proposta por BARTLETT (1947).
  • Slide 11
  • Teste proposto por BARTLETT (1947) O teste feito sequencialmente para d=0, d=1, etc, at que um resultado no significativo aparea; Se at d-1 se obtiver resultados significativos, mas em d no, infere-se que a dimensionalidade d; A estatstica proposta por BARTLETT (1947) obtida atravs da Equao 3. A estatstca, assintoticamente tem distribuio qui- quadrada 2 f com (3)
  • Slide 12
  • Vetores cannicos Vetores cannicos so os autovetores j associados aos autovalores j no nulos da matriz determinante ; L o j-simo vetor cannico obtido na anlise; L normalizado de modo que: A projeo de um ponto X (observaes) sobre o hiperplano estimado pode ser representada em termos de coordenadas cannicas d-dimensional:
  • Slide 13
  • Mdias cannicas As mdias cannicas dos k tratamentos so: As mdias cannicas representam a projeo do grupo de mdias sobre o hiperplano estimado e podem ser usadas para estudar as diferenas entre grupos (tratamentos).
  • Slide 14
  • Varivel cannica A j-sima varivel cannica representada por: j-sima varivel cannica; j-simo vetor cannico; vetor de caractersticas originais.
  • Slide 15
  • Porcentagem de variao A porcentagem de variao entre tratamentos explicada pelas primeiras d variveis cannicas o resultado da diviso da soma dos autovalores d pela soma dos autovalores p, isto : d= nmero de variveis cannicas; p= nmero de variveis originais.
  • Slide 16
  • Procedimento CANDISC - SAS O exerccio abaixo exemplifica o uso do procedimento CANDISC do SAS para anlise de variveis cannicas. data exemplo; title 'Exemplo de Anlise de Variveis Cannicas DIC'; input trat rep X1 X2; cards; 1 1 4.63 0.95 1 2 4.38 0.89 1 3 4.94 1.01 1 4 4.96 1.23 1 5 4.48 0.94 2 1 6.03 1.08 2 2 5.96 1.19 2 3 6.16 1.08 2 4 6.33 1.19 2 5 6.08 1.08 3 1 4.71 0.96 3 2 4.81 0.93 3 3 4.49 0.87 3 4 4.43 0.82 3 5 4.56 0.91 ;
  • Slide 17
  • Procedimento CANDISC - SAS proc candisc data=exemplo out=can all; class trat; var X1 X2; run; proc plot; plot can2*can1 = trat / vpos=20; run;
  • Slide 18
  • Procedimento para Grficos %let plotitop = gopts = gsfmode = replace gaccess = gsasfile device = gif hsize = 8.00 vsize = 6.00 cback = white, cframe = ligr, color = black, colors = green blue red, options = noclip expand, post=myplot.gif; %plotit(data=can, plotvars=Can2 Can1, labelvar=_blank_, symvar=symbol, typevar=symbol, symsize=1, symlen=4, exttypes=symbol, ls=100, tsize=1.0, extend=close);
  • Slide 19
  • Interpretao dos resultados do SAS Exemplo de Anlise de Variveis Cannicas DIC 16 21:59 Thursday, March 28, 2007 The CANDISC Procedure O Procedimento CANDISC Observations 15 DF Total 14 GL total Variables 2 DF Within Classes 12 GL de resduo Classes (trat) 3 DF Between Classes 2 GL de tratamentos Class Level Information Probabilidades a priori Variable trat Name Frequency Weight Proportion 1 _1 5 5.0000 0.333333 2 _2 5 5.0000 0.333333 3 _3 5 5.0000 0.333333
  • Slide 20
  • Matrizes E, H e A Exemplo de Anlise de Variveis Cannicas DIC 18 21:59 Thursday, March 28, 2007 The CANDISC Procedure Pooled Within-Class SSCP Matrix Matriz E Resduo Variable X1 X2 X1 0.4579600000 0.1512000000 X2 0.1512000000 0.0975200000 Between-Class SSCP Matrix Matriz H Trat Variable X1 X2 X1 7.247640000 0.870100000 X2 0.870100000 0.127853333 Total-Sample SSCP Matrix Matriz A Total Variable X1 X2 X1 7.705600000 1.021300000 X2 1.021300000 0.225373333
  • Slide 21
  • Matrizes de covarincias Exemplo de Anlise de Variveis Cannicas DIC 19 21:59 Thursday, March 28, 2007 The CANDISC Procedure Within-Class Covariance Matrices Matrizes Cov dentro de trat trat = 1, DF = 4 Variable X1 X2 X1 0.0696200000 0.0286350000 X2 0.0286350000 0.0177800000 -------------------------------------------------------------------- trat = 2, DF = 4 Variable X1 X2 X1 0.0201700000 0.0018150000 X2 0.0018150000 0.0036300000 -------------------------------------------------------------------- trat = 3, DF = 4 Variable X1 X2 X1 0.0247000000 0.0073500000 X2 0.0073500000 0.0029700000
  • Slide 22
  • Coeficiente de correlao Exemplo de Anlise de Variveis Cannicas DIC 21 21:59 Thursday, March 28, 2007 The CANDISC Procedure Within-Class Correlation Coefficients / Pr > |r| trat = 1 Variable X1 X2 X1 1.00000 0.81389 Correlao 0.0936 Significncia X2 0.81389 1.00000 0.0936 trat = 2 Variable X1 X2 X1 1.00000 0.21211 Correlao 0.7320 Significncia X2 0.21211 1.00000 0.7320 trat = 3 Variable X1 X2 X1 1.00000 0.85814 Correlao 0.0628 Significncia X2 0.85814 1.00000 0.0628
  • Slide 23
  • Resultado da MANOVA Multivariate Statistics and F Approximations MANOVA S=2 M=-0.5 N=4.5 Statistic Value F Value Num DF Den DF Pr > F Wilks' Lambda 0.03142928 25.52 4 22
  • Proporo acumulada de varincia Likelihood Approximate Eigenvalue Difference Proportion Cumulative Ratio F Value Num DF Den DF Pr > F 1 22.6963 22.3536 0.9851 0.0314 25.52 4 22