Anderson Artur Analise r

14
UNIVERSIDADE FEDERAL DA BAHIA Análise Multivariada dos dados Anderson Farias e Arthur Lima Amaral Miguel Universidade Federal da Bahia Salvador –04/02/2014

Transcript of Anderson Artur Analise r

Page 2: Anderson Artur Analise r

Plotagem Multivariada de Dados

Foi Utilizado a função "scatterplotMatrix ()" para plotar os dados 7 primeiros dados multivariados.

Atraves do gráfico percebemos correlção alta entre algumas variaveis.

Page 3: Anderson Artur Analise r

Gráfico de perfil

Page 4: Anderson Artur Analise r

Gráfico de perfil mostra a variação em cada uma das variáveis, traçando o valor de cada

uma das variáveis para cada uma das amostras.

É evidente a partir do gráfico que a média e o desvio padrão para a V19 é maior do que

para as demais variáveis.

Calculando estatísticas de resumo para dados multivariados

Calculando média de cada variável V1 V2 V3 V4 V5 V6 V7 0.5443913 0.5957798 0.7067842 0.9058762 1.0339350 0.8007412 0.53 V8 V9 V10 V11 89096 0.7065743 0.9789711 0.5774793 0.2793481 V12 V13 V14 V15 V16 V17 0.1424036 0.1211818 1.6312951 0.3024068 0.4450284 0.1851868 V18 V19 V20 V21 V22 0.5315399 4.0547569 2.8733996 0.2862187 0.2623235 V23 V24 V25 V26 0.1938993 0.1703533 0.1757178 0.7313279

calculando o desvio padrão de cada variável

V1 V2 V3 V4 V5 V6 0.09818767 0.07668323 0.07753214 0.14140824 0.13473621 0.1270848 V7 V8 V9 V10 0.09529712 0.07641551 0.10035815 0.08308471 V11 V12 V13 V14 V15 V16 0.05637596 0.04361008 0.04365274 0.16511851 0.05944389 0.1107679 V17 V18 V19 V20 0.05044744 0.05545472 0.33499644 0.28704480

V21 V22 0.03621281 0.03609164

Calcular a média para os 26 comprimentos de ondas, para cada um dos quadro grupos

de origem.

Origem A V1 V2 V3 V4 V5 V6 0.6407445 0.6266463 0.7292747 1.0533903 1.1515445 0.9158836 V7 V8 V9 V10 V11 0.6126286 0.7749399 1.0792221 0.6236811 0.2956196 V12 V13 V14 V15 V16 V17 0.1678123 0.1350264 1.7877140 0.2877487 0.4231436 0.1819565 V18 V19 V20 V21 V22 0.5543944 4.3030473 3.1277223 0.2964643 0.2755024 V23 V24 V25 V26 0.1978335 0.1738548 0.1805938 0.7550124

Page 5: Anderson Artur Analise r

Origem B

V1 V2 V3 V4 V5 V6 0.6037522 0.6642159 0.7590865 0.9422577 1.0404889 0.8327555 V7 V8 V9 V10 V11 0.5939722 0.7284791 1.0154257 0.6115560 0.3072627 V12 V13 V14 V15 V16 V17 0.1617505 0.1426256 1.7398743 0.3016868 0.4178799 0.1928181 V18 V19 V20 V21 V22 0.5604083 4.3316085 3.1138771 0.3134761 0.2862827 V23 V24 V25 V26 0.2129106 0.1893882 0.2074924 0.7601461

Origem C

V1 V2 V3 V4 V5 V6 0.45143488 0.54345270 0.66886090 0.80624038 0.96152420 0.7303423 V7 V8 V9 V10 0.47368320 0.64905515 0.92371335 0.52411490 V11 V12 V13 V14 V15 V16 0.23760133 0.11326410 0.09954288 1.49394922 0.29069282 0.4322803 V17 V18 V19 V20 0.16694665 0.51618922 3.85344420 2.63799940 V21 V22 V23 V24 V25 V26 0.26807158 0.24198312 0.18404295 0.15541005 0.15802080 0.7136686

Origem D

V1 V2 V3 V4 V5 V6 0.4816337 0.5488045 0.6699149 0.8216165 0.9821823 0.7239835 V7 V8 V9 V10 V11 0.4753543 0.6738229 0.8975232 0.5505652 0.2769089 V12 V13 V14 V15 V16 V17 0.1267873 0.1075325 1.5036429 0.3294989 0.5068098 0.1990261 V18 V19 V20 V21 V22 0.4951678 3.7309276 2.6139998 0.2668629 0.2455258 V23 V24 V25 V26 0.1808102 0.1627600 0.1567643 0.6964845

Calculando as separações para cada uma das concentrações dos 26 comprimentos de onda.

Calculamos as separações para cada uma das concentrações através da função

“function calcSeparations()”

Assim, a variável de indivíduo que dá os melhores separações entre os grupos (Origem

da amostras) é V20 (153.79) e é também o que possui maior variância entre os grupos.

Page 6: Anderson Artur Analise r

Como discutiremos a seguir, a propósito da análise discriminante linear (LDA) é

encontrar a combinação linear das variáveis individuais que darão a maior separação

entre os grupos (origem das amostras).

Esperamos que venha dar uma separação melhor do que a melhor separação. alcançável

por qualquer variável individual (153.79 para V14).

Calculando Correlações para Dados Multivariados

Foi calculado os coeficientes de correlação entre os 26 comprimentos de onda nas

amostras de gasolina, e foi impresso os 10 melhores coeficientes de correlação dos

pares.

First.Variable Second.Variable Correlation 567 V21 V22 0.9582449 594 V22 V23 0.9467321 162 V6 V7 0.9325641 405 V15 V16 0.9286956 593 V21 V23 0.9207085 134 V4 V6 0.9159927 508 V14 V20 0.9137320 672 V22 V26 0.9131918 160 V4 V7 0.9080964 621 V23 V24 0.9070359

A normalização das Variáveis

As variáveis serão padronizadas de modo que todos eles terão variância 1 e média de 0,

e, em seguida, será realizado a análise de componentes principais dos dados

padronizados. Isto permitiria encontrar os componentes principais que fornecem a

melhor representação de baixa dimensão da variação nos dados originais, sem serem

excessivamente inclinado por aquelas variáveis que mostram a maior variação nos

dados originais.

“mean” V1 V2 V3 V4 -2.414203e-16 2.090215e-17 -4.270655e-16 -1.063179e-16 V5 V6 V7 V8 1.925546e-16 2.794389e-16 4.808464e-16 -4.557091e-16 V9 V10 V11 V12 1.751342e-16 5.040456e-16 -3.567082e-16 -1.823518e-16 V13 V14 V15 V16

-6.300299e-17 4.326214e-16 -2.555158e-16 -5.938684e-17 V17 V18 V19 V20 5.420164e-17 8.944038e-16 7.225137e-16 2.439807e-16 V21 V22 V23 V24

2.713629e-16 -6.987339e-16 9.252852e-17 -5.952257e-17 V25 V26 1.734075e-16 1.783699e-16

Page 7: Anderson Artur Analise r

“Sd” V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 V17 V18 V19 V20 V21 V22 V23 V24 V25 V26 1 1 1 1 1 1 1 1 1 1

Vemos que as médias das variáveis padronizadas são todos os números muito pequenos

e por isso são aproximadamente igual a 0, e os desvios-padrão das variáveis

padronizadas são todos iguais a 1.

Análise de Componentes Principais

Realizamos uma análise de componentes principais dos comprimentos de onda

padronizados.

Através da função summary(dados.pca) obtemos o resumo dos principais resultados da

análise de componente.

O desvio total explicado pelos componentes é a soma dos desvios dos componentes:

Neste caso, podemos ver que a variância total é de 26, que é igual ao número de

variáveis padronizadas (26 variáveis).

A variância total é igual à soma das variações das variáveis individuais, e uma vez que a

variação de cada variável normalizada for 1, a variância total deve ser igual ao número

de variáveis.

Componentes principais mantidas

Page 8: Anderson Artur Analise r

A mudança mais óbvia em declive no gráfico ocorre no componente 3, que é o

"cotovelo" do gráfico.

Portanto, com base no gráfico de cascalho, os primeiros três componentes deve

ser mantidos.

Critério de Kaiser

Devemos reter componentes principais para os quais a variação for superior a 1 (quando

a análise de componentes principais foi aplicada aos dados padronizados)

[1] 15.287610964 4.772583263 1.330411071 1.153263525 0.829020702 0.547321424 0.363378548 0.340619244 [9] 0.271453950 0.221390262 0.183233801 0.161159500 0.120765676 0.089639860 0.064838022 0.050440742 [17] 0.042104906 0.039748431 0.028797677 0.026380896 0.020402310 0.016132505 0.013936538 0.012567663 [25] 0.008301449 0.004497071

Vemos que a variação for superior a 1 para componentes principais 1, 2, 3 e 4.

Portanto, usando o critério de Kaiser, gostaríamos de manter as quatro primeiras

componentes principais.

Uma terceira maneira de decidir quantos componentes principais a reter é o de decidir

manter o número de componentes necessários para explicar, pelo menos, uma certa

quantidade mínima da variância total.

Os cinco primeiros componentes explicam 90 % da variância.

Loadings dos componentes principais

Para obter os Loadingss para o primeiro componente principal em nossa análise, nós

digitamos: dados.pca$rotation[,1].

Isto significa que o primeiro componente principal é uma combinação linear das

variáveis: -0,216 * Z1 - 0.217 * Z2 -0204 * Z3 ... -0236 * Z26, em que Z1, Z2, Z3 ... Z26

são as versões padronizadas das variáveis V1, V3, V4 ... V26 (que têm cada um

significativo de 0 e variância de 1).

Note-se que o quadrado dos Loadings é igual a 1, já que esta é uma restrição usada no

cálculo os Loadings.

Podemos, então, usar a função calcpc() para calcular os valores do primeiro componente

principal para cada amostra em nossos dados de comprimentos de onda.

Na verdade, os valores do primeiro componente principal são armazenados na variável

dados.pca $ x [1], que foi retornado pela função "prcomp ()", para que possamos

comparar esses valores com os que foram calculados e observamos que eles

concordaram.

Da mesma forma, podemos obter as cargas para a segunda componente principal:

dados.pca$rotation[,2]

Page 9: Anderson Artur Analise r

A segunda componente principal é uma combinação linear das variáveis: 0,089 * Z1 -

0.030 * Z2 -0.126 * Z3 ... -0039 * Z26, em que Z1, Z2, Z3 ... Z26 são as versões

padronizadas das variáveis V1, V3, V4 ... V26 (que têm cada um significativo de 0 e

variância de 1).

Note-se que o quadrado da soma das cargas também é 1.

A dispersão mostra o primeiro componente principal no eixo x, e a segunda componente

principal no eixo y.

Podemos ver no gráfico de dispersão que amostras de de comprimento de onda de

origem AB têm muito mais baixos valores do primeiro componente principal do que de

amostras de comprimento de ondas de origem CD. Portanto, o primeiro componente

principal separa amostras de origem A e B das de origem C e D.

Nós também podemos ver que as amostras de origem A têm muito mais valores

elevados da segunda componente principal valores do que amostras de origem B,C e D,

e de Origem D possui muito mais baixos do que amostras de origem B,C e A. Portanto,

a segunda componente principal separa amostras de origem A e D a partir de amostras

de origem de B e C.

Através da análise das Médias das variáveis de concentração padronizadas em cada

origem, percebemos que os valos médios de A e B são em sua maioria positivos e os

valores médios de C e D são em sua maioria negativos, logo a separação das amostras

com origem C e D das de Origem A e B faz todo sentido.

Linear Discriminante Análise

O objetivo da análise de componente principal é o de encontrar a melhor representação

de baixa dimensão da variação de um conjunto de dados multivariados.

Outro objetivo da análise discriminante linear (LDA) é encontrar as combinações

lineares das variáveis originais (Comprimentos de ondas) que dá o melhor possível a

separação entre os grupos (Origem das Amostras) em nosso conjunto de dados.

A primeira função discriminante é uma combinação linear das variáveis: -14.419 * V1 +

12.063 * V2 - 5.156 * V3... - 0.3.00 * V26, onde V1, V2, ... V26 são valores encontrados

nas amostras de 26 comprimentos de onda.

Page 10: Anderson Artur Analise r

Os loadings são calculadas de modo que a variância no grupo de cada função

discriminante para cada grupo (origem da amostra) é igual a 1.

O calclda function () simplesmente calcula o valor de uma função discriminante para

cada amostra no conjunto de dados.

Os valores da primeira função discriminante linear também pode ser calculada usando

a função "predict()" no R, para que possamos comparar os aos que foram calculados, e

eles são iguais.

Não importa se as variáveis de entrada para a análise discriminante linear são

padronizados ou não, ao contrário de análise de componentes principais, em que muitas

vezes é necessário para padronizar as variáveis de entrada, no entanto, o uso de

variáveis padronizadas na análise discriminante linear torna mais fácil de interpretar as

cargas em uma função discriminante linear.

Pode-se calcular a variável "padronizado-grupo" subtraindo a média de cada valor da

variável, e dividir pelo desvio padrão dentro de-grupos.

Podemos, então, usar o lda function () para realizar a análise discriminante linear sobre

as variáveis do grupo padronizado.

Podemos ver que, embora as cargas são diferentes para os primeiros discriminantes

calculadas utilizando dados unstandardised e do grupo padronizado, os valores reais da

primeira função discriminante são o mesmo.

Separação Alcançados pelas funções discriminantes

Usando a função "predict ()" podemos calcular a distância alcançada por cada função

discriminante, primeiro precisamos calcular o valor de cada função discriminante,

substituindo os valores das variáveis na combinação linear para a função discriminante.

Os loadings para cada função discriminante são calculados de tal modo que a variância

intra-grupo (Vw), para cada grupo (Origem da amostra) é igual a 1, como podemos ver

na saída do calcSeparations .

A saída do calcSeparations () nos diz que a separação alcançada pelo primeiro (melhor)

função discriminante é 386.14, separação alcançada pelo segundo (o segundo melhor)

função discriminante é 147.21 e pela terceira (a terceira melhor) é 65.56. Portanto, a

separação total é a soma destes, que é (386.145986583028

+147.212586473559+65.563454809836 = 598,92), arredondado para duas casas

decimais.

Por conseguinte, a "separação percentual" conseguido pela primeira função

discriminante é (386.145986583028*100/598,92=)64,47%.

A percentagem de separação alcançada pela segunda função discriminante é

(147.2125864735598*100/598,92=)24,58%.

A percentagem de separação alcançada pela terceira função discriminante é

(65.5634548098366*100/598,92=)10,95%.

A "proporção de traço" que é impresso quando você digita "dados.lda" (a variável

retornada pela lda function ()) é a separação porcentagem alcançada por cada função

discriminante. Para os dados de gasolina temos os mesmos valores (64,47% , 24,58% e

10,95%).

Page 11: Anderson Artur Analise r

Quando calculamos o quadrado do valor armazenado em "svd", devemos obter o

mesmo valor encontrado usando calcSeparations ():

Histograma dos Valores LDA

Vemos que a primeira função discriminante separa os grupos A, C e D muito bem, mas

não separa os grupos A e B, ou B, C e D, muito bem.

Vemos que a segunda função discriminante separa os grupos de origem B e C muito

bem, poia há pouca sobreposição em seus valores. Além disso, mas não separam muito

bem os demais grupos.

Page 12: Anderson Artur Analise r

A terceira função discriminante não separa muito bem os grupos.

Assim, vemos que três funções discriminantes são necessárias para separar as

cultivares, como foi discutido acima

Scatterplots das funções discriminantes

A partir do gráfico de dispersão das duas primeiras funções discriminantes, podemos

ver que os as amostras de diferentes origens são bem separados no gráfico de dispersão.

Page 13: Anderson Artur Analise r

Para conseguir uma boa separação dos quatro grupos, seria melhor para usar todos dos

três discriminantes juntos.

Regras de alocação

[1] "Means:" ORIGEM LD1 LD2 LD3 1 A -3.9961020 1.3693591 -0.3657199 2 B -0.8986637 -2.5258739 0.8376396 3 C 2.3158186 -0.4346781 -1.6387436 4 D 2.6450740 1.6319928 1.1967424 [1] "Standard deviations:" ORIGEM LD1 LD2 LD3 1 A 1.1547126 1.1672960 0.9941454 2 B 0.8926800 0.9188843 1.0634183 3 C 1.0977351 0.9825023 0.7655953 4 D 0.8098865 0.9073193 1.1412427 [1] "Sample sizes:" ORIGEM LD1 LD2 LD3 1 A 40 40 40 2 B 40 40 40 3 C 40 40 40 4 D 39 39 39

Podemos usar a seguinte regra de alocação:

Se a primeira função discriminante é <= -2.44738, a amostras é de origem A.

Se a primeira função discriminante é >-2.44738 <=1.4171549, a amostra é de origem B.

Se a primeira função discriminante é >1.4171549<=2.4804463, a amostra é de origem

C.

Se a primeira função discriminante é >2.4804463, a amostra é de origem D.

Podemos examinar a exatidão desta regra de alocação usando a função

"calcAllocationRuleAccuracy ()".

Há (3+1+5+18+3+8=38) amostras de grupos de origem mal classificadas, de 160

amostras Portanto, a taxa de erro de classificação é 38/160, ou, 23,75%

A taxa de erro de classificação é alta e, portanto, a precisão da regra de alocação parece

ser relativamente baixa.

Outliers

O método de detecção de outliers utilizado no R mostrou não ser tão eficiente quanto o Black

Box, pois o método utilizado no R uma amostra pode ser considerada Outliers para uma variável

e para outra não, enquanto o Black box identifica amostras que são consideradas outliers para

todas as variáveis.

Page 14: Anderson Artur Analise r

Conclusão

Através da análise de componentes principais percebemos que 82,413% da

variância total pode ser alcançada com apenas 3 componentes principais

(PCs). Também foi visto através da Análise Discriminante Linear(LDA) o

que a melhor representação de baixa dimensão da variação para o conjun

to de dados multivariados fornecidos.

Isso permitirá uma redução significativa no número de variáveis possib

ilitando então a implementação do uso das medidas de infravermelho na

inferência de propriedade da octanagem.