1
INTRODUINTRODUÇÇÃO ÃO ÀÀ QUIMIOMETRIA:QUIMIOMETRIA:Como explorar grandes conjuntos de dados quComo explorar grandes conjuntos de dados quíímicosmicos
Prof. Dr. Marcelo M. Sena (DQ-UFMG)[email protected]
Prof. Dr. Ronei J. Poppi (IQ-UNICAMP)[email protected]
2
INTRODUINTRODUÇÇÃOÃO
ÀÀ
QUIMIOMETRIAQUIMIOMETRIA
AULA 1
3
Quimiometria é a disciplina química que usa métodos matemáticos e estatísticos para:
→ Planejar ou selecionar condições ótimas de medidas e experimentos, e
→ Extrair o máximo de informação de dados químicos.
INTERNATIONAL CHEMOMETRICS SOCIETY
(ICS) 1974
LISTA DE DISCUSSÃO https://listserv.umd.edu/archives/ics-l.html
4
APLICAÇÃO DE MÉTODOS
DE ESTATÍSTICA
MULTIVARIADA EM
QUÍMICA
5
Objetivos da QuimiometriaObjetivos da Quimiometria
Otimiza
ção
Análise Exploratória
CalibraçãoResolução de CurvasCalibraçãoCalibração
6
ESTATÍSTICA MULTIVARIADA EM OUTRAS ÁREAS
1. Psicometria ( Psicologia);
2. Biometria (Biologia);
3. Econometria (Economia)
4. Geologia
5. Arqueometria (Arqueologia)
7
Conhecimentos básicos necessários
- Informática/Programação
- Estatística Básica
- Álgebra Linear
- Análise Instrumental
Principais Áreas de aplicação
- Química Analítica: Espectroscopia Molecular (UV/Vis, IV
próximo e médio, Raman, Fluorescência Molecular,
Técnicas Hifenadas)
- Físico-Química teórica: QSAR (Relação quantitativa
estrutura-atividade)
8
Pioneiros (início dos anos 70)
- Prof. Bruce Kowalski (Univ. Washington/Seatle/EUA)
Prof. Svante Wold (Univ. Umea/Suécia)
9
O uso da Estatística Multivariada em outras áreas (Psicometria, Biometria, etc.) data da 1ª metade do séc. XX. Por que a Quimiometria surgiu de forma relativamente tardia?
A partir dos anos 70, a presença de microprocessadores e
microcomputadores se popularizou nos laboratórios
químicos. Este fato impulsionou as técnicas
instrumentais analíticas, permitindo ao Químico obter
grandes quantidades de dados até então não disponíveis.
Daí, surgiu a necessidade de técnicas de tratamento de
dados mais complexas e, a partir de então, a estatística
multivariada ganhou popularidade e deu origem à
Quimiometria.
10
PRINCIPAIS QUIMIOMETRISTASSteve Brown (Delaware), Karl Booksh (Arizona), Paul Gemperline (EastCarolina), John Kalivas (Idaho), Ron Schaffer (US Naval Research), PhilHopke (Clarkson), Barry Lavine (Ohio), Sarah Rutan (Virginia), Neil Gallaher e Barry Wise (Eigenvector Research).
Peter Wentzel (Dalhousie).
Roma Tauler (Barcelona), Xavier Rius, Joan Ferré e Ricard Boqué (Tarragona).
Richard Brereton (Bristol).
Age Smilde (Amsterdã), Lutgard Buydens (Nijmegen), Klass Faber.
Paul Geladi (Umea), Rolf Sundberg (Estocolmo).
D. Luc Massart (†) e Yven vander Heyden (Bruxelas).
Olaf Kvalheim e Rolf Manne (Bergen).
Rasmus Bro e Claus Andersson (Copenhague) e Kim Esbensen (Aalborg).
Kurt Varmuza (Vienna).
Beata Walczak (Katowice).
Alejandro Olivieri (Rosário).
11
NO BRASIL
PIONEIRO: ROY E. BRUNS
- Prof. Ronei Poppi (IQ/UNICAMP)
- Profa. Márcia Ferreira (IQ/UNICAMP)
- Profa. Maria Fernanda Pimentel (UFPE)
- Prof. Mário Ugulino Araújo (UFPB)
- Profa. Ieda Scarminio (UEL/Londrina)
- Prof. Marcelo M. Sena (UFMG)
- Prof. Jez W. B. Braga (UnB)
- Prof. Marco F. Ferrão (UFRGS)
- Prof. Waldomiro Borges Neto (UFU)
12
1) Matlab (Mathworks);
2) PLS_toolbox (Eigenvector);
3) Unscrambler (Camo);
4) Pirouette (Infometric);
5) SIMCA (Umetric);
6) Statistica (Statroft);
7) Octave (Software livre);
8) Scilab (Software livre).
SOFTWARES
13
REVISTAS CIENTÍFICAS ESPECÍFICAS
CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS
Elsevier1987
JOURNAL OF CHEMOMETRICS Wiley1987
14
1) Analytical Chemistry (ACS Publications);
2) The Analyst (RSC Publishing);
3) Analytica Chimica Acta (Elsevier);
4) Analytical and Bioanalytical Chemistry (Springer);
5) Talanta (Elsevier);
6) Applied Spectroscopy (Society for Applied Spectroscopy);
7) Journal of Near Infrared (NIR Publications);
REVISTAS CIENTÍFICAS de interesse
15
LIVROS DIDÁTICOS
16
INTRODUINTRODUÇÇÃO ÃO ÀÀ
ANANÁÁLISE LISE
EXPLORATEXPLORATÓÓRIA DE RIA DE
DADOSDADOS
17
MÉTODOS DE
RECONHECIMENTO DE
PADRÕES
(Pattern Recognition)
ou
DE CLASSIFICAÇÃO
18
OBJETIVO
Avaliar, interpretar e extrair o máximo de
informação de dados analíticos provenientes de
espectros, cromatogramas, eletroferogramas,
voltamogramas (ou sinais de outros métodos
eletroquímicos), perfis de profundidade, e amostras
para as quais as concentrações de diversos
constituintes químicos ou outras propriedades
tenham sido medidas.
19
ARRANJO DOS DADOS• Os dados são arranjados em uma matriz Xnxp, de n
objetos, arranjados nas linhas e p variáveis, arranjadas
nas colunas.
=
npnn
p
p
xxx
xxx
xxx
X
L
MMMM
L
L
21
22221
11211
• Os objetos podem ser: amostras, moléculas, materiais, indivíduos, etc.
• As variáveis podem ser absorbâncias em diferentes comprimentos de onda, sinais analíticos em função do potencial elétrico ou do tempo de retenção, concentração de elementos ou outras propriedades físicas.
20
⇒ MÉTODOS NÃO SUPERVISIONADOS: Não existe supervisão, já que não se conhece a priori a que classes pertencem os objetos (ou pelo menos essa informação não éusada na construção do modelo). É a situação mais comum em Quimiometria.
Exs: PCA, Análise de Fatores, Análise Hierárquica de Agrumpamentos (HCA).
⇒ MÉTODOS SUPERVISIONADOS: A informação sobre a que classes pertencem os objetos está disponível e é usada na construção do modelo.
Exs: Método do K-ésimo vizinho mais próximo (KNN), SIMCA, Análise Discriminante Linear (LDA).
MÉTODOS DE CLASSIFICAÇÃO
21
Os métodos de classificação podem ser baseados:
1) No agrupamento dos dados baseados na distância direta entre os objetos (clustering methods).
Exs: HCA e KNN.
2) Na projeção dos dados em espaços de menor
dimensão.
Exs: PCA, Análise de Fatores e SIMCA.
MÉTODOS DE CLASSIFICAÇÃO
22
HARD X SOFT MODELLING
Natureza da Modelagem dos Dados:
-Hard Modelling: A modelagem envolve fenômenos que podem ser descritos por leis físico-químicas conhecidas e claramente definidas.Ex: Tratamento de espectros, que obedecem a Lei de Beer.
-Soft Modelling: Modelagem de fenômenos, cujas as leis que os regem não são claramente descritas e conhecidas.Ex: Análise de amostras de água de um rio, buscando-se
conhecer os padrões geogênicos e antropogênciosrelacionados à sua composição.
23
Análise de Componentes Principais (PCA)
• do inglês Principal Component(s) Analysis
24
Correlação• É comum a presença de correlação em
qualquer tipo de dados!
18 20 22 24 26 28 3075
76
77
78
79
80
81
82
83
84
Idade (meses)
Altura (cm
)
• Exemplo: altura média vs. idade de um grupo de crianças pequenas
• Observa-se uma forte relação linear entre altura e idade.
• Para crianças pequenas, altura e idade estão correlacionadas. Moore, D.S. and McCabe G.P., Introduction to the Practice of Statistics (1989).
25
Correlação em espectroscopia
200 210 220 230 240 250 260 270 280 290 3000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Comprimento de onda (nm)
Absorbância
λ230 λ265
• Exemplo: um composto puro émedido em dois comprimentos de onda para várias concentrações
0,332
0,498
0,664
0,831
0,166
Intensidade a 230nm
0,181
0,270
0,362
0,453
0,090
Intensidade a 265nm
15
20
25
5
Conc. (MMol)
10
26
Correlação em espectroscopia
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
Absorbância a 230 nm (unidades)Absorbância a 265 nm(unidades)
• As intensidades a λ230 e a λ265 são altamente correlacionadas.
• Existe apenas um fator
gerando os dados: concentraconcentraççãoão.
• Os dados não têm duas dimensões, mas apenas uma.
Aumento da concentração
27
Correlação em processos químicos
• Em modernas plantas químicas, muitos variáveis do processo são medidas on-line.
Tcw,inTcw,outTvc,gasQcondFcondSagitatorXagitatorTr,topTr,middleTr,bottomTjacket,inTjacket,outLrFcwPr
28
Correlação em processos químicos
• Tipicamente, 10 a 200 variáveis do processo são medidas a todo minuto, p.ex.: temperaturas, pressões, fluxos, etc.
• Essas variáveis do processo costumam ser altamente correlacionadas. Na maioria dos casos, existem apenas 2 ou 3 fatores importantes influenciando no processo -não 200!
0 50 100 150 200 250 3000
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
TempoVariáveis do processo (várias)
29
A matriz de dados
• Por exemplo,– Espectroscopia: amostra × comprimento de onda
65,078,022,015,0
33,085,024,013,0
81,093,034,014,0
29,065,045,012,0
L
MOMMM
K
K
K
variáveis
objetos
• Dados podem ser representados na forma de uma matriz:
– Processo contínuo: tempo × T, P, taxa de fluxo etc.
– Análises ambientais:
amostras (em função do espaço ou do tempo) × variáveis
30
Matriz de Dados
• Dados químicos multivariados (espectros) podem ser arranjados na forma de uma tabela de dados.
Variáveis
Amostras Matriz de
Dados X
31
Grandes quantidades de dados
• Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes.
– Um espectro de infravermelho medido para 50 amostras pode produzir uma matriz de dados de dimensões 50 × 800 = 40.000 números!
– 100 variáveis de processo medidas a cada minuto durante um dia produzem uma matriz de dimensões 1440 × 100 = 144.000 números!!
• É necessária uma maneira de extrair a informação importante de matrizes de dados tão grandes.
32
Principal Component Analysis• Redução dos dados
– A PCA transforma grandes matrizes de dados em matrizes menores, as quais podem ser mais facilmente examinadas, plotadas e interpretadas.
• Exploração dos dados – A PCA extrai os fatores mais importantes (componentes principais
- CPs) dos dados, preservando a maior parte da variância. Esses fatores descrevem as interações multivariadas entre as variáveis medidas e revelam tendências subjacentes aos dados.
• Interpretação dos dados– As CPs podem ser usadas para classificar amostras, identificar
compostos através da obtenção de seus espectros puros, determinar quais as variáveis fundamentais para um processo, etc.
33
Diferentes visões da PCA
• Estatisticamente, a PCA é uma técnica de análise multivariada relacionada com– Análise de autovetores/autovalores– Decomposição em valores singulares (SVD)
• Em termos matriciais, a PCA é um método para decompor X em duas matrizes menores (T e P) mais uma matriz de resíduos (E):X = TPT + E
• Geometricamente, a PCA é uma técnica de projeção, na qual, a matriz X é projetada num sub-espaço de dimensões reduzidas.
34
PCA: matemática
• A equação básica para a PCA é escrita como
onde
X (I × J) é uma matriz de dados,T (I × R) são os escores,
P (J × R) são os pesos (“loadings”) e
E (I × J) são os resíduos.
R é o número de CPs usados para descrever X.
ETP
EptptptX
+=
+++=
T
TT22
T11 ... RR
35
Componentes Principais (CPs)
• As CPs descrevem o máximo de variância (= informação) e são calculadas em ordem decrescente de importância
18,1 87,63
1,3 88,94
23,9 69,52
45,6 45,61
% de X explicada
% total de X explicada
CP.
• Uma CP é definida por um par de vetores pesos e vetores escores:
rr ,pt
e assim por diante... até 100%
36
PCA: matrizes
= + ... +X
escores
pesos
componente principal
+ E=
T
PT
37
Escores & pesos
• Escores– T = US (SVD)– relações entre objetos
– ortogonais, TTT = matriz diagonal
• Pesos– P = V (SVD)– relações entre variáveis
– ortonormais, PTP = matriz identidade, I
• Similaridades e diferenças entre objetos (ou variáveis) podem ser vistas através de gráficos em que os escores (ou pesos) são plotados uns contra os outros.
38
PCA: projeção simples
• Caso mais simples : duas variáveis correlacionadas
18 20 22 24 26 28 3075
76
77
78
79
80
81
82
83
84
Idade (meses)
Altura (cm
)
-8 -6 -4 -2 0 2 4 6 8-8
-6
-4
-2
0
2
4
6
8
Escores CP 1 (99,77%)
Escores CP 2 (0,23%)
gráfico de escores
PCA
CP1
CP2
• A CP1 descreve 99,77% da variação total em X.
• A CP2 descreve a variação residual aleatória (0,23%).
39
PCA: projeções
• A PCA é uma técnica de projeção.
– Agora, nós iremos projetar dados de J dimensões em um
espaço de duas dimensões, ou seja, um plano.
– No exemplo anterior, dados de duas dimensões foram projetados em um espaço de uma dimensão, ou seja, em uma linha.
• Cada linha de cada matriz de dados X (I × J) pode ser considerada como um ponto no espaço J-dimensional. Esses dados são projetados ortogonalmente em um sub-espaço de menor dimensionalidade.
40
= +•••••••••••••••
EPTX T+=
•
•�
•••••••••••••••• •
•
•
• •
�
•••••••••••••••�•••••••••••••••�
41
B
x1
x2
CP1
23
4
56
t1
t2
A
x1
x2
θ2
θ1
p1=cosθ1
p2=cosθ2
+∞
-∞
CP: reta na direção de maior variação das amostras
(A) “pesos” são os ângulos do vetor direção
(B) “escores” são as projeções nas amostras na direção de CP
42
Exemplo 1:Dados Proteínas
• Estudo do consumo de proteínas em países da Europa.• 9 variáveis descrevem diferentes fontes de proteína.• Os 25 objetos são os diferentes países.
• A matriz de dados tem as dimensões 25 × 9.
Weber, A., Agrarpolitik im Spannungsfeld der internationalen
Ernaehrungspolitik, Institut fuer Agrarpolitik und Marktlehre, Kiel (1973) .
• Quais países são semelhantes?
• Quais alimentos estão correlacionados com o consumo de carne vermelha?
43
44
PCA nos dados de proteínas• Os dados são centrados na média e cada variável é
autoescalada para variância um. A PCA é então aplicada.
Variância Percentual Capturada pelo Modelo PCA
Número de Autovalor % Variância % Variância
Componentes de Capturada Capturada
Principais Cov(X) por este CP Total
--------- ---------- ---------- ----------
1 4,01e+000 44,52 44,52
2 1,63e+000 18,17 62,68
3 1,13e+000 12,53 75,22
4 9,55e-001 10,61 85,82
5 4,64e-001 5,15 90,98
6 3,25e-001 3,61 94,59
7 2,72e-001 3,02 97,61
8 1,16e-001 1,29 98,90
9 9,91e-002 1,10 100,00
Quantos componentes principais você quer
escolher?
4
1 2 3 4 5 6 7 8 90
0.5
1
1.5
2
2.5
3
3.5
4
4.5Autovalores vs. Número de CPs
Número de CPsAutovalores
45
-3 -2 -1 0 1 2 3 4-5
-4
-3
-2
-1
0
1
2
Escores CP 1 (44,52%)
EscoresCP 2 (18,17%)
Albania
Austria
Belgium
Bulgaria
Czechoslovakia
Denmark East Germany
Finland
France
Greece
Hungary Ireland
Italy
Netherlands
Norway
Poland
Portugal
Romania
Spain
Sweden
Switzerland
UK USSR West Germany
Yugoslavia
Escores: CP1 vs CP2
PC 2
46
Pesos
White meat Eggs Milk Fish Cereals Starch Beans/nuts/oil Fruit & veg-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
Pesos CP CP1CP2
Red meat
PERMITEM VISUALIZAR OS
ESCORES E OS PESOS
SIMULTANEAMENTE
Gráficos Biplots
48
-5 -4 -3 -2 -1 0 1 2 3 4 5-5
-4
-3
-2
-1
0
1
2
CP 1
CP 2
Albania
Austria
Belgium
Bulgaria
Czechoslovakia
Denmark East Germany
Finland
France
Greece
Hungary Ireland
Italy
Netherlands
Norway
Poland
Portugal
Romania
Spain
Sweden
Switzerland
UK USSR West Germany
Yugoslavia
Red meat
White meat
Eggs
Milk
Fish
Cereals
Starch
Beans/nuts/oil
Fruit & veg
Biplot: CP1 vs CP2
CP2 indica que os espanhóis e os portugueses gostam especialmente de frutas, vegetais e peixes.
Europeus do SE comem muito cereais
49
-5 -4 -3 -2 -1 0 1 2 3 4 5-3
-2
-1
0
1
2
3
4
CP 1
CP 3
Albania
Austria
Belgium Bulgaria
Czechoslovakia
Denmark
East Germany
Finland
France
Greece
Hungary
Ireland Italy
Netherlands
Norway
Poland
Portugal Romania
Spain
Sweden
Switzerland
UK
USSR
West Germany
Yugoslavia
Red meat
White meat
Eggs
Milk
Fish
Cereals
Starch
Beans/nuts/oil
Fruit & veg
Escandinavos comem muito peixe!
Carne vermelha e leite estão correlacionados
Os holandeses gostam de batata…
...com maionese!?
Biplot: CP1 vs CP3
50
Resíduos• Também é importante examinar os resíduos do
modelo, E.
1 2 3 4 5 6 7 8 9-1
-0.5
0
0.5
1
1.5
Número da variável
Variação Residual
• Idealmente, os resíduos não deverão conter nenhuma estrutura - apenas variação aleatória (ruído).
51
Resíduos
• Os resíduos (quadrados) do modelo podem ser somados ao longo da direção dos objetos ou das variáveis:
0 5 10 15 20 250
0.5
1
1.5
2
2.5
3
3.5
Número do objeto
Q (soma dos resíduos quadrados)
∑=
=
J
j
iji eQ1
2
País 23 (URSS) se ajusta ao modelo de
maneira pior
52
Exemplo 2:Efeito do Manejo no Solo
• Agricultura Alternativa (Orgânica) x Convencional
• O estudo foi conduzido em 3 fazendas, em Guaíra/SP
• Em cada fazenda foram comparadas 2 faixas Alternativas, 2 Convencionais e a Mata nativa (5 faixas)
• 8 variáveis: pH, Ac, Ce, So, Dh, Ps, MB e Sba (Ye)
• O manejo iniciou em 1995 e os dados foram coletados
em 1996 e 1997
• A matriz de dados tem as dimensões 5 ×××× 8.
53
• É possível distinguir o sistema de manejo alternativo do manejo convencional e da mata nativa, através da análise de 8 variáveis relevantes?
• Quais dessas variáveis são as mais importantes para a discriminação?
Objetivo:Através de uma análise integrada usando a
PCA, responder a 2 questões
54 1996 – Fazenda Macaúba
55 1997 – Fazenda Macaúba
Mata x cultivadas: MB x CeAlt x Conv: MB e Ps x Ce e So
56
SOIL & TILLAGE RESEARCH 67, 171-181 (2002)
M. M. Sena, R. T. S. Frighetto, P. J. Valarini, H. Tokeshi, R. J. Poppi
“Discrimination of management effects on soilparameters by using principal component analysis: a multivariate analysis case study”
57
Pré-processamento dos dados
• Na maioria das vezes, nós estamos interessados nas diferenças entre os objetos, não nos seus valores absolutos.
– Dados de proteínas : diferenças entre países– Dados de solos : diferenças entre o tipo de faixa do solo
• Se diferentes variáveis são medidas em diferentes unidades, algum tipo de escalamento (normalização) é necessário para dar a cada variável a mesma chance de contribuir para o modelo.
– Dados de solos: pH & Biomassa Microbiana possuem escalas muito diferentes
58
Centrando os dados na média
• Subtrair a média de cada coluna de X:
107111,387,6
105482,363,6
118575,355,6
102452,376,6
−
−−−
−−
−
3.129,350,1175,0
3,292550,0225,0
1016250,1025,0
2,595450,0075,0Centrar
na média
=x6,525 1084036,75
=x0,0 0,00,0
59
Autoescalando os dados
• Dividir cada coluna de X por seu desvio padrão:
=σ
0,171 704,81,139
−
−−−
−−
−
3,129350,1175,0
3,292550.0,225,0
1016250,1025,0
2,595450,0075,0Escalamento
−
−−−
−−
−
183,0186.1,025,1
415,0483,0318,1
443.1,098,1146.0,
845,0395,0439,0
1,01,01,0=σ
60
Quantos CP’s usar?
• Poucos CP’s:– alguma variação sistemática deixa de ser descrita.– O modelo não consegue descrever os dados completamente.
X = TPT + E
variação sistemática resíduo (ruído)
• Muitos CP’s:– Os últimos CP’s descrevem apenas ruído.– O modelo não é robusto quando aplicado a novos dados.
• Como selecionar o número correto de CP’s?
61
Quantos CP’s usar?
• Gráfico de Autovalores
• Selecionar os componentes quando % variância explicada > nível do ruído
• Interpretar os escores e os pesos das CP’s: Eles fazem sentido?! Os resíduos têm estrutura?
• Validação cruzada
1 2 3 4 5 6 7 8 90
0.5
1
1.5
2
2.5
3
3.5
4
4.5E igenvalue vs . PC Number
PC Number
Eigenvalue
‘Saliência’ aqui selecionar 4 CP’s
62
Amostras anômalas (“Outliers”)
• “Outliers” são objetos que são muito diferentes do resto dos dados. Eles podem ter um grande efeito no modelo (na CP) e devem ser removidos.
1 1.5 2 2.5 3 3.5 4 4.54
6
8
10
12
14
16
18
pH
T (oC)
1 1.5 2 2.5 3 3.5 4 4.54
6
8
10
12
14
16
18
pH
T (oC)
Remover “outlier”
Experimento
anômalo
63
Amostras anômalas (“Outliers”)
• “Outliers” também podem ser encontrados no espaço do modelo ou nos resíduos.
-8 -6 -4 -2 0 2 4 6 8-8
-6
-4
-2
0
2
4
6
Escores CP 1
EscoresCP 2
22 24 26 28 30 32 34 36 38 40 420
2
4
6
8
10
12
14
Tempo (min)
Soma-dos-quadrados dos resíduos
64
Amostras anômalas (“Outliers”)• Podem ser avaliadas através dos resíduos, Qi, e do
seu peso no modelo (estimado pelo valor de T2 de Hotelling, Ti
2).
• Ti2 é a soma dos escores ao quadrado e é uma
medida da variação (da influência) de cada amostra dentro do modelo PCA.
Ti2 = tiλ
-1tiT
onde ti é o vetor escore da i-ésima amostra e λ-1 é o autovalor correspondente à CP.
• Intervalos de confiança podem ser estimados para os valores de Qi e Ti
2. Espera-se que as distribuições de Qi e Ti
2 sigam a normalidade (lembre-se do TLC).
• Amostras com altos resíduos (mal modeladas) e altos valores de T2 (alta influência no modelo) devem ser consideradas outliers.
65
66
A extrapolação do modelo não érecomendável
0 5 10 15 20 25 300
50
100
150
200
250
300
Idade (anos)
Altura (cm
)
…mas não éválido p/ a faixa de 30 anos!
O modelo linear foi válido para essa faixa de idade...
67
Conclusões
• A análise de componentes principais (PCA) reduz grandes matrizes colineares a umas poucas matrizes de escores e de pesos:
• Componentes Principais (CP’s)
– descrevem a variação mais importante nos dados.
– são calculados em ordem de importância.
– são ortogonais.
ETP
EptptptX
+=
+++=
T
TT22
T11 ... RR
68
Conclusões
• Gráficos de escores e “biplots” podem ser muito úteis para a exploração e o entendimento dos dados.
• Freqüentemente, é necessário centrar na média e escalar as variáveis antes da análise.
• A escolha do número correto de CP’s é um passo importante na construção de um modelo PCA.
69
Agradecimentos
UNIVERSITY OF AMSTERDAM
Prof. Age K. Smilde
Parte desta aula é uma adaptação do material preparado pelo
Prof. Smilde
Top Related