Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF...

37
Marco Reis:2012 © Modelação matemática de base estatística/empírica: I. Características dos dados industriais II. Análise dos componentes principais (PCA) III. Construção de modelos empíricos usando metodologias de regressão I Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 2 Marco Reis [email protected] (DEQ, Gab. D11) Telef.: 239798727 Contactos

Transcript of Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF...

Page 1: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

Marco Reis:2012 ©

Modelação matemática de base estatística/empírica:

I. Características dos dados industriaisII. Análise dos componentes principais (PCA)III. Construção de modelos empíricos usando metodologias de

regressão

I

Engenharia de Processos e Sistemas

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 2

Marco [email protected]

(DEQ, Gab. D11)

Telef.: 239798727

Contactos

Page 2: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 3

•Montegomery, D.C.; Peck, E.A. & Vining, G.G. (2006). Introduction to Linear Regression

Analysis. Wiley. 4th ed. (Regressão Linear Múltipla)

•Chaterjee, S. & Price, B. (1998). Regression Analysis by Example (2nd ed.). New York: Wiley.

•Reis, E. (2001) Estatística Multivariada Aplicada. Sílabo. 2ª ed. (Regressão Linear Múltipla)

•Jolliffe, I. T. (2002). Principal Component Analysis (2nd ed.). New York: Springer. (PCA)

•Kourti, T. & MacGregor, J.F. (1995). Process Analysis, Monitoring, and Diagnosis, using Multivariate

Projection Methods, Chemometrics and Intelligent Laboratory Systems, 28, 3-21. (PCA+PLS)

•Geladi, P. & Kowalski, B. R. (1986). Partial Least-Squares Regression: a Tutorial. Analytica Chimica

Acta, 185, 1-17. (PLS)

•Wise, B.M. & Gallagher, N.B. (1996). The Process Chemometrics Approach to Process Monitoring and Fault

Diagnosis, Journal of Process Control, 6 (6), 329-348. (PCA + Monitoring)

•FDA (2004). Guidance for Industry. PAT – A Framework for Innovative Pharmaceutical Development,

Manufacturing, and Quality Assurance. U.S. Department of Health and Human Sercices, Food and

Drug Administration (FDA), CDER, CVM, ORA. (www.fda.gov/cder/guidance/6419fnl.pdf)

___________

•Draper, N. R. & Smith, H. (1998). Applied Regression Analysis (3rd ed.). NY: Wiley.

•Hastie, T., Tibshirani, R. & Friedman, J. (2001). The Elements of Statistical Learning. NY: Springer.

•Jackson, J. E. (1991). A User's Guide to Principal Components. New York: Wiley.

•Martens, H. & Naes, T. (1989). Multivariate Calibration. Chichester: Wiley.

•Quadros, P. A., Reis, M. S. & Baptista, C. M. S. G. (2005). Different Modelling Approaches for a

Heterogeneous Liquid-Liquid Reaction Process. Industrial & Engineering Chemistry Research, 44, 9414-

9421.

Bibliografia

I. Características dos Dados Industrias

Page 3: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 5

Motivação: Porquê analisar dados industriais?

� Para conhecer melhor os processos …� Para identificar e analisar problemas …� Para construir modelos de previsão …� Para monitorar/supervisionar processos …

� Para melhorar processos!

“The operation of any system generates information

on how it can be improved.”George Box

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 6

LC

TC

F0, T0, CA0

F, T, CA

Fcj, Tcj,0

Fcj, Tcj

LC

TC

F0, T0, CA0

F, T, CA

Fcj, Tcj,0

Fcj, Tcj

0

dVF F

dt= −

/0 0 0

E RTAA A A

dVCF C FC k e C V

dt−= − −

/0 0 0 ( )E RT

A cjp p

dVT H UAF T FT k e C V T T

dt C Cρ ρ−∆= − − − −

,0,

( ) ( )cj cjcj cj cj cj

j p cj

dV T UAF T T T T

dt Cρ= − + −

( )2set c setF F K V V= − −

( ), 1cj cj set c setF F K T T= − −

Y

� Abordagens baseadas nos primeiros princípios: raciocínio dedutivo

Page 4: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 7

Abordagens baseadas em dados…

Dados

Informação

Conhecimento

CompreensãoPrimeiros princípios

… exploram o raciocínio indutivo

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 8

� Importante adquirir conhecimentos e competências em métodos indutivos de extracção de conhecimento de dados para completar adequadamente os ciclos de melhoria de processos / produtos.

Motivação

Page 5: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 9

� Estrutura multivariada;� Presença de correlações cruzadas entre variáveis;� Variáveis autocorrelacionadas (com dinâmica);� Presença de ruído (variabilidade não estruturada);� Existência de dados em falha;� Existência de várias taxas de aquisição (“multirate data”)� Informação qualitativa e quantitativa;� Presenças de médias em conjunto com valores recolhidos para

um dado instante (“multiresolution data”);� …

Características dos dados industriais

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 10

Características dos dados industriais:Estrutura multivariada

Amostras Univariadas: Amostras Multivariadas:

Cada linha representa um item, observação, amostra, instante,

etc.

Valor de X1, X2, …, para um dado item (observação, amostra, instante de tempo, etc.)

(caso contrário seriam várias amostra univariadas colocadas lado a lado, …)

Page 6: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 11

� Causas:� Natureza dos fenómenos relativamente aos quais

se recolhe os valores das variáveis

Características dos dados industriais:Variáveis correlacionadas

LC

TC

F0, T0, CA0

F, T, CA

Fcj, Tcj,0

Fcj, Tcj

LC

TC

F0, T0, CA0

F, T, CA

Fcj, Tcj,0

Fcj, Tcj

0

dVF F

dt= −

/0 0 0

E RTAA A A

dVCF C FC k e C V

dt−= − −

/0 0 0 ( )E RT

A cjp p

dVT H UAF T FT k e C V T T

dt C Cρ ρ−∆= − − − −

,0,

( ) ( )cj cjcj cj cj cj

j p cj

dV T UAF T T T T

dt Cρ= − + −

( )2set c setF F K V V= − −

( ), 1cj cj set c setF F K T T= − −

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 12

� Causas:� Presenças de anéis de controlo e protocolos de

actuação no processo

Características dos dados industriais:Variáveis correlacionadas

LC

TC

F0, T0, CA0

F, T, CA

Fcj, Tcj,0

Fcj, Tcj

LC

TC

F0, T0, CA0

F, T, CA

Fcj, Tcj,0

Fcj, Tcj

0

dVF F

dt= −

/0 0 0

E RTAA A A

dVCF C FC k e C V

dt−= − −

/0 0 0 ( )E RT

A cjp p

dVT H UAF T FT k e C V T T

dt C Cρ ρ−∆= − − − −

,0,

( ) ( )cj cjcj cj cj cj

j p cj

dV T UAF T T T T

dt Cρ= − + −

( )2set c setF F K V V= − −

( ), 1cj cj set c setF F K T T= − −

Page 7: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 13

0 50 100 150 200 250 30019.8

20

20.2

20.4

20.6

20.8

21

21.2

Sample number

Leve

l

y variable

� Causas:� Instrumentação redundante ou

parcialmente redundante;

� Natureza dos instrumentos de medição, e.g., espectros

Características dos dados industriais:Variáveis correlacionadas

y

X10

X9

X8

X7

X6

X5

X4

X3

X2

X1

X20

X19

X18

X17

X16

X15

X14

X13

X12

X11

“Slurry-Fed Ceramic Melter”

Wavelength

1/T

Espectro NIR

0 50 100 150 200 250 300200

300

400

500

600

700

800

900

1000

1100

1200

Sample number

Tem

pera

ture

X variables

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 14

Como extrair e explorar a

informação contida nos dados

industriais?

� Análise Exploratória de dados:

� Gráficos (matrizes de gráficos de dispersão, matrizes de correlações, etc.)

� Análise dos Componentes Principais (“PCA”)

� Construção de modelos empíricos:

� Regressão Linear Múltipla (RLM)� Regressão dos Componentes Principais (PCR)� Mínimos Quadrados Parciais (PLS)

EPS

X

X Y

X C (Classificação)

Page 8: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 15

II. Análise dos Componentes Principais

(Principal Components Analysis, PCA)

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 16

Objectivos

� Compreender os objectivos subjacentes a uma análise PCA;� Perceber a necessidade de proceder ao pré-processamento dos

dados (escalonamento das variáveis);� Saber como avaliar a fracção de variabilidade explicada pelo

modelo PCA (através da análise dos valores próprios);� Saber como analisar a estrutura de relações entre as variáveis,

usando os loadings;� Saber como analisar as características da distribuição de

observações usando os scores;� Compreender como conduzir uma análise de resíduos do

modelo PCA e como identificar outliers nos dados.

Page 9: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 17

Análise Multivariada

X

O1O2O3

On

X1 X2 X3 … Xm Variáveis:•Temperaturas;•Caudais;•Pressões;•Diferentes comprimentos de onda de um espectro (NIR, NMR, IR, UV, Raios X);•Pontos de um cromatograma (HPLC, GC, TLC);•Pontos de uma curva granolométrica;• etc.

Observações:•Amostra de um lote;•Valores recolhidos num dado instante num processo contínuo ou descontínuo;•Resultados de uma corrida (“batch”);•Espécime biológico;•Ensaio num planeamento de experiências;•etc.

x x x … x

x x x … x

x x x … x

x x x … x

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 18

� PCA - Análise dos Componentes Principais

X(nxm)

Frequentemente, o número de variáveis a analisar é muito elevado, sendo bastante superior ao número de fontes de variabilidade que afectam o processo (matérias primas, factores ambientais, operação das máquinas).

A existência de correlações / associação entre as variáveis é um sintoma disto mesmo, e traduz a redundância inerente a um tal conjunto de dados.

Fontes de correlação:•Restrições processuais (balanços mássicos e de energia);•Anéis de controlo, metodologias e protocolos de actuação;•Instrumentação (instrumentação redundante, espectrofotómetros, etc.).

Em lugar de analisar todas as variáveis, analisar os PCs, que

explicam praticamente a mesma variabilidade, mas são

em número bastante mais reduzido

PCA

Page 10: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 19

PCA

� Aplicações:

� Análise exploratória de dados (EDA)� Visualização de grupos de observações (e.g., identificação de diferentes

regimes de operação)� Análise de relações entre variáveis (correlações, interacções, etc.)� Análise de tendências, evolução de processos� Detecção e diagnóstico de falhas e “outliers”,…

� Regressão linear (PCR)

� Controlo estatístico de processos (PCA-MSPC)

� Reconhecimento de padrões e classificação

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 20

Correlations (AS.vs.Bendtsen)Marked correlations are signif icant at p < ,05000N=36 (Casew ise deletion of missing data)

Variable Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MDRa_CDRz_CDRq_CDRp_CDRt_CDR Sm_CDR S_CDR Sk_CDR Ku_CDRv_CDRdq_CDRa_MDRz_MDRq_MDRp_MDRt_MDR Sm_MDR S_MDR Sk_MDR Ku_MDRv_MDRdq_MD

1,00 0,99 1,00 0,94 0,96 0,89 0,89 0,46 -0,62 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,84 0,85 0,30 -0,63 0,89 0,680,99 1,00 0,99 0,95 0,98 0,86 0,88 0,46 -0,51 0,96 0,84 0,97 0,97 0,97 0,93 0,94 0,79 0,83 0,31 -0,53 0,90 0,731,00 0,99 1,00 0,94 0,97 0,89 0,89 0,46 -0,60 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,83 0,85 0,30 -0,61 0,89 0,680,94 0,95 0,94 1,00 0,94 0,83 0,84 0,71 -0,54 0,81 0,77 0,89 0,91 0,89 0,97 0,89 0,70 0,74 0,57 -0,51 0,75 0,690,96 0,98 0,97 0,94 1,00 0,88 0,91 0,48 -0,43 0,93 0,79 0,93 0,93 0,93 0,90 0,90 0,76 0,79 0,35 -0,51 0,85 0,680,89 0,86 0,89 0,83 0,88 1,00 0,95 0,45 -0,57 0,80 0,49 0,83 0,78 0,82 0,75 0,73 0,86 0,80 0,29 -0,61 0,71 0,360,89 0,88 0,89 0,84 0,91 0,95 1,00 0,38 -0,40 0,84 0,51 0,84 0,80 0,83 0,77 0,75 0,87 0,83 0,28 -0,52 0,73 0,370,46 0,46 0,46 0,71 0,48 0,45 0,38 1,00 -0,45 0,19 0,34 0,36 0,42 0,36 0,67 0,41 0,22 0,22 0,89 -0,31 0,13 0,37

-0,62 -0,51 -0,60 -0,54 -0,43 -0,57 -0,40 -0,45 1,00 -0,44 -0,47 -0,60 -0,54 -0,59 -0,52 -0,52 -0,58 -0,54 -0,28 0,74 -0,48 -0,350,94 0,96 0,94 0,81 0,93 0,80 0,84 0,19 -0,44 1,00 0,83 0,96 0,94 0,96 0,80 0,91 0,79 0,84 0,06 -0,50 0,95 0,690,81 0,84 0,81 0,77 0,79 0,49 0,51 0,34 -0,47 0,83 1,00 0,84 0,88 0,84 0,79 0,87 0,47 0,58 0,18 -0,40 0,85 0,930,98 0,97 0,98 0,89 0,93 0,83 0,84 0,36 -0,60 0,96 0,84 1,00 0,98 1,00 0,89 0,95 0,84 0,88 0,22 -0,60 0,94 0,710,96 0,97 0,96 0,91 0,93 0,78 0,80 0,42 -0,54 0,94 0,88 0,98 1,00 0,98 0,93 0,99 0,75 0,84 0,28 -0,49 0,94 0,790,98 0,97 0,98 0,89 0,93 0,82 0,83 0,36 -0,59 0,96 0,84 1,00 0,98 1,00 0,90 0,96 0,83 0,87 0,22 -0,58 0,95 0,720,91 0,93 0,91 0,97 0,90 0,75 0,77 0,67 -0,52 0,80 0,79 0,89 0,93 0,90 1,00 0,92 0,67 0,75 0,59 -0,48 0,76 0,730,92 0,94 0,92 0,89 0,90 0,73 0,75 0,41 -0,52 0,91 0,87 0,95 0,99 0,96 0,92 1,00 0,70 0,84 0,30 -0,43 0,93 0,800,84 0,79 0,83 0,70 0,76 0,86 0,87 0,22 -0,58 0,79 0,47 0,84 0,75 0,83 0,67 0,70 1,00 0,90 0,12 -0,63 0,73 0,240,85 0,83 0,85 0,74 0,79 0,80 0,83 0,22 -0,54 0,84 0,58 0,88 0,84 0,87 0,75 0,84 0,90 1,00 0,17 -0,50 0,83 0,370,30 0,31 0,30 0,57 0,35 0,29 0,28 0,89 -0,28 0,06 0,18 0,22 0,28 0,22 0,59 0,30 0,12 0,17 1,00 -0,29 -0,03 0,21

-0,63 -0,53 -0,61 -0,51 -0,51 -0,61 -0,52 -0,31 0,74 -0,50 -0,40 -0,60 -0,49 -0,58 -0,48 -0,43 -0,63 -0,50 -0,29 1,00 -0,44 -0,270,89 0,90 0,89 0,75 0,85 0,71 0,73 0,13 -0,48 0,95 0,85 0,94 0,94 0,95 0,76 0,93 0,73 0,83 -0,03 -0,44 1,00 0,750,68 0,73 0,68 0,69 0,68 0,36 0,37 0,37 -0,35 0,69 0,93 0,71 0,79 0,72 0,73 0,80 0,24 0,37 0,21 -0,27 0,75 1,00

Matrix of scatter plotsRa_CD

Rz_CD

Rq_CD

Rp_CD

Rt_CD

R Sm_CD

R S_CD

PCA

Page 11: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2009-2012 ©

21

PCAConceitos Centrais

Scores (T)Informação sobre as observações (agrupamentos, tendências, etc.)

Loadings (L)Informação sobre as variáveis (correlacionadas

positiva ou negativamente, não correlacionadas, etc.)

Valores-próprios (λ)Informação sobre a variabilidade

explicada pelo modelo PCA

Engenharia de Processos e Sistemas

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 22

PCA

X1,X2,X3 – Dados originais.

� Redução da dimensão

Page 12: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 23

PCA

PC1

PC1 – Eixo ao longo do qual a variabilidade das projecções dos dados originais é maximizada.

� Redução da dimensão

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 24

PCA

PC1

PC2

PC2 – Eixo, que sendo ortogonal a PC1, maximiza variabilidade das projecções dos resíduos de PC1 (dados originais menos as suas projecções ao longo de PC1).

� Redução da dimensão

Page 13: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 25

PCA

PC1

PC2

PC1,PC2 concentram a maioria da variabilidade exibida por X1,X2 e X3 (redução da dimensão).

� Redução da dimensão

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 26

PCA

PC1

PC2

T1(i) T2(i)

Score do PC1 associado à observação i

Score do PC2 associado à observação i

r(i)

X1

X2

X3

� Redução da dimensão

Page 14: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2009-2012 ©

27

PCA

� NOTA: � Os scores dos PC não apresentam correlação

entre si (não há redundância entre as novas variáveis);

� Os valores dos scores, contêm informação sobre as observações;

� Os loadings estão relacionados com a orientação dos eixos dos componentes principais, e traduzem as correlações lineares dominantes nos dados.

Engenharia de Processos e Sistemas

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2009-2012 ©

28

PCA

� Componentes principais: formulação

do problema

1. PC1: Determinar a direcção para a qual as projecções ortogonais dos pontos possuem maior variância (“direcção de maior variabilidade”).

Page 15: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2009-2012 ©

Análise Estatística Multivariada 29

PCA

Continuando:2. PC2: Determinar a direcção para a qual as projecções

ortogonais dos pontos possuem maior variância, sujeita à condição desta ser ortogonal (perpendicular) à primeira (PC1).

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2009-2012 ©

Análise Estatística Multivariada 30

PCA

� Qual o plano onde os dados projectados apresentam a maior variabilidade?� R: O plano gerado por PC1 e PC2

Fonte: UMETRICS

Page 16: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2009-2012 ©

31

PCA

Continuando para o PC3:3. PC2: Determinar a direcção para a qual as projecções

ortogonais dos pontos possuem maior variância, sujeita à condição desta ser ortogonal (perpendicular) à primeira e à segunda (PC1 e PC2).

4. … até o número de componentes ser igual ao número de variáveis.

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 32

PCA

� Nota:� As direcções ao longo das quais os dados apresentam

maior variabilidade, também são aquelas …… em redor das quais os resíduos

(ortogonais) têm menor variância!� Outra forma de encarar o problema subjacente a PCA:� Qual a direcção em torno da qual os resíduos (ortogonais)

apresentam menor dispersão, i.e., qual a direcção que mais explica a variabilidade dos dados? → PC1

� Qual a direcção, que sendo ortogonal à primeira, os resíduos apresentam menor dispersão, i.e., qual a direcção que mais explica a variabilidade remanescente nos dados? → PC2

� …

X1

X2

PC1

Max

Min

Page 17: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 33

PCA

� Nota:� Uma vez que a análise PCA determina as

direcções que maximizam a variabilidade dos dados, esta é sensível à escala na qual os dados são apresentados:

Altura (m)

Peso

(kg)

0 10 20 30 40 50

100

90

80

70

60

50

40

PC1 O peso domina a variabilidade, pelo simples facto de, nas unidades em que ambas as variáveis estão expressas, os valores numéricos relativos ao peso terem maior variância.

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 34

PCA

� Uma solução comum para contornar o problema da escala, de uma forma prática e automática, consiste em dividir as variáveis (previamente centradas por subtracção pela sua média) pelo seu desvio padrão: “AUTOSCALING”:

� Todas as variáveis têm desta forma igual importância à partida, uma vez que todas apresentam variância unitária (=1).

:,

, :,,

j

i j jasi j

x

x xx

s

−=

Média da variável j

Desvio padrão da variável j

Page 18: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 35

PCA

� Pré-processamento dos dados: “autoscaling”Variáveis

Val

ore

s m

edid

os

Centrar variáveis

Escalonarpara variância

unitária

0

“Mean centering”(adequado quando as variáveis têm

as mesmas unidades)

“Autoscaling”

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 36

PCA

� Outras metodologias de pré-processamento:� “Block-scaling” (ou “battery-scaling”);

� Algumas variáveis recebem mais ponderação para evitar que o seu efeito seja mascarado por outras, de outro tipo e em maior número.

� “No-scaling”;� “Pareto scaling”;� “Scaling without mean centering”;� …

Page 19: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 37

PCA

� Outras metodologias de pré-processamento: Transformações de variáveis

� Modelar processos não lineares� Aumentar dados com variáveis artificiais

correspondentes a termos não lineares� Xj=x1

2, Xj+1=x22,Xj+2=X1•X2

� Linearizar relações, estabilizar a variância dos resíduos, tornar os dados mais “normais”, …� E.g., transformações logarítmicas, raiz quadrada,

potência, etc.

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2009-2012 ©

38

PCAPCA

1. Centrar as variáveis: subtrair cada coluna de dados (variável) pela sua média (X→XC);

2. Se necessário, escalonar as variáveis: por exemplo “autoscaling” – centrar & dividir pelo seu desvio padrão (XC→Z);

3. Calcular a matriz de variâncias-covariâncias de Z, Cov(Z) (caso se tenha utilizado autoscaling, então Cov(Z) ≡ matriz de correlação de X, Corr(X) );

4. Calcular os loadings dos componentes principais (Li, i=1:m), respectivos valores próprios (λi, i=1:m) e scores (Ti, i=1:m);

� Metodologia:

Page 20: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2009-2012 ©

39

( ) ( )( ) ( )

( )( )

( ) ( )

N

k,i :,i k, j :

i j22N N

i jk,i :,i k, j :, jk 1 k

k 1i j

1

, j

X ,X1 1Va

1x x x xCov X ,X N 1

r X Var X x x x xN 1 N 1=

=

=

− −−ρ = =

− −− −

∑ ∑

PCA

� Cov(X) – Matriz das variâncias-covariâncias� Na posição (i,j) da matriz está a covariância entre

a variável Xi e Xj

� Corr(X) – Matriz de correlações� Na posição (i,j) da matriz está a correlação linear

entre a variável Xi e Xj

k,i

:,i

x - elemento da linha (observação) k, coluna (variável) i;

x - média da coluna (variável) i.

Nota:

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2009-2012 ©

40

PCA

� NOTA:

� Se Z resultar do “autoscaling” das variáveis da matriz de dados X:

Cov(Z)=Corr(X)

Nota:No Minitab só há duas opções para PCA:usando matriz de covariâncias → sem escalonamento (como se os dados estivessem centrados);usando matriz de correlações → equivalente a “autoscaling”;

Page 21: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2009-2012 ©

41

PCA

6. Escolher o número de PC a considerar (p≤m)

7. Analisar os resultados:

• Valores próprios : quantos componentes analisar?

• Loadings : relação entre variáveis

• Scores : relação entre observações

• Resíduos : analisar informação não explicada pelo modelo

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2009-2012 ©

42

PCA� Notas:

� Os loadings são ortonormais e contêm informação sobre a relação entre as variáveis;

� Os scores são ortogonais e contêm informação sobre a relação entre as amostras ou observações;

� A soma das variâncias da variáveis = soma das variâncias dos scores (PCs) (quando m=p);� A variância explicada por cada de cada PC (variância dos

seus scores) reflecte a importância deste PC na explicação da variabilidade total dos dados. Esta variância é dada pelo valor próprio que lhe está associado, λi*;

� A fracção da variabilidade total exibida em Z que é explicada pelo PCi, é λi* / (λ1*+λ2*+…+λm*).

� No caso de “autoscaling”, λ1*+λ2*+…+λm* = m, logo, neste caso, λi* dá uma indicação de “quantas variáveis originais vale um dado Ti”.

Page 22: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 43

PCA

X ZPré-processamento

Z T

PT

E= +

n

m

n

m

n

m

n

m

n

p

p

m

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 44

PCA

Z T1

P1T

E

=

m

n

m

n

1

+

1

n

m

T2

P2Tm

n

1

+…+

1

Tp

PpTm

n

1

+

1

+

Page 23: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 45

PCA

� NOTA:� Se # PCs = # variáveis (p=m)

� => Z=TPT

� => E = 0

Z E=+

n

m

n

m

n

T PT

m m

m

= 0

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 46

PCA

� Análise de Resíduos: � Que variáveis não são bem explicadas pelo modelo

PCA?

En

m

Analisar resíduos por coluna

Page 24: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 47

PCA

� Análise de Resíduos: � Que observações não são bem explicadas pelo

modelo PCA?

En

m

Analisar resíduos por linhas

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 48

PCA

� Resumo dos passos fundamentais:� Centrar variáveis e escolher o escalonamento� Escolher o número de PC (normalmente usando somente

a informação contida nos valores próprios)

% Variance this PC % Variance Cumulative36.37 36.3730.25 66.6210.13 76.758.72 85.473.9 89.372.93 92.3

2 94.31.46 95.761.1 96.860.88 97.740.62 98.360.45 98.81

0 5 10 15 20 250

1

2

3

4

5

6

7

8

Principal Component

Eig

enva

lue

Eigenvalue vs. Principal Component

Critério de Kaiser

“Scree test”

Page 25: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 49

PCA

� Resumo dos passos fundamentais:� Analisar loadings (L) para aceder às relações

entre variáveis� Analisar scores (T) para aceder às relações entre

amostras� Analisar resíduos (E) para: identificar amostras

que não são bem caracterizados pelo modelo PCA e quais as variáveis responsáveis por tal comportamento.

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 50

PCA� Exemplo 1: Conjunto de dados sobre consumo de

bebidas alcoólicas (Wise e Gallagher, 2000)� O seguinte conjunto dados contém informação recolhida

sobre o consumo de cerveja, vinho, licores (l/ano), a esperança média de vida (anos) e a taxa de incidência de doenças do coração (n.º de casos por 100 000 habitantes por ano) para 10 países. Que informação podemos extrair dele?

País Licor Vinho Cerveja EspVida TaxaDoeCorl/ano l/ano l/ano anos casos/10^5/ano

França 2,5 63,5 40,1 78 61,1Itália 0,9 58 25,1 78 94,1Suiça 1,7 46 65 78 106,4Australia 1,2 15,7 102,1 78 173Grã-Bretanha 1,5 12,2 100 77 199,7USA 2 8,9 87,8 76 176Russia 3,8 2,7 17,1 69 373,6República Checa 1 1,7 140 73 283,7Japão 2,1 1 55 79 34,7México 0,8 0,2 50,4 73 36,4

Page 26: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 51

PCA� Centrar variáveis;� Variáveis com diferentes unidades → “autoscaling”� Calcular o modelo PCA� Escolher o número de PC

1 1.5 2 2.5 3 3.5 4 4.5 50

0.5

1

1.5

2

2.5

Principal Component

Eig

enva

lue

Eigenvalue vs. Principal Component

variance PC (%)46,032,111,78,41,7

Cum variance PC (%)46,078,189,898,3100,0

2 PC

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 52

PCA

� MINITAB: Stat > Multivariate > Principal Components

Como as variáveis estão normalizadas, um valor próprio superior a 1, significa que o correspondente PC está a explicar mais variabilidade que a originalmente contida numa só variável.

Os dois primeiros PC’s explicam 78.1% da variabilidade original dos dados.

Ou seja, um modelo PCA com 2 componentes explica aproximadamente 80% da variabilidades dos dados.Loadings

Para o PC1Loadings

Para o PC2

(Representados nos gráficos de loadings)

Page 27: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 53

PCA

%Pre-processing%--------------%AutoscalingZ=(X-ones(n,1)*mean(X))*inv(diag(std(X)));

%PCA%---%(ou usar função da toolbox de estatística do matla b, ...)covZ=cov(Z);[V,D]=eig(covZ);lambda_aux=diag(D);

%Ordenar os pares valor próprio vector próprio por ordem crescente do%valor próprio[lambda,ind_ord]=sort(lambda_aux,'descend');

%Loads PCAL=V(:,ind_ord);%Scores PCAT=Z*L;

� Matlab

[L,T,Lambda, tsquare] = princomp(Z);� Matlab > Statistics toolbox:

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 54

PCA

%Analizar valores próprios (variabilidade explicada pelos PCs)figure(1)plot(lambda,'k*-');xlabel('PC');ylabel('Valores próprios');set(gca,'XTick',[1:m],'YGrid','on'); title('Scree plot')

%Analizar loadsfigure(2)plot(L(:,1),L(:,2),'r*');xlabel('Loadings PC1');yla bel('Loadings PC2'); for i=1:m,text(L(i,1),L(i,2),variable(i,:));endtitle('Loadings plot for PC1 and PC2')

%Analizar scoresfigure(3)plot(T(:,1),T(:,2),'g*');xlabel('Scores PC1');ylabe l('Scores PC2'); for i=1:n,text(T(i,1),T(i,2),country(i,:));endtitle('Scores plot for PC1 and PC2')

� Matlab (cont.)

Help window: principal component analysis

Page 28: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 55

PCA

� Variabilidade explicada pelo modelo PCA com dois componentes:

� (λ1*+λ2*) / (λ1*+λ2*+…+λ5*) = 0.781

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 56

PCA

� Análise da relação entre variáveis: loadings

1 2 3 4 5-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

Liquor

Wine

Beer

LifeEx HeartD

Variable Number

PC

2 (

32.1

1%)

Loads Plot

1 2 3 4 5-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

Liquor

Wine

Beer

LifeEx

HeartD

Variable Number

PC

1 (

46.0

3%)

Loads Plot

NOTA:• Correlação positiva entre “Wine” e “LifeEx” e entre “Liquor” e “Heart”• Correlação negativa ente “LifeEx” e “Heart”

Page 29: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 57

PCA� Nota:

� Os loadings para um dado PC, correspondem ao co-seno do ângulo que o eixo correspondente a cada variável faz com este mesmo PC;

� Variáveis importantes para um dado PC fazem um pequeno ângulo com o seu eixo, e têm um grande impacto nos seus valores;

� Variáveis que fazem ângulos de aproximadamente 90º com um PC, não são importantes para este PC.

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 58

PCA

-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

Liquor

Wine

Beer

LifeEx HeartD

PC 1 (46.03%)

PC

2 (

32.1

1%)

Loads Plot

� Análise da relação entre variáveis: loadings

Variáveis distantes da origem são importantes no modelo PCA.

Variáveis com abcissas elevadas (em valor absoluto), são importantes para o PC representado no eixo dos XXs (PC1). E.g.; LifeExp, HeratD

Variáveis com ordenadas elevadas (em valor absoluto), são importantes para o PC representado no eixo dos YYs (PC2).

Page 30: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 59

� Análise da fracção da variabilidade apresentada por cada variável que é explicada pelo modelo

Variance captured by 1 PC model

0

20

40

60

80

100

1 2 3 4 5Licor Vinho Cerveja EspVida TaxaDoeCor

Variance captured by 2 PC model

0

20

40

60

80

100

1 2 3 4 5Licor Vinho Cerveja EspVida TaxaDoeCor

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 60

PCA

� Que variáveis não são bem explicadas pelo modelo PCA?

En

m

Analisar resíduos por coluna

Page 31: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 61

PCA

� Análise das observações: scores

0 2 4 6 8 10-3

-2

-1

0

1

2

3

France

Italy Switz

Austra Brit

U.S.A.

Russia

Czech

Japan

Mexico

Sample NumberP

C 2

(32

.11%

)

Scores Plot

0 2 4 6 8 10-4

-3

-2

-1

0

1

2

France Italy

Switz

Austra

Brit U.S.A.

Russia

Czech

Japan

Mexico

Sample Number

PC

1 (

46.0

3%)

Scores Plot

Análise individual dos scores para cada PC

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 62

� Análise das observações: scores

-4 -3 -2 -1 0 1 2-3

-2

-1

0

1

2

3

France

Italy Switz

Austra Brit

U.S.A.

Russia

Czech

Japan

Mexico

PC 1 (46.03%)

PC

2 (

32.1

1%)

Scores Plot

PCA

Análise combinada dos scores para o PC1 e PC2

Cluster

Outlier “forte”

Pois influencia o estabelecimento do plano.

“Outliers” moderados – não influenciam de uma forma tão vincada o establecimento do plano PCA, aparecendo como observações algo distantes do modelo PCA ajustado.

Page 32: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 63

PCA

� Que variáveis são responsáveis pelas diferenças registadas entre países (observações): biplot

-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

France

Italy

Switz

Austra Brit

U.S.A.

Russia

Czech

Japan

Mexico

Liquor

Wine

Beer

LifeEx HeartD

PC 1 (46.03%)

PC

2 (

32.1

1%)

Biplot: (o) normalized scores, (+) loads

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 64

PCA

� Análise das observações: outliers

� Outliers fortes� Influenciam fortemente o modelo PCA, “puxando-

o” de forma a aproximar-se deles.� Diagnosticados através de:� Observações de magnitudes elevadas nos gráficos de

scores individuais;� Observações distantes do centro dos dados (face às

distâncias das restantes observações), no gráfico de scorescombinados;

� Valores elevados da estatística Hotelling’s T2

� Versão multivariada da estatística t de student;� Relacionada com a distância estatística entre cada

observação e o vector das médias de cada variável.Hotelling’s T2

Page 33: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 65

PCA

1 2 3 4 5 6 7 8 9 100

1

2

3

4

5

6

7

8

Sample

Hot

ellin

g T2 (

78.1

4%)

France

Italy

Switz Austra

Brit U.S.A.

Russia

Czech

Japan Mexico

Samples/Scores Plot of Wine

� Hotelling’s T2

� Análise da variabilidade no espaço PCA

“Outlier” forte: Rússia

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 66

PCA

� Análise das observações: outliers

� Outliers moderados

� Não influenciam fortemente o modelo PCA, pelo que permanecem distantes do (hiper-) plano ajustado

� Diagnosticados através de:� Distância elevadas entre a observação original e a sua

projecção no plano.

Page 34: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 67

PCA

� Que observações não são bem explicadas pelo modelo PCA?

En

m

Analisar resíduos por linhas

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 68

PCA� Q – quadrado da distância ao subespaço PCA.

� Análise da variabilidade em redor do modelo PCA (não captada pelo modelo PCA)

0 2 4 6 8 100

0.5

1

1.5

2

2.5

3

3.5

4

France

Italy

Switz Austra Brit U.S.A. Russia

Czech

Japan

Mexico

Sample Number

Q R

esid

ual

Scores Plot

“Outliers” moderados: Japão, México

Page 35: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 69

PCA

� E por que não são estas observações bem explicadas pelo modelo PCA?� Japão, México

1 2 3 4 5-1.4

-1.2

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

Variable Number

Q R

esid

ual C

ontr

ibut

ion

Sample 10 Q Residual = 3.7172

Liqu

or

Win

e

Bee

r

Life

Ex

Hea

rtD

1 2 3 4 5-1.5

-1

-0.5

0

0.5

1

Variable Number

Q R

esid

ual C

ontr

ibut

ion

Sample 9 Q Residual = 2.4573

Liqu

or

Win

e

Bee

r

Life

Ex

Hea

rtD

Japão México

Valores dos resíduos para cada variável, relativamente a estas duas observações.

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 70

PCA� Exemplo: Análise de dados processuais (P&P)

� Análise de um processo com 9 variáveis, recolhidas ao longo de vários meses de laboração.

� O que se pode dizer relativamente à sua variabilidade?

� Como se relacionam as variáveis entre si?

� …

Page 36: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 71

PCA

Matrix Plot (Dados_lab 88v*569c)TSO pt01

TSO pt02

TSO pt03

TSO pt04

TSO pt05

TSO pt06

TSO pt07

TSO pt08

TSO pt09

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 72

PCA

Component Number

Eigenvalue

987654321

5

4

3

2

1

0

Scree Plot of TSO pt01; ...; TSO pt09Scree Plot

Page 37: Engenharia de Processos e Sistemasnuno/eps/Edicoes_anteriores/2012-13/aula11/... · GEPSI/CIEPQPF DEQ-FCTUC MSR 2010 © Engenharia de Processos e Sistemas 5 Motivação: Porquê analisar

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 73

PCA

Index

PC1

513456399342285228171114571

5,0

2,5

0,0

-2,5

-5,0

Time Series Plot of PC1

Index

PC2

513456399342285228171114571

5,0

2,5

0,0

-2,5

-5,0

-7,5

Time Series Plot of PC2

PC_1

PC_2

5,02,50,0-2,5-5,0

5,0

2,5

0,0

-2,5

-5,0

-7,5

1

2

11

12

mês

Scatterplot of PC_2 vs PC_1

GEPSI/CIEPQPFDEQ-FCTUC

MSR 2010 © Engenharia de Processos e Sistemas 74

PCA

� NOTAS:

� PCA não analisa a causalidade entre variáveis mas a estrutura de correlações existente entre elas.

� Ferramenta útil para análise exploratória de dados quando se analisam muitas variáveis simultaneamente, eventualmente possuindo algum nível de associação:� Detecção de grupos e tendências;� Análise de outliers.

� Útil também em:� Regressão linear quando os regressores estão correlacionados;� Controlo estatístico de processos multivariados com muitas

variáveis correlacionadas (dezenas - milhares).