INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes...

Post on 28-Jul-2020

0 views 0 download

Transcript of INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes...

INTRODUÇÃO À CALIBRAÇÃO INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADAMULTIVARIADA

APLICAÇÃO NO CONTROLE DE QUALIDADE APLICAÇÃO NO CONTROLE DE QUALIDADE DE FÁRMACOSDE FÁRMACOS

Prof. Dr. Marcelo Martins de Sena

MÓDULO 03

1Unidade Universitária de Ciências Exatas e Tecnológicas

UnUCET – Anápolis

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

2 MÓDULO 03

Análise de Análise de Componentes Componentes

Principais (PCA)Principais (PCA)• do inglês Principal Component(s) Analysis

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

3 Correlação• É comum a presença de correlação em

qualquer tipo de dados!

18 20 22 24 26 28 3075

76

77

78

79

80

81

82

83

84

Idade (meses)

Altu

ra (

cm)

• Exemplo: altura média vs. idade de um grupo de crianças pequenas

• Observa-se uma forte relação linear entre altura e idade.

• Para crianças pequenas, altura e idade estão correlacionadas. Moore, D.S. and McCabe G.P., Introduction to the Practice of Statistics (1989).

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

4 Correlação em espectroscopiaCorrelação em espectroscopia

200 210 220 230 240 250 260 270 280 290 3000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Comprimento de onda (nm)

Abs

orbâ

ncia

λ230• Exemplo: um composto puro émedido em dois comprimentos de onda para várias concentrações

λ265

0,332

0,498

0,664

0,831

0,166

Intensidade a 230nm

0,181

0,270

0,362

0,453

0,090

Intensidade a 265nm

15

20

25

Conc. (MMol)

5

10

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

5 Correlação em espectroscopiaCorrelação em espectroscopia

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

Absorbância a 230nm (unidades)A

bsor

bânc

ia a

265

nm (

unid

ades

)

• As intensidades a λ230 e a λ265 são altamente correlacionadas.

Aumento da concentração

• Os dados não têm duas dimensões, mas apenas uma.

• Existe apenas um fatorgerando os dados: concentraconcentraççãoão.

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

6 A matriz de dadosA matriz de dados

variáveis

• Dados podem ser representados na forma de uma matriz:

65,078,022,015,0

33,085,024,013,081,093,034,014,029,065,045,012,0

L

MOMMM

K

K

K

objetos

• Por exemplo,– Espectroscopia: amostra × comprimento de onda

– Processo contínuo: tempo × T, P, taxa de fluxo etc.– Análises ambientais:

amostras (em função do espaço ou do tempo) × variáveis

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

7 Matriz de DadosMatriz de Dados• Dados químicos multivariados (espectros)

podem ser arranjados na forma de uma tabela de dados.

Variáveis

Am

ostr

as Matriz de Dados X

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

8 Grandes quantidades de dadosGrandes quantidades de dados• Na análise química e de processos, as matrizes

de dados obtidas podem ser muito grandes.

– Um espectro de infravermelho medido para 50 amostras produz uma matriz de dados de dimensões 50 × 800 = 40.000 números!

– 100 variáveis de processo medidas a cada minuto durante um dia produzem uma matriz de dimensões 1440 × 100 = 144.000 números!!

• É necessária uma maneira de extrair a informação importante de matrizes de dados tão grandes.

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

9 Principal Component Analysis• Redução dos dados

– A PCA transforma grandes matrizes de dados em matrizes menores, as quais podem ser mais facilmente examinadas, plotadas e interpretadas.

• Exploração dos dados – A PCA extrai os fatores mais importantes (componentes principais

- CPs) dos dados, preservando a maior parte da variância. Esses fatores descrevem as interações multivariadas entre as variáveis medidas e revelam tendências subjacentes aos dados.

• Interpretação dos dados– As CPs podem ser usadas para classificar amostras, identificar

compostos através da obtenção de seus espectros puros, determinar quais as variáveis fundamentais para um processo, etc.

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

10 Diferentes visões da PCADiferentes visões da PCA• Estatisticamente, a PCA é uma técnica de análise

multivariada relacionada com– Análise de autovetores/autovalores– Decomposição em valores singulares (SVD)

• Em termos matriciais, a PCA é um método para decompor X em duas matrizes menores (T e P) mais uma matriz de resíduos (E):X = TPT + E

• Geometricamente, a PCA é uma técnica de projeção, na qual, a matriz X é projetada num sub-espaço de dimensões reduzidas.

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

11 PCA: matemáticaPCA: matemática• A equação básica para a PCA é escrita como

ondeX (I × J) é uma matriz de dados,T (I × R) são os escores,P (J × R) são os pesos (“loadings”) e

E (I × J) são os resíduos.

R é o número de CPs usados para descrever X.

ETPEptptptX

+=

+++=T

TT22

T11 ... RR

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

12 Componentes Principais (Componentes Principais (CPsCPs))• Uma CP é definida por um par de vetores pesos e

vetores escores: rr ,pt

• As CPs descrevem o máximo de variância (= informação) e são calculadas em ordem decrescente de importância

18,1 87,63

1,3 88,94

23,9 69,52

45,6 45,61

% de X explicada

% total de X explicada

CP.

e assim por diante... até 100%

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

13 PCA: matrizesPCA: matrizes

pesos

= +X ... +escores

componente principal

=

T

PT+ E

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

14 Escores & pesosEscores & pesos• Escores

– relações entre objetos– ortogonais, TTT = matriz diagonal

• Pesos– relações entre variáveis– ortonormais, PTP = matriz identidade, I

• Similaridades e diferenças entre objetos (ou variáveis) podem ser vistas através de gráficos em que os escores (ou pesos) são plotados uns contra os outros.

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

15 PCA: projeção simplesPCA: projeção simples• Caso mais simples : duas variáveis correlacionadas

18 20 22 24 26 28 3075

76

77

78

79

80

81

82

83

84

Idade (meses)

Altu

ra (

cm)

-8 -6 -4 -2 0 2 4 6 8-8

-6

-4

-2

0

2

4

6

8

Escores CP 1 (99,77%)

Esc

ores

CP

2 (

0,23

%)

gráfico de escores

PCA

CP1

CP2

• A CP1 descreve 99,77% da variação total em X.

• A CP2 descreve a variação residual (0,23%).

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

16 PCA: projeçõesPCA: projeções

• A PCA é uma técnica de projeção.• Cada linha de cada matriz de dados X (I × J) pode

ser considerada como um ponto no espaço J-dimensional. Esses dados são projetados ortogonalmente em um sub-espaço de menor dimensionalidade.

– No exemplo anterior, dados de duas dimensões foram projetados em um espaço de uma dimensão, ou seja, em uma linha.

– Agora, nós iremos projetar dados de J dimensões em um espaço de duas dimensões, ou seja, um plano.

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

17

= +•••••••••••••••

EPTX T +=

•••••••••••••••• •

••

• •••••••••••••••••••••••••••••••

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

18

B

x1

x2CP1

23

4

56

t1

t2

A

x1

x2

θ2

θ1

p1=cosθ1p2=cosθ2

+∞

-∞

CP: reta na direção de maior variação das amostras

(A) “pesos” são os ângulos do vetor direção(B) “escores” são as projeções nas amostras na direção de CP

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

19 Exemplo:Exemplo: Dados ProteínasDados Proteínas

• Foi estudado o consumo de proteínas na Europa.• 9 variáveis descrevem diferentes fontes de proteína.• Os 25 objetos são os diferentes países.• A matriz de dados tem as dimensões 25 × 9.

• Quais países são semelhantes?

• Quais alimentos estão correlacionados com o consumo de carne vermelha?

Weber, A., Agrarpolitik im Spannungsfeld der internationalenErnaehrungspolitik, Institut fuer Agrarpolitik und marktlehre, Kiel (1973) .

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

20

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

21 PCA nos dados de proteínasPCA nos dados de proteínas

• Os dados são centrados na média e cada variável é autoescalada para variância um. A PCA é então aplicada.

Variância Percentual Capturada pelo Modelo PCA

Número de Autovalor % Variância % VariânciaComponentes de Capturada CapturadaPrincipais Cov(X) por este CP Total--------- ---------- ---------- ----------

1 4,01e+000 44,52 44,522 1,63e+000 18,17 62,683 1,13e+000 12,53 75,224 9,55e-001 10,61 85,825 4,64e-001 5,15 90,986 3,25e-001 3,61 94,597 2,72e-001 3,02 97,618 1,16e-001 1,29 98,909 9,91e-002 1,10 100,00

Quantos componentes principais você quer escolher?4

1 2 3 4 5 6 7 8 90

0.5

1

1.5

2

2.5

3

3.5

4

4.5Autovalores vs. Número de CPs

Número de CPs

Aut

oval

ores

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

22

Escores: CP1 Escores: CP1 vsvs CP2CP2

-3 -2 -1 0 1 2 3 4-5

-4

-3

-2

-1

0

1

2

Escores CP 1 (44,52%)

Esc

ores

CP

2 (

18,1

7%)

Albania

Austria

Belgium

Bulgaria

Czechoslovakia

Denmark East Germany

Finland

France Greece

Hungary Ireland

Italy

Netherlands

Norway

Poland

Portugal

Romania

Spain

Sweden

Switzerland

UK USSR West Germany

Yugoslavia

PC 2

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

23

PesosPesos

White meat Eggs Milk Fish Cereals Starch Beans/nuts/oil Fruit & veg-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6P

esos

CP

CP1CP2

Red meat

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

24

GráficosGráficos BivariadosBivariados ((BiplotsBiplots))

PERMITEM VISUALIZAR OS

ESCORES E OS PESOS

SIMULTANEAMENTE

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

25

BiplotBiplot: CP1 : CP1 vsvs CP2CP2

-5 -4 -3 -2 -1 0 1 2 3 4 5-5

-4

-3

-2

-1

0

1

2

CP 1

CP

2Albania

Austria

Belgium

Bulgaria

Czechoslovakia

Denmark East Germany

Finland

France Greece

Hungary Ireland

Italy

Netherlands

Norway

Poland

Portugal

Romania

Spain

Sweden

Switzerland

UK USSR West Germany

Yugoslavia

Red meat

White meat

Eggs

Milk

Fish

Cereals

Starch

Beans/nuts/oil

Fruit & veg

CP2 indica que os espanhóis e os portugueses gostam especialmente de frutas, vegetais e peixes.

Europeus do SE comem muito cereais

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

26

BiplotBiplot: CP1 : CP1 vsvs CP3CP3

-5 -4 -3 -2 -1 0 1 2 3 4 5-3

-2

-1

0

1

2

3

4

CP 1

CP

3

Albania

Austria

Belgium Bulgaria

Czechoslovakia

Denmark

East Germany

Finland

France

Greece

Hungary

Ireland Italy

Netherlands

Norway

Poland

Portugal Romania

Spain

Sweden

Switzerland

UK

USSR

West Germany

Yugoslavia

Red meat

White meat

Eggs

Milk

Fish

Cereals

Starch

Beans/nuts/oil

Fruit & veg

Escandinavos comem muito peixe!

Carne vermelha e leite estão correlacionados

Os holandeses gostam de batata…

...com maionese!?

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

27 ResíduosResíduos• Também é importante examinar os resíduos do

modelo, E.

1 2 3 4 5 6 7 8 9-1

-0.5

0

0.5

1

1.5

Número da variável

Var

iaçã

o R

esid

ual

• Idealmente, os resíduos não deverão conter nenhuma estrutura - apenas variação aleatória (ruído).

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

28 ResíduosResíduos• Os resíduos (quadrados) do modelo podem ser

somados ao longo da direção dos objetos ou das variáveis:

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3

3.5

Número do objeto

Q (

som

a do

s re

sídu

os q

uadr

ados

)

∑=

=J

jiji eQ

1

2

País 23 (URSS) se ajusta ao modelo de

maneira pior

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

29 PréPré--processamento dos dadosprocessamento dos dados• Na maioria das vezes, nós estamos interessados nas

diferenças entre os objetos, não nos seus valores absolutos.– Dados de proteínas : diferenças entre países– Dados ambientais : diferenças entre amostras de diferentes

locais ou em função do tempo

• Se diferentes variáveis são medidas em diferentes unidades, algum tipo de escalamento (normalização) é necessário para dar a cada variável a mesma chance de contribuir para o modelo.– Dados ambientais: pH e [Mg] possuem escalas muito diferentes

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

30 Centrando os dados na médiaCentrando os dados na média

• Subtrair a média de cada coluna de X:

⎥⎥⎥⎥

⎢⎢⎢⎢

107111,387,6105482,363,6118575,355,6102452,376,6

⎦⎣⎥⎥⎥⎥⎤

⎢⎢⎢⎢⎡

−−−−

−−−

3.129,350,1175,03,292550,0225,0

1016250,1025,02,595450,0075,0

Centrar

na média

=x6,525 1084036,75

=x0,0 0,00,0

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

31 AutoescalandoAutoescalando os dadosos dados

• Dividir cada coluna de X por seu desvio padrão:

=σ0,171 704,81,139

⎥⎥⎥⎥

⎢⎢⎢⎢

−−−−

−−−

3,129350,1175,03,292550.0,225,0

1016250,1025,02,595450,0075,0

Escalamento

⎥⎥⎥⎥

⎢⎢⎢⎢

−−−−

−−−

183,0186.1,025,1415,0483,0318,1443.1,098,1146.0,845,0395,0439,0

1,01,01,0=σ

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

32 Quantos CP’s usar?Quantos CP’s usar?

X = TPT + E

• Poucos CP’s:– alguma variação sistemática deixa de ser descrita.– O modelo não consegue descrever os dados completamente.

resíduo (ruído)

variação sistemática

• Muitos CP’s:– Os últimos CP’s descrevem apenas ruído.– O modelo não é robusto quando aplicado a novos dados.

• Como selecionar o número correto de CP’s?

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

33 Quantos CP’s usar?Quantos CP’s usar?

• Gráfico de Autovalores

• Selecionar os componentes quando % variância explicada > nível do ruído

• Interpretar os escores e os pesos das CP’s: Eles fazem sentido?! Os resíduos têm estrutura?

• Validação cruzada

1 2 3 4 5 6 7 8 90

0.5

1

1.5

2

2.5

3

3.5

4

4.5Eigenvalue vs. PC Number

Eig

enva

lue

‘Saliência’ aqui selecionar 4 CP’s

PC Number

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

34 Amostras anômalas (Amostras anômalas (OutliersOutliers))

• Outliers são objetos que são muito diferentes do resto dos dados. Eles podem ter um grande efeito no modelo (na CP) e devem ser removidos.

1 1.5 2 2.5 3 3.5 4 4.54

6

8

10

12

14

16

18

pH

T (o C

)

1 1.5 2 2.5 3 3.5 4 4.54

6

8

10

12

14

16

18

pHT

(o C)

Remover “outlier”

Experimento

anômalo

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

35 Amostras anômalas (Amostras anômalas (OutliersOutliers))

• Outliers também podem ser encontrados no espaço do modelo ou nos resíduos.

-8 -6 -4 -2 0 2 4 6 8-8

-6

-4

-2

0

2

4

6

Escores CP 1

Esc

ores

CP

2

22 24 26 28 30 32 34 36 38 40 420

2

4

6

8

10

12

14

Tempo (min)

Som

a-do

s-qu

adra

dos

dos

resí

duos

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

36 Amostras anômalas (Amostras anômalas (OutliersOutliers))• Podem ser avaliadas através dos resíduos, Qi, e do

seu peso no modelo (estimado pelo valor de T2 de Hotelling, Ti

2).• Ti

2 é a soma dos escores ao quadrado e é uma medida da variação (da influência) de cada amostra dentro do modelo PCA.

Ti2 = tiλ-1ti

T

onde ti é o vetor escore da i-ésima amostra e λ-1 é o autovalor correspondente à CP.

• Intervalos de confiança podem ser estimados para os valores de Qi e Ti

2. Espera-se que as distribuições de Qi e Ti

2 sigam a normalidade (lembre-se do TLC).• Amostras com altos resíduos (mal modeladas) e

altos valores de T2 (alta influência no modelo) devem ser consideradas outliers.

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

37

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

38 A extrapolação do modelo não é A extrapolação do modelo não é recomendávelrecomendável

0 5 10 15 20 25 300

50

100

150

200

250

300

Idade (anos)

Altu

ra (

cm)

…mas não é válido p/ a faixa de 30 anos!

O modelo linear foi válido para essa faixa de idade...

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

39 ConclusõesConclusões• A análise de componentes principais (PCA) reduz

grandes matrizes colineares a umas poucas matrizes de escores e de pesos:

ETPEptptptX

+=

+++=T

TT22

T11 ... RR

• Componentes Principais (CP’s)– descrevem a variação mais importante nos dados.– são calculados em ordem de importância.– são ortogonais.

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

40 ConclusõesConclusões

• Gráficos de escores e “biplots” podem ser muito úteis para a exploração e o entendimento dos dados.

• Freqüentemente, é necessário centrar na média e escalar as variáveis antes da análise.

• A escolha do número correto de CP’s é um passo importante na construção de um modelo PCA.

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

41

Agradecimentos

Prof. Age K. Smilde

UNIVERSITY OF AMSTERDAM