[email protected] - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo...

1

INTRODUINTRODUÇÇÃO ÃO ÀÀ QUIMIOMETRIA:QUIMIOMETRIA:Como explorar grandes conjuntos de dados quComo explorar grandes conjuntos de dados quíímicosmicos

Prof. Dr. Marcelo M. Sena (DQ-UFMG)[email protected]

Prof. Dr. Ronei J. Poppi (IQ-UNICAMP)[email protected]

2

Introdução à Quimiometria: Como explorar grandes conjuntos de dados

(Aula 2)

Prof. Ronei Jesus Poppi

INSTITUTO DE QUÍMICA UNICAMP

AULA 2

3

Laboratório de Quimiometria em Química Analítica

http://laqqa.iqm.unicamp.br

4

Análise de Agrupamentos

�� Objetivo: Objetivo: classificar amostras, caracterizadas pelos valores de um conjunto de variáveis, em grupos.

� Medidas de similaridadesimilaridade entre as amostras.

� Quanto menor a distância entre as amostras (no espaço n-dimensional) → MAIOR A SIMILARIDADE.

�� MMéétodostodos:� Análise de agrupamentos hierárquicos (HCA)� Dendogramas

5

Distância� As medidas de similaridade mais usadas são as distâncias

EuclidianaEuclidiana e de MahalanobisMahalanobis.

� A distância Euclidiana entre dois objetos, 1 e 2, é definida como:

( ) ( )2

2212

2

211112xxxxd −+−=

6

Similaridade

� Distâncias entre amostras irão variar de acordo com o tipo e número de medidas realizadas.

�� Similaridades Similaridades são calculadas para normalizar os dados para uma escala padrão:

� Para amostras similares: Sii’ → 1� Para amostras dissimilares: Sii’ → 0

max

'' 1

ddS ii

ii −=

7

HCA (Hierarchical Cluster Analysis)

• Na HCA são calculadas distâncias mdistâncias méétricastricas entre as amostras (objetos) que formam o conjunto de dados, sendo essas agrupadas de acordo com o grau de grau de similaridadesimilaridade apresentado.

• HCA compreende modos aglomerativosaglomerativos e divisivosdivisivos de formação dos agrupamentos (clusters).

• Nos procedimentos aglomerativosaglomerativos (mais comuns) inicia-se com cada objeto sendo considerado um agrupamento separado e, com o cálculo das distâncias (medida de similaridade), os objetos vão sendo combinados em grupos, até que todos formem um único agrupamento.

8

HCA� Os resultados fornecidos pela HCA são os chamados

dendogramasdendogramas, que expressam graficamente a distância (similaridade) entre as amostras.

� Exemplo: Dados sobre manejo do solo (Guaíra/SP)

-1 0 1 2 3 4 50

1

2

3

4

5

6

Dis tance to K-Neares t Neighbor

alt1

conv1

alt2

conv2

fores t

Dendrogram Us ing Autoscaled Data

Distância

9

HCA

� Exemplo passo a passo:

Amostras de soro sanguíneo de 6 pacientes são avaliadas através das concentrações de cálcio e fósforo.

Pacientes [Cálcio] mg/100 mL [Fósforo] mg/100 mL

1 8,00 5,50

2 8,25 5,75

3 8,70 6,30

4 10,00 3,00

5 10,25 4,00

6 9,75 3,50

10

HCA

� Exemplo passo a passo:O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo, vamos usar a distância Euclidiana, que écalculada para os objetos (pacientes) 1 e 2 a seguir:

( ) ( ) 354,075,550,525,800,822

12=−+−=d

Objetos 1 2 3 4 5 6 1 0

2 0,354 0

3 1,063 0,711 0

4 3,201 3,260 3,347 0

5 2,704 2,658 2,774 1,031 0

6 2,658 2,704 2,990 0,559 0,707 0

Matriz de distâncias

(A distância entre um objeto e ele mesmo é zero)

11

HCA

�O 2º passo é a redução da matriz de distâncias pelo agrupamento de objetos. Objetos com menores distâncias são agregados primeiro.

�Primeira Matriz Reduzida: A menor distância na Matriz anterior é entre os objetos 11 e 22 (d12=0,354).

� Esses 2 objetos serão agrupados em um novo objeto 1*

� d12 será ajustada para zero.

� A matriz de distância é recalculada pela média das distâncias individuais

12

HCA

��Novas distâncias:Novas distâncias:

231,32

260,3202,3

2

2414

4*1=

+=

+=

ddd

681,22

658,2704,2

2

2515

5*1=

+=

+=

ddd

681,22

704,2658,2

2

2616

6*1=

+=

+=

ddd

887,02

711,0063,1

2

2313

3*1=

+=

+=

ddd

Primeira Matriz Reduzida

13

HCA

�Da mesma maneira se calculam as seguintes matrizes reduzidas.

�Para a segunda matriz reduzida, agrupam-se os objetos 4 e 6, que possuem a menor distância (d46=0,559), no novo objeto 4*

Segunda Matriz Reduzida

14

HCA

�Para a terceira matriz reduzida, agrupam-se os objetos 5 e 4* no novo objeto 5*, e para a quarta matriz reduzida, agrupam-se os 1* e 3 (novo objeto 3*):

Objetos 3* 5* 3* 0

5* 2,895 0

Quarta Matriz Reduzida

Terceira Matriz Reduzida

*

15

HCA� Como resultado desta análise, temos o seguinte dendograma:

16

HCA

� Vários critérios podem ser adotados para a escolha do número de agrupamentos (clusters):

� O número de agrupamentos desejado pode ser previamente conhecido.

� Um valor de distância pré-determinado é usado como critério para separar o número de agrupamentos.

� Escolhe-se o número de agrupamentos a partir da observação do dendograma, com base no conheci-mento dos dados.

17

HCA�� CritCritéérios de Agrupamentorios de Agrupamento: A distância de um objeto

ao agrupamento k pode ser calculada como a distância média dos objetos A e B ao objeto i, de várias formas:

� Ligação por média ponderada;� Ligação simples (KNN);� Ligação completa;� Ligação centróide (k means);� Método de Ward;

18

HCA: Critérios de Agrupamento

2

BiAi

ki

ddd

+=

�� LiLigagaçção por mão por méédia ponderadadia ponderada:

19


( )BiAi

BiAiBiAi

kidd

ddddd ,min

22=

−−

+=

dKi

�� LigaLigaçção Simples (KNN):ão Simples (KNN):

� A menor distância entre os agrupamentos écalculada. Este procedimento também éconhecido KNN (Kth Nearest Neighbor, Késimo vizinho mais próximo).

20


( )BiAi

BiAiBiAi

kidd

ddddd ,max

22=

−+

+=

�� LigaLigaçção Completa:ão Completa:

� Baseado na maior distância entre os objetos de agrupamentos opostos. Em geral, agrupamentos pequenos, compactos, esféricos e bem separados tendem a se formar.

dKi

21


2n

dnn

n

dn

n

dnd

ABBABiBAiA

ki−+=

�� LigaLigaçção Centrão Centróóide:ide:

� Centróide é calculado como a média dos objetos de um agrupamento. Evita-se a distorção espacial do agrupamento e tende-se a preservar agrupamentos de pequena importância em relação aos maiores.

dKi

22


AB

i

i

Bi

i

iB

Ai

i

iA

kid

nn

nd

nn

nnd

nn

nnd

+−

+

++

+

+=

�� MMéétodo de Ward:todo de Ward:

� O agrupamentos são agregados de tal maneira a minimizar a soma de quadrados dos desvios de cada centróide em relação ao próprio grupo. Isto produz dendogramas bem estruturados. O cálculo para as distâncias é dado por:

� É talvez o procedimento mais usado

23

Exemplo real

� Identificação da origem de grãos de café.

� Café analisados :� Sulawesi� Ethiopia� Kenya� Costa Rica� Sumatra� Columbia

24

Método de Análise

� Epectrometria de massas dos grãos de café (por headspace) na faixa de 47-99 m/z.

� 6 amostras foram obtidas de cada fonte.

� Os espectros de massa representam a soma dos espectros de todos componentes presentes.

� Cada espectro foi normalizado pelo pico mais intenso.

25

Espectros de massa

26

Dendograma

27

Quando usar dendogramas?

� Método rápido para uma exploração inicial dos dados.

� Os gráficos podem ser rapidamente avaliados

� Deve-se tentar usar dados sem nenhum pré-processamento ou escalados.

� Deve-se tentar outros métodos de agrupamento (classificação) como Análise de Componentes Principais.

28

Métodos Supervisionados

� Deve-se ter conhecimento inicial sobre as categoriais (ou classes) das amostras que irão ser modeladas.

� Classes definidas baseadas em conhecimento prévio do sistema ou pela utilização de análise exploratória como PCA ou HCA.

�� Principais mPrincipais méétodos:todos:� Máquina de Aprendizagem Linear� Regra do Vizinho mais próximo� SIMCA

29

Conjunto de Dados

� Para o desenvolvimento e avaliação de um modelo para classificação são necessários 3 conjuntos de dados:

�� Conjunto de Treinamento: Conjunto de Treinamento: amostras representativas para a construção do modelo.

�� Conjunto de ValidaConjunto de Validaçção: ão: novas amostras utilizadas para testar o modelo, cujas classes já são conhecidas

�� Conjunto Teste: Conjunto Teste: amostras realmente desconhecidas

30

Pré-processamento dos Dados

1.1. Sem processamento: Sem processamento: casos onde não exista diferenças nas escalas e nem variáveis redundantes.

2.2. Escalamento: Escalamento: pesos de todas as variáveis ficam iguais.

3.3. PCA : PCA : redução do número de variáveis, assim como, de ruídos

31

Criando um conjunto de validação

� Um conjunto de validação muitas vezes é um sub-conjunto do conjunto de treinamento, que foi omitido na construção do modelo.

� Dados devem ser removidos aleatoriamente do conjunto de treinamento

� Dados devem ser removidos aleatoriamente de todas as classes

� Conjunto de validação deve ser representativo das amostras usadas no treinamento.

32

Validação “um por vez”

� Do inglês: Leave-one-out cross-validation

� Validação onde cada amostra do conjunto de treinamento é utilizada para validação.

�� Processo:Processo:1. Retire uma amostra do conjunto de treinamento2. Construa o modelo de classificação3. Teste a amostra retirada4. Volte a amostra retirada para o treinamento 5. Repita o processo a partir de (1) até que todas as

amostras tenham sido retiradas e testadas.

33

Máquina de Aprendizagem Linear

� Do inglês: Linear Learning Machine

� Método onde um ou mais hiperplanos lineares são criados para discriminar entre as classes.

� Conjunto de regras (função discriminante) são criadas para dividir o espaço n-dimensional em regiões das classes, que são usadas posteriormente para prever a classes de novas amostras

� As classes devem ser separadas linearmente

34


� Um hiperplano pode dividir o espaço em 2 sub-espaços.

� Pode utilizar o espaço original ou o espaço dos componentes principais.

Classe 1

Classe 2

35


� Pode ser existam muitos hiperplanos para a separação das classes.

� Escolhe-se aquele que produzir a melhor separação

36

Exemplo

� Considere os dados abaixo p/ amostras de cabelo de 5 pacientes pertencentes a 2 classes.

� Para achar uma função linear discriminante, énecessário adicionar uma coluna com valores um.

Amostra de cabelo

Teor de Iodo (ppm)

Componente adicionado

1 0,29 1,02 4.88 1,03 0.31 1,04 3.49 1,05 4.46 1,0

Teor Iodo (ppm)1 2 543

37

Exemplo

� Esta coluna garante que se possa estimar uma função linear discriminante passando pela origem(0,0) e sendo perpendicular a um vetor de pesos w.

38

Exemplo

� A fronteira que separa as 2 classes é calculada interativamente, ajustando os elementos do vetor w:

� sendo s um escalar discriminante e θ o ângulo entre we o vetor dos dados x.

� Se θθθθ <<<< 90º, s >>>> 0,0 e os objetos representados serão os da classe dos círculos pretos

� Se θθθθ >>>> 90º, s <<<< 0,0 e os objetos representados serão os da classe dos círculos vermelhos.

39


� Se o número de classes aumenta, deve-se ter mais hiperplanos para a separação.

� Problema pode se tornar muito complexo.

40


� Em certos casos pode ser que não seja possível encontrar uma separação linear entre as classes.

� Deve-se utilizar outros procedimentos para classificação.

41

K-vizinho mais próximo

� Do inglês: k-nearest neighbor (KNN)

� Método de classificação baseado na similaridade

� Designa categoria a uma amostra desconhecida baseado na proximidade multivariada com outras amostras cujas categorias são conhecidas.

� k → número de vizinhos mais próximos sendo comparados

42


�� Procedimento:Procedimento:1. Conjunto de treinamento é selecionado que

contenha exemplos de todas as classes.

2. Distâncias são calculadas.

3. As distâncias em relação à amostra desconhecida são comparadas com:

1. Os k vizinhos mais próximos2. O agrupamento da classe mais próxima

43


� Quando da utilização da distância para uma classe, pode utilizar as mesmas opções de ligação discutidas anteriormente:

� Ligação simples: membro mais próxima da classe� Ligação completa: membro mais distante da

classe� Ligação centróide: centro do agrupamento ds

classe

44

Exemplo do KNN

Neste exemplo a amostra desconhecida é comparadacom os 3 vizinhos maispróximos.Neste caso, os 3 vizinhos mais próximos pertencema categoria “vermelha”.

Amostra desconhecida, classificada como categoria “vermelha”

45

Exemplo KNN centróide

Amostra desconhecida

Distância do centro do agrupamento da classe é determinadoe comparado para a classificação de uma amostra desconhecida

46

Problemas para classificação

� Em certos casos, os k-vizinhos mais próximos podem pertencer a classes diferentes.

� Nesses casos, a classe escolhida é aquela que tem mais participações dentre os k-vizinhos.

Amostra desconhecida

47

SIMCA

�� SSoft IIndependent MModeling of CClass AAnalogy

� Para cada classe de amostras um modelo de PCA éconstruído separadamente.

� O modelo é baseado no número ótimo de componentes principais que melhor agrupam as classes.

� O número de componentes principais pode variar de classe para classe e pode ser determinado por validação cruzada.

48

Análise de Componentes Principais

� Decomposição de uma matriz de dados com alta dimensão.

� Para cada classe um modelo é construído, que decompõe a matriz de dados da classe em escores e pesos.

� Para um escalar da matriz X:

onde xijc é a observação da amostra i, variável j, classe c.

∑=

++=cA

a

cij

cja

cia

cj

cij eptxx

1

49

Análise de Componentes Principais

= +•••••••••••••••

E P T X +=T

•

•

�

•••••••••••••••• •

••

• •

�

•••••••••••••••�•••••••••••••••�

50

Modelos SIMCA

� São construídos “envelopes” em torno de cada modelo.

X

X XXX

XXX

2 S0

2 S0

PC1

Var.1

Var.3

Var.2

PC2

PC1

X

2 S0

51

Modelos SIMCA

� Pode-se limitar o tamanho do hipervolume pela escolha de um valor de desvio padrão, para melhorar a definição das classes.

� Variância residual para uma classe é dada por:

onde nn é o número de amostras, pp é o número de variáveis e AA o número de componentes principais utilizados no modelo

3S0

2S0

∑∑= = −−−

=n

i

p

j

ij

ApAne

S1 1

220 ))(1(

52

Classificação com SIMCA

� Uma vez que o modelo para cada classe tenha sido desenvolvido, pode-se realizar a classificação de amostras desconhecidas.

�� Procedimento:Procedimento:1. A amostra é projetada no espaço dos

componentes principais2. Se cair dentro do “envelope” da classe é

classificada como pertencente a ela.

53

Classificação com SIMCA

� Existe a possibilidade da amostra ser classificada como pertencente a mais de uma classe,

� ou, não pertencer a nenhuma das classes conhecidas.

Amostra anômala(outlier)

54

Detecção de amostras anômalas

�� Amostras anômalasAmostras anômalas : não se encaixam em nenhuma das classes conhecidas.

� Variância residual para uma amostra i:

� Se Si2 > 2So

2 → amostra não tem a mesma variabilidade em torno do modelo e pode ser considerada como anômala

∑= −

=

p

j q

iji Ap

eS

1

22

55

Poder de Modelagem

� A variância residual de cada variável j, sj2(res),

pode ser usada para estimar o seu poder de modelagem, Rj (a sua influência no modelo).

� Quanto mais Rj estiver próximo de 1, maior a importância da variável j no modelo.

56

Resumo do SIMCA

� De todos os métodos vistos, o SIMCA é aquele que apresenta maior número de opções para o desenvolvimento do modelo de classificação quando as classes são bem conhecidas.

� Ele requer maior tempo no desenvolvimento para a determinação do modelo ótimo para cada classe.

� Excelente para detectar anomalias nas amostras.

57

Exemplo

� 11 elementos foram analisados em vinhos (Espanha): � K, Na, Ca, Mg, Fe, Cu, Zn, Mn, Sr, Li, Rb

� 3 origens (45 amostras):�� El Hierro El Hierro (7 vinhos seco)�� La Palma La Palma (11 secos, 9 doces)�� LanzaroteLanzarote (10 secos, 8 doces)

58

Dendograma

DH : secos de El HierroDP : secos de La Palma SP : doces de La PalmaDL: secos de LanzaroteSL: doces de Lanzarote

vinhos doces- Las Palmas (SP): açúcar natural, sobre amadurecimento (Late Harvest)- Lanzarote (SL): açúcar adicionado

59

PCA

DH

DP

SP DL + SL

DH : secos de El HierroDP : secos de La Palma SP : doces de La PalmaDL: secos de LanzaroteSL: doces de Lanzarote

60

SIMCA

�� ModelosModelos: � El Hierro : 3 Componentes Principais� La Palma : 4 Componentes Principais� Lanzarote : 4 Componentes Principais

� 1 amostra de La Palma fora dos limites da classe

� Nenhum dos modelos construídos tiveram amostras das outras classes.

� Classificação 100% correta.

61

Gráfico de Coomans

Distância crítica para cada classe

Fora dos limites da classe

62

Poder de Modelagem

[email protected] - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo...

Documents

Transcript of [email protected] - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo...