[email protected] - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo...
Transcript of [email protected] - joinqui.qui.ufmg.brjoinqui.qui.ufmg.br/2010/download/MC15-2.pdf · O 1º passo...
1
INTRODUINTRODUÇÇÃO ÃO ÀÀ QUIMIOMETRIA:QUIMIOMETRIA:Como explorar grandes conjuntos de dados quComo explorar grandes conjuntos de dados quíímicosmicos
Prof. Dr. Marcelo M. Sena (DQ-UFMG)[email protected]
Prof. Dr. Ronei J. Poppi (IQ-UNICAMP)[email protected]
2
Introdução à Quimiometria: Como explorar grandes conjuntos de dados
(Aula 2)
Prof. Ronei Jesus Poppi
INSTITUTO DE QUÍMICA UNICAMP
AULA 2
3
Laboratório de Quimiometria em Química Analítica
http://laqqa.iqm.unicamp.br
4
Análise de Agrupamentos
�� Objetivo: Objetivo: classificar amostras, caracterizadas pelos valores de um conjunto de variáveis, em grupos.
� Medidas de similaridadesimilaridade entre as amostras.
� Quanto menor a distância entre as amostras (no espaço n-dimensional) → MAIOR A SIMILARIDADE.
�� MMéétodostodos:� Análise de agrupamentos hierárquicos (HCA)� Dendogramas
5
Distância� As medidas de similaridade mais usadas são as distâncias
EuclidianaEuclidiana e de MahalanobisMahalanobis.
� A distância Euclidiana entre dois objetos, 1 e 2, é definida como:
( ) ( )2
2212
2
211112xxxxd −+−=
6
Similaridade
� Distâncias entre amostras irão variar de acordo com o tipo e número de medidas realizadas.
�� Similaridades Similaridades são calculadas para normalizar os dados para uma escala padrão:
� Para amostras similares: Sii’ → 1� Para amostras dissimilares: Sii’ → 0
max
'' 1
ddS ii
ii −=
7
HCA (Hierarchical Cluster Analysis)
• Na HCA são calculadas distâncias mdistâncias méétricastricas entre as amostras (objetos) que formam o conjunto de dados, sendo essas agrupadas de acordo com o grau de grau de similaridadesimilaridade apresentado.
• HCA compreende modos aglomerativosaglomerativos e divisivosdivisivos de formação dos agrupamentos (clusters).
• Nos procedimentos aglomerativosaglomerativos (mais comuns) inicia-se com cada objeto sendo considerado um agrupamento separado e, com o cálculo das distâncias (medida de similaridade), os objetos vão sendo combinados em grupos, até que todos formem um único agrupamento.
8
HCA� Os resultados fornecidos pela HCA são os chamados
dendogramasdendogramas, que expressam graficamente a distância (similaridade) entre as amostras.
� Exemplo: Dados sobre manejo do solo (Guaíra/SP)
-1 0 1 2 3 4 50
1
2
3
4
5
6
Dis tance to K-Neares t Neighbor
alt1
conv1
alt2
conv2
fores t
Dendrogram Us ing Autoscaled Data
Distância
9
HCA
� Exemplo passo a passo:
Amostras de soro sanguíneo de 6 pacientes são avaliadas através das concentrações de cálcio e fósforo.
Pacientes [Cálcio] mg/100 mL [Fósforo] mg/100 mL
1 8,00 5,50
2 8,25 5,75
3 8,70 6,30
4 10,00 3,00
5 10,25 4,00
6 9,75 3,50
10
HCA
� Exemplo passo a passo:O 1º passo é o cálculo da matriz de distâncias para todos os pares de objetos. Como exemplo, vamos usar a distância Euclidiana, que écalculada para os objetos (pacientes) 1 e 2 a seguir:
( ) ( ) 354,075,550,525,800,822
12=−+−=d
Objetos 1 2 3 4 5 6 1 0
2 0,354 0
3 1,063 0,711 0
4 3,201 3,260 3,347 0
5 2,704 2,658 2,774 1,031 0
6 2,658 2,704 2,990 0,559 0,707 0
Matriz de distâncias
(A distância entre um objeto e ele mesmo é zero)
11
HCA
�O 2º passo é a redução da matriz de distâncias pelo agrupamento de objetos. Objetos com menores distâncias são agregados primeiro.
�Primeira Matriz Reduzida: A menor distância na Matriz anterior é entre os objetos 11 e 22 (d12=0,354).
� Esses 2 objetos serão agrupados em um novo objeto 1*
� d12 será ajustada para zero.
� A matriz de distância é recalculada pela média das distâncias individuais
12
HCA
��Novas distâncias:Novas distâncias:
231,32
260,3202,3
2
2414
4*1=
+=
+=
ddd
681,22
658,2704,2
2
2515
5*1=
+=
+=
ddd
681,22
704,2658,2
2
2616
6*1=
+=
+=
ddd
887,02
711,0063,1
2
2313
3*1=
+=
+=
ddd
Primeira Matriz Reduzida
13
HCA
�Da mesma maneira se calculam as seguintes matrizes reduzidas.
�Para a segunda matriz reduzida, agrupam-se os objetos 4 e 6, que possuem a menor distância (d46=0,559), no novo objeto 4*
Segunda Matriz Reduzida
14
HCA
�Para a terceira matriz reduzida, agrupam-se os objetos 5 e 4* no novo objeto 5*, e para a quarta matriz reduzida, agrupam-se os 1* e 3 (novo objeto 3*):
Objetos 3* 5* 3* 0
5* 2,895 0
Quarta Matriz Reduzida
Terceira Matriz Reduzida
*
15
HCA� Como resultado desta análise, temos o seguinte dendograma:
16
HCA
� Vários critérios podem ser adotados para a escolha do número de agrupamentos (clusters):
� O número de agrupamentos desejado pode ser previamente conhecido.
� Um valor de distância pré-determinado é usado como critério para separar o número de agrupamentos.
� Escolhe-se o número de agrupamentos a partir da observação do dendograma, com base no conheci-mento dos dados.
17
HCA�� CritCritéérios de Agrupamentorios de Agrupamento: A distância de um objeto
ao agrupamento k pode ser calculada como a distância média dos objetos A e B ao objeto i, de várias formas:
� Ligação por média ponderada;� Ligação simples (KNN);� Ligação completa;� Ligação centróide (k means);� Método de Ward;
18
HCA: Critérios de Agrupamento
2
BiAi
ki
ddd
+=
�� LiLigagaçção por mão por méédia ponderadadia ponderada:
19
HCA: Critérios de Agrupamento
( )BiAi
BiAiBiAi
kidd
ddddd ,min
22=
−−
+=
dKi
�� LigaLigaçção Simples (KNN):ão Simples (KNN):
� A menor distância entre os agrupamentos écalculada. Este procedimento também éconhecido KNN (Kth Nearest Neighbor, Késimo vizinho mais próximo).
20
HCA: Critérios de Agrupamento
( )BiAi
BiAiBiAi
kidd
ddddd ,max
22=
−+
+=
�� LigaLigaçção Completa:ão Completa:
� Baseado na maior distância entre os objetos de agrupamentos opostos. Em geral, agrupamentos pequenos, compactos, esféricos e bem separados tendem a se formar.
dKi
21
HCA: Critérios de Agrupamento
2n
dnn
n
dn
n
dnd
ABBABiBAiA
ki−+=
�� LigaLigaçção Centrão Centróóide:ide:
� Centróide é calculado como a média dos objetos de um agrupamento. Evita-se a distorção espacial do agrupamento e tende-se a preservar agrupamentos de pequena importância em relação aos maiores.
dKi
22
HCA: Critérios de Agrupamento
AB
i
i
Bi
i
iB
Ai
i
iA
kid
nn
nd
nn
nnd
nn
nnd
+−
+
++
+
+=
�� MMéétodo de Ward:todo de Ward:
� O agrupamentos são agregados de tal maneira a minimizar a soma de quadrados dos desvios de cada centróide em relação ao próprio grupo. Isto produz dendogramas bem estruturados. O cálculo para as distâncias é dado por:
� É talvez o procedimento mais usado
23
Exemplo real
� Identificação da origem de grãos de café.
� Café analisados :� Sulawesi� Ethiopia� Kenya� Costa Rica� Sumatra� Columbia
24
Método de Análise
� Epectrometria de massas dos grãos de café (por headspace) na faixa de 47-99 m/z.
� 6 amostras foram obtidas de cada fonte.
� Os espectros de massa representam a soma dos espectros de todos componentes presentes.
� Cada espectro foi normalizado pelo pico mais intenso.
25
Espectros de massa
26
Dendograma
27
Quando usar dendogramas?
� Método rápido para uma exploração inicial dos dados.
� Os gráficos podem ser rapidamente avaliados
� Deve-se tentar usar dados sem nenhum pré-processamento ou escalados.
� Deve-se tentar outros métodos de agrupamento (classificação) como Análise de Componentes Principais.
28
Métodos Supervisionados
� Deve-se ter conhecimento inicial sobre as categoriais (ou classes) das amostras que irão ser modeladas.
� Classes definidas baseadas em conhecimento prévio do sistema ou pela utilização de análise exploratória como PCA ou HCA.
�� Principais mPrincipais méétodos:todos:� Máquina de Aprendizagem Linear� Regra do Vizinho mais próximo� SIMCA
29
Conjunto de Dados
� Para o desenvolvimento e avaliação de um modelo para classificação são necessários 3 conjuntos de dados:
�� Conjunto de Treinamento: Conjunto de Treinamento: amostras representativas para a construção do modelo.
�� Conjunto de ValidaConjunto de Validaçção: ão: novas amostras utilizadas para testar o modelo, cujas classes já são conhecidas
�� Conjunto Teste: Conjunto Teste: amostras realmente desconhecidas
30
Pré-processamento dos Dados
1.1. Sem processamento: Sem processamento: casos onde não exista diferenças nas escalas e nem variáveis redundantes.
2.2. Escalamento: Escalamento: pesos de todas as variáveis ficam iguais.
3.3. PCA : PCA : redução do número de variáveis, assim como, de ruídos
31
Criando um conjunto de validação
� Um conjunto de validação muitas vezes é um sub-conjunto do conjunto de treinamento, que foi omitido na construção do modelo.
� Dados devem ser removidos aleatoriamente do conjunto de treinamento
� Dados devem ser removidos aleatoriamente de todas as classes
� Conjunto de validação deve ser representativo das amostras usadas no treinamento.
32
Validação “um por vez”
� Do inglês: Leave-one-out cross-validation
� Validação onde cada amostra do conjunto de treinamento é utilizada para validação.
�� Processo:Processo:1. Retire uma amostra do conjunto de treinamento2. Construa o modelo de classificação3. Teste a amostra retirada4. Volte a amostra retirada para o treinamento 5. Repita o processo a partir de (1) até que todas as
amostras tenham sido retiradas e testadas.
33
Máquina de Aprendizagem Linear
� Do inglês: Linear Learning Machine
� Método onde um ou mais hiperplanos lineares são criados para discriminar entre as classes.
� Conjunto de regras (função discriminante) são criadas para dividir o espaço n-dimensional em regiões das classes, que são usadas posteriormente para prever a classes de novas amostras
� As classes devem ser separadas linearmente
34
Máquina de Aprendizagem Linear
� Um hiperplano pode dividir o espaço em 2 sub-espaços.
� Pode utilizar o espaço original ou o espaço dos componentes principais.
Classe 1
Classe 2
35
Máquina de Aprendizagem Linear
� Pode ser existam muitos hiperplanos para a separação das classes.
� Escolhe-se aquele que produzir a melhor separação
36
Exemplo
� Considere os dados abaixo p/ amostras de cabelo de 5 pacientes pertencentes a 2 classes.
� Para achar uma função linear discriminante, énecessário adicionar uma coluna com valores um.
Amostra de cabelo
Teor de Iodo (ppm)
Componente adicionado
1 0,29 1,02 4.88 1,03 0.31 1,04 3.49 1,05 4.46 1,0
Teor Iodo (ppm)1 2 543
37
Exemplo
� Esta coluna garante que se possa estimar uma função linear discriminante passando pela origem(0,0) e sendo perpendicular a um vetor de pesos w.
38
Exemplo
� A fronteira que separa as 2 classes é calculada interativamente, ajustando os elementos do vetor w:
� sendo s um escalar discriminante e θ o ângulo entre we o vetor dos dados x.
� Se θθθθ <<<< 90º, s >>>> 0,0 e os objetos representados serão os da classe dos círculos pretos
� Se θθθθ >>>> 90º, s <<<< 0,0 e os objetos representados serão os da classe dos círculos vermelhos.
39
Máquina de Aprendizagem Linear
� Se o número de classes aumenta, deve-se ter mais hiperplanos para a separação.
� Problema pode se tornar muito complexo.
40
Máquina de Aprendizagem Linear
� Em certos casos pode ser que não seja possível encontrar uma separação linear entre as classes.
� Deve-se utilizar outros procedimentos para classificação.
41
K-vizinho mais próximo
� Do inglês: k-nearest neighbor (KNN)
� Método de classificação baseado na similaridade
� Designa categoria a uma amostra desconhecida baseado na proximidade multivariada com outras amostras cujas categorias são conhecidas.
� k → número de vizinhos mais próximos sendo comparados
42
K-vizinho mais próximo
�� Procedimento:Procedimento:1. Conjunto de treinamento é selecionado que
contenha exemplos de todas as classes.
2. Distâncias são calculadas.
3. As distâncias em relação à amostra desconhecida são comparadas com:
1. Os k vizinhos mais próximos2. O agrupamento da classe mais próxima
43
K-vizinho mais próximo
� Quando da utilização da distância para uma classe, pode utilizar as mesmas opções de ligação discutidas anteriormente:
� Ligação simples: membro mais próxima da classe� Ligação completa: membro mais distante da
classe� Ligação centróide: centro do agrupamento ds
classe
44
Exemplo do KNN
Neste exemplo a amostra desconhecida é comparadacom os 3 vizinhos maispróximos.Neste caso, os 3 vizinhos mais próximos pertencema categoria “vermelha”.
Amostra desconhecida, classificada como categoria “vermelha”
45
Exemplo KNN centróide
Amostra desconhecida
Distância do centro do agrupamento da classe é determinadoe comparado para a classificação de uma amostra desconhecida
46
Problemas para classificação
� Em certos casos, os k-vizinhos mais próximos podem pertencer a classes diferentes.
� Nesses casos, a classe escolhida é aquela que tem mais participações dentre os k-vizinhos.
Amostra desconhecida
47
SIMCA
�� SSoft IIndependent MModeling of CClass AAnalogy
� Para cada classe de amostras um modelo de PCA éconstruído separadamente.
� O modelo é baseado no número ótimo de componentes principais que melhor agrupam as classes.
� O número de componentes principais pode variar de classe para classe e pode ser determinado por validação cruzada.
48
Análise de Componentes Principais
� Decomposição de uma matriz de dados com alta dimensão.
� Para cada classe um modelo é construído, que decompõe a matriz de dados da classe em escores e pesos.
� Para um escalar da matriz X:
onde xijc é a observação da amostra i, variável j, classe c.
∑=
++=cA
a
cij
cja
cia
cj
cij eptxx
1
49
Análise de Componentes Principais
= +•••••••••••••••
E P T X +=T
•
•
�
•••••••••••••••• •
••
• •
�
•••••••••••••••�•••••••••••••••�
50
Modelos SIMCA
� São construídos “envelopes” em torno de cada modelo.
X
X XXX
XXX
2 S0
2 S0
PC1
Var.1
Var.3
Var.2
PC2
PC1
X
2 S0
51
Modelos SIMCA
� Pode-se limitar o tamanho do hipervolume pela escolha de um valor de desvio padrão, para melhorar a definição das classes.
� Variância residual para uma classe é dada por:
onde nn é o número de amostras, pp é o número de variáveis e AA o número de componentes principais utilizados no modelo
3S0
2S0
∑∑= = −−−
=n
i
p
j
ij
ApAne
S1 1
220 ))(1(
52
Classificação com SIMCA
� Uma vez que o modelo para cada classe tenha sido desenvolvido, pode-se realizar a classificação de amostras desconhecidas.
�� Procedimento:Procedimento:1. A amostra é projetada no espaço dos
componentes principais2. Se cair dentro do “envelope” da classe é
classificada como pertencente a ela.
53
Classificação com SIMCA
� Existe a possibilidade da amostra ser classificada como pertencente a mais de uma classe,
� ou, não pertencer a nenhuma das classes conhecidas.
Amostra anômala(outlier)
54
Detecção de amostras anômalas
�� Amostras anômalasAmostras anômalas : não se encaixam em nenhuma das classes conhecidas.
� Variância residual para uma amostra i:
� Se Si2 > 2So
2 → amostra não tem a mesma variabilidade em torno do modelo e pode ser considerada como anômala
∑= −
=
p
j q
iji Ap
eS
1
22
55
Poder de Modelagem
� A variância residual de cada variável j, sj2(res),
pode ser usada para estimar o seu poder de modelagem, Rj (a sua influência no modelo).
� Quanto mais Rj estiver próximo de 1, maior a importância da variável j no modelo.
56
Resumo do SIMCA
� De todos os métodos vistos, o SIMCA é aquele que apresenta maior número de opções para o desenvolvimento do modelo de classificação quando as classes são bem conhecidas.
� Ele requer maior tempo no desenvolvimento para a determinação do modelo ótimo para cada classe.
� Excelente para detectar anomalias nas amostras.
57
Exemplo
� 11 elementos foram analisados em vinhos (Espanha): � K, Na, Ca, Mg, Fe, Cu, Zn, Mn, Sr, Li, Rb
� 3 origens (45 amostras):�� El Hierro El Hierro (7 vinhos seco)�� La Palma La Palma (11 secos, 9 doces)�� LanzaroteLanzarote (10 secos, 8 doces)
58
Dendograma
DH : secos de El HierroDP : secos de La Palma SP : doces de La PalmaDL: secos de LanzaroteSL: doces de Lanzarote
vinhos doces- Las Palmas (SP): açúcar natural, sobre amadurecimento (Late Harvest)- Lanzarote (SL): açúcar adicionado
59
PCA
DH
DP
SP DL + SL
DH : secos de El HierroDP : secos de La Palma SP : doces de La PalmaDL: secos de LanzaroteSL: doces de Lanzarote
60
SIMCA
�� ModelosModelos: � El Hierro : 3 Componentes Principais� La Palma : 4 Componentes Principais� Lanzarote : 4 Componentes Principais
� 1 amostra de La Palma fora dos limites da classe
� Nenhum dos modelos construídos tiveram amostras das outras classes.
� Classificação 100% correta.
61
Gráfico de Coomans
Distância crítica para cada classe
Fora dos limites da classe
62
Poder de Modelagem