1 Capítulo 8 Métodos de Aprendizagem Não Supervisionados Introdução A análise de dados...

1

Capítulo 8

• Métodos de Aprendizagem Não Supervisionados

Introdução

A análise de dados multivariados tem um papel fundamental em Data Mining e KDD (Knowledge Discovery in Databases). Dados multivariados consistem de diversos atributos ou variáveis tomados sobre cada registro, caso ou observação.

2

X1 X2 ... Xp

1 x11 x12 ... x1p

2 x21 x22 ... x2p

... ... ... ...

n xn1 xn2 ... xnp

variáveis

• As linhas de X(n x p) são supostamente independentes,

mas as colunas são, em geral, correlacionadas.

X(n x p)

matriz de dados

3

Principais objetivos:

• Reduzir a dimensionalidade: espaço p-dimensional bidimensional ;

• Obter escores (índice composto) para todas as observações;

• Formar agrupamentos (clusters) de observações similares com base em diversas variáveis.

Métodos de aprendizagem supervisionados e não supervisionados:

Método de aprendizagem supervisionado: a relação entre as variáveis de entrada e saída (target, objetivo, variável resposta) são estabelecidas pelo pesquisador.

Método de aprendizagem não supervisionado: não é definida a variável de saída (variável resposta)

4

Métodos de aprendizagem não supervisionados:

1. Modelos de variáveis latentes (Técnicas estatísticas de Componentes Principais (Principal Components) e Análise de fatores (Factor Analysis)) e Modelos de equações estruturais (Structural equations modeling)

2. Análise de agrupamentos (Análise de Conglomerados, em inglês, Cluster Analysis).

Componentes Principais: reduz a dimensionalidade dos dados multivariados, transformando variáveis correlacionadas em variáveis não correlacionadas transformadas linearmente.

Análise de Fatores: uns poucos fatores não correlacionados são extraídos, que explicam a máxima quantidade de variância comum e são responsáveis pela correlação observada entre os dados multivariados. As relações entre as variáveis e os fatores são, então, estudadas (investigadas).

Análise de conglomerados: é usado para combinar observações (casos) em grupos ou clusters de tal forma que cada grupo seja homogêneo para um conjunto de variáveis. São grupos com características similares.

5

Aplicações dos métodos não supervisionados

Lembrando que mais de um método pode ser usado para resolver o mesmo objetivo.

Análise de componentes principais: um analista de negócios está interessado em rankear (posto que ele ocupa, primeiro, segundo,...) 2000 fundos baseado na performance mensal dos últimos dois anos de 20 indicadores financeiros e índices. Seria muito difícil criar os escores para cada fundo baseado nos 20 indicadores e interpretá-los. Assim, o analista realizou uma análise de Componentes Principais sobre uma matriz de dados padronizados de dimensão 2000 x 20 e extraiu os dois primeiros componentes. Os dois primeiros componentes contabilizaram 74% da variabilidade contida nas 20 variáveis. Assim, o analista usou os dois componentes para calcular os escores e criar um rank para os fundos.

6

Análise exploratória de fatores: pode ser usado para estratégias de marketing. Pode-se criar postos (ranks) para os consumidores através dos escores fatoriais, e diferentes promoções podem ser adotadas para cada consumidor baseado nos valores dos escores fatoriais.

Análise de conglomerados: um banco coleta e mantém uma grande base de dados sobre os padrões dos correntistas para vários serviços bancários, como, conta corrente, poupança, certificados de depósitos, empréstimos, e cartão de crédito. Baseado em atributos bancários, o banco desejaria segmentar os correntistas em muito ativo, moderados e passivos, baseado nos dados dos últimos três anos dos correntistas. O analista realiza uma análise de cluster e obtém os conglomerados (grupos). A divisão de marketing usou a segmentação para montar estratégias diferenciadas de marketing para os vários grupos.

7

Análise de Componentes Principais

Definição de componentes principais

O objetivo da análise é tomar p variáveis X1,X2,....,Xp e encontrar combinações dessas para produzir variáveis latentes Z1,Z2,...,ZP, que são não correlacionadas.

A falta de correlação é uma propriedade muito útil porque isto significa que estas variáveis latentes estão medindo diferentes “dimensões” dos dados.

Os componentes principais são ordenados de acordo com a quantidade de variância explicada:

pZvar...ZvarZvar 21

onde var(Zi) representa a variância de Zi no conjunto de dados.

Sempre que realizamos uma análise de componentes principais, esperamos conseguir explicar quase toda a variabilidade dos dados com uns poucos componentes principais.

8

Se as variáveis originais não são correlacionadas, então a análise de componentes principais não tem efeito algum. Os melhores resultados são obtidos quando as variáveis originais são altamente correlacionadas, positiva ou negativamente.

Breve descrição da realização da análise de componentes principais

Vamos considerar os dados de porcentagens de pessoas empregadas em 9 grupos de atividades diferentes em 26 paises europeus, ano de 1979. Na tabela a seguir Apresenta-se parte dos dados:

País agricultura mineracao manufatura energia construcao servicosind financas serpessoais transporteBelgium 3,3 0,9 27,6 0,9 8,2 19,1 6,2 26,6 7,2Denmark 9,2 0,1 21,8 0,6 8,3 14,6 6,5 32,2 7,1France 10,8 0,8 27,5 0,9 8,9 16,8 6 22,6 5,7Wgermany 6,7 1,3 35,8 0,9 7,3 14,4 5 22,3 6,1Ireland 23,2 1 20,7 1,3 7,5 16,8 2,8 20,8 6,1Italy 15,9 0,6 27,6 0,5 10 18,1 1,6 20,1 5,7

9

De acordo com a tabela abaixo, temos variáveis muito correlacionadas, por exemplo, agricultura e serviços pessoais, outras estão medianamente correlacionadas, por exemplo, mineração e finanças, e outras, ainda, pouco correlacionadas, por exemplo, agricultura e mineração. Portanto, este conjunto de dados é razoavelmente bom para análise de componentes principais. Isto indica que vários componentes serão necessários para contabilizar a variabilidade dos dados .

10

Os primeiros 4 componentes principais tem variâncias iguais a: 3,49, 2,130, 1,10 e 0,99, respectivamente. Estes 4 componentes são os mais importantes para representar a variabilidade das variáveis dos 26 países. Este 4 componentes principais explicam 85,6752% da variabilidade dos dados. Porém, vamos considerar que um menor número de componentes é suficiente para apresentar os aspectos principais das diferenças entre os países. Assim, vamos considerar apenas os dois primeiros componentes (inclusive, são os únicos que apresentam autovalores bem superior a 1).

11

Os dois primeiros componentes representam aproximadamente 62% da variância, e são dados por:

Olhando-se para o primeiro componente, podemos verificar que ele é um contraste entre o número de empregados na agricultura e o número de empregados em manufatura, energia, construção, serviços na indústria, serviços pessoais e transporte. As variáveis com coeficientes próximos de zero são desprezíveis.

12

O segundo componente é um contraste entre o número de empregados em mineração e manufatura com o número em serviços da indústria e finanças.

A figura a seguir representa os 26 países versus os valores Z1 e Z2. A maioria dos países democráticos do oeste estão associados com baixos valores de Z1 e Z2. Irlanda, Portugal, Espanha e Grécia, apresentam altos valores de Z1. Turquia e Iugoslávia apresentam valores bem altos de Z1. Países comunistas, com exceção da Iugoslávia, estão agrupados com valores altos de Z2.

14

Escores fatoriais (Factor scores)

O escore fatorial do i-ésimo caso para o -ésimo fator é dado por:

p

jij/

j Xu

121

J=1,2,...,p é o número de variáveis.

Exemplo: 26 países europeus. O escore do primeiro país, Bélgica, para o primeiro componente principal, é dado por:

u={0.523791 0.001323 -0.347495 -0.255716 -0.325179 -0.378920 -0.074374

-0.387409 -0.366823};

X={-1.01828056, -0.364773448, 0.0845216534, -0.0204465205,0.0210352914, 1.34250672, 0.783876729, 0.963010831,0.469896479}; (Valores padronizados).

=3.487151;

17

Procedimento de cálculo dos componentes principais

A análise de componentes principais inicia com dados de p variáveis quantitativas, isto é, seus valores são dados numa escala numérica, para n observações. O primeiro componente principal é então a combinação linear das variáveis X1, X2,...,Xp,

pp Xa...XaXaZ 12121111 Sujeito a restrição:

121

212

211 pa...aa

A var(Z1) é a maior possível sujeita a restrição sobre as constantes a1j. A restrição é incluída para a variância não aumentar pelo simples fato de adicionar um valor a1j.

18

Exemplo: vamos obter os componentes principais relativos às variáveis X1 e X2 cuja matriz de variâncias-covariâncias é dada por:

898375

375555

,,

,,C

Resolução:

A equação característica é dada por:

0898375

375555

λ,,

,λ,

Isto é:

0502044142 ,,

19

As raízes próprias ou auto valores, obtidos desta equação são:

5961

84412

2

1

,

,

A soma dessas duas raízes dá 14,44. Sobre esse total elas correspondem, em porcentagem, a: 88,9% para 1 e 11,1% 2. Então o componente principal, relativo a 1 vai explicar 88,9% da variação, em comparação com apenas 11,1% para o componente 2.

Vamos calcular o componente principal, correspondente à raiz maior 1=12,844. Ele será dado pela equação:

xIC

20

Obtemos:

09543375

03752947

0

0

84412898375

37584412555

1211

1211

12

11

x,x,

x,x,

x

x

,,,

,,,

Este sistema de equações é indeterminado, uma vez que temos:

09543375

3752947

,,

,,

21

Podemos, pois, abandonar uma das equações (por exemplo, a segunda) e dar um valor arbitrário, não nulo, a uma das incógnitas (por exemplo x12=1). Fica:

73620

3752947

013752947

11

11

11

,x

,x,

*,x,

A solução inicial é:

1

73620

12

11

x

,x

22

A soma dos quadrados dos coeficientes obtidos é:

54201173620 22212

211 ,)(),(xx

Para obter uma solução com soma de quadrados igual a 1,00 (vetor normalizado), multiplicamos a solução obtida por:

8053054201

1 ,,

Obtemos:

80530

59290

12

11

,a

,a

Logo, o primeiro componente principal é:

211 8053059290 X,X,Z

Responsável por 88,9% da variação.

23

O segundo componente principal é dado pelo sistema de equações relativo à outra raíz, 2=1,596.

02947375

03759543

0

0

5961898375

3755961555

2221

2221

22

21

x,x,

x,x,

x

x

,,,

,,,

A solução inicial obtida é:

1

35811

22

21

x

,x

24

A solução final é:

59290

80530

22

21

,a

,a

O segundo componente principal, responsável por 11,1% da variação e ortogonal ao primeiro é dado por:

212 5929080530 X,X,Z

Outra solução para os componentes principais

As vezes, as unidades das variáveis envolvidas na análise são completamente diferentes. Nestes casos é indicado usar as variáveis reduzidas ou padronizadas, isto é, cada uma dividida pelo desvio padrão:

)X(DP

Xz

)X(DP

Xz

2

22

1

11

25

Mas isto é equivalente a trabalhar com a matriz de correlações(estimativa):

1r

r1R

21

12

Onde:

jjii

ijij

c.c

cr

Exemplo: a matriz de correlação do exemplo é dada por:

176450

764501R

,

,

26

Onde o valor 0,7645 é obtido através de:

2211

1212

c.c

cr

Com,

898

555

375

222

111

2112

,)X(iânciavarc

,)X(iânciavarc

,)X,X(ariânciacovc

76450898555

37512 ,

,.,

,r

Portanto,

27

No exemplo, as variáveis padronizadas são dadas por:

98162

35582

2

2

22

1

1

11

,

X

s

Xz

,

X

s

Xz

A equação característica será:

0415502

0176450

764501

2

,

,

,

As raízes próprias (os autovalores) são:

23550

76451

2

1

,

,

28

A porcentagem de explicação para cada um deles é:

%,,,

%,,,

7811117802

26180

2388882302

76451

Primeiro componente principal (1=1,7382)

07645076450

07645076450

0

0

76451176450

76450764511

1211

1211

12

11

x,x,

x,x,

x

x

,,

,,

Desprezando a última equação e fazendo x12=1 x11=1

29

O componente principal fica:

A soma dos quadrados dos coeficientes é: 12+12=2. Para obter uma solução normalizada (com soma da quadrados igual a 1), multiplicamos a solução obtida por 1/2=0,7071. Obtemos:

70710

70710

12

11

,a

,a

Logo, o componente principal é dado por:

211 7071070710 z,z,Z

Substituindo-se os valores de x1 e x2, temos:

2121

1 237203002098162

7071035582

70710 X,X,,

X,

,

X,Z*

30

Passos na análise de componentes principais:

1. Inicia-se codificando as variáveis X1,X2,...,Xp para ter média zero e variância 1. Isto é o usual, mas é omitido em alguns casos.

2. Calcular a matriz de covariâncias C. Se a padronização do passo 1 for realizada, então, esta matriz será a matriz de correlação.

3. Encontrar os auto-valores 1, 2,..., p e os correspondentes auto-vetores u1, u2,...,up. Os coeficientes do i-ésimo componente são então dados por ui enquanto i é a sua variância.

4. Descartar os componentes que apresentam baixa explicação da variação dos dados. Por exemplo, considere que tenhamos 20 variáveis para a análise e encontramos que 3 componentes explicam 90% da variabilidade total. Assim os outros 17 componentes devem ser ignorados.

31

Introdução

Análise de Conglomerados

(‘Cluster Analysis’)

A análise de conglomerados é uma técnica multivariada para reunir casos, registros, em grupos não definidos pelos dados (não são definidos à priori), de tal forma que o grau de associação entre os casos dentro de um mesmo grupo é forte e é fraca entre casos de diferentes grupos.

Na exploração e descrição de grandes bases de dados, é útil resumir a informação designando cada observação a um grupo com características similares.

Conglomeração pode ser usada para reduzir o tamanho dos dados e induzir a grupos. Como resultado, a análise de conglomerados pode revelar similaridades em dados multivariados, difíceis de serem encontrados de outra forma. Por exemplo, no estudo de aprovação de um novo produto, temos um número enorme de cidades e, portanto, impossível estudar-se todas elas. Se as cidades puderem ser reunidas em uns poucos grupos de cidades similares, então uma cidade de cada grupo pode participar do estudo.

32

A Análise de conglomerados procura determinar um conjunto de grupos os quais minimizam a variância dentro deles e maximizam a variância entre eles. Portanto, os conglomerados são homogêneos.

Se a análise de conglomerados gerar grupos não esperados, então, significa que ela própria está sugerindo novos relacionamentos que devem ser investigados.

Tipos de análise de conglomeradosMuitos algoritmos têm sidos propostos para análise de conglomerados. Será dada atenção

a duas abordagens:

1. Técnicas hierárquicas: estas técnicas produzem os dendogramas, como mostrado na figura a seguir. Esses métodos iniciam com o cálculo de distâncias de cada observação com todas as outras observações. Grupos são formados por dois processos:

a) Aglomerativos: todas as observações iniciam como sendo um grupo(unitário); grupos próximos são, então gradualmente juntados até, finalmente, todas as observações constituírem um único grupo.

b) Divisivos: todas as observações iniciam num único grupo. Após são separados em dois grupos e assim por diante, até que cada observação seja o próprio grupo.

33

Tipos de análise de conglomerados

0123456789

10

A B C D E

Método do vizinho mais próximo(aglomerativo)

Dis

tânc

ia

0123456789

10

A B C D E

Método do vizinho mais distante (aglomerativo)D

istâ

ncia

34

0123456789

10

A B C D E

Método das médias das distâncias (aglomerativo)D

istâ

ncia

Figura. Exemplos de dendogramas de análise de conglomerados de 5 registros.

A B C D E F

A B E C D F

A B E C D F

A B D F

Figura. Exemplo de algoritmo divisivo de 6 registros.

35

2. Técnicas de partição: estas técnicas permitem às observações moverem-se de um grupo para outro em diferentes estágios da análise.

A análise inicia com a atribuição arbitrária de medidas de tendência central do grupo e as observações são alocadas na vizinhança do centro do grupo. Novos centros são então calculados. Uma observação é então transferida para um novo grupo se ele está mais próximo do centro deste grupo do que do centro do seu grupo atual. Grupos próximos são juntados; grupos cujas observações estão bastante afastadas são divididos. O processo continua até encontrar a estabilidade com um número de grupos pré-determinado. Usualmente utiliza-se uma faixa de valores para o número final de grupos. Outra sugestão é, inicialmente realizar o método hierárquico e usar o número de conglomerados encontrados nesta análise como sugestão para o método de partição.

36

Em geral, os métodos de partição são mais eficientes em grandes bases de dados. Observação: 100 ou mais registros.

Métodos hierárquicos aglomerativos

Para ilustrar os procedimentos de diversos algoritmos vamos usar o seguinte exemplo.

Exemplo: pretende-se investigar, de forma exploratória, o histórico de crescimento corpóreo das pessoas. O pesquisador gostaria de escolher representantes “típicos” da população para tentar traçar diferentes históricos. O objetivo operacional passou a ser o de agrupar os indivíduos da população alvo segundo as variáveis peso e altura. Os dados de seis pessoas foram:

37

Indivíduo Altura Peso Idade Instrução Cor Sexo A 180 79 30 univ. Preta M B 175 75 28 univ. Branca M C 170 70 20 secund. Branca F D 167 63 25 univ. Parda F E 180 71 18 secund. Parda M F 165 60 28 primário branca F

Como temos duas variáveis com unidades diferentes, usar-se-á a padronização dos dados, isto é, cada valor será subtraído da média de todas as observações e dividida pelo desvio padrão de todas as observações. A nova tabela fica:

Indivíduo Altura Peso Zaltura Zpeso A 180 79 1,10 1,31 B 175 75 0,33 0,75 C 170 70 -0,44 0,05 D 167 63 -0,90 -0,93 E 180 71 1,10 0,19 F 165 60 -1,21 -1,35

38

Os métodos hierárquicos aglomerativos iniciam com uma matriz de distâncias entre os casos (observações, registros). Todos os registros estão separados (cada registro é um grupo). Os grupos que estão mais ”próximos” são juntados (agregados). Vamos estudar três casos:

1. Método do vizinho mais próximo

2. Método do vizinho mais longe

3. Método das médias das distâncias

1. Método do vizinho mais próximo (Método da ligação simples- Single Linkage)

Para o nosso exemplo suponha a seguinte matriz de distâncias:

961370131841492

621091670790

770471122

740411

670

,,,,,

,,,,

,,,

,,

, *B

C

D

E

F

A B C D E

Sempre é uma matriz quadrada e simétrica

*

2

750311330101670

,,,,,

39

Passo 1: inicialmente, consideramos uma distância igual a zero e, portanto, cada caso forma um grupo, isto é, temos 6 grupos iniciais.

Passo 2: olhando-se a matriz de distâncias, observa-se que as duas observações mais próximas são D e F, corresponde a uma distância de 0,37, assim, esta duas observações são agrupadas, formando o primeiro grupo. Necessita-se, agora, das distâncias deste grupo aos demais. A partir da matriz de distâncias iniciais têm-se:

621961621

770131770

471841471

122492122

,},;,min{)}F,E(d),D,E(dmin{)DF,E(d

,},;,min{)}F,C(d),D,C(dmin{)DF,C(d

,},;,min{)}F,B(d),D,B(dmin{)DF,B(d

,},;,min{)}F,A(d),D,A(dmin{)DF,A(d

Com isso, temos a seguinte matriz de distâncias:

40

621770471122

091670790

740411

670

,,,,

,,,

,,

,B

C

E

DF

A B C E

Passo 3: Agrupar A e B ao nível de 0,67, e recalcular:

471841492471122

670670790

740740411

,},;,;,;,min{

)}B,F(d),A,F(d),B,D(d),A,D(dmin{)AB,DF(d

,},;,min{)}B,E(d),A,E(dmin{)AB,E(d

,},;,min{)}B,C(d),A,C(dmin{)AB,C(d

A matriz resultante será:

41

471670740

621770

091

,,,

,,

,E

DF

AB

C E DF

Passo 4: Agrupar AB com E ao nível de 0,67, e recalcular:

471961841492621471122

740091740411

,},;,;,;,;,;,min{

)}E,F(d),B,F(d),A,F(d),E,D(d),B,D(d),A,D(dmin{)ABE,DF(d

,},;,;,min{)}E,C(d),B,C(d),A,C(dmin{)ABE,C(d

Matriz resultante:

471740

770

,,

,DF

ABE

C DF

42

Passo 5: Agrupar C com ABE ao nível de 0,74, e recalcular:

770961131841492621770471122 ,},;,;,;,;,;,;,;,min{

)}E,F(d),C,F(d),B,F(d),A,F(d),E,D(d),C,D(d),B,D(d),A,D(dmin{

)ABCE,DF(d

Matriz resultante:

770,ABCE

DF

Passo 6: O último passo cria um único agrupamento contendo os 6 objetos, que serão similares a um nível de 0,77.

43

Resumindo-se, temos:

Nó Fusão Nível 1 D e F 0,37 2 A e B 0,67 3 AB e E 0,67 4 ABE e C 0,74 5 ABCE e DF 0,77

Dendograma:

0,00,10,20,30,40,50,60,70,80,91,0

D F A B E

Dis

tânc

ia

C

44

2. Método do vizinho mais longe (Método da ligação completa – Complete Linkage)

Define-se a distância entre os grupos X e Y como:

YjeXi:j,idmax)Y,X(d

Convém ressaltar que a fusão de dois grupos ainda é feita com os grupos mais parecidos, menor distância.


Passo 2: olhando-se a matriz de distâncias, dada no slide número 37, observa-se que as duas observações mais próximas são D e F, corresponde a uma distância de 0,37, assim, estas duas observações são agrupadas, formando o primeiro grupo. Necessita-se, agora, das distâncias deste grupo aos demais. A partir da matriz de distâncias iniciais tem-se:

45

96,1}96,1;62,1max{)},(),,(max{),(

13,1}13,1;77,0max{)},(),,(max{),(

84,1}84,1;47,1max{)},(),,(max{),(

49,2}49,2;12,2max{)},(),,(max{),(

FEdDEdDFEd

FCdDCdDFCd

FBdDBdDFBd

FAdDAdDFAd

961131841492

091670790

740411

670

,,,,

,,,

,,

,B

C

E

DF

A B C E

Passo 3: Agrupar A e B ao nível de 0,67, e recalcular:

46

492841492471122

790670790

411740411

,},;,;,;,max{

)}B,F(d),A,F(d),B,D(d),A,D(dmax{)AB,DF(d

,},;,max{)}B,E(d),A,E(dmax{)AB,E(d

,},;,max{)}B,C(d),A,C(dmax{)AB,C(d

Temos:

492790411

961131

091

,,,

,,

,E

DF

AB

C E DF

47


492961841492621471122

411091740411

,},;,;,;,;,;,max{

)}E,F(d),B,F(d),A,F(d),E,D(d),B,D(d),A,D(dmax{)ABE,DF(d

,},;,;,max{)}E,C(d),B,C(d),A,C(dmax{)ABE,C(d

Matriz resultante:

492411

131

,,

,DF

ABE

C DF

48

Passo 5: Agrupar C com DF ao nível de 1,13, e recalcular:

492961841492621770471122091740411 ,},;,;,;,;,;,;,;,;,;,min{

)}E,F(d),B,F(d),A,F(d),E,D(d),B,D(d),A,D(d),E,C(d),B,C(d),A,C(dmax{

)ABE,CDF(d

Matriz resultante:

492,ABE

CDF

Passo 6: O último passo cria um único agrupamento contendo os 6 objetos, que serão similares a um nível de 2,49.

49


Nó Fusão Nível 1 D e F 0,37 2 A e B 0,67 3 AB e E 0,79 4 DF e C 1,13 5 ABE e

CDF 2,49

Dendograma:

0,00,10,20,30,40,50,60,70,80,91,0

D F A B E

Dis

tânc

ia

C

1,31,21,1

2,5

50

3. Método das médias das distâncias

961370131841492

621091670790

770471122

740411

670

,,,,,

,,,,

,,,

,,

,B

C

D

E

F

A B C D E

Dada a matriz de distâncias:


Passo 2: olhando-se a matriz de distâncias, observa-se que as duas observações mais próximas são D e F, corresponde a uma distância de 0,37, assim, esta duas observações são agrupadas, formando o primeiro grupo. Necessita-se, agora, das distâncias deste grupo aos demais. A partir da matriz de distâncias iniciais tem-se:

51

79129616212

95021317702

66128414712

30224921222

,/},,{/)}F,E(d)D,E(d{)DF,E(d

,/},,{/)}F,C(d)D,C(d{)DF,C(d

,/},,{/)}F,B(d)D,B(d{)DF,B(d

,/},,{/)}F,A(d)D,A(d{)DF,A(d

791950661302

091670790

740411

670

,,,,

,,,

,,

,B

C

E

DF

A B C E

Com a obtenção da matriz de distâncias conclui-se o passo 2, que reuniu os pontos D e F, num nível igual à 0,37.

52

Passo 3: Analisando a nova matriz de similaridade, nota-se que existem dois pares com a mesma proximidade: A com B e B com E. Recomenda-se selecionar aleatoriamente um dos pares e criar o novo grupo. Porém, os programas computacionais, escolhem o primeiro par que aparece para agrupar. Então, neste caso, agrupa-se A com B.

9814841492471122

2

73026707902

08127404112

,/},,,,{

/)}B,F(d)A,F(d)B,D(d)A,D(d{)AB,DF(d

,/},,{/)}B,E(d)A,E(d{)AB,E(d

,/},,{/)}B,C(d)A,C(d{)AB,C(d

Temos:

981730081

791950

091

,,,

,,

,E

DF

AB

C E DF

53


9216961841492621471122

6

08130917404113

,/},,,,,,{

/)}E,F(d)B,F(d)A,F(d)E,D(d)B,D(d)A,D(d{)ABE,DF(d

,/},,,{/)}E,C(d)B,C(d)A,C(d)ABE,C(d

Matriz resultante:

921081

950

,,

,DF

ABE

C DF

54

Passo 5: Agrupar C com DF ao nível de 0,95, obtendo-se a partição (ABE, CDF) e recalcular:

6419961841492621471122091740411

9

,/},,,,,,,,,{

/)}E,F(d)B,F(d)A,F(d)E,D(d)B,D(d)A,D(d)E,C(d)B,C(d)A,C(d{

)ABE,CDF(d

Matriz resultante:

641,ABE

CDF

Passo 6: O processo encerra reunindo num único grupo os conjuntos ABE e CDF, que são iguais a um nível 1,64 de parecença.

Vimos três métodos diferentes para agrupar elementos. O importante é conhecer suas propriedades, qualidades e deficiências, pois irá ajudar “a escolha daquele que melhor responde aos objetivos do trabalho”.

55


Nó Fusão Nível 1 D e F 0,37 2 A e B 0,67 3 AB e E 0,73 4 DF e C 0,95 5 ABE e

CDF 1,64

Dendograma:

0,00,10,20,30,40,50,60,70,80,91,0

D F A B E

Dis

tânc

ia

C

1,31,21,1

1,6

1,41,5

Observando o gráfico em forma de árvore (dendograma), notamos que o maior salto é observado na última etapa, sugerindo a existência de dois grupos homogêneos (A,B,E) e (C,D,F).

56

Métodos hierárquicos divisivos – Diana (Divisive Analysis)

Diana é uma técnica de análise de agrupamentos hierárquica, porém constrói sua hierarquia na ordem inversa dos algoritmos aglomerativos.

Inicialmente, há um grande agrupamento contendo todos os n objetos. Em cada passo subseqüente, o agrupamento atual é dividido em dois até que se chegue a um número de agrupamentos iguais ao número n de objetos.

Em cada agrupamento, são possíveis possibilidades de dividir os objetos em dois agrupamentos. Para evitar o uso de todas as possibilidades,utiliza-se o algoritmo a seguir:

1. Encontrar o registro que possui a maior dissimilaridade média para todos os outros registros. Esse registro inicia um novo agrupamento- o Agrupamento Temporário (AT).

2. Para registro i fora do AT calcule:

12 1 n

]),([]),([ ATjjimédiadATjjimédiadDi

57

3. Encontre um registro h em que a diferença Dh seja a maior. Se Dh for positiva,

então h está em média próximo do AT. Mova o registro h para o AT;

4. Repetir os passos 2 e 3 até todas as diferenças Dh serem negativas. O conjunto

de dados é então dividido em dois agrupamentos;

5. Escolha o agrupamento com o maior diâmetro. O diâmetro de um agrupamento é a maior dissimilaridade entre quaisquer dois registros. Então siga os passos de 1 a 4.

6. Repita os passos de 1 a 5 até que todos os agrupamentos contenham apenas um registro.

• Coeficiente de Divisão (CD)

Para cada registro i, têm-se di significando o diâmetro do ultimo agrupamento a que ele pertenceu, dividido pelo diâmetro de toda base de dados. O CD é dado por:

O CD indica a força da divisão que o algoritmo criou. Se o valor de CD for baixo, o algoritmo não conseguiu dividir bem os dados.

n

dCD i )(

58

Representação gráfica

• Dendograma

59

Exemplo

• Base de dados da agricultura

– Inicialmente todos os registros estão presentes em um único agrupamento chamado C1

x y

B 16.8 2.7

DK 21.3 5.7

IRL 10.9 14

L 21 3.5

UK 14 2.3

Media 16.8 5.64

Desvio Médio 3.48 3.368

60

• 1º passo: padronizar os dados

• 2º passo: calcular a matriz de dissimilaridades (neste caso usando a distância euclidiana)

xpad ypad

B 0.000 -0.873

DK 1.293 0.018

IRL -1.695 2.482

L 1.207 -0.635

UK -0.805 -0.992

B DK IRL L UK

B 0.00 1.57 3.76 1.23 0.81

DK 1.57 0.00 3.87 0.66 2.33

IRL 3.76 3.87 0.00 4.26 3.59

L 1.23 0.66 4.26 0.00 2.04

UK 0.81 2.33 3.59 2.04 0.00

61

• 3º passo: calcular a distância média de cada registro em relação aos outros

– A maior distância é do registro IRL. Então esse registro vai fazer parte do agrupamento temporário.

• 4º Passo: calcular Dh usando a media da distância entre h para todos os objetos que estão fora do agrupamento temporário e subtraindo pela distancia do objeto h para o agrupamento temporário.– DB = {[d(B,DK), d(B,L), d(B,UK)]/3} – {d(B,IRL)}

– DB = 1.93 - 3.76 = -1.82

– DDK = 1.52 - 3.87 = -2.35

– DL = 1.31 - 4.26 = -2.95

– DUK = 1.73 - 3.59 = -1.86

B DK IRL L UK

Media 1.84 2.11 3.87 2.05 2.19

62

• 5º passo: como todos os valores foram negativos, então nenhum dos registros está próximo do agrupamento temporário. Então apenas IRL forma um novo agrupamento, chamado C2.

• 6º passo: As distâncias médias no agrupamento C1 são recalculadas.

– Agora é o registro UK que vai para o agrupamento temporário.

C1 C2

B IRL

DK

L

UK

B DK L UK

Media 1.20 1.52 1.31 1.73

63

• 7º passo: Dh é novamente calculado:

– DB = {[d(B,DK), d(B,L)]/2} – {d(B,UK)}

– DB = 1.40 – 0.81 = 0.59

– DK = 1.11 – 2.33 = -1.21

– DL = 0.94 – 2.04 = -1.10

• 8º passo: o registro B se une ao registro UK e formam um novo agrupamento.

• 9º passo: o agrupamento C1 tem diâmetro 0.81, maior que o agrupamento C2, com diâmetro de 0.66, então primeiramente seus registros são divididos em dois agrupamentos e depois o mesmo acontece com o agrupamento C2.

C1 C2 C3

B DK IRL

UK L

64

• A formação final dos agrupamentos fica assim:

C1 C2 C3 C4 C5

B UK DK L IRL

65

• Dendograma

B

UK

DK L

IRL

01

23

4

Dendrogram of diana(x = agr, metric = "euclidean", stand = TRUE)

Divisive Coefficient = 0.66agr

Hei

ght

66

Método de partição

Exemplo: os dados são os mesmos que foram utilizados para os métodos hierárquicos aglomerativos e suponha que deseja-se encontrar uma partição com 2 grupos, ou seja, k=2.

I. Sementes dos agrupamentos.

Como a partição será formada por dois conjuntos necessita-se de dois centros provisórios (duas sementes, k=2) para começar o processo. Serão escolhidos os dois primeiros objetos (registros, casos, observações), isto é, A será o centro do primeiro grupo, enquanto B será o centro do segundo grupo. Veja estes resultados nas duas primeiras etapas da tabela a seguir.

Método das k-médias (k-means)

67

Valores Grupo 1 Grupo 2 Centro Centro

Etapa

Objetos Zalt Zpes Objetos Zalt Zpes Objetos Zalt Zpes 1 A 1,10 1,31 A 1,10 1,31 2 B 0,33 0,75 A 1,10 1,31 B 0,33 0,75 3 C -0,44 0,05 A 1,10 1,31 BC -0,06 0,40 4 D -0,90 -0,93 A 1,10 1,31 BCD -0,34 -0,04 5 E 1,10 0,19 AE 1,10 0,75 BCD -0,34 -0,04 6 F -1,21 -1,35 AE 1,10 0,75 BCDF -0,56 -0,37

II. Designação dos objetos (registros).

Os dois primeiros objetos já foram designados aos grupos, agora é a vez dos demais e será feita segundo a ordem de leitura. O próximo indivíduo (registro) é o C. Ele será colocado no grupo mais próximo, definido pela sua proximidade ao centro. Mas para evitar o cálculo da distância, será usado um procedimento mais simples: usar-se-á apenas a primeira variável (ZALT) para medir a proximidade. Assim C de coordenada –0,44, está mais próxima do grupo 2 (0,33) do que de 1 (1,10). Assim C é alocado ao grupo 2 que têm as coordenadas do seu centro recalculadas.

68

Veja este resultado na etapa 3 da tabela acima.

Procede-se, seqüencialmente, para os casos D, E e F. Cujos resultados estão nas etapas 4, 5 e 6 da tabela da página anterior. Conforme aparece no final da tabela da página anterior, a segunda fase termina com os agrupamentos:

p(1)={A,E} p(2)={B,C,D,F}

Calcula-se, agora, o grau de homogeneidade interna dos grupos, através da Soma de Quadrados do Resíduo (SQRes), que é a medida usada para avaliar o quão boa foi a partição.

As informações intermediárias necessárias para o cálculo da SQRes encontra-se na tabela a seguir, a qual passamos a discutir em detalhes.

O novo centro do grupo 2, fica:)(o 2

)-0,06;0,40(2)o

4002050750

06005502440330

(

,/),,(zpes

,,/),,(zalt

69

Grupo 1 Grupo2 Centro Centro Etapa Objeto

Zalt Zpes io.,d 2 Objeto

Zalt Zpes io.,d 2 L(.)

1 A 1,10 1,31 0,3136 5,5780 3,8352 2 E 1,10 0,19 0,3136 3,0526 (1,8149) 3 0,5929 B 0,33 0,75 2,0465 -2,3334 4 2,8616 C -0,44 0,05 0,1908 (1,6549) 5 6,8224 D -0,90 -0,93 0,4292 (3,9715) 6 9,2941 F -1,21 -1,35 1,3829 (4,3435)

Centro 1,10 0,75 SQRes(1) -0,56 -0,37 SQRes(2) SQRes= SQRes 0,00 0,6272 0,6272 1,345 2,705 4,0431 4,6703

De modo geral, a soma de quadrados do resíduo para o grupo j, é dado por:

jn

ii jojodjsSQ

1

2 ;)(Re

Oi(j) é o i-ésimo registro do grupo j; o(barra)(j) é o centro do grupo j; nj é o número de registros do grupo j. Sendo que:

p

lljliji XXjojod

1

22 ; Xlij é o valor da l-ésima variável X, do i-ésimo registro e j-ésimo grupo

ljX lj variável a para grupo do centro do valor o é

70

111 22 o,Edo,AdsReSQ

313603136007501901011011 222 ,,,,,,o,Ed

313603136007503111011011 222 ,,,,,,o,Ad

SQRes(1) = 0,6272

jn

i

p

lljlij XXjsSQ

1 1

)(Re

71

22222 2222 o,Fdo,Ddo,Cdo,BdsReSQ

0465225441792103707505603302 222 ,,,,,,,o,Bd

1908017640014403700505604402 222 ,,,,,,,o,Cd

4292031360115603709305609002 222 ,,,,,,,o,Dd

3829196040422503703515602112 222 ,,,,,,,o,Fd

SQRes(2) = 4,0431

SQRes = SQRes(1) + SQRes(2) = 0,6272 + 4,0431 = 4,6703

A soma de quadrados desta partição vale:

72

III. Realocação dos registros.

Como essa é uma partição arbitrária procura-se, agora, passar para uma outra melhor, isto é, uma que diminua a Soma de Quadrados Residual. Move-se o primeiro objeto para os demais grupos e verifica-se se há ganho na Soma de Quadrados Residual, ou seja, se ocorre aumento na homogeneidade. Havendo, muda-se o objeto para aquele grupo que produz o maior ganho, recalculam-se as estatísticas e passa-se ao ponto seguinte. Quando não houver mais mudanças, ou após um certo número de iterações, pára-se o processo.

A diminuição na soma de quadrados residual ao mover o registro o que está no grupo 1, para um grupo qualquer j é dado por:

11

11

11

22

n

o,odn

jn

jo,odjn;j,oL

Onde n(.) indica o número de elementos do referido grupo. As informações desta fórmula referem-se à partição original antes da mudança do objeto.

73

Exemplo: para o objeto A, temos:

578052

3136012

2

,o,Ad

,o,Ad

Já é uma indicação de que o objeto A deve permanecer no grupo 1.

A diferença na soma de quadrados residual é:

83523

1

313602

5

57805412 ,

,,:,AL

Aumentou a soma de quadrados residual. Portanto A continua no grupo 1.

Da forma como L foi construída, quanto mais negativo for o valor, melhor.

74

Passamos agora a investigar o objeto B ( o segundo registro), que está no grupo 2.

046522

5929012

2

,o,Bd

,o,Bd

Já é uma indicação de que o objeto B deve passar para o grupo 1.

A diferença na soma de quadrados residual é:

33342

3

046524

3

59290221 ,

,,:,BL

Portanto, o objeto B é transferido do grupo 2 para o grupo 1.

Os centros dos novos grupos são recalculados. Calculam-se as distâncias e a soma de quadrados residual. Estes dados estão na tabela a seguir.

75

Grupo 1 Grupo2 Centro Centro Etapa Objeto

Zalt Zpes io.,d 2 Objeto

Zalt Zpes io.,d 2 L(.)

1 A 1,10 1,31 0,3795 8,0050 2 B 0,33 0,75 0,2635 2,8824 3 E 1,10 0,19 0,3795 4,6674 4 C -0,44 0,05 0,7922 0,4080 5 5,8500 D -0,90 -0,93 0,0386 4,3296 6 F -1,21 -1,35 0,5017

Centro 0,84 0,75 SQRes(1) -0,85 -0,74 SQRes(2) SQRes= SQRes 0,40 0,63 1,0125 0,30 1,03 1,3325 2,3450

Esta SQRes também pode ser obtida pela soma de quadrado residual anterior menos L(B,1:2), ou seja, 4,6703-2,3334=2,3369. A diferença é erro de aproximação.

76

O processo continua agora com o objeto C, e da tabela do slide da página anterior temos que:

7922,02,

1284,21,2

2

oCd

oCd

40800

2

792203

4

12842321 ,

,,:, CL

Portanto, o objeto C fica no grupo 2.

Repetindo-se o processo com os pontos D,E e F termina-se a primeira iteração com:

2 1 F,D,CpE,B,Ap

Recomeçando a segunda iteração com A, depois com B, etc, não será feita mais nenhuma realocação. Assim, o processo termina produzindo a partição acima.

77

Problemas

Existem diversos algoritmos para análise de conglomerados. Não existe um método, em geral, considerado como sendo o melhor. Infelizmente, algoritmos diferentes não necessariamente produzem os mesmos resultados quando aplicados numa base de dados e existe um componente de subjetividade na determinação dos resultados da análise de conglomerados.

Uma maneira de verificar a estabilidade do agrupamento consiste em dividir a base de dados, aleatoriamente, em dois subconjuntos e aplicar o mesmo método (com o mesmo critério) em cada um deles. Se o agrupamento for estável, a alocação dos objetos nos subconjuntos será semelhante àquela da base de dados.

Um teste para qualquer algoritmo é tomar um conjunto de dados com grupos conhecidos à priori (pode ser por simulação) e verificar se o algoritmo é capaz de reproduzir os mesmos grupos.

A escolha das variáveis deve ser feita de acordo com o agrupamento desejado.

78

Medidas de distância

Os dados para a análise de agrupamentos usualmente consiste dos valores de p variáveis X1, X2,...,Xp, para n registros.

Existem diversas medidas de distâncias para cada tipo de variável. Por exemplo, para variáveis quantitativas temos a distância Euclidiana, distância de Mahalanobis; para variáveis qualitativas dicotômicas temos, por exemplo, a distância Euclidiana média, coeficiente de concordância simples, etc;

Por exemplo a distância Euclidiana é calculada por:

p

kjkikij xxd

1

2

Onde xik é o valor da variável Xk para o indivíduo (registro) i e xjk é o valor da mesma variável para o indivíduo j.

Usualmente as variáveis são padronizadas antes de se calcular as distâncias, assim, as p variáveis serão igualmente importantes. Geralmente, a padronização feita é para que todas as variáveis tenham média zero e variância 1.

79

Exemplo

Agrupamentos dos países europeus. Vamos usar os dados de porcentagens de pessoas empregadas em 9 grupos industriais em diferentes países. Parte dos dados foram apresentados na seção de análise de componentes principais.

A análise deveria mostrar quais países tem padrões similares de emprego e quais países são diferentes com relação ao emprego.

O primeiro passo na análise envolve a padronização dos dados, ou seja, cada variável terá média zero e variância 1. Os valores padronizados são mostrados na tabela do próximo slide. Por exemplo, para Bélgica e Agricultura, temos:

021

5515

131933,

,

,,

81

O próximo passo da análise é calcular a distância Euclidiana entre todos os pares de países. Isto foi feito em cima dos dados padronizados.

O dendograma foi feito através do método hierárquico aglomerativo do vizinho mais próximo, como descrito anteriormente. O dendograma é mostrado no próximo slide.

Conclusões:

Pode ser visto que os dois países mais próximos são Suécia (Sweden) e Dinamarca (Denmark). A distância que separa um do outro é de 1,135. O próximo par de países mais semelhantes é Bélgica (Belgium) e França (France), cuja distância que separa um do outro é 1,479. O próximo é Polônia (Poland) e Bulgária, com distância de 1,537. A união (ligação) termina com a Turquia (Turkey) juntando-se com os outros países a uma distância de 5,019. Dado o dendograma (diagrama em árvore), podemos decidir sobre o número de grupos a considerar. Por exemplo, se decidirmos considerar seis grupos, a distância de ligação será 2,459.

83

Parte da matriz de distâncias:

84

Primeiro grupo: nações do oeste

Bélgica, França, Holanda,Suécia, Dinamarca,

Alemanha Ocidental,Finlândia, Reino Unido,

Áustria, Irlanda, Suíça, Noruega,Grécia, Portugal e Itália

Segundo grupo:

Luxemburgo

Terceiro grupo: antigos países comunistas

Rússia, Hungria, Tchecoslováquia, Alemanha Oriental, Romênia, Polônia e Bulgária

85

Quarto grupo:

Espanha

Quinto grupo:

Yugoslavia

Sexto grupo:

Turquia

86

• Com os dados padronizados, pode ser visto que Luxemburgo é diferente devido a grande percentagem de empregados em mineração.

• Espanha é diferente devido a grande porcentagem de empregados na área da construção.

• Yugoslavia é diferente devido ao grande número na agricultura e finanças e baixos números na construção, serviços sociais e pessoais, e transporte e comunicação.

• Turquia tem valor extremamente alto na agricultura e números baixos na maioria das outras áreas.

Comparação com a análise de componentes principais:

Os seis grupos formados pela análise de agrupamentos pode ser comparada com o gráfico dos países contra os dois componentes principais dos dados (figura no próximo slide). Os resultados são bastante próximos, porém não há uma total concordância: Países no mesmo cluster tendem a ter valores similares para os primeiros dois componentes principais.

87

Espanha

1 Capítulo 8 Métodos de Aprendizagem Não Supervisionados Introdução A análise de dados...

Documents

Transcript of 1 Capítulo 8 Métodos de Aprendizagem Não Supervisionados Introdução A análise de dados...