ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)!...
Transcript of ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)!...
![Page 1: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/1.jpg)
ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)
Flávia F. Feitosa
BH1350 – Métodos e Técnicas de Análise da Informação para o Planejamento Julho de 2015
![Page 2: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/2.jpg)
É uma técnica analítica pra identificar subgrupos significativos de entidades homogêneas (pessoas/objetos/lugares).
O objetivo é classificar uma amostra de entidades
em um número menor de grupos mutuamente excludentes, com base nas similaridades entre as entidades.
Busca por uma estrutura “natural” entre as
observações com base em um perfil multivariado.
HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.
ANÁLISE DE AGRUPAMENTOS
![Page 3: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/3.jpg)
Os agrupamentos resultantes de entidades devem exibir elevada homogeneidade interna (dentro dos agrupamentos) e elevada heterogeneidade externa (entre agrupamentos).
ANÁLISE DE AGRUPAMENTOS
Idealmente, os objetos dentro de um agrupamento estarão próximos quando representados graficamente, e diferentes agrupamentos estarão distantes.
![Page 4: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/4.jpg)
1. Classificar os setores censitários de acordo com as diferentes dimensões de justiça/injustiça ambiental.
2. Classificar os municípios de SP em função das diferentes dimensões de violência contra a mulher
3. Classificar os bairros do ABC de acordo com a quantidade/perfil dos lançamentos residenciais
4. Classificar os distritos de SP de acordo com as variáveis de infraestrutura e entorno dos domicílios
5. …
Exemplos “inspirados” nos trabalhos propostos pelos alunos
![Page 5: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/5.jpg)
Conjunto de variáveis que representam as características usadas para comparar objetos da análise de agrupamentos. Deve ser especificado pelo analista.
Exemplos considerando as propostas de trabalho apresentadas ???
Variável EstaFsGca de Agrupamento
![Page 6: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/6.jpg)
CaracterísGcas da Análise de Agrupamentos
1. É descritiva, não-‐teórica e não-‐inferencial
2. Sempre criará agrupamentos, independente da existência real de alguma estrutura dos dados
3. Variedade de vias e critérios para a definição dos grupos, o que possibilita a obtenção de soluções diferentes
4. Não é generalizável, pois é totalmente dependente das variáveis usadas como base para a medida de similaridade
![Page 7: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/7.jpg)
QUESTÕES-‐CHAVE
1. Como medir similaridade?
2. Como formar os agrupamentos?
3. Quantos grupos formar?
![Page 8: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/8.jpg)
1. Medição de Similaridade Agrupamentos são grupos de objetos semelhantes. Precisamos, portanto, definir uma medida do grau de similaridade/dissimilaridade entre os objetos.
É possível medir similaridade, por exemplo, de acordo com a distância euclidiana entre cada par de observações.
![Page 9: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/9.jpg)
2. Formação de Agrupamentos
Definida a medida de similaridade a ser adotada, precisamos formar agrupamentos com base na similaridade de cada par de observações.
Esse procedimento deve determinar a pertinência a grupo de cada observação para cada conjunto de agrupamentos formados
![Page 10: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/10.jpg)
3. Número de Agrupamentos
DILEMA
Menor nr. de agrupamentos &
Menor homogeneidade interna nos grupos
VS.
Maior nr. de agrupamentos &
Maior homogeneidade interna nos grupos
![Page 11: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/11.jpg)
Métodos de Agrupamento
1. Agrupamento em árvore (tree clustering): método aglomerativo hierárquico
2. K-‐médias (k-‐means): método não hierárquico por repartição
![Page 12: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/12.jpg)
Agrupamento em Árvore Considere as seguintes observações:
Variável de
Agrupamento
Observação
A B C D E F G
Variável 1 (V1) 3 4 4 2 6 7 6
Variável 2 (V2) 2 5 7 7 6 7 4
![Page 13: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/13.jpg)
Agrupamento em Árvore
0
2
4
6
8
0 2 4 6 8
V2
V1
D C
E
F
A
B
G
![Page 14: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/14.jpg)
0
2
4
6
8
0 2 4 6 8
V2
V1
D C
E
F
A
B
G
Agrupamento em Árvore
Como medimos similaridade? Neste exemplo, utilizaremos a distância euclidiana (linha reta) entre cada par de observações
![Page 15: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/15.jpg)
Matriz de Proximidade de Distâncias Euclidianas entre Observações
Observação
A B C D E F G
A -
B 3,162 -
C 5,099 2,000 -
D 5,099 2,828 2,000 -
E 5,000 2,236 2,236 4,123 -
F 6,403 3,606 3,000 5,000 1,414 -
G 3,606 2,236 3,606 5,000 2,000 3,162 -
![Page 16: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/16.jpg)
Matriz de Proximidade de Distâncias Euclidianas entre Observações
Observação
A B C D E F G
A -
B 3,162 -
C 5,099 2,000 -
D 5,099 2,828 2,000 -
E 5,000 2,236 2,236 4,123 -
F 6,403 3,606 3,000 5,000 1,414 -
G 3,606 2,236 3,606 5,000 2,000 3,162 -
Menor Distância, Maior Similaridade
![Page 17: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/17.jpg)
Agrupamento em Árvore (1) Identificar as observações mais próximas (E e F) e
combiná-‐las em um agrupamento
![Page 18: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/18.jpg)
Agrupamento em Árvore (2) Encontrar próximos pares de observações mais semelhantes.
![Page 19: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/19.jpg)
Dendograma
![Page 20: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/20.jpg)
Dendograma
7 grupos 6 grupos 2 grupos
![Page 21: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/21.jpg)
Métodos de Agrupamento
1. Agrupamento em árvore (tree clustering): método aglomerativo hierárquico
2. K-‐médias (k-‐means): método não hierárquico por repartição
![Page 22: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/22.jpg)
K-‐MÉDIAS
Gera k diferentes grupos com a maior distinção possível entre eles.
Parte de k-‐conjuntos aleatórios e move os objetos entre estes conjuntos com o objetivo de:
(1) Minimizar a variabilidade dentro dos conjuntos
(2) Maximizar a variabilidade entre conjuntos
![Page 23: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/23.jpg)
K-‐MÉDIAS MINIMIZAR VARIÂNCIAS INTRA-‐GRUPOS
MAXIMIZAR VARIÂNCIAS
INTER-‐GRUPOS
![Page 24: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/24.jpg)
Dados devem estar normalizados (por exemplo, entre 0 e 1) ou padronizados (z-‐escore).
![Page 25: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/25.jpg)
PráGca no SPSS Dados Origem e Destino 2007 – Município de São Paulo
Estabelecer grupos de zonas semelhantes quanto à proporção de viagens do tipo:
V1: “transporte coletivo”
V2: “transporte individual”
V3: “transporte não motorizado”
Arquivo: OD2007_TipoViagem_SP.sav
Disponível em https://flaviafeitosa.wordpress.com/teaching/bpt-‐mti/
![Page 26: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/26.jpg)
Normalização Variáveis
Valor normalizado = (v.real - MinA)/(MaxA – MinA)
Objetivo: Minimizar problemas oriundos do uso de unidades e dispersões distintas entre as variáveis.
![Page 27: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/27.jpg)
Analyse > Classify > k-‐means cluster…
K-‐MÉDIAS
![Page 28: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/28.jpg)
K-‐MÉDIAS
![Page 29: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/29.jpg)
Como podemos caracterizar cada um destes grupos?
![Page 30: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/30.jpg)
Grupos 2, 4 e 5 : outliers Grupo 6: Predominância transporte coletivo. Grupo 8: Predominância transporte coletivo e não motorizado Grupo 1: Predominância do transporte não motorizado, seguido do coletivo Grupo 3: Equivalência entre transporte coletivo e individual (motorizado), pouco não motorizado. Em relação aos demais, destaque para o individual Grupo 7: equivalência entre os 3 modos, com ligeiro predomínio do coletivo e não-‐motorizado
![Page 31: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/31.jpg)
Podemos exportar, no formato .csv, os resultados salvos na tabela.
Em seguida, podemos juntar esta tabela ao shapefile (join) e visualizar os grupos espacialmente
K-‐MÉDIAS
![Page 32: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/32.jpg)
K-‐MÉDIAS Grupos 2, 4 e 5 : outliers Grupo 3: Equivalência entre transporte coletivo e individual (motorizado), pouco não motorizado. Em relação aos demais, destaque para o individual Grupo 6: Predominância transporte coletivo. Grupo 8: Predominância transporte coletivo e não motorizado Grupo 7: equivalência entre os 3 modos, com ligeiro predomínio do coletivo e não-‐motorizado Grupo 1: Predominância do transporte não motorizado, seguido do coletivo
![Page 33: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/33.jpg)
Repetição do experimento, incluindo como variáveis as coordenadas X e Y normalizadas
K-‐MÉDIAS
![Page 34: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/34.jpg)
K-‐MÉDIAS
![Page 35: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/35.jpg)
Analyse > Classify > Hierarchical Cluster…
AGRUPAMENTO EM ÁRVORE
![Page 36: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/36.jpg)
ANÁLISE DESCRITIVA DAS VARIÁVEIS SALVAS
Analyse > Descriptive Statistics > Explore…
AGRUPAMENTO EM ÁRVORE
![Page 37: ANÁLISE DE AGRUPAMENTOS Cluster Analysis€¦ · ANÁLISE DE AGRUPAMENTOS (Cluster Analysis)! Flávia’F.’Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para](https://reader033.fdocumentos.com/reader033/viewer/2022051907/5ffa913be9e35b79496705d5/html5/thumbnails/37.jpg)
Análise de agrupamentos
04/08 -‐ Terça à Último dia para entrega das atividades (incluindo as atrasadas)
AGvidade 7