Agrupamento espectral

23
Agrupamento espectral e um experimento educacional Nicolau L. Werneck LTI—PCS—USP Geekie, São Paulo 20 de Novembro de 2012

description

Short presentation about spectral clustering, including one experiment with simulated data...

Transcript of Agrupamento espectral

Page 1: Agrupamento espectral

Agrupamento espectral e umexperimento educacional

Nicolau L. Werneck

LTI—PCS—USP

Geekie, São Paulo20 de Novembro de 2012

Page 2: Agrupamento espectral

Resumo e Sumário

O agrupamento espectral, ou spectral clustering é umatécnica que permite a classificação não-supervisionada.

Discutiremos a técnica, e um experimento com dados deuma simulação de testes respondidos por alunos.

Referência: von Luxburg [2007].

Sumário:

1 Teoria2 Experimentos3 Conclusão

1 / 18

Page 3: Agrupamento espectral

Algumas definições

Cada amostra di ∈ Rc possui um conjunto decaracterísticas, e existe uma função de similaridade

sij = f (di ,dj), sij ∈ R.

O resultado do método é um mapeamento

di → bi , bi ∈ Rn.

A partir de sij são produzidos os bi , permitindo aplicartécnicas de agrupamento por densidade, como k-médias.

2 / 18

Page 4: Agrupamento espectral

Exemplo

Algoritmos como k-médias não suportam regiõescôncavas. A clusterização espectral lida com isto,simplificando a análise.

(Figura de Ng et al. [2002].)

3 / 18

Page 5: Agrupamento espectral

Modelo de grafo

4 / 18

Page 6: Agrupamento espectral

Modelo de grafo

4 / 18

Page 7: Agrupamento espectral

Modelo de grafo

4 / 18

Page 8: Agrupamento espectral

Modelo de grafo

4 / 18

Page 9: Agrupamento espectral

Interpretações

Corte de grafo — MinCut, RatioCut, etc.Cadeia de Markov. (PageRank)Teoria de perturbação.

5 / 18

Page 10: Agrupamento espectral

Algoritmo

1 Determinar vértices vizinhos.2 Montar matriz com valores de similaridade.3 Calcular matriz Laplaciana.4 Encontrar menores autovalores e autovetores.5 Utilizar linhas dos autovetores como coordenadas deum espaço transformado.

6 Limiarizar, ou aplicar k-médias ou outros algoritmosde agrupamento mais simples.

6 / 18

Page 11: Agrupamento espectral

Experimento

Foi simulada uma classificação de alunos a partir de suasrespostas em um teste.

A classificação indicaria grupos de alunos comdificuldades nas mesmas disciplinas ou tópicos.

7 / 18

Page 12: Agrupamento espectral

Modelo probabilístico

O teste possui questões de múltipla escolha com 4opções. Há diferentes tipos de PDF para cada questão:

Item A B C DQuestão fácil 90% 3,3% 3,3% 3,3%Questão difícil 70% 10% 10% 10%Erro sistemático 10% 70% 10% 10%Chute 25% 25% 25% 25%

A resposta de um teste é uma amostra da PDF conjunta.Simulamos 30 questões respondidas por 100 alunos.

8 / 18

Page 13: Agrupamento espectral

Definição das classes

Há quatro grupos de 25 alunos. Cada classe possui PDFsdiferentes para cada questão.

A primeira classe é o caso base.

1 10 questões fáceis, 10 médias e 10 difíceis.2 Erros sistemáticos em 9 questões.3 6 erros sistemáticos, 5 chutes puros.4 Chute puro em 11 questões.

9 / 18

Page 14: Agrupamento espectral

Dados produzidos

0 20 40 60 80 100Aluno

05

1015202530

Ques

tão

10 / 18

Page 15: Agrupamento espectral

Função de Similaridade

A similaridade entre as respostas de dois alunos é umasoma das similaridades de cada questão, pela tabela:

A B C DA 1.0 0.0 0.0 0.0B 0.0 1.0 0.5 0.5C 0.0 0.5 1.0 0.5D 0.0 0.5 0.5 1.0

Certas ou erradas idênticas → 1.0,Resposta certa + errada → 0.0,Erradas diferentes → 0.5.

11 / 18

Page 16: Agrupamento espectral

Matrizes do problema

0 20 40 60 80 1000

20

40

60

80

100 Matriz de pesos

0 20 40 60 80 1000

20

40

60

80

100 Matriz Laplaciana

12 / 18

Page 17: Agrupamento espectral

Edgels e retas

Edgels são pontos amostrados sobre curvas ou retas.

0 1 2 3 4 5 6 7 8 9Nº autovalor

0.90

0.91

0.92

0.93

0.94

0.95

0.96

0.97

0.98

Valo

r

Primeiros autovalores

0 20 40 60 80 100Aluno

2.0

1.5

1.0

0.5

0.0

0.5

1.0

1.5

2.0

2.5 Primeiros autovetores

13 / 18

Page 18: Agrupamento espectral

Classificação no espaço transformado

As amostras no espaço dos autovetores podem agora serclassificadas utilizando métodos convencionais.

SVM, k-médias, ANN...

Fizemos uma simples classificação de acordo com oquadrante de cada amostra.

14 / 18

Page 19: Agrupamento espectral

Classificação no espaço transformado

2 1 0 1 2

2

1

0

1

2

Amostras no espaço dos autovetores

15 / 18

Page 20: Agrupamento espectral

Resultado da classificaçãoMatriz de confusão

C1 C2 C3 C4C1 21 4 0 0C2 3 20 2 0C3 0 1 23 1C4 1 0 1 23

Desempenho do classificador

C1 C2 C3 C4

Precisão 84% 80% 88% 96% µ: 87%Revocação 84% 80% 92% 92% µ: 87%F-score 84% 80% 90% 94% µ: 87%

16 / 18

Page 21: Agrupamento espectral

Conclusão

Apresentamos a técnica da clusterização espectral, edemonstramos como ela poderia ser útil para ensino.

Nosso experimento ilustra bem a técnica, mas:

1 O modelo probabilístico é bastante rudimentar.2 É preciso analisar dados reais.3 Uma aplicação com muitos dados precisa utilizartécnicas numeŕicas sofisticadas.

17 / 18

Page 22: Agrupamento espectral

Fim

Obrigado!

Nicolau Werneck <[email protected]>

18 / 18

Page 23: Agrupamento espectral

Referências BibliográficasAndrew Y. Ng, Michael I. Jordan, and Yair Weiss. On spectral clustering:

Analysis and an algorithm. In Neural Information Processing Systems,2002. URLhttp://books.google.com/books?hl=en&lr=&id=GbC8cqxGR7YC&oi=fnd&pg=PA849&dq=On+Spectral+CLustering:+Analysis+and+an+algorithm&ots=ZvN1H01DB5&sig=NsxAYwu8QzKmCeEo-FUfwMwkI4k.

Ulrike von Luxburg. A tutorial on spectral clustering. Statistics andComputing, 17(4):395–416, August 2007. ISSN 0960-3174. doi:10.1007/s11222-007-9033-z. URLhttp://www.springerlink.com/index/10.1007/s11222-007-9033-z.

1 / 1