DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS...

Post on 21-Apr-2015

104 views 0 download

Transcript of DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS...

DIEGO RICARDO DE ARAUJO

DEPARTAMENTO DE C IÊNCIA DA COMPUTAÇÃO

INSTITUTO DE C IÊNCIA EXATASUNIVERSIDADE FEDERAL DE JU IZ DE FORA

Seleção de Características através de

Nearest Shrunken Centroids

2

Introdução

Classificação de Dados

Seleção de Características

Sistema Inteligente

Testes Comparativos

Resultados

Considerações Finais

4

Descoberta de Conhecimento em Bases de Dados

Crescente fluxo de dados Dados coletados e acumulados

rapidamente

Transformação de informação em conhecimento útil

5

Descoberta de Conhecimento em Bases de Dados

Pré-processamento: dados preparados para mineração

Mineração de dados: extração de conhecimento através de métodos inteligentes

AvaliaçãoApresentação: representação e

visualização do conhecimento para o usuário

7

Mineração de Dados

Análise de grandes base de dados

Extração de padrões de interesse do modelo de dados Conjunto de dados Domínio de conhecimento Métodos de mineração Avaliação de padrões

8

Mineração de Dados

9

Introdução

Classificação de Dados

Seleção de Características

Sistema Inteligente

Testes Comparativos

Resultados

Considerações Finais

11

Processo de classificação

Treinamento Aprendizado de conhecimento a partir de

amostras com classes conhecidas

12

Processo de classificação

Teste Avaliação do conhecimento descoberto

pelo treinamento através da predição de classe de amostras desconhecidas

14

Avaliação dos Métodos de Classificação

Acurácia: índice de exatidão de classificação de amostras desconhecidas

Desempenho: velocidade e custo computacional referente a utilização do classificador

15

Avaliação dos Métodos de Classificação

Robustez: capacidade de realizar predições corretas a partir de conjuntos de dados com amostras incompletas ou com ruído

Escalabilidade: eficiência do modelo de conhecimento a partir de uma grande quantidade de dados

Interpretabilidade: compreensão do modelo de conhecimento extraído do modelo de dados

17

Método Nearest Centroid

Centróide

Centro de distribuição de um conjunto de amostras Amostras de treinamento: centróide geral Amostras de determinada classe: centróide de

classe

18

Método Nearest Centroid

Matematicamente Seja um espaço p-dimensional, sendo p o numero

de atributos i = 1, 2, ... , p presentes num conjunto de dados composto de n amostras j = 1, 2, ... , n

xij a expressão do i-ésimo atributo da amostra j. Cada amostra está associada a uma classe k, pertencente a um conjunto discreto de K classes, Ck = (1, 2, ... ,K)

A cada classe k, estão associadas nk amostras que compõem o modelo de dados.

19

Método Nearest Centroid

Matematicamente O i-ésimo componente dos centróides

Geral

De classe

kCi ijik nxxk/

nxxn

j iji /1

20

Método Nearest Centroid

Função de distância

Sendo

Classificação

k

12

2** log2

p

i i

ikik s

xxx

22 1

k Ci

ikiji

k

xxKn

s nnkk / 11

K

k k

21

Introdução

Classificação de Dados

Seleção de Características

Sistema Inteligente

Testes Comparativos

Resultados

Considerações Finais

22

Seleção de Características

Teoria Maior quantidade de atributos: maior

poder de discernimento

Prática Informações irrelevantes confundem e

retardam os sistemas de aprendizado

23

Seleção de Características

Motivação

Existência de bases de dados com alto nível dimensional que acarretam alto custo computacional (baixo desempenho) e/ou pouca acurácia no processo de mineração de dados

24

Seleção de Características

Eliminação de atributos irrelevantes/redundantes do modelo de dados

Busca da melhoria do processo de descoberta de conhecimento

26

Método Nearest Shrunken Centroid

Distância estatística

Sendo

ik

iik

ik sm

xxd

nnm kk /1/1

ikikiik dsmxx

27

Método Nearest Shrunken Centroid

Função de limiarização suave

ikikik ddsignd .'

28

Método Nearest Shrunken Centroid

Dessa forma

Se dado atributo i, ∃∆ tal que ∀k tem-se d’ik = 0, então o i-ésimo componente dos centróides são eliminados pois não interferem na tarefa de classificação

ikikiik dsmxx ''

k

12

2** log2

p

i i

ikik s

xxx

29

Shrunken Centroids

30

Introdução

Classificação de Dados

Seleção de Características

Sistema Inteligente

Testes Comparativos

Resultados

Considerações Finais

31

Sistema Inteligente

32

Sistema Inteligente

File: arquivo físico da base de dados *.arff *.dat

Sample: amostra da base de dados. Composta por seus atributos (values) e identificada por sua classe

33

Sistema Inteligente

DataBase: representação da base de dados. Composta de um conjuntos de amostras (samples)

Centroid: centróide de um conjunto de amostras

34

Sistema Inteligente

NearestCentroidClassifier: classificador NSC Conjunto de treinamento: trainingSet Conjunto de teste: testSet Centróides de classe: classCentroids Centróide geral: overallCentroids Classificação de amostra: classify(sample)

35

Sistema Inteligente

Shrinker Seleção de características Realiza a redução dos centróides

shrinkCentroids() NearestCentroidClassifier searchDelta() crossValidation() de kfolds

36

Introdução

Classificação de Dados

Seleção de Características

Sistema Inteligente

Testes Comparativos

Resultados

Considerações Finais

38

Metodologia

Sub-divisão das bases de dados Testes de classificação

75% conjunto de treinamento 25% conjunto de teste

Seleção de características Dados originais Dados reduzidos

39

Metodologia

Validação Cruzada

40

Metodologia

Validação Cruzada

Neste trabalho convencionou-se a utilização de validação cruzada de 10 folhas como ponto de partida para o processo de avaliação de classificação

41

Metodologia

Bases de dados utilizadas Breast Colon Glasses Iris Leukemia Lymphoma Prostate

42

Metodologia

Classificadores utilizados NSC

Weka: suíte de mineração de dados Naive-Bayes SMO Multilayer Perceptron J48 Random Forest

43

Testes Comparativos

Por Base de Dados

44

Breast

45

Colon

46

Glasses

47

Iris

48

Leukemia

49

Lymphoma

50

Prostate

51

Testes Comparativos

Por Classificador

52

NSC

53

Naive-Bayes

54

SMO

55

Multilayer Perceptron

56

J48

57

Random Forest

58

Introdução

Classificação de Dados

Seleção de Características

Sistema Inteligente

Testes Comparativos

Resultados

Considerações Finais

59

Resultados

Média por Base de Dados

Média por Classificador

60

Resultados

Numero de Atributos x Desempenho Grande redução do número de atributos Ganho considerável de desempenho

Maiores índices Bases de dados de alto nível dimensional

61

Resultados

Acurácia Perda pouco significativa de acurácia Melhores índices

Base de dados: Leukemia (+2,22%) Classificador: Multilayer Perceptron (+0,96%)

Piores índices Base de dados: Breast (-8%) Classificador: Random Forest (-3,43%)

62

Resultados

Desempenho x Acurácia Ganho de desempenho e de acurácia

Bases de dados de alto nível dimensional

63

Introdução

Classificação de Dados

Seleção de Características

Sistema Inteligente

Testes Comparativos

Resultados

Considerações Finais

64

Considerações Finais

Ganho considerável de desempenho

Queda pouco significativa de acurácia

Melhores resultados em bases de dados de alto nível dimensional

65

Considerações Finais

Trabalhos Futuros

Estudos comparativos

Outros métodos de seleção de características

Variação da proporção entre número de amostras de treinamento e teste