UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade ([email protected])[email protected] Jacques...

42
UFPE-CIN 2002 1 Seminário Seminário Erivan A. Andrade ([email protected] ) Jacques Robin ([email protected] ) Mineração de Exceções

Transcript of UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade ([email protected])[email protected] Jacques...

Page 1: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 20021

SeminárioSeminário

Erivan A. Andrade ([email protected])

Jacques Robin ([email protected])

Mineração de Exceções

Page 2: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 20022

Roteiro

Motivação Métodos Baseados em Agrupamento Métodos Baseados em Estatística Métodos baseados em Distância Métodos Baseados em Desvio Conclusões Referências

Page 3: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 20023

Motivação: definição O que é outlier?

É uma observação, num conjunto de dados, que é suficientemente dissimilar ou aberrante do restante dos dados para levantar suspeita de ser causado por um mecanismo diferenciado

Equivalente a exceções Causa dos outliers: o que é esse mecanismo?

Erro de medidaComportamento diferente do padrãoDilema: “o ruído de uns é o sinal dos outros”

Mineração de outliers Detecção e análise de outliers

Page 4: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 20024

Motivação: aplicações práticas Detecção de Fraudes Comportamento de gastos de consumidores Em análises médicas (resultados não esperados de

tratamentos ) Pesquisa farmacêutica Marketing Coaching (hey Felipão, Romário é um outlier! ) Etc.

Page 5: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 20025

Técnicas de Mineração de Exceções

Classes de técnicas: Semi-automático:

Visualização Automático

Baseados em Clustering

Baseado em Estatística

Baseado em Desvio

Baseado em Distância

Características desejáveisEscalável para alta

dimensionalidade Interpretabilidade dos

resultadosComputacionalmente

eficienteDá importância ao

comportamento local dos dados

Ordenação dos outliers

Page 6: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 20026

Roteiro

Motivação Métodos Baseados em Agrupamento Métodos Baseados em Estatística Métodos baseados em Distância Métodos Baseados em Desvio Conclusões Referências

Page 7: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 20027

Mineração de exceção baseada em agrupamento

Idéia: Formar grupos de dados Dados que não se encaixam em nenhum

grupos são considerados exceções

Inserir figura exemplo aqui

Page 8: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 20028

Mineração de exceção baseada em agrupamento

VantagensReutiliza vasto

leque de métodos de agrupamentos

Não requer conhecimento prévio de distribuição

LimitaçõesO que se busca é

otimizar os agrupamentos, não a detecção de exceções

O que é exceção para uma configuração pode não ser para outra

Page 9: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 20029

Roteiro

Motivação Métodos baseados em Agrupamento Métodos baseados em Estatística Métodos baseados em Distância Métodos Baseados em Desvio Conclusões Referências

Page 10: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200210

Mineração de Outliers Baseada em Estatística

Assume distribuição ou modelo probabilístico para um conjunto de dados Ex: distribuição normal

Usa Teste de discordância (TD) → identifica os outliers com respeito ao modelo escolhidoSe um objeto for significativamente maior ou

menor que o modelo escolhido ele é uma exceção O TD examina 2 hipóteses:

Uma hipótese de trabalho Uma hipótese alternativa

Page 11: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200211

Mineração de Outliers Baseada em Estatística

Vantagens: Pode ser avaliado o nível

de significância de uma exceção

Usa métodos estatístico consolidados ao longo dos tempos

Limitações: O modelo escolhido

influencia a identificação dos Outliers

Testa aberração ao longo de apenas uma única dimensão

Dificuldade na escolha de uma distribuição

Page 12: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200212

Roteiro

Motivação Métodos baseados em Agrupamento Métodos baseados em Estatística Métodos Baseados em Desvio Métodos baseados em Distância Conclusões Referências

Page 13: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200213

Mineração de Outliers Baseada em Desvio

Não usa métodos estatísticos nem medidas de distância

Define exceção como pontos cujo valor desviam da maioria ao longo de algumas ou todas as dimensões

Exceções são equivalentes a Desvios de comportamento

Page 14: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200214

Mineração de Outliers Baseada em Densidade de Distribuição

Características Divide o espaço de dados em classe equi-depth Cada classe contém uma fração f=1/ dos registros Diferentes localidades dos dados são densas com respeito

a diferentes subconjuntos de atributos Observa a densidade de distribuição da projeção dos

dados Gera projeções dos dados sobre k dimensões Identifica nessas projeções, regiões de densidade

anormalmente baixa Pontos nessas regiões são considerados outliers Suporta dados com alta dimensionalidade

Page 15: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200215

Mineração de Outliers Baseada em Densidade de Distribuição

Ideia

Page 16: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200216

Mineração de Outliers Baseada em Densidade de Distribuição

O número de pontos em um cubo pode ser aproximando por uma distribuição normal e então:Fração esperadaDesvio padrãoCoeficiente de dispersão de um cubo D

n(D) número de pontos em um cubo k-dimensional N número de pontos no conjunto de dados

S(D)<0 indica cubos com numero de pontos significativamente abaixo do esperado

)1.(. kk ffN

kfN.

)1.(..)()(

kk

k

ffNfNDnDS

Page 17: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200217

Mineração de Outliers Baseada em Densidade de Distribuição

Busca necessária para gerar as projeções Busca exaustiva: garante encontrar todas a exceções

mas com complexidade alta Busca genética com função de seleção, crossover e

mutação específica para o problema permite encontrar, a um custo muito menor, a maioria das exceções

Comparativo de resultado

Page 18: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200218

Mineração de Outliers em Cubos OLAP

Exploração dirigida a hipótese O usuário interativamente busca por regiões de anomalias As regiões de anomalias representam áreas de interesse A busca das anomalias é feita com o uso das operações de

cubo OLAP Dril-down, roll-up, seleção

Problemas da exploração dirigida a hipótese Espaço de busca muito grande As anomalias podem estar em níveis inferiores ao ponto de

partida da análise Grande quantidade de agregados

Page 19: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200219

Mineração de Outliers em Cubos OLAP

Exploração dirigida a descoberta O usuário busca por anomalias guiado por indicadores

pré-computados Os indicadores permitem a observação de padrões

anormais em qualquer nível de agregação Muito útil, especialmente, para grande numero de

dimensões Um valor é uma exceção se ele difere significativamente

do seu valor antecipado Valor calculado por um modelo estatístico Considera o contexto da posição da célula no cubo Combina as tendências ao longo das diferentes dimensões a

que uma célula pertence

Page 20: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200220

Mineração de Outliers em Cubos OLAP

Exploração dirigida a descoberta Definição de exceção (yijk – ŷijk)/ ijk > ( = 2.5)

Cálculo do valor antecipado ŷijk

Onde γ = l+...+ (média ao longo de todas as dimensões)

γirAr = l+...+ir+...+ - γ(média ao longo de uma dimensão)

γirisArAs = l+...+ir+...+ is+...+ - γir

Ar - γisAs – γ (Média ao longo de duas

dimensões)

e((γ + γγ + γii

AA + γ + γjjBB + γ + γkk

CC + γ + γijijABAB + γ + γjkjk

BCBC + γ + γikikACAC))

ŷijk =ŷijk =

Page 21: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200221

Mineração de Outliers em Cubos OLAP

Exploração dirigida a descobertaEquação iterativa para cálculo do (desvio padrão)

(yyijkijk - ŷŷijkijk)2

(ŷŷijkijk)log ŷŷijkijk

log ŷŷijkijk 0

2ijk = (ŷŷijkijk)

Onde é calculado por

Page 22: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200222

Mineração de Outliers em Cubos OLAP

Os indicadores dão o grau de surpresa do valor da célula

Os indicadores são 3:SelfExp: valor surpresa da célula em relação a outras

células no mesmo nível de agregação InExp: Grau de surpresa em algum nível abaixo desta

célulaPathExp: grau de surpresa para cada caminho de

drill-down a partir da célula.

Exploração dirigida a descoberta

Page 23: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200223

Mineração de Outliers em Cubos OLAP

Exploração dirigida a descoberta (Exemplo)

Destacar Exceções

Page 24: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200224

Mineração de Outliers em Cubos OLAP

Exploração dirigida a descoberta (Exemplo)

Exceção de Caminho

Page 25: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200225

Mineração de Outliers em Cubos OLAP

Exploração dirigida a descoberta (Exemplo)

Drill-Down por produto (PathExp)

Page 26: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200226

Mineração de Outliers em Cubos OLAP

Exploração dirigida a descoberta (Exemplo)

Drill-Drown para Diet-S (InExp)

Page 27: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200227

Mineração de Outliers em Cubos OLAP

Exploração dirigida a descoberta (Exemplo)

Page 28: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200228

Roteiro

Motivação Métodos baseados em Agrupamento Métodos baseados em Estatística Métodos Baseados em Desvio Métodos baseados em Distância Conclusões Referências

Page 29: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200229

Mineração de Outliers Baseada em Distância: Dk(p)

Busca Resolver limitações do estatístico Um outlier é determinado baseado na distancia

Dk(p) Dk(p)= distância de p ao seu k-esimo vizinho Evita suposição sobre distribuição dos dados Menor custo computacional Pode, ás vezes, convergir para os métodos

estatísticos Desvantagem

Não é escalável para mais que 5 dimensões

Page 30: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200230

Detecção de Outliers Baseada em Distâncias: Dk(p)

Algoritmo Loop aninhado Para cada ponto p no conjunto de dados calcula

Dk(p) Para calcular cada Dk(p) varre todos os dados Mantém uma lista de k vizinhos mais próximo

para cada ponto p Os n pontos com maior valor de Dk(p) são os n

outliers Para melhorar a eficiência pode-se considerar

blocos de pontos ao invés de pontos individuais

Page 31: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200231

Detecção de Outliers Baseada em Distâncias: Dk(p)

Algoritmo baseado em índice O uso de estruturas de índices espaciais pode

diminuir substancialmente o calculo de distâncias (R*-tree, por exemplo)

É possível podar sub-arvores cujos nós não podem conter outlierA cada passo guarda-se os n outliers

encontradosDnmin menor Dk entre os outlierDk(p)< Dnmin P não pode ser um outlier

Page 32: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200232

Detecção de Outliers Baseada em Distâncias: Dk(p)

Algoritmo Baseado em partições Detecta os n outliers mais fortes

Os outliers são ordenados pela distância Dk(p) Baseia se na distância dos vizinhos mais próximos O conjunto de dados é divididos em partições por

meio de algoritmos de agrupamento Poda partições que não são candidatas a conter

outlierAcelera a identificação pois diminui a quantidade

de pontos

Page 33: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200233

Detecção de Outliers Baseada em Distâncias : Dk(p)

Algoritmo Baseado em partições (passos) Gerar partições

Através de clustering Calcular limites Dk para os pontos em cada partição

P.upper=max(Dk) e P.lower=min(Dk) dos pontos da partição P

Identificar partições candidatas a conter exceções P.upperminDkDist=min{Pi.lower:1 i l} Pi.lower>Pj.lower>..>Pl.lower e o número de pontos seja

pelo menos n Computar exceções com os pontos nas partições candidatas

P.neighbors denota as partições vizinhas de P a uma distância de P.upper

Page 34: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200234

Detecção de Outliers Baseada em Distâncias : Dk(p)

Algoritmo Baseado em partições (passos)

O número total de pontos a ser examinado para calcular outlier é o das partições candidatas+os de suas vizinhas

Page 35: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200235

Detecção de Outliers Baseada em Distâncias : Dk(p)

Algoritmo Baseado em partições

Page 36: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200236

Detecção de Outliers Baseada em Distâncias : Dk(p)

Comparativo de desempenho

Page 37: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200237

Detecção de Outliers Baseada em Distâncias : Dk(p)

Comparativo de desempenho

Page 38: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200238

Roteiro

Motivação Métodos baseados em Agrupamento Métodos baseados em Estatística Métodos Baseados em Desvio Métodos baseados em Distância Conclusões Referências

Page 39: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200239

Conclusões

Mineração de exceçõesÉ de grande interesseÉ custosa computacionalmente,

principalmente para grande quantidade de dimensões

Necessita de métodos robustos

Page 40: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200240

Referências Data Mining: concepts and techniques, de Han, J. &

Kamber, M., 2001, Morgan Kaufmann Discovery-driven Exploration of OLAP Data Cubes, de

Sunita Sarawagi, Rakesh Agrawal, Nimrod Megiddo, IBM Research Division

Efficient Algoritms for Mining Outliers from Data sets. Sridhar Ramaswamy, Rajeev Ratogi e Kyuseok Shim. 2000

Outlier Detection for High Dimensional Data. Charu C. Aggarwal e Philip S. Yu. 2001

Page 41: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200241

Visão de Outliers

Page 42: UFPE-CIN 2002 1 SeminárioSeminário Erivan A. Andrade (eaa@cin.ufpe.br)eaa@cin.ufpe.br Jacques Robin (jr@cin.ufpe.br)jr@cin.ufpe.br Mineração de Exceções.

UFPE-CIN 200242

Comparativo: Força bruta x algorotimo Evolutivo