Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana...

37
Interfaces para interpretação e Interfaces para interpretação e divulgação do conhecimento divulgação do conhecimento descoberto descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz

Transcript of Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana...

Page 1: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Interfaces para interpretação e Interfaces para interpretação e divulgação do conhecimento divulgação do conhecimento

descoberto descoberto

Cícero Barbosa LimaAna Emilia de Melo Queiroz

Page 2: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

RoteiroRoteiro Tipos de interfaces: tabelas, diagramas, gráficos 2D,

gráficos 3D, hipertexto Abrangência e interatividade da interface do usuário

de um ambiente de descoberta de conhecimento Apresentação de caracterização e comparação de

conceito por indução orientada a atributo Apresentação de caracterização e comparação de

dados e conceitos por distribuição estatístico Apresentação de caracterização e comparação de

conceitos por visualização multidimensional Apresentação de classificação por indução de árvore

de decisão Apresentação dados excepcionais em conjuntos de

dados multidimensionais Demo do DBMiner (mpss)

Page 3: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Proporção por sentido de Proporção por sentido de informação sensorial nos seres informação sensorial nos seres

humanoshumanos

Sentido Porcentagem

Gosto 1%

Tato 1,35%

Olfato 3,5%

Audição 11%

Visão 83%

Page 4: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Tipos de interfaces: tabelas, diagramas, Tipos de interfaces: tabelas, diagramas, gráficos 2D, gráficos 3D, hipertextográficos 2D, gráficos 3D, hipertexto

Birch Beer, with a 42% national increase from September to October;

Page 5: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Abrangência e interatividade da interface Abrangência e interatividade da interface do usuário de um ambiente de do usuário de um ambiente de descoberta de conhecimentodescoberta de conhecimento

Permite análise exploratória visual• Dos dados de entrada• Dos conhecimentos de saída. • Do conhecimento prévio e viés de aprendizagem.• Das representações intermediárias (rastreamento) usadas

pelo algoritmo de mineração. Permite especificar visualmente tarefas de KDD

• Para todos os passos do processo de KDD• Compor tarefas elementares arbitrariamente via GUI

Page 6: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Abrangência e interatividade da interface Abrangência e interatividade da interface do usuário de um ambiente de do usuário de um ambiente de descoberta de conhecimentodescoberta de conhecimento

Linguagens de consulta para mineração de dados fornece primitivas que permitem comunicação com o sistema• Apresenta dificuldade de uso para usuários inexperientes• Pode ser usada para implementação de GUIs para efetiva

mineração de dados Componentes funcionais do GUI de mineração de

dados:• Composição de query data mining• Apresentação de padrões descobertos• Especificação e manipulação de hierarquia• Manipulação de primitivas data mining• Mineração interativa multinivel

Page 7: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Indução Orientada a atributoIndução Orientada a atributo Descição de conceitos: Caracterização e

Comparação– Caracterização: fornece um sumário conciso e suscinto da

coleção de dados: Abordagem indução orientada atributo.

• Não se restringe a dados categóricos ou a medidas particulares.• Como é feito?• Colete o conjunto de dados relevantes ( relação inicial) a partir de uma

consulta a uma base de dados relacional• Execute a generalização pela remoção de atributo ou pela generalização de

atributo.• Aplique a agregação fundindo tuplas generalizadas idênticas e acumule

suas contagens respectivas.• Apresentação interativa com usuários

Page 8: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

ApresentaçãoApresentação Caracterização de classes: Um exemplo Caracterização de classes: Um exemplo

Name Gender Major Birth-Place Birth_date Residence Phone # GPA

JimWoodman

M CS Vancouver,BC,Canada

8-12-76 3511 Main St.,Richmond

687-4598 3.67

ScottLachance

M CS Montreal, Que,Canada

28-7-75 345 1st Ave.,Richmond

253-9106 3.70

Laura Lee…

F…

Physics…

Seattle, WA, USA…

25-8-70…

125 Austin Ave.,Burnaby…

420-5232…

3.83…

Removed Retained Sci,Eng,Bus

Country Age range City Removed Excl,VG,..

Gender Major Birth_region Age_range Residence GPA Count M Science Canada 20-25 Richmond Very-good 16 F Science Foreign 25-30 Burnaby Excellent 22 … … … … … … …

Birth_Region

GenderCanada Foreign Total

M 16 14 30 F 10 22 32

Total 26 36 62

Tabela relacional com atributos generalizados

TabelaRelacional Primitiva

TabelaCruzada

Page 9: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Apresentação de Descrições Apresentação de Descrições GeneralizadasGeneralizadas

Tabela unidimensional

Visualização em tabela bidimensionais

Location Item Sales(in millions dolars) Count(in thousands)

Asia TV 15 300

Europa TV 12 250

North_America TV 28 450

Asia Computer 120 1000

Europa Computer 150 1200

North_America Computer 200 1800

Location\item TV Computer Both_itens

Sales Count Sales Count Sales count

Asia 15 300 120 1000 135 1300

Europe 12 250 150 1200 162 1450

North_america 28 450 200 1800 228 2250

All_regions 55 1000 470 4000 525 5000

Page 10: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Comparação de conceitos por indução Comparação de conceitos por indução orientado a atributosorientado a atributos

Comparação: Comparação de duas ou mais classes. Método: – Partição do conjunto de dados relevantes em classe alvo e

classe(s) de contraste(s)– Generalize ambas as classes nos mesmos níveis superiores de

conceitos– Compare tuplas de mesmo nível superior de descrição– Apresente para cada tupla a sua descrição e duas medidas:

• suporte – distribuição na classe isolada• comparação – distribuição entre as classes

– Destaques as tuplas com características discriminantes fortes Apresentação:Como relações generalizadas, tabelas cruzadas,

gráfico de barras, gráfico de setores, ou regras

Page 11: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Example: Comparação analíticaExample: Comparação analítica Tarefa

• Comparar os alunos de graduação com os da pos graduação usando regras discriminates

• DMQL query

use Big_University_DBmine comparison as “grad_vs_undergrad_students”in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpafor “graduate_students”where status in “graduate”versus “undergraduate_students”where status in “undergraduate”analyze count%from student

Birth_countryAge_rangeGpa Count%Canada 20-25 Good 5.53%Canada 25-30 Good 2.32%Canada Over_30 Very_good5.86%… … … …Other Over_30 Excellent 4.68%

Birth_countryAge_rangeGpa Count%Canada 15-20 Fair 5.53%Canada 15-20 Good 4.53%… … … …Canada 25-30 Good 5.02%… … … …Other Over_30 Excellent 0.68%

Relação Generalizada Para a Classe Alvo: Estudantes de Pós

Relação Generalizada para a Classe de Contraste: Estudantes de Graduação

Page 12: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Apresentação de caracterização Apresentação de caracterização estatística de dados:estatística de dados: tendência centraltendência central

Medidas agregando dados em uma quantidade única caracterizando-os:• ocorrencias• soma (total)• maximo• minimo• média• mediana• mode

Page 13: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Apresentação de caracterização Apresentação de caracterização estatística de dados: estatística de dados: dispersãodispersão

Quartiles, Outliers, Boxplot• Um conjunto de itens vendidos

40

43

47

..

74

75

78

...

115

117

120

275

300

250

...

360

515

540

...

320

270

350

Preço da unidade

Número de itens vendidos

Page 14: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Gráficos de visualização deGráficos de visualização de descrições de classes estatísticas descrições de classes estatísticas

básicasbásicas Outros gráficos para para mostrar dados sumarizados(summaries) e

distribuições. Nestes estão incluídos Histogramas , quantile plots, q-q plots, scatter plots, and loess curves.

Histogramas: Consiste de um conjunto de retângulos que reflete o número ou freqüências de classes em um conjunto de dados.

Page 15: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Quantile plot é um simples e efetivo meio de ter uma primeira visão da univariância da distribuição de dados.

Gráficos de visualização deGráficos de visualização de descrições de classes estatísticas descrições de classes estatísticas

básicas básicas

Page 16: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Quantile-Quantile plot (q-q plot) permite o usuário visualizar a dispersão entre duas distribuições

Gráficos de visualização deGráficos de visualização de descrições de classes estatísticas descrições de classes estatísticas

básicas básicas

Page 17: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Scatter plot é uma dos métodos gráficos mais efetivos para determinar se existe uma relação, padrão ou tendência entre duas variáveis quantitativas.

Gráficos de visualização deGráficos de visualização de descrições de classes estatísticas descrições de classes estatísticas

básicas básicas

Page 18: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Gráficos de visualização deGráficos de visualização de descrições de classes estatísticas descrições de classes estatísticas

básicas básicas

Loess curve é um gráfico exploratório que adiciona uma curva suave ao Scatter plot para melhorar a percepção dos padrões de dependência.

Page 19: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Apresentação de caracterização e Apresentação de caracterização e comparação de conceitos por comparação de conceitos por vizualização multidimensionalvizualização multidimensional

A visualização interativa é uma poderosa ferramenta na seleção de atributos e na detecção de outlier.

Em situações reais de mineração de dados existe uma grande quantidade para visualizar simultaneamente e não existe nenhuma alternativa de algoritmo para automatizar a seleção dos atributos.

2 4 6

Íris setosaÍris versicolorÍris virginica

Representação em uma dimensão

Petal length

Page 20: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Apresentação de caracterização e Apresentação de caracterização e comparação de conceitos por comparação de conceitos por visualização multidimensionalvisualização multidimensional

Íris setosaÍris versicolorÍris virginica

Representação em duas dimensão

Peta

l len

gth

6

4

2

Petal width1 2 3

• Adicionando um novo atributo

Page 21: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Apresentação de árvore de decisãoApresentação de árvore de decisão Visualizando dados de saída (Conhecimento) Um exemplo seria arvore de decisão que é uma representação

gráfica do conhecimento descoberto.

Page 22: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Demo do DBMinerDemo do DBMiner

Page 23: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Visualização multidimensional de grande Visualização multidimensional de grande quantidade de dadosquantidade de dados

Motivação:• Crescente demanda de armazenamento de

grandes quantidades de dados de alta dimensionalidade

• Necessidade de analisar e descobrir informações úteis dos dados armazenados

• Apresentação textual é impraticável para grande quantidades de dados

• “Gap” cada vez maior entre os dados que precisam ser visualizados e os dados que de fato podem ser visualizados

Page 24: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

A técnica:• São definidas regiões dentro do espaço multidimensional,

onde só os itens que pertencem a estas regiões são apresentados

• A pertinência é determinada por uma função distância para cada dimensão

• As diferentes dimensões são mapeadas em cores

• Os pontos são ordenados e dispostos na tela na forma de um espiral retangular

Visualização multidimensional de grande Visualização multidimensional de grande quantidade de dadosquantidade de dados

Page 25: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Visualização multidimensional de grande Visualização multidimensional de grande quantidade de dadosquantidade de dados

A coloração de cada ponto, dependera da distância ao centro da dimensão em foco

A variação das cores é entre crominância e luminância

Page 26: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Alternativa 1: organização dos dados em 2-D• São determinados os atributos para os eixos e a distribuição

de acordo com a direção da função distância• Vantagens: melhor para dados que tem a idéia inerente de

2-D

Visualização multidimensional de grande Visualização multidimensional de grande quantidade de dadosquantidade de dados

Page 27: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Visualização multidimensional de grande Visualização multidimensional de grande quantidade de dadosquantidade de dados

Desvantagem: pode causar má distribuição dos dados apresentados, deixando algumas áreas vazias

Page 28: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Alternativa 2: agrupando as dimensões para cada item de dado• Apresenta todas as dimensões juntas numa mesma área (uma única janela)

Visualização multidimensional de grande Visualização multidimensional de grande quantidade de dadosquantidade de dados

Page 29: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Mineração de OutliersMineração de Outliers Pode ser dividido em

2 subproblemas:1. Definir quais dados

são aberrantes2. Definir método

eficiente para encontrar tais aberrações

3. Aberrante sempre com referência a algum padrão

Métodos de detecção:• Semi-automático:

Visualização• Automático

Estatística Distância Desvio

Observação:• Usuário tem que

checar se os outliers descobertos são realmente outliers.

Page 30: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Apresentação dados excepcionais em Apresentação dados excepcionais em conjuntos de dados multidimensionais conjuntos de dados multidimensionais via GUIvia GUI

Exemplo de visualização de GUI

Page 31: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Last year, the most atypical sales variations from one month to the next occurred for: Birch Beer, with a 42% national increase from September to October; Diet Soda, with a 40% decrease in the Eastern region from July to August.At the level of idiosyncrasy came: Cola’s Colorado sales, falling 40% from July to August and then a further 32% from September to October; again Diet Soda Eastern sales, falling 33% from September to October.Less aberrant but still notably atypical were: again nationwide Birch Beer sales’ -12% from June to July and -10% from November to December; Cola sales 11% fall from July to August in the Central region and 30% dive in Wisconsin from August to September; Diet Soda sales’ 19% increase in the Southern Region from July to August, followed by its two opposite regional variations from August to September, +10% in the East but -17% in the West; national Jolt Cola sales’ +6% from August to SeptemberTo know what makes one of these variations unusual in the context of this year’s sales, click on it.

Apresentação dados excepcionais em Apresentação dados excepcionais em conjuntos de dados multidimensionais conjuntos de dados multidimensionais via via

hipertextohipertexto

Page 32: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Vantagens de texto x gráficosVantagens de texto x gráficos O texto é familiar e mais intuitivo, considerando que o usuário

final tenha pouco conhecimento em matemática. A linguagem natural pode ser mais clara para fazer analise em

muitas dimensões. • Ex. : “Cola promotional sales’ 20% increase from July to August constituted a strong

exception” A língua natural pode comunicar um único fato interessante de

maneira isolada, facilitando e simplificando o entendimento.• Ex.:“Cola sales peaked at 40% in July".

Pode mais livremente misturar quantitativo e qualitativo, que muitas vezes não é transmitido de maneira intuitiva por tabelas e gráficos

Page 33: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Vantagens de hipertexto x textoVantagens de hipertexto x texto

Evita o problema de eliminar algumas informações( dilema da sumarização).

Se os link forem numerosos os leitores com diferentes interesses podem seguir diferentes formas de navegação dentro de um único sumário hipertextual.

Uma outra vantagem é que as figuras podem ser hipertextuais.

Page 34: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Hipertexto seguindo estratégia Hipertexto seguindo estratégia alternativaalternativa

de apresentação de apresentação Last year, there was 13 exceptions in the beverage product line. The most striking was Birch Beer’s 42% national fall from Sep to Oct.The remaining exceptions, clustered around four products, were: Again, Birch Beer’s sales accounting for other two national exceptions,

both national slumps: -12% from Jun to Jul and -10% from Nov to Dec; Cola sales accounting for four exceptions, all slumps: two medium

ones in Colorado, -40% from Jul to Aug and -32% from Aug. to Sep; and two mild ones, -11% in Wisconsin from Jul to Aug and -30% in the Central region from Aug to Sep;

Diet Soda accounting for five exceptions:• one strong, -40% in the East from Jul to Aug,• one medium, -33% in the East from Sep to Oct;• and three mild ones: two rises, +19% in the South from Jul to Aug

and +10% in the East from Aug to Sep, and one fall, -17% in Western region from Aug to Sep;

Finally, Jolt Cola’s sales accounting for one mild exception, a national 6% fall from Aug to Sep.

Page 35: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

MATRIKS intelligent decision support MATRIKS intelligent decision support systemsystem

TransactionalRelationalDatabase

AnalyticalMultidimensionalData Warehouse

OLAP ServerData RemodelingCASE Tool

Data Loader & Preprocessor

Data Mining Suite

HYSSOP

Explorationheurtistics &session base

Data Hypercube Exploration Expert System

Log file

HypertextNatural

LanguageExecutiveSummary KDD

ExpertDecisio

nMaker

InformationExtractor

Page 36: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

HYSSOP hypertext summary generatorHYSSOP hypertext summary generatorData Hypercube Exploration

Expert System

Hypertext

Planner

Selected pool of data mining annotated cube cells

Executive hypertext summary

Hypertextplans

Content matrix

Factorization matrix

Discourse tree

Natural language web page

Discourse planner

Lexicalized thematic tree

Sentence planner

Lexicalizer

Syntactic realizer

Discourse Strategies

Sentence planning rules

Lexicalization rules

Grammar rules

Page 37: Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz.

Referências BibliográficasReferências Bibliográficas Daniel A. Keim, Has-Peter Kriegel: Possibilities and

Limits in Visualizing Large Databases Jacques Robin, Eloi Favero:HYSSOP: Natural Language

Generation Meets Knowledge Discovery in Databases Han & Kamber : Data Mining, Concepts and Techniques Witten & Frank : Data Mining, Pratical Machine Learning

Tools Kurt Thearling, Barry Becker, Dennis DeCoste, Bill

Mawby, Michel Pilote, and Dan Sommerfield:Visualizing Data Mining Models