Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG...

47
Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG www.dsc.ufcg.edu.br/~sampaio/cursos/2005.2/ MineracaoDeDados

Transcript of Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG...

Page 1: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCG

Introdução a Mineração de Dados

Marcus Sampaio

DSC / UFCGwww.dsc.ufcg.edu.br/~sampaio/cursos/2005.2/MineracaoDeDados

Page 2: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGSumário

I. IntroduçãoContextoMineração de DadosExemplo de MotivaçãoModelos e PadrõesAlgoritmos de Mineração de DadosO Processo de Mineração de DadosMétricas de Mineração de DadosQuestões em AbertoO Sistema de AvaliaçãoBibliografia

Page 3: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGSumário (2)

II. Modelos de ConhecimentoII.1Regras de Associação

Algoritmo AprioriII.2 Classificação Supervisionada

II.2.1 Árvores de Decisão Algoritmo 1R

Algoritmo ID3 Algoritmo J48

II.2.2 Modelo Estatístico “NaïveBayes”

II.2.3 Regras de Classificação Algoritmo Prism

II.3 Classificação Não Supervisionada“Clustering”

Algoritmo CobWeb

Page 4: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGSumário (3)

III. O Processo de Mineração de DadosIV. Estudo de CasoV. A Pesquisa em Mineração de Dados no

DSC/UFCGVI. Produtos de Mineração de DadosVII. A Biblioteca WEKA

Page 5: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCG

Page 6: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGContexto

• Empresas mantêm grandes bancos de dados (BD), contendo verdadeiras minas de informação

• Informação é a alma do negócio• Muita informação jamais é recuperada

– Os usuários não se lembram de perguntar, ou não sabem como pergundar

• Os modernos SGBDs incorporam algumas técnicas de mineração de dados (MD)– A integração SGBD-MD é ainda incipiente

Page 7: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGMineração de Dados

• Mineração de Dados é uma tecnologia capaz de descobrir informação ‘escondida’ em um BD

• Outras denominações– Análise de Dados Exploratória– Descoberta Dirigida a Dados– Aprendizagem Dedutiva

• Implementa o conceito de consulta aberta ou semi-aberta– Consultas tradicionais são fechadas, ou

completamente definidas

Page 8: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGMineração de Dados (2)

• Consultas Abertas ou Semi-Abertas– Consulta: Pode não ser bem formada, ou

formulada imprecisamente. O minerador pode nem mesmo saber exatamente o que ele quer ver

– Dados: Como se trata de descobrir padrões (repetições), dados normalizados (sem repetições) não facilitam a tarefa de mineração. A solução é gerar arquivos intermediários não normalizados do BD operacional normalizado

– Saída: Provavelmente não é um subconjunto do BD. Em vez disso, é o resultado de alguma análise sobre o conteúdo do BD

Page 9: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGExemplo de Motivação

• Um robot que prescreve lentes de contato– Oftalmologista: quais as condições gerais – padrões – pelas

quais eu sempre tenho receitado lentes de contato duras? ou gelatinosas? ou não tenho recomendo o uso de lentes?

Page 10: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCG

idade acuidade visual astigmatismo taxa de produção de lágrima

tipo de lente

jovem míope não reduzida nenhum

jovem míope não normal gelatinosa

jovem míope sim reduzida nenhum

jovem míope sim normal dura

jovem hipermétrope não reduzida nenhum

jovem hipermétrope não normal gelatinosa

Exemplo de Motivação (2)

Page 11: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCG

jovem hipermétrope sim reduzida nenhum

jovem hipermétrope sim normal dura

maduro míope não reduzida nenhum

maduro míope não normal gelatinosa

maduro míope sim reduzida nenhum

maduro míope sim normal dura

maduro hipermétrope não reduzida nenhum

Exemplo de Motivação (3)

Page 12: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCG

maduro hipermétrope não normal gelatinosa

maduro hipermétrope sim reduzida nenhum

maduro hipermétrope sim normal nenhum

idoso míope não reduzida nenhum

idoso míope não normal nenhum

idoso míope sim reduzida nenhum

idoso míope sim normal dura

Exemplo de Motivação (4)

Page 13: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCG

idoso hipermétrope não reduzida nenhum

idoso hipermétrope não normal gelatinosa

idoso hipermétrope sim reduzida nenhum

idoso hipermétrope sim normal nenhum

Exemplo de Motivação (5)

Page 14: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCG

• se taxa_de_produção_de_lágrima = ‘reduzida’ então tipo_de_lente = ‘nenhum’– Padrão expressado em forma de regra se ... então– Regra se ... então é um modelo de conhecimento

• Existem muitos modelos de conhecimento

• A regra se verifica em todos os casos em que a taxa de produção de lágrima é reduzida?– Via de regra, não há certeza, apenas probabilidade

• Quantas e quais são as outras regras para não receitar lente de contato (somente da amostra, podemos extrair mais três regras – verifique)

Exemplo de Motivação (6)

Page 15: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCG

• Quão confiável é uma regra?• se idade = ‘maduro’ e acuidade_visual =

‘hipermétrope’ e astigmatismo = ‘sim’ e taxa_de_produção_de_lágrima = ‘normal’ então tipo_de_lente = ‘nenhum’– Ela se verifica em somente um caso da amostra

• Qual a freqüência mínima aceitável?

Exemplo de Motivação (7)

Page 16: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCG

• Modelos são induzidos (ou inferidos) por algoritmos de mineração– Existem muitos algoritmos de mineração

• Não existe o melhor algoritmo– Que fazer?

– Diversos algoritmos poderiam implementar o nosso robô

– Experimentemos alguns deles• Biblioteca WEKA

Exemplo de Motivação (8)

Page 17: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGModelos e Padrões

• Outra definição de Mineração de Dados– Tecnologia que visa extrair automaticamente conhecimento

útil, confiável e não trivial ‘minério’ de um banco de dados ‘mina’

• O conhecimento deve ser apresentado segundo um modelo formal – Modelo de regras de classificação: se <condição> então

<classificação>– Instância do modelo: se taxa_de_produção_de_lágrima =

‘reduzida’ então tipo_de_lente = ‘nenhum’• Não faremos mais distinção entre modelo e instância

• Um modelo é confiável na medida em que ela possa ser considerada um padrão – Padrão freqüência significativa no banco de dados

Page 18: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGModelos ... (2)

• Tipos de modelo– Preditivo

• Faz predição acerca de valores de dados usando resultados conhecidos de outros dados

• Em geral, a modelagem é baseada em dados históricos, para fazer predição (ou previsão) sobre novos dados

– Descritivo• Identifica padrões ou relacionamentos em dados,

históricos ou não

Page 19: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGModelos ... (3)

Modelo

Preditivo Descritivo

Classificação

Regressão

SérieTemporal

Clustering Síntese

Regras de AssociaçãoDescoberta de

Seqüências

Page 20: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCG

Algoritmos de Mineração de Dados

• Os algoritmos diferem segundo os modelos de conhecimento que eles induzem (ou inferem)– Classificação– Regressão– Série Temporal– “Clustering”– Síntese– Regras de Associação– Descoberta de Seqüências

Page 21: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGAlgoritmos ... (2)

• Algoritmos de Classificação– Mapeia dados em classes, ou grupos pré-definidos

• Classes são valores de atributos, chamados de atributos de classificação

– Classificação supervisionada– Exemplo 1 (Concessão de crédito bancário)

- Suponha que, com base em informações históricas sobre clientes, cada cliente é colocado em uma de quatro classes: (c1) OK, (c2) pedir mais informações, (c3) ñOK e (c4) chamar a polícia.

Um algoritmo de classificação trabalha em duas fases: Fase 1: induzir um modelo para as classes Fase 2: Aplicar o modelo ao novo cliente

Page 22: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGAlgoritmos ... (3)

– Exemplo 2 (Reconhecimento de padrões)- Em um aeroporto, características dos passageiros –

distância entre os olhos, tamanho e formato da boca, formato da cabeça, etc. -- são examinadas. Essas características são comparadas com entradas em um banco de dados, para verificar se casam com padrões associados com diferentes classes de criminalidade

Page 23: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGAlgoritmos ... (4)

• Algoritmos de Regressão– Um problema estatístico clássico é experimentar

determinar o relacionamento entre duas variáveis aleatórias,  X e Y, por meio de uma linha reta, aproximada.

O modelo de regressão linear postula que Y= a+bX+e onde e é um resíduo e os coeficientes a and b are

determinados de modo que o resíduo seja o menor possível

Page 24: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGAlgoritmos ... (5)

Aplicação

Rendimento

x

x

x

x

xx

x

x

xx x

x

Page 25: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGAlgoritmos ... (6)

• Algoritmos de Série Temporal– Uma série temporal é a variação, sobre o tempo,

do valor de um certo atributo• A freqüência das medições pode ser diária, semanal,

horária, etc.

– Pelo exame de um conjunto de séries temporais, algoritmos podem determinar

• Séries similares• Predição (como para regressão)• Propriedades de séries

Page 26: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGAlgoritmos ... (7)

Tempo

Nível deEstoque

Produto A

Produto B

Produto C

• Produto C é menos volátil do que produtos A e B• Mesma política de estoque para A e B• Com boa certeza, pode-se fazer predição para C

Page 27: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGAlgoritmos ... (8)

• Algoritmos de “Clustering”– “Clustering” é similar a classificação, exceto que os grupos

(“clusters”) não são pré-definidos – classificação não-supervisionada

• Segmentação dos dados em grupos, não necessariamente disjuntos

– Dados similares são agrupados em um mesmo grupo

– Como os grupos não são pré-definidos, um especialista do domínio da aplicação deve interpretar o significado dos grupos induzidos

• Classificação supervisionada (cada dado é classificado com o número de seu grupo) pode ajudar a identificar os grupos

– Indução de um modelo de classificação em que as classes são os grupos

Page 28: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGAlgoritmos ... (9)

• Exemplo (Mala Direta)– Uma cadeia nacional de lojas deseja criar

catálogos específicos, baseados em atributos tais como renda, localização, características físicas, etc. Para determinar o público-alvo dos catálogos, bem como identificar novos e desconhecidos grupos visando à criação de outros catálogos específicos, ou ainda catálogos mais específicos do que os inicialmente pensados, um algoritmo de “clustering” agrupa os clientes (potenciais) da cadeia de lojas, segundo certos atributos dos clientes. Desta forma, um eficiente sistema de mala direta pode ser construído

Page 29: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGAlgoritmos ... (10)

• Algoritmos de Síntese– Síntese mapeia dados em subconjuntos, segundo

critérios previamente escolhidos– Também chamada de Caracterização ou

Generalização– De forma sucinta, caracteriza o conteúdo de um

banco de dados

Page 30: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGAlgoritmos ... (11)

• Exemplo (Ranking de Universidades)– Um dos muitos critérios usados para comparar

universidades por um instituto de pesquisa americano é o chamado escore ACT. Trata-se de uma síntese usada para estimar o tipo e o nível intelectual do corpo estudantil

Page 31: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGAlgoritmos ... (12)

• Algoritmos de Regras de Classificação– Uma regra de associação é um modelo que

identifica tipos específicos de associação entre dados

– Formalmente, é uma extensão de regra de classificação, em que vários pares atributo-valor podem aparecer no conseqüente (isto é, o que vem depois do então)

Page 32: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGAlgoritmos ... (13)

• Exemplo (Gerência de Vendas)– O dono de um mercadinho está decidindo se

coloca um produto X em promoção. A fim de determinar o impacto dessa decisão, o proprietário uma um algoritmo que infere regras de associação que mostram que outros produtos são freqüentemente comprados junto com o produto X. Baseado nesses fatos, ele toma algumas decisões:

• Aproximar, nas prateleiras, os produtos associados• Não colocar em promoção, ao mesmo tempo, mais de

um produto associado

Page 33: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGAlgoritmos ... (14)

• Algoritmos de Descoberta de Seqüências– Descobrem padrões seqüenciais – baseados no

tempo -- em dados– Os padrões são similares a associações, porém as

associações são temporais– Exemplo 1

• Pessoas que compram CD-players, também compram CDs no espaço de uma semana

– Note que, para que este conhecimento seja válido, é preciso que seja um padrão (número de repetições acima de um valor mínimo aceitável)

• Isto vale para qualquer modelo

Page 34: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGAlgoritmos ... (15)

• Exemplo 2– O webmaster de uma companhia X

periodicamente usa um algoritmo que analisa os dados do log da Web, para saber como os usuários do site da empresa navegam nele – que seqüência de páginas são freqüentemente acessadas?) Desta maneira, ele fica sabendo que 70% dos usuários da página A seguem um dos seguintes padrões de comportamento: <A,B,C> ou <A,D,B,C> ou <A,E,B,C>. Ele então determina criar um link diretamente da página A para a página C

Page 35: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGO Processo de Mineração

Page 36: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGO Processo ... (2)

• Seleção– Dados podem ser obtidos de fontes heterogêneas, incluindo

BDs, arquivos, papel, etc.

• Pré-processamento– Trata de corrigir / remover dados incorretos ou ‘sujos’. Por

outro lado, dados faltando (“null values”) devem ser fornecidos ou inferidos

– Envolve também fragmentação de dados, para alguns algoritmos de MD – Preparação de Dados

• Transformação– Os dados de diferentes fontes devem ser convertidos para

um formato comum, por exemplo, o formato .ARFF, da biblioteca WEKA de ferramentas de MD

Page 37: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGO Processo ... (3)

• Mineração ou Garimpagem– Dados selecionados, pré-processados e

transformados são entrada para algoritmos de MD, que inferem / induzem modelos de conhecimento ou padrões – conhecimento -- sobre os dados

• Análise e Assimilação do Conhecimento– O conhecimento precisa ser avaliado pelo minerador

• Separar o conhecimento útil do inútil– O critério de ser útil (ou inútil) está intimamente associado

com a importância (ou não) do conhecimento para o negócio• O conhecimento útil muitas vezes precisa ser simplificado

– Os algoritmos atuais são muito verborrágicos

Page 38: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCG

Métricas de Mineração de Dados• Note que, dado um problema de mineração,

há potencialmente uma grande quantidade de processos de MD que podem resolver o problema– No. de técnicas de seleção x no. de técnicas de

pré-processamento [x no. de técnicas de preparação ] x no. de algoritmos de MD

• Qual o melhor processo de MD para o problema?– A resposta depende das métricas de desempenho

escolhidas

Page 39: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGMétricas ... (2)

• Métricas– As tradicionais, como as de espaço e tempo,

baseadas em análise de complexidade– Para algoritmos de classificação, a acurácia do

conhecimento induzido

Page 40: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGQuestões em Aberto

• Integração com SGBDs– Os algoritmos de MD não lêem diretamente de

SGBDs• Dados são extraídos de um BD, via comandos SQL, e

armazenados em um arquivo "flat", desnormalizado• O arquivo "flat"é a entrada para os algoritmos de

mineração– Note que desnormalização (repetição) favorece a

descoberta de padrões

• Termos relacionais (<atributo1> <opcomp> <atributo2>)– Atualmente, os termos dos modelos de MD são da

forma <atributo> <opcomp> valor

Page 41: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGQuestões em Aberto (2)

• Escala– Algoritmos de MD sem escala são de limitada

utilidade• Minas de Dados são Impuras

– Dados do mundo real têm muita ‘sujeira’, e muito valor faltando (“null values”). Algoritmos de MD têm que ser capazes de trabalhar com minas impuras

• Dinâmica dos Dados– Muitos algoritmos de MD trabalham com dados

estáticos. Isto não é um modus operandi realista

Page 42: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGQuestões em Aberto (3)

• Facilidade de Assimilação– Embora alguns algoritmos possam trabalhar bem,

eles podem não ser bem recebidos pelos usuários se eles produzem conhecimento verborrágico

• Conhecimento inútil misturado com conhecimento útil• Padrões complexos• Padrões não sintetizados

Page 43: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGSistema de Avaliação

• Tarefas Laboratoriais (por equipe)– Utilização de algoritmos da biblioteca free WEKA– Interpretação dos resultados dos algoritmos– Solução de um problema

Page 44: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGSistema de Avaliação (2)

• Problema: Sistema de Análise de Risco de Crédito– Uma empresa financeira precisa de um sistema robusto de

apoio à decisão de conceder crédito. Por robustez, devemos entender que os riscos de crédito devem ser minimizados, isto é, abaixo de um certo limiar taxa tolerável de inadimplência

– Felizmente, a empresa dispõe de um rico acervo de informação: o histórico classificado bom pagador, mal pagador de todos os beneficiários de crédito. Entretanto, a empresa não sabe como sintetizar esses dados: em suma, qual são os perfis dos bons pagadores, e os perfis dos maus pagadores?

Page 45: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGSistema de Avaliação (3)

– A tecnologia de mineração de dados está aí para resolver o problema. Com base na descrição de cada cliente (26 atributos), um algoritmo de mineração é capaz de definir o que é um cliente adimplente, e o que é um cliente inadimplente.

• Mas, existem diversos algoritmos de mineração. Qual é o melhor para o caso em questão? Este problema, e diversos outros, terão que ser equacionados no decorrer do projeto

Page 46: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGBibliografia

• Margaret H. Dunham. Data Mining: Introductory and Advanced Topics, Prentice Hall, 2003

• (livro-texto) Ian H. Witten & Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann Publishers, 2000. Segunda edição: junho/2005

• Dorian Pyle. Business Modeling and Data Mining, Morgan Kaufmann Publishers, 2003

• Dorian Pyle. Data Preparation for Data Mining, Morgan Kaufmann Publishers, 1999

Page 47: Marcus Sampaio DSC/UFCG Introdução a Mineração de Dados Marcus Sampaio DSC / UFCG sampaio/cursos/2005.2/MineracaoDeDados.

Marcus SampaioDSC/UFCGBibliografia (2)

• URL do primeiro livro da listawww.engr.smu.edu/~mhd/book

• URL livro-textohttp://www.cs.waikato.ac.nz/~ml/weka/book.html

• Portal de MDwww.kdnuggets.com

• Biblioteca WEKA http://www.cs.waikato.ac.nz/~ml/weka