INE5644 – Data Mining Prof. Luis Otavio Alvares [email protected]

14
INE5644 – Data Mining Prof. Luis Otavio Alvares [email protected]

description

INE5644 – Data Mining Prof. Luis Otavio Alvares [email protected]. Objetivo :. Apresentar e aplicar as principais técnicas de mineração de dados e o processo de descoberta de conhecimento com vistas à identificação de padrões importantes e não óbvios em grandes bancos de dados. - PowerPoint PPT Presentation

Transcript of INE5644 – Data Mining Prof. Luis Otavio Alvares [email protected]

Page 1: INE5644 – Data Mining Prof. Luis Otavio Alvares alvares@inf.ufsc.br

INE5644 – Data Mining

Prof. Luis Otavio [email protected]

Page 2: INE5644 – Data Mining Prof. Luis Otavio Alvares alvares@inf.ufsc.br

Objetivo :

Apresentar e aplicar as principais técnicas de mineração de dados e o processo de descoberta de conhecimento com vistas à identificação de padrões importantes e não óbvios em grandes bancos de dados.

Objetivos Específicos:Assimilar os principais conceitos acerca de Mineração de Dados (MD); Compreender os passos do processo de descoberta de conhecimento em bases de dados (KDD);Realizar a análise exploratória dos dados;Compreender as principais tarefas da mineração de dados e relacionar as respectivas técnicas;Conhecer e saber aplicar as principais técnicas de mineração de dados;Utilizar ferramenta para uso de algoritmos de mineração de dados.

Page 3: INE5644 – Data Mining Prof. Luis Otavio Alvares alvares@inf.ufsc.br

Programa da disciplina

1. Introdução e Conceitos

2. Processo de Descoberta de Conhecimento

3. Análise Exploratória de Dados

4. Classificação

5. Agrupamento

6. Associação

7. Tópicos Avançados

8. Projeto

Page 4: INE5644 – Data Mining Prof. Luis Otavio Alvares alvares@inf.ufsc.br

Avaliação

Será realizada através de duas provas escritas, apresentação de seminário e um trabalho prático.

A Média Final será calculada pela fórmula: Média Final = (P1*2 + P2*2 + SE*1 + TP*1) / 6 Onde: P1 = Prova 1 (individual) P2 = Prova 2 (individual) SE = Apresentação de seminário (em grupo) TP = Trabalho Prático (em grupo)  •Alunos com Média Final >= 6.0 e frequência suficiente estarão aprovados.•Alunos com frequência insuficiente estarão reprovados.•Conforme o parágrafo 2º do artigo 70 da Resolução 17/CUn/97, o aluno com frequência suficiente e Media Final no período (MF) entre 3,0 e 5,5 terá direito a uma nova avaliação ao final do semestre (REC), sendo a nota final (NF) calculada conforme parágrafo 3º do artigo 71 desta resolução, ou seja:

NF = (MF + REC) / 2.

Page 5: INE5644 – Data Mining Prof. Luis Otavio Alvares alvares@inf.ufsc.br

Horário:

Terças e quintas às 20:20hs

Site da disciplina:

www.inf.ufsc.br/~alvares/INE5644/INE5644.htm

Page 6: INE5644 – Data Mining Prof. Luis Otavio Alvares alvares@inf.ufsc.br

prof. Luis Otavio Alvares

Introdução

Grande quantidade de informação armazenada em muitas áreas: comércio, indústria, governo, ciência, etc.

Exemplos:– cada compra em um supermercado fica registrada em uma

tabela de transações(com o código de barra)

– todas as chamadas telefônicas (origem, destino, horário, duração, ...)

– o SUS mantém registro magnético de todos os atendimentos realizados (hospital, data, médico, diagnóstico, procedimentos realizados, ...)

– Imagens de satélite, bioinformática, ...

Page 7: INE5644 – Data Mining Prof. Luis Otavio Alvares alvares@inf.ufsc.br

prof. Luis Otavio Alvares

BDs atuais

BDs atuais são feitos para armazenar e recuperar rápida e eficientemente dados operacionais

BDs atuais são úteis para recuperar dados específicos, mas não são capazes de extrair conhecimento genérico

Exemplo: um sistema bancário recupera rapidamente as últimas movimentações ou o saldo de uma conta, mas teria dificuldade em descrever o perfil do cliente em relação a outros clientes ou determinar se ele seria um bom pagador em caso de fazer um empréstimo

Page 8: INE5644 – Data Mining Prof. Luis Otavio Alvares alvares@inf.ufsc.br

prof. Luis Otavio Alvares

BD x DM

Banco de Dados

Data Mining

– Encontre todos os clientes que compraram leite.Encontre todos os clientes que compraram leite.

– Encontre todos os itens que são normalmente comprados Encontre todos os itens que são normalmente comprados junto com leite. junto com leite.

– Encontre todos os clientes com sobrenome “Silva”.Encontre todos os clientes com sobrenome “Silva”.

– Identifique os clientes que compraram mais de R$1.000,00 no Identifique os clientes que compraram mais de R$1.000,00 no último mês. último mês.

– Encontre todos os clientes com baixo risco, em caso de Encontre todos os clientes com baixo risco, em caso de realizarem um empréstimorealizarem um empréstimo. .

– Identifique clientes com hábitos de compras similares. Identifique clientes com hábitos de compras similares.

Page 9: INE5644 – Data Mining Prof. Luis Otavio Alvares alvares@inf.ufsc.br

prof. Luis Otavio Alvares

Descoberta de conhecimento em bases de dados

Objetivo: extrair conhecimento novo, útil e interessante, implícito em coleções de dados, e representá-lo de forma acessível para o usuário.

Page 10: INE5644 – Data Mining Prof. Luis Otavio Alvares alvares@inf.ufsc.br

prof. Luis Otavio Alvares

Porque extrair conhecimento?

Exemplo de uso de conhecimento

Michael Dell: venda de assinaturas de jornais

Page 11: INE5644 – Data Mining Prof. Luis Otavio Alvares alvares@inf.ufsc.br

prof. Luis Otavio Alvares

Relações da DCBD com outras áreas

O processo de DCBD utiliza conhecimento de várias áreas:– BD

– IA: aprendizagem de máquina, redes neurais, representação de conhecimento, ...

– Estatística

– ...

Page 12: INE5644 – Data Mining Prof. Luis Otavio Alvares alvares@inf.ufsc.br

Em uma empresa de fornecimento de água encanada uma das maiores despesas é com energia elétrica

Objetivo da empresa: reduzir o consumo de energia elétrica

DCBD: Exemplo

Page 13: INE5644 – Data Mining Prof. Luis Otavio Alvares alvares@inf.ufsc.br

prof. Luis Otavio Alvares

DCBD: Exemplo

Dados: – consumo diário de água

– aspectos do tempo (temperatura, umidade do ar, …)

– dia da semana e do mês, feriado, férias, ...

Objetivo da DCBD: prever o consumo de água, de forma a minimizar o bombeamento, e por conseguinte, o consumo de energia elétrica

Page 14: INE5644 – Data Mining Prof. Luis Otavio Alvares alvares@inf.ufsc.br

Bibliografia

TAN,P-N;STEIMBACH, M; KUMAR,V. Introduction to Data Mining. Boston: Addison

Wesley, 2006. 769p.

HAN,J.; KAMBER, M. Data mining: concepts and techniques. Morgan Kaufmann, 2006 –

2. edição.

ADRIAANS, Pieter, ZANTINGE, Dolf. Data Mining. Harlow : Addison-Wesley, 1997.

158p.

FAYYAD, Usama M. et al. Advances in Knowledge Discovery and Data Mining.

American Association for Artificial Intelligence, 1996. 611p.

BERRY, Michael J. A.; LINOFF, Gordon. Data Mining techniques for marketing, sales

and custumer support. New York: John Wiley, 1997. 454p.

PYLE, Dorian. Data preparation for data mining. San Diego: Academic Press, 1999. 540p.

Artigos de congressos e revistas científicas

14