Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão

11
Mineração de Dados - Apresentação 1 Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão Paulo J Azevedo Departamento de Informática ([email protected]) Sistemas de informação cada vez mais sofisticados, envolvendo elevadas quantidades de dados, motivam o desenvolvimento de técnicas de Análise Exploratória de Dados para apoio à Decisão

description

Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão. Paulo J Azevedo Departamento de Informática ( [email protected] ) - PowerPoint PPT Presentation

Transcript of Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão

Page 1: Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão

Mineração de Dados - Apresentação

1

Mineração de Dados

(Mestrado de Informática)UCE – Sistema de Suporte à Decisão

Paulo J Azevedo

Departamento de Informática

([email protected])

Sistemas de informação cada vez mais sofisticados, envolvendo elevadas quantidades de dados, motivam o desenvolvimento de técnicas de Análise Exploratória de

Dados para apoio à Decisão

Page 2: Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão

Mineração de Dados - Apresentação

2

Extracção de “conhecimento” (relações não triviais entre os dados)

em bases de dados

• Uma possível definição (KDD): é a tarefa de desenvolver algoritmos (processos) para extrair estrutura dos dados. Esta estrutura pode ser descrita na sob a forma de padrões estatísticos, modelos ou mesmo relações. Encontrar esta estrutura pode ser visto como um processo de redução que permite uma sumarização dos dados.

• Preparação e recolha dos dados (via Warehousing)

• Data Mining (extracção das relações “escondidas” entre os dados recolhidos)

• Pós-processamento e análise dos resultados

• Visualização

Page 3: Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão

Mineração de Dados - Apresentação

3

Perguntas representativas dos problemas a tratar:• Mostrar as transacções que indiciam fraude ?• Quais os indivíduos que tem tendência a comprar o produto X ?• Quais os acessos ao servidor Y que tinham o intuito de “ataque” ?• A que clientes (ou tipo de clientes) deveremos enviar o catálogo de

Natal ?

• Quais os grupos que melhor caracterizam os nosso clientes ?• Como organizar (e apresentar ao utilizador) o resultado de uma

pesquisa muito genérica no Google ?

• Considerando o historial de concessão de crédito da nossa instituição deverá ser considerada a proposta Z ?

• Sabendo o conjunto de páginas visitados, que tipo de produto consultará o utilizador no resto da sua sessão ?

• Que padrões de aminoácidos, de elevado “interesse” biológico, se pode encontrar numa dada família de proteínas ?

• Como se comporta um dado conjunto de aminoácidos ao longo do tempo (i.e. ao longo de um determinado processo sofrido pela proteína)?

Page 4: Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão

Mineração de Dados - Apresentação

4

Case Study (1)• Web sites Adaptativos

– Amazon: site sugere novos interesses com base nas compras efectuadas.

– Challange Netflix: http://www.netflixprize.com

• Email Spam filtering,

• Códigos Postais,– Handwriting recognition.

• Crédito à Habitação– Apoio à decisão na atribuição de crédito baseando no historial

da instituição.

Page 5: Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão

Mineração de Dados - Apresentação

5

Case Study (2)

• DARPA challenge http://www.darpa.mil/grandchallenge/index.asp

– Conduzir um veiculo autónomo no deserto durante cerca de 200 km.

• Detecção de fraude nas chamadas de telefones móveis

• Detecção de “churning”http://www.kdnuggets.com/news/2009/n05/4i.html (propensão para os clientes de uma empresa de comunicações/cartões de crédito/etc mudar de fornecedor)

• MicroArrays http://www.en.wikipedia.org/wiki/DNA_microarray

– Análise de expressão de DNA (matriz de genes x amostras “situações”)

Page 6: Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão

Mineração de Dados - Apresentação

6

A Estrutura extraída dos dados pode ter a forma de:

• Padrões sequenciais,• Motifs

• Modelos de Previsão (árvores de decisão, redes neuronais, regras de decisão, etc),

• Agrupamentos (clustering)/ Segmentação,

• Regras de Associação.

• Dependências entre dados (dependências funcionais, multivalor, etc)

Page 7: Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão

Mineração de Dados - Apresentação

7

O processo KDD

Selecção

TransformaçãoData Mining

Interpretação

Visualização

Pré-processamento

DATA(reavaliação)

Page 8: Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão

Mineração de Dados - Apresentação

8

Algumas ferramentas usadas durante o curso:

• C4.5

• R

• Cubist

• Caren

• Weka

• Microsoft SQL Server

• Outras…

Page 9: Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão

Mineração de Dados - Apresentação

9

Principais temas a estudar…

• Modelos de Previsão: árvores de decisão, classificação, previsão numérica, simplificação de modelos, avaliação, composição de modelos, etc.

• Regras de Associação: algoritmos, medidas de interesse, pruning, tratamento de numéricos, aplicações, etc.

• Clustering: algoritmos, medidas de similaridade, tipos de clustering, etc.

• Revisão de significância estatística

Page 10: Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão

Mineração de Dados - Apresentação

10

Avaliação

• Proposta:

– Teste Teórico

– Projectos Prático :• Exercícios semanais• Projecto final com apresentação em grupo.

– Nota = 0.5 x projecto + 0.5 x teste ?????

Page 11: Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão

Biblio

• Data Mining (Pratical Machine Learning tools and Techniques),

Ian Witten & Eibe Frank,

Morgan Kaufmann Publishers. (WEKA book)

• Data Mining, Concepts and Techniques, Jiawei Han & Micheline Kamber,

Morgan Kaufmann Publishers.

• Apontamentos das aulas

Mineração de Dados - Apresentação

11