Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão
description
Transcript of Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão
Mineração de Dados - Apresentação
1
Mineração de Dados
(Mestrado de Informática)UCE – Sistema de Suporte à Decisão
Paulo J Azevedo
Departamento de Informática
Sistemas de informação cada vez mais sofisticados, envolvendo elevadas quantidades de dados, motivam o desenvolvimento de técnicas de Análise Exploratória de
Dados para apoio à Decisão
Mineração de Dados - Apresentação
2
Extracção de “conhecimento” (relações não triviais entre os dados)
em bases de dados
• Uma possível definição (KDD): é a tarefa de desenvolver algoritmos (processos) para extrair estrutura dos dados. Esta estrutura pode ser descrita na sob a forma de padrões estatísticos, modelos ou mesmo relações. Encontrar esta estrutura pode ser visto como um processo de redução que permite uma sumarização dos dados.
• Preparação e recolha dos dados (via Warehousing)
• Data Mining (extracção das relações “escondidas” entre os dados recolhidos)
• Pós-processamento e análise dos resultados
• Visualização
Mineração de Dados - Apresentação
3
Perguntas representativas dos problemas a tratar:• Mostrar as transacções que indiciam fraude ?• Quais os indivíduos que tem tendência a comprar o produto X ?• Quais os acessos ao servidor Y que tinham o intuito de “ataque” ?• A que clientes (ou tipo de clientes) deveremos enviar o catálogo de
Natal ?
• Quais os grupos que melhor caracterizam os nosso clientes ?• Como organizar (e apresentar ao utilizador) o resultado de uma
pesquisa muito genérica no Google ?
• Considerando o historial de concessão de crédito da nossa instituição deverá ser considerada a proposta Z ?
• Sabendo o conjunto de páginas visitados, que tipo de produto consultará o utilizador no resto da sua sessão ?
• Que padrões de aminoácidos, de elevado “interesse” biológico, se pode encontrar numa dada família de proteínas ?
• Como se comporta um dado conjunto de aminoácidos ao longo do tempo (i.e. ao longo de um determinado processo sofrido pela proteína)?
Mineração de Dados - Apresentação
4
Case Study (1)• Web sites Adaptativos
– Amazon: site sugere novos interesses com base nas compras efectuadas.
– Challange Netflix: http://www.netflixprize.com
• Email Spam filtering,
• Códigos Postais,– Handwriting recognition.
• Crédito à Habitação– Apoio à decisão na atribuição de crédito baseando no historial
da instituição.
Mineração de Dados - Apresentação
5
Case Study (2)
• DARPA challenge http://www.darpa.mil/grandchallenge/index.asp
– Conduzir um veiculo autónomo no deserto durante cerca de 200 km.
• Detecção de fraude nas chamadas de telefones móveis
• Detecção de “churning”http://www.kdnuggets.com/news/2009/n05/4i.html (propensão para os clientes de uma empresa de comunicações/cartões de crédito/etc mudar de fornecedor)
• MicroArrays http://www.en.wikipedia.org/wiki/DNA_microarray
– Análise de expressão de DNA (matriz de genes x amostras “situações”)
Mineração de Dados - Apresentação
6
A Estrutura extraída dos dados pode ter a forma de:
• Padrões sequenciais,• Motifs
• Modelos de Previsão (árvores de decisão, redes neuronais, regras de decisão, etc),
• Agrupamentos (clustering)/ Segmentação,
• Regras de Associação.
• Dependências entre dados (dependências funcionais, multivalor, etc)
Mineração de Dados - Apresentação
7
O processo KDD
Selecção
TransformaçãoData Mining
Interpretação
Visualização
Pré-processamento
DATA(reavaliação)
Mineração de Dados - Apresentação
8
Algumas ferramentas usadas durante o curso:
• C4.5
• R
• Cubist
• Caren
• Weka
• Microsoft SQL Server
• Outras…
Mineração de Dados - Apresentação
9
Principais temas a estudar…
• Modelos de Previsão: árvores de decisão, classificação, previsão numérica, simplificação de modelos, avaliação, composição de modelos, etc.
• Regras de Associação: algoritmos, medidas de interesse, pruning, tratamento de numéricos, aplicações, etc.
• Clustering: algoritmos, medidas de similaridade, tipos de clustering, etc.
• Revisão de significância estatística
Mineração de Dados - Apresentação
10
Avaliação
• Proposta:
– Teste Teórico
– Projectos Prático :• Exercícios semanais• Projecto final com apresentação em grupo.
– Nota = 0.5 x projecto + 0.5 x teste ?????
Biblio
• Data Mining (Pratical Machine Learning tools and Techniques),
Ian Witten & Eibe Frank,
Morgan Kaufmann Publishers. (WEKA book)
• Data Mining, Concepts and Techniques, Jiawei Han & Micheline Kamber,
Morgan Kaufmann Publishers.
• Apontamentos das aulas
Mineração de Dados - Apresentação
11