Post on 17-Apr-2015
Data Mining
Paulo Abadie Guedes
Eduardo Aranha
Introdução
Aplicação de processos de análise
inteligentes visando manipulação automática
de quantidades imensas de dados
Larga aplicação nos mais variados ramos da
indústria, comércio, medicina, governo,
administração, etc.
Mineração de Dados: Exemplo 1
Fraldas e cervejas homens casados, entre 25 e 30 anos compravam fraldas e/ou cervejas às
sextas-feiras à tarde no caminho do trabalho para casa
Wal-Mart otimizou as gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas
Resultado: o consumo cresceu 30%
Mineração de Dados: Exemplo 2
Bank of America – Selecionou entre seus 36 milhões de
clientesAqueles com menor risco de dar calotes Resultado: em três anos o banco lucrou
30 milhões de dólares com a carteira de empréstimos.
Motivação
Quantidades imensas de dados Necessidade de transformar dados em
informação útil Análise de Mercado Sistemas de Suporte à Decisão Gerência Empresarial Análise de tendências, etc.
Knowledge Discovery
Processo de filtragem de conhecimento útil Necessidade de compreender e utilizar de
forma efetiva os dados disponíveis para a tomada de decisões
Integra várias técnicas e tecnologias, incluindo estatística, visualização de dados, IA, BD / OLAP / data warehouse, processamento de sinais e supercomputação
Data Mining: Definição
Processo de explicitar o conhecimento interessante de uma grande massa de dados– Padrões e relações entre os dados– Alterações e anomalias– Estruturas significantes– Fenômenos periódicos ou desconhecidos– Apresentar de forma sucinta e compreensível o
conhecimento obtido É parte do processo de descoberta de
conhecimento
Análise de Dados X Data Mining
Análise de dados– Orientado a suposições– Formula-se uma hipótese– Esta é validada contra os dados
Data mining– Orientada a descoberta– Padrões são automaticamente extraídos– Usa técnicas de IA para reconhecimento e
análise do que é interessante ou não– Requer muito poder computacional
Knowledge Discovery Process
Data cleaning Data integration Data selection Data transformation Data mining Pattern evaluation Knowledge presentation
Pré - processamento
Data Cleaning– Eliminaçao de “ruído”:
– Dados inválidos
– Dados incompletos
– Dados irrelevantes
Data Integration– Integração de dados de múltiplas fontes
heterogêneas
Pré - processamento
Data Selection
– Dados relevantes à análise são recuperados
Data transformation
– Transformação e consolidação dos dados em um
formato apropriado para a mineração
– Operações de agregação e resumo
– Processamento analítico (OLAP)
Data Mining (ML em BD)
Algoritmos de aprendizagem de máquina (ID3, version space, Redes neurais, redes bayesianas, ...) são aplicados para extrair padrões dos dados pré-processados
Reconhecimento de grupos, propriedades, relações, estruturas, anomalias, etc.
Depende diretamente da tarefa desejada
Avaliação e Apresentação
Avaliação de Padrões– Padrões realmente interessantes são identificados– Representam o conhecimento desejado– Processo baseado em medidas de interesse
Apresentação do conhecimento obtido– Técnicas de visualização e representação– O conhecimento minerado é apresentado ao
usuário de forma compreensível e concisa
Data Mining Tasks
Class Description– Caracterização– Comparação ou discriminação– Propriedades resumidas– Quantidade, totais, médias e análise estatística
Exemplo– Comparar as vendas de uma empresa na Europa e na
Ásia, identificando fatores discriminativos importantes e expondo uma visão global da situação
Data Mining Tasks
Associação– Descoberta de relacionamentos entre um conjunto
de dados
– Expresso por regras atributo-valor de condições que ocorrem freqüentemente juntas
– x(A) y(A) se satisfaz x, tende a satisfazer y
Exemplo– cerveja(x) fraldas(x)
Data Mining Tasks
Classificação– Processa um conjunto de treinamento (classe)– Constrói um modelo para cada classe– Gera a árvore de decisão ou conjunto de regras– Usada para compreender cada classe e
classificação posterior de novos dados– Estatística, BD, redes neurais, aprendizado, etc.
Ex.: Análise de crédito, modelagem de empreendimentos, etc.
Data Mining Tasks
Previsão– Prevê os valores possíveis ou a distribuição
destes a partir de certos atributos do BD– Encontrar os atributos relevantes para o atributo
de interesse– Previsão baseada no conjunto de dados mais
similar ao escolhido– Análise de regressão, de correlação, árvores de
decisão– Algoritmos genéticos e redes neurais– Data mining preditivo
Ex.: Previsão de qualidade
Data Mining Tasks
Agregação (Clustering)– Identifica grupos escondidos nos dados
– Grupo objetos similares
– Expressa por funções de distância
– Relação de similaridade conhecida a priori por especialistas ou usuários
– Alta similaridade no grupo, baixa entre grupos
Data Mining Tasks
Análise de séries temporais– Identifica regularidades e características temporais
interessantes escondidas nos dados– Analisa padrões seqüenciais, periódicos, tendências
e desvios– Busca seqüências similares ou subseqüências
Exemplo– Previsão da tendência de variação das quantidades
em estoque de uma empresa, baseado no histórico do estoque, situação financeira, atuação da concorrência e situação do mercado
Mining Complex Data
Dados espaciais Texto Multimídia Séries temporais Dados complexos Dados heterogêneos Semi-estruturados ou desestruturados
Outras áreas de aplicação
Vendas e Marketing Identificar padrões de comportamento de
consumidores Associar comportamentos à características
demográficas de consumidores Campanhas de marketing direto (mailing
campaigns) Identificar consumidores “leais”
Áreas de aplicações potenciais
Bancos Identificar padrões de fraudes (cartões de
crédito)
Identificar características de correntistas
Mercado Financeiro
Minimizar prejuízos através de crédito a
clientes de “confiança”
Áreas de aplicações potenciais
Médica– Comportamento de pacientes
– Identificar terapias de sucessos para diferentes
tratamentos
– Fraudes em planos de saúdes
– Comportamento de usuários de planos de saúde
– Planos diferenciados por perfil
Empresas de software para Data mining:
SAS – http://www.sas.com
Information Havesting -
– http://www.convex.com
Red Brick
– http://www.redbrick.com
Oracle
– http://www.oracle.com
Sybase
– http://www.sybase.com
Informix
– http://www.informix.com
IBM
– http://www.ibm.com
Conclusão - Diretrizes
Onde o processo de descoberta de conhecimento deve ser aplicado?
– Estudo de novos experimentos– disponibilidade de dados suficientes
com nível aceitável de ruído sem problemas de ordem jurídica
– especialistas disponíveis para: avaliação do grau de interesse das descobertas obtidas seleção de atributos descrição de conhecimento a priori em geral
On-Line Analytical Processing (OLAP) OLAP descreve uma classe de tecnologia
que são designadas para livres acessos e
análises ad hoc.
OLAP tem sido considerado um sinônimo de
visões multidimensionais de dados de
negócio. Estas visões multidimensionais são
suportadas por uma tecnologia
multidimensional de bando de dados.
On-Line Analytical Processing (cont.) Aplicações OLTP (On-Line Transaction
Processing) caracterizadas por vários
usuários criando, atualizando ou acessando
registros individuais.
Aplicações OLAP são usados por analistas e
gerentes que frequentemente desejam uma
visão agregada de alto nível dos dados,
como total de vendas por produto, por região,
etc.
On-Line Analytical Processing (cont.) Aplicações OLAP usualmente atualizadas em
batch, a partir de múltiplas fontes.
Banco de dados relacionais são bons para
retornar um pequeno número de registro
rapidamente.
Regiões de venda por produtos pode levar
horas (segundos em um BD OLAP)
On-Line Analytical Processing (cont.)
On-Line Analytical Processing (cont.)
Referências
KDNuggets Directory– http://www.kdnuggets.com
The Data Mine– http://www.cs.bham.ac.uk/~anp/TheDataMine.html
Microsoft Decision Theory and Adaptive Systems– http://research.microsoft.com/dtas/
DBMiner: demonstração– http://db.cs.sfu.ca/DBMiner/dbmdemo.html
Referências
http://www.pcc.qub.ac.uk/tec/courses/datamining http://www.rio.com.br/~extended http://www.datamining.com http://www.santafe.edu/~kurt http://www.datamation.com http://www-dse.doc.ic.ac.uk/~kd http://www.cs.bham.ac.uk/~anp http://www.dbms.com/ http://www.infolink.com.br/~mpolito/mining/mining.html http://www.lci.ufrj.br/~labbd/semins/grupo1
Referências
Bigus, J. (1995). Data Mining with Neural Networks. McGraw-Hill.
Fayyad, U.; Haussler, D.; Stolorz, P. (1996). "KDD for Science Data Analysis: Issues and Examples”. Proceedings of Second International Conference on Knowledge Discovery and Data Mining (KDD-96), AAAI Press. Disponível no endereço http://research.microsoft.com/~fayyad.
Fayyad, U. M.; Piatesky-Shapiro, G.; Smyth, P. (1995). “From Data Mining to Knowledge Discovery: An Overview”, em Advances in Knowledge Discovery and Data Mining. AAAI Press.
Referências
Imielinski, T; Mannila, H. (1996). “A Database Perspective on Knowledge Discovery”. Communications of the ACM, volume 39, número 11.
Matheus, C.; Piateteky-Shapiro, G.; McNeill, D. (1995). ”Selecting and Reporting What is Interesting”. Em Advances in Knowledge Discovery and Data Mining. AAAI Press.
Referências
Freitas, A. A. (1997). “On objective measures of rule surprisingness”. Em Proceedings of the 2nd European Symposium Principles of Data Mining and Knowledge Discovery. Disponível no endereço http://dainf.cefetpr.br/~alex/thesis.html.
Spirtes, P.; Glymour, C; Scheines, R. (1993). Causation, Prediction and Search. Lecture Notes in Statistics, 83. Springer-Verlarg. Disponível no endereço http://hss.cmu.edu/html/departments/ philosophy/TETRAD.BOOK/book.html