Post on 02-Dec-2018
1
Introdução ao Data MiningInstituto Nacional de Estatística
20-24 de Abril de 2009
André Falcão (afalcao@di.fc.ul.pt)Graça Gaspar (gg@di.fc.ul.pt)
Módulo 1 - Data Warehousing e Data Mining -
(c) DI/FCUL2
Sumário• Data-mining e sistemas de apoio à decisão
– Integração de sistemas de Informação– Data-warehousing
• especificidades face aos sistemas de bases de dados normais– Interrogações analíticas
• Conceitos de data-mining– Perspectiva histórica– Conceitos– Objectivos– Tarefas– Problemas– Plataformas
2
(c) DI/FCUL3
Data mining FAQ
• O que é data mining?– “A extração não trivial de informação implícita, previamente
desconhecida e potencialmente útil” (Frawley and Piatetsky-Shapiro1992)
– “A ciencia de extrair informação útil de grandes bancos de daos”• O que podemos conseguir com data mining?
– Os métodos de Data mining procuram detectar padrões e extrair modelos dos dados. Qualquer padrão ou modelo é uma simplificaçãoda realidade e assim tem um erro associado. Assim, para a grandemaioria dos casos não há sucesso absoluto
• Será que posso usr data mining para resolver os meus problemas?– Depende! Existem dados suficientes para serem analisados? São os
dados de qualidade?Existe um problema válido para investigar? (não trivial nem impossível)Uma resposta negativa a qualquer destas questões pode impedir o uso destas técnicas, caso contrário o uso de data mining pode ser a solução!
(c) DI/FCUL4
Enquadramento histórico
• Data mining ao longo do tempo...– De 1920-1980 – Estatística– 80s-90s com a vulgarização dos computadores e a
promessa da Inteligência Artificial - Machine learning– 2000s – Com a proliferação de grandes centros de
dados - Data mining– Os mesmos conceitos, terminologia ocasionalmente
diferente!
3
(c) DI/FCUL5
Data warehousing e Data mining• Data Warehousing:
Consolidação de dados de muitas fontes num únicorepositório.– Carregamento, sincronização
periódica de réplicas.– Integração Semântica.
• Modelo analítico:Interrogações complexas, baseadas em operaçõestípicas de folhas de cálculocom vistas multidimensionaissobre os dados.
• Data Mining: Análiseexploratória; “pescar” tendências interessantes e anomalias.
(c) DI/FCUL6
Data Warehouses• Dados integrados, referentes a longos períodos, muitas
vezes aumentados com informação de sumarização. • Frequentemente com vários terabytes.• Tempos de resposta interactivos para interrogações
muito complexas; actualizações ad-hoc muito pouco comuns.
4
(c) DI/FCUL7
DW e OLAP
Data warehouses• possibilitam análise de dados actuais e históricos com o
objectivo de encontrar padrões que suportem a estratégia seguida.
• Análise complexa, interactiva, exploratória de grandes conjuntos de dados obtidos por integração das várias fontes da organização (por vezes externas).
OLAP(On-Line Analytic Processing):– Dados são fundamentalmente estáticos.– Interrogações Longas só de leitura.– Define-se por contraposição a OLTP (On-Line Transaction
Processing)
(c) DI/FCUL8
OLAP vs OLTP
Cada interrogação pode envolver muitos recursos
O maior problema é geralmente o uso concorrente
Actualizações pouco frequentesActualizações frequentes
Interrogações usam enormes quantidades de informação
Interrogações agem sobre pequenas quantidades de dados de cada vez
Exemplos:•Total de vendas para cada departamento por mês•Identificar quais os CDs mais vendidos•Quais as acções com menos de 10formandos?
Exemplos:•Update do saldo•Inscrição numa acção de formação•Acrescentar CD ao carrinho de compras
Transações longas, interrogações complexas
Muitas e pequenas Transações(interrogações e updates)
OLAP – On-Line Analyticalprocessing
OLTP - On line transactionprocessing
5
(c) DI/FCUL9
Esquema de DW• Sistemas típicos OLTP têm esquemas descentralizados
• A marca típica de um DW é o Esquema em Estrela (StarSchema)– As dimensões aparecem à volta das tabelas de factos
centrais
(c) DI/FCUL10
Não misturar OLAP com OLTP (I)
• Diferentes requisitos de desempenho– Processamento de transações (OLTP)
• Tempo de resposta importante • Os dados devem estar sempre actuais e serem consistentes
– Análise de dados (OLAP)• Interrogações consumem muitos recursos (CPU, memória e
largura de banda)• Operam geralmente numa imagem estática dos dados
– Interrogações OLAP podem dificultar e atrasar interrogações OLTP. Exemplo:
• Pedido com a soma das vendas pode fazer um ‘lock’ à tabela de vendas => Novas transações ficam bloqueadas!
6
(c) DI/FCUL11
Não misturar OLAP com OLTP (II)
• Diferentes requisitos na modelação dos dados– Para processamento de transações (OLTP)
• Esquema normalizado para consistência• Modelos de dados complexos; muitas tabelas• Número limitado de interrogações habituais e updates
– Análise de dados (OLAP)• A simplicidade dos dados é fundamental
– Permite a utilizadores não técnicos fazer interrogações à vontade
• Esquemas desnormalizados são comuns– Poucas junções: Melhoria no desempenho das interrogações– Poucas tabelas: O esquema relacional é mais fácil de ser
compreendido
(c) DI/FCUL12
Não misturar OLAP com OLTP (III)• Análise requer dados de muitas fontes
– Um sistema OLTP está orientado para poucos processos
• E.g., actualização de contas num banco– Um sistema OLAP integra informação de muitos
processos:• Combinar vendas, compras e inventário• Analisar volumes de negócio de várias sucursais
– É frequente o aparecimento do histórico em OLAP• Identificação de padrões a longo prazo• Mudanças de padrões com o tempo
– Terminologia e os esquemas variam entre fontes de dados
• Integração de dados de várias fontes é um desafio importante e parte constituinte de qualquer sistema de DW
7
(c) DI/FCUL13
Modelo de dados multidimensional
– Produto (chave: pid), – Localização (locid),– Tempo (timeid).
(c) DI/FCUL14
Modelação dimensional• Os eixos do cubo
correspondem aos atributos dos dados– Discretos ou categóricos– Dimensões
• Células contêm medidas agregadas– E.g., total de vendas, número de
unidades– Factos
• É frequente aparecerem muito mais que 3 dimensões
Abr Mai JunLis
PorCoi
Café
Chá
Cacau
Vendas
8
(c) DI/FCUL15
Interrogações OLAP• Uma operação comum é agregar uma medida
segundo uma ou mais dimensões.– Obter o total das vendas.– Obter totais de vendas para cada cidade e cada
região.– Obter os 5 principais produtos em volume de
vendas.• Pivoting: Agregação selectiva
em múltiplas dimensões.– Pivoting em Localização e Tempo
resulta em: Total
63 81 144
38 107 145
75 35 110
Nte Sul Total
1995
1996
1997
176 223 339
(c) DI/FCUL16
Interrogações OLAP (II)• Roll-up: Agregação em níveis diferentes de
uma dimensão da hierarquia– Dado o total das vendas por cidade, obter por Roll-
up as vendas por região.• Drill-down: a inversa de roll-up.
– Dado o total de vendas por região, drill-down para obter o total de vendas por cidade.
– Por drill-down noutra dimensão, obter o total das vendas por produto para cada estado.
• Slicing and Dicing: operações que designam restrições por igualdade e intervalo numa ou mais dimensões.
9
(c) DI/FCUL17
Exemplo OLAP (I)• Pivotagem de género/rendimento
• Drill-down com a raça
(dados AdultUCI)
(c) DI/FCUL18
Exemplo OLAP (II)• Slice and dice
10
(c) DI/FCUL19
Data Mining• Data mining – descoberta de informação e padrões em
dados (Knowledge Discovery from Data – KDD)– Métodos Analíticos– Métodos Inferênciais (preditivos)
• Processo de Descoberta de Conhecimento– Selecção – obtenção de dados de várias fontes– Pré-processamento e limpeza– Transformação para um formato comum– Data mining
• Ajustamento de Modelos• Interpretação e avaliação
ETLSelection and browsing
Data Mining
OLTP SystemsData warehouse
(c) DI/FCUL20
Data Mining• Termo genérico que se aplica a vários tipos de análise
exploratória.– Regras de Associação, Árvores de decisão, Classificação,
Agrupamento, Redes de Bayes para inferência de causalidade, Visualização.
• Relacionado com aprendizagem e estatística, mas com o ênfase nas metodologias de análise e algoritmos para processamento de grandes conjuntos de dados.
• Problema “clássico”: Market Basket Analysis:– Que factores condicionam o aparecimento de outros,
descobertos por análise de quantidades colossais de dados. E.g. {fraldas} => {cerveja}
11
(c) DI/FCUL21
Objectivos
• Objectivos no uso de data mining– Detecção de dependências
• Saber que atributos dependem de outros
– Modelação de comportamentos ou eventos– Análise de séries temporais e previsão– Classificação– Detecção de outliers (registos atípicos)– Inferência de valores em falta
(c) DI/FCUL22
Tarefas básicas• Interpretação e análise
– OLAP– Estatísticas e métodos gráficos (visualização)
• Classificação – mapeia os dados em grupos ou classes pre-definidas– Classificação supervisionada– Reconhecimento de padrões– Predição
• Regressão – usada para mapear uma determinada instância num valor real
• Clustering – agrupa dados semelhantes em grupos– Método não supervisionado– Segmentação– Partição
12
(c) DI/FCUL23
Técnicas comuns
• Árvores de decisão• Regras de associação• Clustering• Instance based learning• Redes neuronais• Máquinas de vectores de suporte
(c) DI/FCUL24
Plataformas• Plataformas de DW tem módulos de data mining:
E.g.– Microsoft SQL Server– Oracle, – IBM, – SAP-(Business Objects)
• Plataformas estatísticas – A referência que garante o maior nível de controle, confiança e precisão dos resultados. E.g.– SAS– SPSS– S (S-plus) e R (implementação open source do S)
13
(c) DI/FCUL25
Problemas em data mining (I)– Problemas nos dados
• Outliers (Ruído, Más medições)• Dados irrelevantes• Dados alterados• Dados que faltam• Dados não estruturados (multimedia, texto,...)
– Problemas nos modelos• Selecção de modelos é um procedimento complexo• Sobre-ajustamento (overfitting) – há modelos que se
adaptam bem a a uma população mas não são extrapoláveis a outras
• Bases de dados muito grandes (certos algoritmos não escalam bem)
(c) DI/FCUL26
Problemas em data mining (II)– Visualizações não apropriadas
• Gráficos incompletos ou inapropriados• Problemas de escala
– Interpretações abusivas• Correlação NÃO É Causalidade! • Decobertas de padrões inexistentes. E.g. Em 10 000 testes
para adivinhar 5 cartas (3 diferentes), 25 pessoas acertaram em todas. Logo 0.25% da população tem Percepção Extra Sensorial
– Desempenho• Certos algoritmos simples não são execuíveis por haver
muitos dados (muitas linhas e/ou muitas variáveis)• Outros algoritmos de complexidade > O(n2) colapsam
mesmo com pouca informação– A paralelização de processamento não é opção para muitos
algoritmos
14
(c) DI/FCUL27
Preparação de dados• Caracterização dos dados• Análise de consistência- verificar se a vriabilidade
estatística é independente do domínio• Análise do domínio - as variáveis devem ter sentido
dentro do campo de estudo• Enriquecimento dos dados - dados poderão ser
originários de várias fontes• Análise de distribuições - pesar od dados de acordo
com a sua frequência• Transformação dos dados - A informação pode ser
transformada para uma outra representação (e.g., escalamento, normalização, ACP)
• Tratamento de valores em falta - Decidir o que fazercom a informação em falta