HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data...

26
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte à Decisão Aprendizado de Máquina Estatística

Transcript of HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data...

Page 1: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC1

MD - junho/2008

Tecnologias de suporte à Mineração de Dados

Gerenciamento de dados Data Warehouse

OLAP

Arquiteturas VisualizaçãoSistemas de Suporte à

Decisão

Aprendizado de Máquina Estatística

Page 2: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC2

MD - junho/2008

Tecnologias de suporte para MD● Aprendizado de Máquina

– utilizado especialmente na extração de padrões. quando são aplicados os algoritmos

● Estatística– Apoia, especialmente, os métodos na etapa de

preparação de dados.

Page 3: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC3

MD - junho/2008

Tecnologias de suporte para MD● Ferramentas de Visualização

– Importante na etapa de pré-avaliação, possibilitando verificar o que foi extraído, e de que forma está organizado.

● Banco de Dados e Data WarehouseAlgumas ferramentas são utilizadas para auxiliar a

manipulação dos dados.

Page 4: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC4

MD - junho/2008

Aprendizado de MáquinaAquisição de conhecimento:

“Transferência e transformação do conhecimento especializado com potencial para a resolução de problemas de alguma fonte

de conhecimento para um programa.”

Page 5: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC5

MD - junho/2008

Aprendizado de Máquina● Classificação de técnicas disponíveis:

– Manuais - processo conduzido por engenheiros do conhecimento

– Semi-automáticas – especialistas utilizam ferramentas que minimizam a participação do engenheiro do conhecimento

– Automáticas – objetivam minimizar a participação humana, extraindo conhecimento de fontes de dados extensas

Page 6: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC6

MD - junho/2008

Aprendizado de Máquina● AM - subárea da IA relacionada à construção de

sistemas capazes de adquirir conhecimento de forma automática (sem a interferência humana)

Page 7: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC7

MD - junho/2008

Aprendizado de Máquina● Paradigmas:

– simbólico - analisam exemplos e contra-exemplos de um conceito e constroem representações simbólicas (expressão lógica, árvore de decisão, regras, redes semânticas)

– estatístico - utilizam modelos estatísticos para encontrar uma boa aproximação do conceito induzido

– baseado em exemplos (instance based) - classificam exemplos nunca vistos por meio de exemplos similares conhecidos. Os exemplos representativos são armazenados. (lazy learning)

– conexionista - relacionado ao treinamento das redes neurais– evolutivo - baseado na teoria da evolução natural

Page 8: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC8

MD - junho/2008

Aprendizado de Máquina● Indução: forma de inferência lógica que permite

obter conclusões genéricas sobre um conjunto particular de exemplos.

● Um conceito é aprendido efetuando-se inferência indutiva sobre os exemplos apresentados.

● Hipóteses geradas podem ou não preservar a verdade.

Page 9: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC9

MD - junho/2008

Hierarquia do aprendizado indutivo

Aprendizado

indutivo

Aprendizado

supervisionado

Aprendizadonão-

supervisionado

classificação

regressão

Page 10: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC10

MD - junho/2008

Sistemas de Aprendizado de Máquina

Modo deAprendizado

Paradigmas deAprendizado

Linguagens deDescrição

Formas deAprendizado

-Supervisionado- NãoSupervisionado

- Simbólico- Estatístico- Instance-Based- Conexionista- Genético

- Instâncias ouExemplos- ConceitosAprendidos ouHipóteses- Teoria deDomínio ouConhecimentode Fundo

- Incremental- NãoIncremental

Page 11: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC11

MD - junho/2008

MD X Aprendizado de Máquina

Data Mining

MuitosExemplos

MuitosAtributos

AprendizadoAprendizadode Máquinade Máquina

PoucosExemplos

PoucosAtributos

Page 12: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC12

MD - junho/2008

Técnicas Estatísticas● As técnicas estatísticas são fundamentais para o

processo de MD

● Amostragem dos dados (seleção e preparação) ● Naive Bayes , AutoClass (extração de padrões)● Médias, taxas de erros, desvios (avaliação)

Page 13: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC13

MD - junho/2008

Técnicas Estatísticas● Essas técnicas, juntamente com técnicas de IA,

especialmente as que manipulam incerteza, provêm mecanismos para:– Evitar overfitting nos dados– Tratar ruídos dos dados– Manipular conjunto de dados incompletos– Incorporar conhecimento de fundo

Page 14: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC14

MD - junho/2008

Ferramentas de visualização● É uma ferramenta exploratória na análise dos

dados● Permite o aumento da capacidade de análise e de

interpretação dos resultados obtidos● Os principais tipos dessas ferramentas são:

– linguagens de programação especializadas– ferramentas Graphic User Interface (GUI)

Page 15: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC15

MD - junho/2008

Data Warehousing● Definição

– Data Warehousing é um processo, não um produto, para montar e gerenciar dados de várias fontes com o propósito de ganhar uma visão detalhada e singular de parte ou do todo de um negócio

– O produto gerado de um projeto de Data Warehousing é o seu Data Warehouse (DW)

Page 16: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC16

MD - junho/2008

● O objetivo principal é ter uma visão mais ampla das informações relacionadas à empresa/organização.

● É responsável pelo agrupamento dos dados históricos da empresa

Page 17: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC17

MD - junho/2008

Voltadas para análise multidimensional de dados de modo superior aos mecanismos oferecidos pelas ferramentas tradicionais

É a análise, síntese e consolidação de grandes

volumes de dados multidimensionais [Codd 93].

Ferramenta geralmente utilizada para a análise de Data Warehouse

OLAP (On Line Analytical Processing)

Page 18: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC18

MD - junho/2008

Consultas OLAP● Auxiliam os usuários a sintetizar as informações

através de visões comparativas e personalizadas, assim como analisar dados históricos.

● É uma tecnologia que possibilita aos usuários acesso:– rápido– consistente– interativo

Page 19: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC19

MD - junho/2008

OLAP

Idade Motivo Duração Valor Risco45 Carro 36 10,000 Baixo20 Negoc. 20 35,000 Alto37 Casa 40 30,000 Baixo29 Carro 24 25,000 Alto66 Mobil. 10 7,000 Alto

Page 20: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC20

MD - junho/2008

OLAP

Idade Motivo Duração Valor Risco45 Carro 36 10,000 Baixo20 Negoc. 20 35,000 Alto37 Casa 40 30,000 Baixo29 Carro 24 25,000 Alto66 Mobil. 10 7,000 Alto

107,00

Page 21: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC21

MD - junho/2008

OLAP

Idade Motivo Duração Valor Risco45 Carro 36 10,000 Baixo20 Negoc. 20 35,000 Alto37 Casa 40 30,000 Baixo29 Carro 24 25,000 Alto66 Mobil. 10 7,000 Alto

39,4

Page 22: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC22

MD - junho/2008

Diferença OLAP e MD

Idade Motivo Duração Valor Risco45 Carro 36 10,000 Baixo20 Negoc. 20 35,000 Alto37 Casa 40 30,000 Baixo29 Carro 24 25,000 Alto66 Mobil. 10 7,000 Alto

Se Idade >= 35 e Duração >=20 então Risco = Baixo

Page 23: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC23

MD - junho/2008

Extração de informação e apoio à Extração do Conhecimento

OLAP Informações

Ferramentas de DM Conhecimento

Page 24: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC24

MD - junho/2008

Extração de informação e apoio à Extração do Conhecimento

Quando se tem perguntas específicas OLAP

Quando não se sabe qual é a pergunta Ferramentas de MD

Page 25: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC25

MD - junho/2008

Conhecimento para os Sistemas de Suporte à Tomada de Decisão

SISTEMAS DE SUPORTE À DECISÃO

MINERAÇÃO DE DADOS

DATA WAREHOUSE

BASES DE DADOSDados para o

Data Warehouse

Dados do Data Warehouse para Mineração

Resultados /Conhecimento

Page 26: HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.

HAC26

MD - junho/2008

OLAP

if ... then

DMDM

BD

Dados

Informação

Conhecimento

DW