Slides01 Md
-
Upload
yog-sothoth -
Category
Documents
-
view
212 -
download
0
description
Transcript of Slides01 Md
-
PCC142 / BCC444 - Minerao de Dados
Luiz Henrique de Campos Merschmann
Departamento de Computao
Universidade Federal de Ouro Preto
www.decom.ufop.br/luiz
Roteiro
Introduo
Tarefas e Tcnicas em Minerao de Dados
Aplicaes
Softwares
Introduo
Surgimento da Minerao de Dados
A disseminao do uso de meios eletrnicos na sociedade
moderna tem gerado uma enorme quantidade de dados.
IUso de SGBDs na maioria das organizaes pblicas e
privadas de mdio e grande porte.
IAvanos na aquisio de dados, desde os leitores de cdigos
de barra at sistemas de sensoriamento remoto.
Cenrio
-
SQL e Minerao de Dados
IBancos de dados relacionais so responsveis por armazenar
e recuperar dados de forma eciente.
IEsses bancos de dados permitem a extrao de diversas
informaes usando SQL.
IEnto para que serve a Minerao de Dados?
IUsando SQL: esse processo resolve questes que
necessariamente devem ser denidas.
IMinerao de Dados: a descoberta de novas informaes
automtica, ou seja, sem que seja necessria a formulao
de uma questo.
Minerao de Dados
O que Minerao de Dados?
o processo automtico de descoberta de novas informaes e
conhecimento, teis a uma aplicao, no formato de regras e
padres, escondidas em grandes volumes de dados.
Onde ocorre?
Este processo executado sobre grandes quantidades de dados,
estejam esses armazenados em bancos de dados tradicionais, em
data warehouse ou em outra forma de repositrio.
Minerao de Dados Processo de Descoberta de Conhecimento em Bases de Dados
Fonte: From data mining to knowledge discovery: An overview, U.M.Fayyad et. al., 1996.
Dados
DadosSelecionados
1Dados
Pr-processados
2
DadosTransformados
3Regras ePadres
4
5
Conhecimento
Seleo: dados que sero relevantes para anlise so
selecionados. Limpeza: remoo de rudos e dados
inconsistentes. Transformao: dados so transformados para
carem adequados para etapa de minerao. Minerao:
processo de extrao de novas informaes. Interpretao e
Avaliao: interpretao e identicao dos padres
interessantes.
-
Tarefas e Tcnicas em Minerao de Dados
O processo de minerao de dados envolve o uso de diversas
tarefas e tcnicas.
ITarefas: so classes de problemas.
ITcnicas: so os algoritmos utilizados na resoluo dos
problemas propostos nas tarefas.
Principais Tarefas de Minerao de Dados
Minerao de Dados
Tarefas Preditivas
Classificao
Regresso
Tarefas Descritivas
Associao
Agrupamento (Segmentao)
Sumarizao
Padres de Seqncia
Tarefas em Minerao de Dados
ITarefas Preditivas: do conhecimento adquirido a partir de
um conjunto de dados, fazemos predies para novas
amostras.
Exemplo: Se acontecer uma determinada composio de
medidas climticas, ento existe 70% de chover.
ITarefas Descritivas: buscam identicar padres de
comportamento comuns nos dados.
Exemplo: Fralda Cerveja.
Minerao de Dados Direta
DadosMinerao do Modelo
Modelo
Entrada
Informao
-
Minerao de Dados Direta
IAtravs de uma tcnica de minerao, extrai-se ou treina-se
um modelo que ser posteriormente utilizado.
IPrincipais tarefas: classicao e regresso.
Who will go bankrupt?
IMinerao caracterizada pela existncias de um campo
especco (atributo meta) cujo valor deve ser estimado a
partir dos valores dos demais atributos.
Minerao de Dados Indireta
Dados Minerao da Informao /Utilizao do Modelo
Informao
Interpretao
Informao Interpretada
Minerao de Dados Indireta
IAtravs de uma tcnica de minerao, extraem-se padres
signicativos que sero posteriormente avaliados.
IPrincipais tarefas: extrao de regras de associao,
agrupamento.
Tell me something interesting?
IO resultado da minerao complementa o conhecimento do
especialista e dever ser examinado e avaliado por este.
Minerao de Associaes
IIdenticao de itens de um mesmo domnio de aplicao
que ocorrem juntos com determinada freqncia na base de
dados.
IExemplo: Market Basket Analysis identicao deprodutos que so comprados juntos em um nmero
signicativo de transaes de compras.
-
Regras de Associao Booleanas
IUma regra de associao representa um padro de
relacionamento entre itens de dados do domnio da
aplicao que ocorre com uma determinada freqncia na
base de dados (transacional).
Id-Transao (TID) Itens Comprados
1 leite, po, refrigerante
2 cerveja, carne
3 cerveja, fralda, leite, refrigerante
4 cerveja, fralda, leite, po
5 fralda, leite, refrigerante
IExemplos de regras: fralda cerveja, fralda leite
Regras de Associao Quantitativas
ISo utilizadas quando se deseja minerar padres em bases
de dados relacionais (formadas por atributos quantitativos
e atributos categricos).
Id Sexo Profisso Salrio Idade ...
Atributos QuantitativosAtributos Categricos
IExemplo: (sexo=M) (20 < idade < 30) (prosso =advogado) (compra=SIM)Esta regra indica, com certo grau de certeza, que
advogados, entre 20 e 30 anos, do sexo masculino so
consumidores de laptops.
Padres Sequenciais
IPadres de sequncias representam sequncias de conjuntos
de itens que ocorrem nas transaes de diferentes
consumidores, com determinada frequncia (na ordem
especicada).
Consumidor Data/Hora Produtos
Joo 01.08.2001/17:01 leite, poJoo 03.08.2001/14:25 carne, cervejaJoo 10.08.2001/21:15 queijo, manteiga, sal Marcos 05.08.2001/10:16 leite, ovosMarcos 08.08.2001/18:30 queijo, manteiga
IExemplo: (leite) (queijo, manteiga)
Agrupamento (Segmentao)
IAgrupamento (segmentao) o processo de identicao
de um conjunto nito de categorias (ou grupos - clusters),
no previamente denidos, que contm objetos similares.
IExemplo: Deseja-se separar os clientes em grupos de forma
que aqueles que apresentam o mesmo comportamento de
consumo quem no mesmo grupo.
Cada tupla deste
exemplo indica a
quantidade total de
produtos consumidos e
o preo mdio destes
produtos relativos a
cada consumidor.
Consumidor Qtd.Prods. Preo Mdio Prods.
1 2 1.700
2 10 1.800
3 2 100
4 3 2.000
5 12 2.100
6 3 200
7 4 2.300
8 11 2.040
9 3 150
-
Agrupamento (Segmentao)
Cons. Qtd. $ Md. Prods.
1 2 1.700
2 10 1.800
3 2 100
4 3 2.000
5 12 2.100
6 3 200
7 4 2.300
8 11 2.040
9 3 150
Grupo Cons. Qtd. $ Md. Prods.
1 2 1.700
1 4 3 2.000
7 4 2.300
2 10 1.800
2 5 12 2.100
8 11 2.040
3 2 100
3 6 3 200
9 3 150
Cada grupo identicado caracterizado por
consumidores semelhantes em relao
quantidade de produtos e ao preo mdio dos
mesmos.
Classicao
IIdenticao da classe a qual um elemento pertence a partir
de suas caractersticas. O conjunto de possveis classes
discreto e predenido.
IExemplo: a partir das caractersticas de um indivduo,
determinar a que classe social ele pertence.
Conjunto de classes = {A, B, C, D, E}.
Classicao
ID Salrio Idade Tipo Emprego Classe1 3.000 30 Autnomo B2 4.000 35 Indstria B3 7.000 50 Pesquisa C4 6.000 45 Autnomo C5 7.000 30 Pesquisa B6 6.000 35 Indstria B7 6.000 35 Autnomo A8 7.000 30 Autnomo A9 4.000 45 Indstria B
A partir de uma base de
treinamento, extrai-se o modelo de
classicao (p.ex., rvore de
deciso).
rvore de Deciso
Salrio
Idade
T.Empr.
B
A
C
B
5.000 > 5.000
40 > 40
Ind.,Pesq. Autnomo
Regresso
IEstimativa do valor de um atributo de uma instncia a
partir de suas caractersticas. O domnio deste atributo
deve ser numrico e contnuo.
IExemplo: a partir das caractersticas de um imvel,
determinar seu valor de venda ou aluguel.
Y = + X.
-
Aplicaes
Analisar tendncias e encontrar padres a partir de dados
histricos com o objetivo de prever aes futuras e apoiar
decises pode ser um procedimento til em diversas reas, tais
como:
IMarketing.
IFinanas.
ISade.
IEducao.
ISegurana.
Softwares
IWeka: software de domnio pblico, desenvolvido (Java)
pela Universidade de Waikato, contm uma srie de
algoritmos de Data Mining (DM).
IIntelligent Miner: foi desenvolvido pela IBM. uma
ferramenta de DM diretamente interligada com o banco de
dados DB2 da IBM.
IOracle Data Miner: desenvolvido pela Oracle,
permitindo interligao direta com o banco de dados Oracle
11g Enterprise Edition.
IEnterprise Miner: tradicionalmente utilizado na rea de
negcios, marketing e inteligncia competitiva.
IStatistica Data Miner: acrescenta as facilidades de
minerao de dados ao tradicional pacote utilizado em
aplicaes de estatstica.
Perguntas?
FIM
IntroduoTarefas e Tcnicas em Minerao de DadosAplicaesSoftwares