Slides01 Md

7
I I

description

Mineração de Dados - Slides 01

Transcript of Slides01 Md

  • PCC142 / BCC444 - Minerao de Dados

    Luiz Henrique de Campos Merschmann

    Departamento de Computao

    Universidade Federal de Ouro Preto

    [email protected]

    www.decom.ufop.br/luiz

    Roteiro

    Introduo

    Tarefas e Tcnicas em Minerao de Dados

    Aplicaes

    Softwares

    Introduo

    Surgimento da Minerao de Dados

    A disseminao do uso de meios eletrnicos na sociedade

    moderna tem gerado uma enorme quantidade de dados.

    IUso de SGBDs na maioria das organizaes pblicas e

    privadas de mdio e grande porte.

    IAvanos na aquisio de dados, desde os leitores de cdigos

    de barra at sistemas de sensoriamento remoto.

    Cenrio

  • SQL e Minerao de Dados

    IBancos de dados relacionais so responsveis por armazenar

    e recuperar dados de forma eciente.

    IEsses bancos de dados permitem a extrao de diversas

    informaes usando SQL.

    IEnto para que serve a Minerao de Dados?

    IUsando SQL: esse processo resolve questes que

    necessariamente devem ser denidas.

    IMinerao de Dados: a descoberta de novas informaes

    automtica, ou seja, sem que seja necessria a formulao

    de uma questo.

    Minerao de Dados

    O que Minerao de Dados?

    o processo automtico de descoberta de novas informaes e

    conhecimento, teis a uma aplicao, no formato de regras e

    padres, escondidas em grandes volumes de dados.

    Onde ocorre?

    Este processo executado sobre grandes quantidades de dados,

    estejam esses armazenados em bancos de dados tradicionais, em

    data warehouse ou em outra forma de repositrio.

    Minerao de Dados Processo de Descoberta de Conhecimento em Bases de Dados

    Fonte: From data mining to knowledge discovery: An overview, U.M.Fayyad et. al., 1996.

    Dados

    DadosSelecionados

    1Dados

    Pr-processados

    2

    DadosTransformados

    3Regras ePadres

    4

    5

    Conhecimento

    Seleo: dados que sero relevantes para anlise so

    selecionados. Limpeza: remoo de rudos e dados

    inconsistentes. Transformao: dados so transformados para

    carem adequados para etapa de minerao. Minerao:

    processo de extrao de novas informaes. Interpretao e

    Avaliao: interpretao e identicao dos padres

    interessantes.

  • Tarefas e Tcnicas em Minerao de Dados

    O processo de minerao de dados envolve o uso de diversas

    tarefas e tcnicas.

    ITarefas: so classes de problemas.

    ITcnicas: so os algoritmos utilizados na resoluo dos

    problemas propostos nas tarefas.

    Principais Tarefas de Minerao de Dados

    Minerao de Dados

    Tarefas Preditivas

    Classificao

    Regresso

    Tarefas Descritivas

    Associao

    Agrupamento (Segmentao)

    Sumarizao

    Padres de Seqncia

    Tarefas em Minerao de Dados

    ITarefas Preditivas: do conhecimento adquirido a partir de

    um conjunto de dados, fazemos predies para novas

    amostras.

    Exemplo: Se acontecer uma determinada composio de

    medidas climticas, ento existe 70% de chover.

    ITarefas Descritivas: buscam identicar padres de

    comportamento comuns nos dados.

    Exemplo: Fralda Cerveja.

    Minerao de Dados Direta

    DadosMinerao do Modelo

    Modelo

    Entrada

    Informao

  • Minerao de Dados Direta

    IAtravs de uma tcnica de minerao, extrai-se ou treina-se

    um modelo que ser posteriormente utilizado.

    IPrincipais tarefas: classicao e regresso.

    Who will go bankrupt?

    IMinerao caracterizada pela existncias de um campo

    especco (atributo meta) cujo valor deve ser estimado a

    partir dos valores dos demais atributos.

    Minerao de Dados Indireta

    Dados Minerao da Informao /Utilizao do Modelo

    Informao

    Interpretao

    Informao Interpretada

    Minerao de Dados Indireta

    IAtravs de uma tcnica de minerao, extraem-se padres

    signicativos que sero posteriormente avaliados.

    IPrincipais tarefas: extrao de regras de associao,

    agrupamento.

    Tell me something interesting?

    IO resultado da minerao complementa o conhecimento do

    especialista e dever ser examinado e avaliado por este.

    Minerao de Associaes

    IIdenticao de itens de um mesmo domnio de aplicao

    que ocorrem juntos com determinada freqncia na base de

    dados.

    IExemplo: Market Basket Analysis identicao deprodutos que so comprados juntos em um nmero

    signicativo de transaes de compras.

  • Regras de Associao Booleanas

    IUma regra de associao representa um padro de

    relacionamento entre itens de dados do domnio da

    aplicao que ocorre com uma determinada freqncia na

    base de dados (transacional).

    Id-Transao (TID) Itens Comprados

    1 leite, po, refrigerante

    2 cerveja, carne

    3 cerveja, fralda, leite, refrigerante

    4 cerveja, fralda, leite, po

    5 fralda, leite, refrigerante

    IExemplos de regras: fralda cerveja, fralda leite

    Regras de Associao Quantitativas

    ISo utilizadas quando se deseja minerar padres em bases

    de dados relacionais (formadas por atributos quantitativos

    e atributos categricos).

    Id Sexo Profisso Salrio Idade ...

    Atributos QuantitativosAtributos Categricos

    IExemplo: (sexo=M) (20 < idade < 30) (prosso =advogado) (compra=SIM)Esta regra indica, com certo grau de certeza, que

    advogados, entre 20 e 30 anos, do sexo masculino so

    consumidores de laptops.

    Padres Sequenciais

    IPadres de sequncias representam sequncias de conjuntos

    de itens que ocorrem nas transaes de diferentes

    consumidores, com determinada frequncia (na ordem

    especicada).

    Consumidor Data/Hora Produtos

    Joo 01.08.2001/17:01 leite, poJoo 03.08.2001/14:25 carne, cervejaJoo 10.08.2001/21:15 queijo, manteiga, sal Marcos 05.08.2001/10:16 leite, ovosMarcos 08.08.2001/18:30 queijo, manteiga

    IExemplo: (leite) (queijo, manteiga)

    Agrupamento (Segmentao)

    IAgrupamento (segmentao) o processo de identicao

    de um conjunto nito de categorias (ou grupos - clusters),

    no previamente denidos, que contm objetos similares.

    IExemplo: Deseja-se separar os clientes em grupos de forma

    que aqueles que apresentam o mesmo comportamento de

    consumo quem no mesmo grupo.

    Cada tupla deste

    exemplo indica a

    quantidade total de

    produtos consumidos e

    o preo mdio destes

    produtos relativos a

    cada consumidor.

    Consumidor Qtd.Prods. Preo Mdio Prods.

    1 2 1.700

    2 10 1.800

    3 2 100

    4 3 2.000

    5 12 2.100

    6 3 200

    7 4 2.300

    8 11 2.040

    9 3 150

  • Agrupamento (Segmentao)

    Cons. Qtd. $ Md. Prods.

    1 2 1.700

    2 10 1.800

    3 2 100

    4 3 2.000

    5 12 2.100

    6 3 200

    7 4 2.300

    8 11 2.040

    9 3 150

    Grupo Cons. Qtd. $ Md. Prods.

    1 2 1.700

    1 4 3 2.000

    7 4 2.300

    2 10 1.800

    2 5 12 2.100

    8 11 2.040

    3 2 100

    3 6 3 200

    9 3 150

    Cada grupo identicado caracterizado por

    consumidores semelhantes em relao

    quantidade de produtos e ao preo mdio dos

    mesmos.

    Classicao

    IIdenticao da classe a qual um elemento pertence a partir

    de suas caractersticas. O conjunto de possveis classes

    discreto e predenido.

    IExemplo: a partir das caractersticas de um indivduo,

    determinar a que classe social ele pertence.

    Conjunto de classes = {A, B, C, D, E}.

    Classicao

    ID Salrio Idade Tipo Emprego Classe1 3.000 30 Autnomo B2 4.000 35 Indstria B3 7.000 50 Pesquisa C4 6.000 45 Autnomo C5 7.000 30 Pesquisa B6 6.000 35 Indstria B7 6.000 35 Autnomo A8 7.000 30 Autnomo A9 4.000 45 Indstria B

    A partir de uma base de

    treinamento, extrai-se o modelo de

    classicao (p.ex., rvore de

    deciso).

    rvore de Deciso

    Salrio

    Idade

    T.Empr.

    B

    A

    C

    B

    5.000 > 5.000

    40 > 40

    Ind.,Pesq. Autnomo

    Regresso

    IEstimativa do valor de um atributo de uma instncia a

    partir de suas caractersticas. O domnio deste atributo

    deve ser numrico e contnuo.

    IExemplo: a partir das caractersticas de um imvel,

    determinar seu valor de venda ou aluguel.

    Y = + X.

  • Aplicaes

    Analisar tendncias e encontrar padres a partir de dados

    histricos com o objetivo de prever aes futuras e apoiar

    decises pode ser um procedimento til em diversas reas, tais

    como:

    IMarketing.

    IFinanas.

    ISade.

    IEducao.

    ISegurana.

    Softwares

    IWeka: software de domnio pblico, desenvolvido (Java)

    pela Universidade de Waikato, contm uma srie de

    algoritmos de Data Mining (DM).

    IIntelligent Miner: foi desenvolvido pela IBM. uma

    ferramenta de DM diretamente interligada com o banco de

    dados DB2 da IBM.

    IOracle Data Miner: desenvolvido pela Oracle,

    permitindo interligao direta com o banco de dados Oracle

    11g Enterprise Edition.

    IEnterprise Miner: tradicionalmente utilizado na rea de

    negcios, marketing e inteligncia competitiva.

    IStatistica Data Miner: acrescenta as facilidades de

    minerao de dados ao tradicional pacote utilizado em

    aplicaes de estatstica.

    Perguntas?

    FIM

    IntroduoTarefas e Tcnicas em Minerao de DadosAplicaesSoftwares