Aula 2 - AnaliseIntDados-2015

download Aula 2 - AnaliseIntDados-2015

of 53

description

Aula dois

Transcript of Aula 2 - AnaliseIntDados-2015

  • Analise Inteligente de Dados-OZ@

    UniTiva-2015

    Analise Inteligente de Dados

    Aula 2

    Orlando Zacarias

  • O Que Bussiness Intelligence

    Business Intelligence - Termo global para referenciando todos os processos, tcnicas e ferramentas que suportam

    a tomada de decises em negcio baseadas em

    tecnologias de informao

    Pode ser expressa em termos de:

    uma simples folha de clculo

    Queries

    OLAP

    OLAP (processamento analtico online) o processamento por computador o qual permite que um usurio com facilidade e

    selectivamente extraia e visualize dados de diferentes pontos

    de vista

    data mining

    visualizao

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    2

  • O Que Bussiness Intelligence (cont.)

    O valor da informao para

    a tomada de

    decises

    aumenta do

    fundo para o

    topo

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    3

  • O Que Bussiness Intelligence (cont.)

    A data mart a camada de acesso do ambiente de data warehouse que

    utilizado para obter dados para os usurios

    A data mart um subconjunto do armazenamento de dados que

    normalmente orientado para uma linha

    de negcios especfico ou equipe

    Data marts so pequenas fatias de data warehouse

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    4

  • Conceitos Importantes de KDD/ECBA

    Termos e conceitos fundamentais tem haver com:

    O que padro?

    O que um modelo?

    Onde se utilizam os modelos?

    O que um modelo correcto?

    O que so Preditores e o que predio?

    Amostragem

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    5

  • Conceitos Importantes de KDD/ECBA (cont.)

    Padro: Expresso E numa linguagem L, descrevendo factos

    num subconjunto FE pertencente a F

    E constitui um padro se constitui uma descrio mais simples do que a enumerao de todos os

    factos em FE

    A aprendizagem pode ser descrita, geralmente de ponto de vista matemtico, como a

    compresso de conjuntos de dados

    Se tivermos um algoritmo que crie uma descrio dum conjunto de dados que seja efectivamente menor do que o conjunto de dados original, pode dizer-se que algo foi aprendido!!

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    6

  • Conceitos Importantes de KDD/ECBA (cont.)

    A definio de Padro centrado em BD e DW:

    Evento ou combinao de eventos numa base de dados que ocorrem mais

    vezes do que seria de esperar

    Isto quer normalmente dizer que a ocorrncia actual significativamente

    diferente da que seria de esperar

    aleatoriamente

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    7

  • Conceitos Importantes de KDD/ECBA (cont.)

    Por exemplo no problema para determinar o prximo nmero da sequncia seguinte:

    1212121 ....? R: 2

    Muito fcil: o padro 12 encontrado vezes suficientes para haver confiana de que

    existe um modelo predictivo que diz: Se 1, ento 2 seguir-lhe-

    Tambm: Se 2, ento 1 seguir-lhe

    Mas, pode ser mais complicado: Se o conjunto for 121?

    Se for 1212123121212?

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    8

  • Conceitos Importantes de KDD/ECBA (cont.)

    Um modelo representa alguma caracterstica importante da coisa maior que est a ser

    modelada, no a descreve completamente.

    Para aplicaes de negcio, um modelo pode ser algo como uma equao

    matemtica, um conjunto de regras que

    descrevem segmentos de clientes,

    representaes computacionais duma

    arquitectura de redes neuronais, etc.

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    9

  • Conceitos Importantes de KDD/ECBA (cont.)

    A definio de Modelo centrado em BD e DW:

    Descrio da base de dados histrica original a partir da qual foi construdo, que

    pode ser aplicado com sucesso a novos

    dados, por forma a fazer predies acerca

    de valores em falta ou fazer declaraes

    acerca dos valores esperados.

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    10

  • Conceitos Importantes de KDD/ECBA (cont.)

    Diferena entre padres e modelos:

    Os padres so conduzidos pelos dados e geralmente reflectem os prprios dados

    O modelo geralmente reflecte um propsito e pode no ser necessariamente induzido/conduzido

    pelos dados, sendo uma descrio de alto nvel

    E.g.: Um modelo do mundo fsico utilizando as equaes da fsica Newtoniana, poder explicar a

    rapidez da queda de qualquer objecto ou ainda o

    quanto poder voar

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    11

  • Conceitos Importantes de KDD/ECBA (cont.)

    Diferena entre padres e modelos:

    Os modelos so mais complexos do que os padres, podem usualmente ocorrer muitas

    verses destes. Um modelo geralmente contm

    diversos/muitos padres

    E.g.: Um modelo de comportamento de clientes pode ser muito complexo e conter centenas de

    padres que foram encontrados na base de

    dados

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    12

  • Conceitos Importantes de KDD/ECBA (cont.)

    Onde so utilizados os modelos?

    Podemos tomar alguns exemplos de problemas de negcio que podero

    beneficiar da existncia de modelos:

    Seleco

    Aquisio

    Reteno

    Extenso

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    13

  • Onde Utilizar de Modelos?

    Na Seleco: o negcio pretende por exemplo seleccionar novos clientes a organizao tem uma lista de possveis candidatos a clientes, mas

    no sabe

    quais sero os desejveis; necessrio concentrar-se nos clientes que se tornaro bons clientes

    a lista pode ser adquirida a partir de vrias fontes: lista de endereos, endereos para cupons, base de dados

    de censos ou aleatoriamente a partir da lista telefnica

    h informao limitada acerca dos clientes, um desafio construo de um modelo de predio

    h que recorrer informao histrica da prpria base de dados e, a partir desta, detectar os padres e construir um modelo dos hbitos dos prprios clientes;

    depois extrapolar para os possveis novos clientes

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    14

  • Exemplo do Seleco

    No sector das telecomunicaes, pretende-se seleccionar possveis novos bons clientes, para

    chamadas de longa distncia

    Criar um modelo da rentabilidade dos prprios clientes, dados um conjunto de

    campos que a determinam (chamados

    predictores ou variveis independentes), a

    partir dos prprios dados histricos

    Utilizar este modelo com seus padres, para avaliao dos possveis futuros clientes

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    15

  • Onde Utilizar de Modelos?

    Na Aquisio: depois de seleccionados os clientes, h que efectiv-los (torna-los efectivos)

    normalmente efectuada atravs de alguma oferta ou produto em que o cliente poder estar

    interessado (desconto, simplificao de facturao,

    amostra de produto, etc.)

    Note-se que nem todos os clientes seleccionados tero o mesmo perfil, assim, para os mais lucrativos

    podero ser utilizadas estratgias mais caras, ao

    contrrio de outros

    o desafio modelar a tctica que resulte em esforo mnimo (e despesa) mas que resulte no sim oferta

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    16

  • Onde Utilizar de Modelos?

    o modelo poder ser do tipo: probabilidade de aquisio x tctica x atributos do cliente

    o cliente ter 90% de probabilidade de ser conquistado se lhe for oferecida um bnus de

    50, 60%, se tiver um desconto de 10% e de 1%, caso lhe sejam simplesmente enviados

    prospectos por correio

    estes modelos podem ser baseados em experincias passadas de outras ofertas feitas

    (again dasdos historicos)

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    17

  • Onde Utilizar de Modelos?

    Processo de Reteno: reter os clientes que foram conquistados

    Dada a competitividade do mercado actual, grande a facilidade com que um competidor pode

    contactar e roubar um cliente; a lealdade do cliente

    algo que deve ser activamente encorajada e seguido no mercado bancrio e de comunicaes mveis, quase 1 em

    cada 3 clientes so perdidos para os competidores, em

    cada ano, sendo perdidos normalmente os mais

    lucrativos o custo de aquisio , normalmente

    bastante alto

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    18

  • Processo de Reteno

    Ter um modelo dos clientes que estamos em risco de perder ser de grande valia:

    corrigir os motivos de insatisfao do cliente ou adiantar-se numa oferta antes do contacto dum

    competidor, muito mais eficaz do que reagir, j

    depois do cliente ter decidido por outro fornecedor

    O modelo poder dividir-se em duas partes:

    um modelo para saber quais os clientes em risco

    outro modelo para determinar que estratgia de reteno ser a mais eficaz

    Mais uma vez, h que recorrer informao histrica da prpria base de dados. Saber quais os clientes

    descontentes e que estratgias foram bem sucedidas

    na sua reteno extremamente importante....

    Analise Inteligente de Dados-OZ@ UniTiva-2015

    19

  • Onde Utilizar de Modelos?

    Para Extenso: refere-se ao processo de extensao dos servios ou produtos que se vendem aos clientes a

    outros, para alm dos originais

    Nesta fase, tal como na anterior, j temos disponvel muitos dados acerca do cliente - facto que no se verificava nas

    duas primeiras fases - e que os nossos competidores no

    tm (eles podero estar na fase 1 e 2). Com esta

    informao, e desde que utilizada eficazmente, estaremos

    em vantagem perante os nossos concorrentes

    A extenso tambm denominada de cross-selling

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    20

  • Para Extenso

    Por Exemplo: um banco, pretende vender a um cliente que contraiu um emprstimo para habitao,

    um seguro de vida

    A modelao dos clientes que podero estar interessados em outros produtos importante, pois

    que o cliente pode facilmente ser inundado com

    ofertas de produtos, para os quais no tenha o

    mnimo interesse e no responder tambm a outras

    ofertas de produtos que at desejaria

    Claro que se no for sugerido ao cliente algo de que este necessite, deixaremos a porta aberta aos nossos competidores

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    21

  • Conceito de Modelo Correcto

    O que um Modelo Correcto?

    Se for possvel conhecer precisamente o estado actual de tudo no universo num dado momento, ser ento possvel

    criar um modelo que prediga rigorosamente todos os

    eventos futuros

    Pierre Laplace

    LEMBREMO-NOS, QUE O NOSSO OBJECTIVO ATRAVS DE

    UM MODELO, TENTAR APROXIMAR O MAXIMO POSSIVEL DA

    REALIDADE... MODELO REALMENTE MODELO E NUNCA SERA TOTALMENTE IGUAL A REALIDADE.....

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    22

  • Conceito de Modelo Correcto

    A afirmao do slide anterior pode se integrar na mecnica quntica, princpio de incerteza de

    Heisenberg conjudado com os desenvolvimentos mais recentes relativos dos sistemas caticos

    Entretanto, muitos autores perseguem a ideia que debaixo de toda a complexidade de eventos que

    ocorrem, muitas vezes mesmo sem significado, pode

    existir um modelo bem definido que, sendo descoberto,

    explicaria e poderia predizer muito do que observamos

    na natureza .....

    Deixemos de filosofias e nos focalizemos nas questes como:

    Existe um modelo perfeito?

    Pode um modelo ser melhor do que outro?

    Como poderemos avaliar que modelo ser melhor?

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    23

  • Modelo Perfeito

    O modelo perfeito, se que tal coisa existe, deveria ter vrias caractersticas importantes:

    Poderia ser sempre utilizado para fazer as previses correctas

    No se degradaria com o tempo

    Poderia ser utilizado com os dados mais mo, no requerendo um volume de dados

    extraordinrio

    Deveria ser mais simples e pequeno do que os dados utilizados para a modelao

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    24

  • Modelo Perfeito

    No h modelo perfeito:

    no mundo real: h sempre dados

    relevantes que no puderam ser

    recolhidos, ou os dados contm erros

    ou valores em falta e quase todos os

    modelos construdos so susceptveis

    de serem alterados ao longo do

    tempo!!

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    25

  • Dados em Falta

    Um dos maiores problemas na recolha dos dados do mundo real, a partir dos quais

    construimos modelos predictivos, no ter os

    dados certos, na quantidade devida

    Pessoas com dieta pobre em gorduras desde a nascena leva a taxa muito baixa de ataques do

    corao

    Mas ...? Como conseguir estes dados? (no contexto Moz?)

    Soluo: recolha pr-activa dos dados em campanhas de marketing de teste

    O volume de informao disponvel pode ser insuficiente para a construo de um bom modelo

    ex. predizer o nome de algum, sabendo o seu nmero de telefone?

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    26

  • Dados em Falta

    Importante recordar:

    no importa quo grande seja a base de dados ou o esforo feito, sucede sempre que

    falte algo que poderia melhorar o

    desempenho do modelo em construo

    Podem faltar predictores, outras vezes faltam registos

    O segredo reside no reconhecimento de que no mundo real o modelo ser baseado

    sempre em dados em falta e fazer

    compensaes para isso

    Analise Inteligente de Dados-OZ@ UniTiva-2015

    27

  • Registos, Predictores e Predio em Modelao Predictiva

    Registo - Estrutura de dados ao nvel atmico que suporta os dados pertinentes aos indivduos na base de dados.

    Um registo corresponde a uma linha de uma tabela

    numa base de dados desnormalizada. Cada registo

    feito de valores para cada campo que contm,

    incluindo os campos predictores e o campo predio

    Varivel Independente, Campo Predictor ou de Entrada - Campo que pode ser utilizado para construir um modelo

    de predio. Alguma funo dos valores do predictor do

    registo produzem o valor de predio para esse registo

    Geralmente, chamamos predictores aos campos quando so utilizados para explorao ou predio.

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    28

  • Registos, Predictores e Predio em Modelao Predictiva

    Varivel Dependente, Campo Predio, de alvo ou de sada - o campo que contm

    o resultado conhecido, passado tcnica

    de Data Mining para que o modelo seja

    construdo - o valor que eventualmente

    esperamos predizer

    Geralmente, trata-se dum campo semelhante a qualquer outro, excepto na forma como

    manejado pelo processo de criao do modelo

    de predio

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    29

  • Tipos de Predictores

    Em qualquer base de dados h diversos tipos de colunas (aqui chamamos de variveis dependentes ou

    independentes e predictores)

    Os tipos de dados so os permitidos pela base de dados e, usualmente, podem ser uma dezena ou mais

    No entanto, para as tcnicas de data mining, teremos, como em sinal, dois grandes tipos: contnuos e

    descontnuos (aqui denominados de categricos)

    Dependendo do tipo das variveis, especialmente da possibilidade de ordenao, poderemos aplicar ou no

    alguns algoritmos de data mining

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    30

  • Tipos de Predictores

    O tipo de predictor pode ter tambm um impacto importante na forma de como

    pr-processar os (pre-processamento dos)

    dados

    Predictores Contnuos - hipoteticamente, podem ter um nmero infinito de valores

    ou categorias. A idade de uma pessoa

    pode ser medida em dias, horas, segundos,

    milissegundos, microssegundos, ...

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    31

  • Tipos de Predictores

    Predictores Categricos - podem ter um nmero finito de valores ou categorias

    Nominais (deriva de nome) - cujos valores ou categorias no tm qualquer

    relacionamento particular uns com os outros

    (ex. cores de um sapato). No se pode

    estabelecer qualquer ordem

    Ordinais - podem ser ordenados, como o nome indica. Ex. sapatos de criana,

    adolescente e de adulto. No permitem, de

    qualquer modo, saber quo maior ou menor

    a ordem relativa

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    32

  • Tipos de Predictores

    Intervalo - tem aqui sentido uma distncia numrica entre valores. Por Exemplo:

    Sapato de tamanho 42 2 nmeros acima

    do 40

    Hierarquia: Contnuos, intervalo, ordinais e nominais

    tambm possvel, e muitas vezes desejvel ou obrigatrio, fazer a converso dos tipos de

    predictores (na altura de pre-processamento)

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    33

  • Amostragem

    os padres existentes nos dados que procuramos podem

    provavelmente ser

    reconhecidos sem ter que

    considerar todos os exemplos de

    cada uma das

    combinaes possveis de

    predictores

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    34

  • Amostragem

    Independentemente do tamanho da base de dados, no encontraremos decerto um

    exemplo de cada possvel cliente e de todos

    os predictores que descrevam essa pessoa

    Outras vezes, no podemos utilizar todos os dados disponveis por ser difcil process-los ou

    armazen-los: temos de efectuar uma

    amostragem

    Mesmo com uma pequena amostra , muitas vezes, e surpreendemente, possvel extrair um

    padro

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    35

  • Problemas com a Amostragem: Polarizao

    Quando se faz a amostragem, importante reconhecer certas diferenas na forma como a mostra pode ser

    obtida, verificar se a amostra feita num processo verdadeiramente aleatrio

    Muitas vezes a polarizao est presente na maneira como a amostra colhida. H que verificar qual o

    universo de amostragem e de anlise. o clssico

    problema das sondagens eleitorais... Contactam-se

    pessoas que tem telefone e... temos a j a

    polarizao (tendncia) no processo: nem todos os

    eleitores tero telefone

    H, claro, a tendncia de reduzir o trabalho ou custos do processo. Mas, deve-se ter em mente que a qualidade dos dados a analisar influeciar

    directamente a qualidade do modelo e padres

    obtidos Analise Inteligente de Dados-OZ@

    UniTiva-2015

    36

  • Tecnicas para Amostragem

    Como efectuar ento a amostragem?

    Round Robin - Forma mais simples de amostragem: buscar todos os n-simos registos

    da base de dados

    Problema: a seleco da amostra depender da forma como os dados residem na base de dados. A amostra pode ser polarizada se houver um padro na

    forma como os dados esto armazenados

    consecutivamente na base de dados

    Imaginemos que, num sistema MPP (massive parallel computing), os dados so distribudos de acordo com um determinado padro, por forma a balancear a

    carga pelos diversos ns. Neste caso, a nossa amostra

    poder ser polarizada.

    Analise Inteligente de Dados-OZ@ UniTiva-2015

    37

  • Tecnicas para Amostragem

    Amostragem Estratificada - Em casos em que temos um valor de uma coluna utilizada na

    predio, que particularmente importante

    Exemplo: numa campanha de mailing, consideremos o predictor relativo ao resultado do contacto.

    Normalmente teremos valores usuais de 1% ou menos.

    Se a amostra for perfeitamente aleatria, teremos um nmero de registos com resposta positiva muito

    pequeno, tornando difcil extrair padres relativos a

    caractersticas dos clientes que responderam

    positivamente

    Melhor efectuar uma amostra com nmero de registos sensivelmente idntico. Depois de construdo o modelo, h que corrigi-lo para as concentraes

    originais

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    38

  • Tecnicas para Amostragem

    Amostragem em Grupo (Cluster) - Para assegurar que todos os subgrupos importantes

    na base de dados so representados

    A base de dados original dividida em grupos e um nmero equivalente de registos

    de cada grupo retirado

    Por Exemplo: com clientes, poderemos dividi-los em grupos por qualidades scio-econmicas

    similares. Depois bastar seleccionar alguns

    registos de cada um dos grupos para termos a

    certeza de que todos os grupos mais

    importantes estaro representados no modelo

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    39

  • Tecnicas para Amostragem

    Normalmente, a amostragem aleatria adequada, se a

    amostra e a base de dados for

    suficientemente grande. Em casos

    em que alguns subgrupos

    importantes tiverem poucos

    registos, ser necessrio utilizar esta

    abordagem para termos a certeza

    de que haver uma cobertura

    adequada dos grupos na amostra

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    40

  • Adicionando Mais Conceitos Estatsticos

    Aprendizagem e Contedo Informacional

    Probabilidade

    Independncia

    Causalidade e colinearidade

    Teste do Qui-Quadrado

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    41

  • Aprendizagem como Compresso de Conjuntos de Dados

    Na maioria dos casos, a aprendizagem pode ser descrita, de ponto de vista matemtico, como a

    compresso de conjunto de dados. Retirado de Data Mining, Pieter Adrians and Dolf Zantinge

    Se um algoritmo cria uma descrio do conjunto de dados que efectivamente menor do que os dados

    originais, podemos dizer que se aprendeu alguma

    coisa

    H uma relao entre a complexidade dos dados e a capacidade de aprendizagem: em geral, conjuntos de dados complexos so difceis de

    comprimir e assim de se perceberem

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    42

  • Aprendizagem como Compresso de Conjuntos de Dados

    Conjuntos de dados pouco complexos, podem ser facilmente comprimidos e aprendidos

    Mas nem todos os dados compressveis so de fcil aprendizagem (dados encriptados)

    O relacionamento entre complexidade e a capacidade de aprendizagem formulado pelo princpio de

    Rissanen, chamado de princpio da descrio de

    tamanho mnimo: A melhor teoria para explicar um conjunto de dados aquela que minimize a soma do

    comprimento, em bits, da descrio da teoria, mais o tamanho, em bits, dos dados, quando codificados com a ajuda da teoria

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    43

  • Aprendizagem como Compresso de Conjuntos de Dados

    Por outras palavras: se for encontrada alguma regularidade

    num conjunto de dados e a

    descrio dessa regularidade em

    conjunto com a descrio das

    excepes for ainda menor do que o

    conjunto de dados original, ento

    encontrou-se algo de valor

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    44

  • Contedo Informacional de uma Mensagem

    Introduzida por Shannon e enuncia:

    Se tivermos n mensagens cada uma das quais com igual probabilidade de

    ocorrncia, cada mensagem ter

    probabilidade 1/n de ocorrer, ento o

    contedo informacional de cada

    mensagem ser log2 1/n = - log2 n

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    45

  • Rudo e Redundncia

    O rudo pode criar problemas nas operaes de Data Mining.

    Nos conjuntos de dados o rudo manifesta-se por:

    Erros em valores de campos

    Falta de valores em campos

    Inconsistncias

    Transformaes indevidas

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    46

  • Rudo e Redundncia

    Nem sempre os ruidos constituiem problema!!

    H algo de positivo no rudo, pode conter

    informao: se h muito rudo numa dada base

    de dados, h que concluir que dever haver

    razes para ele estar l. Pode limpar-se, mas isso

    no resolve o problema base: a forma como a

    organizao est a lidar com a informao -

    como as aplicaes esto construdas e como

    so utilizadas. O rudo indica que h que alterar a

    forma como se est a trabalhar com os sistemas

    de informao nessa organizao.

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    47

  • Probabilidade

    Conceito crtico em estatstica e em todas as tcnicas de data mining

    Apesar de familiar, no deve ser depreciado, pois atravs dele possvel efectuar predies e detectar

    padres

    Probabilidade a priori - Aquela que existe antes de qualquer informao ser conhecida

    E.g. Para predizer a cotao de uma aco no dia seguinte, iremos dar como valor mais provvel o de fecho do dia anterior

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    48

  • Probabilidade

    Probabilidade Condicional - Temos mais informao disponvel. Desta forma, podem ser colocadas

    condies para o evento que alteraro a probabilidade deste ocorrer

    E.g. Poderemos ter uma probabilidade a priori de 1 / 1 000 000 de ocorrer uma transaco fraudulenta com carto de crdito. Mas, se colocarmos a condio de s

    olharmos para transaces de equipamento electrnico

    (com alto valor e fcil revenda), encontraremos uma

    taxa 10 vezes maior de transaces fraudulentas, ou seja

    de 1 / 100 000.

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    49

  • Independncia

    Em estatstica dois eventos so considerados independentes um do outro se a probabilidade de

    ambos ocorrerem for igual probabilidade de um

    multiplicada pela probabilidade do outro

    E.g. pessoa com camisa e gravata de duas cores e insensvel s cores. Haver 50% de probabilidade de

    vestir cada cor de camisa ou gravata. Tambem haver

    25 % de probabilidade de vestir qualquer combinao

    de cores de camisa / gravata

    Se os fenmenos no forem independentes, quer dizer que h relacionamento entre predictores, podendo haver relaes de causalidade ou colinearidade

    E.g. se a pessoa do exemplo acima, for sensvel s cores e tiver sentido de moda

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    50

  • Relacionamentos

    Causalidade - A ocorrncia de um fenmeno causa o outro

    importante pois que se trata de um relacionamento mais previsvel ao

    longo do tempo, em locais diferentes e

    sob uma variedade de condies

    diferentes

    No exemplo anterior, a escolha de uma cor de camisa causa a escolha

    da cor da gravata.

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    51

  • Relacionamentos

    Colinearidade - Efeito no qual um predictor parece andar de mos dadas com outro,

    mas no realmente a causa

    No nosso pas, o advento do frio parece no ser independente de aumento macio de vendas nos

    supermercados, especialmente de brinquedos

    Poderemos dizer que o abaixamento de temperatura causa directa do aumento de

    vendas?

    Provavelmente, no. a poca do Natal a causa real, apesar de a temperatura parecer ser tambm

    um bom predictor

    Predictor colienar pode ser usada sempre que nao estiver disponivel o predictor real...

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    52

  • Teste do Qui-Quadrado

    Utilizado largamente para verificar se h relacionamento entre duas colunas de

    uma base de dados. Faz uso do

    enunciado do princpio de

    independncia

    Este teste mede a diferena entre o nmero de ocorrncias esperadas de

    uma combinao de predictores,

    supostos independentes e o nmero de

    ocorrncias que efectivamente ocorrem.

    Na realidade no mede a diferena, mas

    o quadrado das diferenas.

    Analise Inteligente de Dados-OZ@

    UniTiva-2015

    53