A Preparação dos Dados -...

download A Preparação dos Dados - professor.ufabc.edu.brprofessor.ufabc.edu.br/~ronaldo.prati/DataMining/DataPreparation.pdf · Escolhas Básicas Objetos do mundo real: carros, arvores,

If you can't read please download the document

Transcript of A Preparação dos Dados -...

  • A Preparao dos Dados

  • Escolhas Bsicas

    Objetos do mundo real: carros, arvores, etc

    Ponto de vista da minerao: um objeto descrito por uma coleo de caractersticas sobre as quais podem ser realizadas medidas

    Objetos, casos, instncias

    Conceito

    A entidade a ser aprendida. Alguns algoritmos de aprendizagem fornecem uma descrio de um conceito

  • Medidas

    Uma varivel representa uma medida que toma um numero particular de valores, com a possibilidade de valores diferentes para cada observao.

    Variveis, descritores

    O que possvel medir sobre as caractersticas: meu carro azul escuro, 2 portas, 6 cilindros, 5 passageiros

  • Escalas

    Escala Nominal

    Nessa escala os valores so no numricos e so no ordenados. Duas instncias apresentam ou no o mesmo valor. Ex: Cor, Modelos de Carro, etc

    Nessa escala os so no numricos e ordenados. Uma instncia pode apresentar um valor comparativamente maior do que uma outra. Ex: Grau de Instruo

    Escala Ordinal

  • Escalas

    Escala Intervalar

    Nessa escala de valores numricos, existe no apenas uma ordem entre os valores, mas tambm existe diferena entre esses valores. O zero relativo. Ex: Temperatura em Graus Celsius

    Nessa escala de valores numricos, alm da diferena, tem sentido calcular a proporo entre valores (o zero absoluto). Ex: Peso, Altura, etc.

    Escala Proporcional

  • Cardinalidade dos atributos das variveis

    Qualitativo / quantitativo

    Variveis qualitativas: escalas nominais ou ordinais

    Variveis quantitativas: escalas intervalares e proporcionais

  • Cardinalidade: Discreto versus Continuo

    Variveis dicotmicas Ex: Sexo (M, F)

    Variveis binrias

    Em geral so codificadas como 0, 1

    0 em geral indica ausncia de propriedade

    Ex: Possui antenas? (Sim , no)

  • Cardinalidade: Discreto versus Continuo

    Variveis Discretas

    Qualquer varivel que possui um conjunto finito de valores distintos. Ex: Departamentos do CIn

    Variveis contnuas

    Podem, em principio, assumir qualquer valor dentro de um intervalo. Exemplo: Peso, altura

  • Valores ausentes e valores inaplicveis

    Valores ausentes

    Um valor ausente aquele ausente no conjunto de dados mas existente no contexto em que a medida foi realizada Numa base de dados eles so indicados por valores negativos ou nulos em atributos numricos. Em atributos no numricos por brancos ou traos. As vezes so indicados por uma mesma constante

  • Valores ausentes e valores inaplicveis

    Um valor inaplicvel um valor ausente e inexistente no contexto em que a medida foi realizada. Ex: Sexo = Masculino e Nmero de Partos = null Sexo = Feminino e Nmero de Partos = 0

    Valores inaplicveis

  • Valores ausentes e valores inaplicveis

    Valores ausentes e vazios

    A diferenciao entre valores ausentes e valores inaplicveis importante mais ainda no se dispe de tcnicas automticas para fazer isso. Deve-se faze-lo manualmente

    Quase todas as ferramentas de modelizao dispem de tcnicas para tratar dados ausentes: ignora - los, atribuir um valor fixo aos valores ausentes ou estimar os valores ausentes partir de outras variveis

    Em algumas situaes os dados ausentes so altamente informativos e ao serem tratados perde-se essa informao

  • Mudana de Escala

    Ex: Idade O = [0, 150] 0-20: jovem; 20-60: adulto; >60: idoso O={jovem, adulto, idoso}

    Trata-se de subdividir O em subintervalos contguos e associar a cada um deles uma modalidade

    Intervalar Ordinal

    Interesse Muitos modelos s se aplicam variveis de mesma escala

  • Mudana de Escala

    Intervalar

    Perda de informao

    Ordinal

    Distino entre objetos de uma mesma categoria

    Amplitude da diferena entre objetos de categorias diferentes

  • Mudana de Escala

    Ordinal Nominal

    Basta desconsiderar a ordem entre as modalidades

    Cada modalidade transformada em uma varivel binria

    Codificao disjuntiva Codificao aditiva

    Ordinal ou Nominal Binria

  • Mudana de Escala

    Cor: 1(verde), 2(azul), 3(marrom) Idade: 1(0-20), 2(20-60), 3(> 60)

    Cor Idade w 1 2 w 2 1

    Verde Azul Marrom 0-20 0-60 >60 w 1 0 0 1 1 0 w 0 1 0 1 0 0

    Ordinal ou Nominal Binria

  • Representao de Dados para a Minerao

    Representao dos Dados

    Tabelas de Dados (flat file): as colunas representam as variveis e as linhas representam as observaes

    y1 y2 yp ...

    i1

    in

  • Os dados no mundo real esto sujos:

    Necessidade do pr-processamento dos Dados

    Incompletos - ausncia de atributos de interesse - apenas dados agregados - ausncia de valores

    Ruidosos - erros aleatrios - valores aberrantes (outliers)

    Inconsistentes - discrepncias nas codificaes ou nos nomes

    Sem dados de boa qualidade o resultado da minerao pobre

  • Principais etapas na preparao de dados

    Pr-processamento dos dados

    Limpeza dos dados - preencher dados ausentes, alisar rudo, identificar e/ou remover - valores aberrantes, resolver inconsistncias

    Integrao e transformao de Dados - integrao de mltiplas bases de dados, cubos e arquivos - Normalizao e agregao

    Reduo de Dados - reduo no volume de dados com resultados similares

    Discretizao e Construo de Hierarquias Conceituais - importante para dados numricos

  • Pr-processamento dos dados

  • Em que consiste a limpeza dos dados?

    Limpeza dos dados

    preencher dados ausentes alisar o ruido identificar valores aberrantes Identificar inconsistncias etc

  • Valores ausentes

    " Dados no esto sempre disponveis Ex., muitas tuplas no tem nenhum valor gravado para vrios

    atributos (renda do cliente em dados relativos a vendas

    " A ausncia de dados pode ser consequncia mau funcionamento do equipamento

    inconsistncia com outros dados gravados e conseqente supresso

    No entrada de dados devido a enganos

    determinados dados podem no ser considerados importantes no momento do registro

    etc.

    " Pode ser necessrio inferir os dados ausentes

  • Quais os tratamentos usuais para valores ausentes?

    Valores ausentes

    Ignorar a descrio do indivduo ou mesmo eliminar o descritor;

    Preencher os valores ausentes manualmente; Usar uma constante global para representar os

    valores ausentes (no recomendado, pois o sistema pode identificar esse valor como um conceito);

    Usar a mdia (ou a moda); Usar a mdia (ou a moda) por classe Usar o valor mais provvel segundo um modelo

    (regresso, regra de Bayes, rvores de deciso)

  • Rudo: erro aleatrio ou variabilidade presente em descritores

    Dados com rudo e/ou valores aberrantes

    Alisamento Regresso

    Algumas tcnicas para a remoo de rudo

    Clustering Inspeo

    Algumas tcnicas para a identificao de valores aberrantes

  • Alisamento: consiste em distribuir dados ordenados em caixas tendo Como referncia os seus vizinhos

    Dados com rudo e /ou valores aberrantes

    Ordenao: 1, 1, 2, 3, 3, 3, 4, 5, 5, 7

    Particionamento em caixas

    Alisamento pela mediana

    Outras alternativas: mdia, fronteiras

  • Clustering: deteo e remo de valores aberrantes - os valores so organizados em grupos; os valores isolados podem ser considerados aberrantes;

    Dados com rudo e /ou valores aberrantes

  • Regresso: - os dados podem ser alisados pelo ajustamento a uma funo (regresso linear, por exemplo);

    Dados com rudo e /ou valores aberrantes

    x

    y

    y = x + 1

    X1

    Y1

    Y1

  • Erros no momento de introduo dos dados Erros oriundos da integrao de vrias bases de dados

    - mesmo atributo com diferentes codificaes; - duplicao de objetos

    etc

    Dados Inconsistentes

  • Integrao de dados

    - Fuso de dados partir de diferentes fontes em uma nica fonte coerente. As fontes podem ser bases de dados, cubos ou arquivos texto

    Transformao de Dados

    - necessrio para obter os mesmos em uma forma apropriada para a minerao

    Integrao e Transformao de Dados

  • Integrao de Dados

    Esquema em bases de dados relacionais - identificao das mesmas entidades do mundo real a partir de mltiplas fontes de dados - Integrao dos metadados de diferentes fontes

    Redundncia Dados redundantes ocorrem quando da integrao de bases de dados

    - Diferentes nomes para um mesmo atributo; - Um atributo pode ser derivado diretamente de outro;

    Anlise de correlao: instrumento para a deteco de redundncias Duplicao de objetos;

  • Integrao de Dados

    Deteco e resoluo de conflitos

    Os valores de um mesmo atributo pode diferir segundo as diversas fontes Isso pode acontecer devido a diferenas na representao, Escala ou codificao Peso (em libras ou em quilos) Altura (valor numrico ou categrico (mdio, pequeno...) Preo (pode indicar servios diferentes)

  • Transformao de dados

    Alisamento

    sumrios dos dados (soma, etc) quando da construo de cubos para OLAP

    Objetivo: obter os dados em uma forma mais apropriada para a minerao

    Agregao:

    Generalizao

    Dados primitivos so substitudos por conceitos de ordem superior via uma hierarquia de conceitos.

    Ex. valores do atributo numrico idade so mapeados em jovem, meia-idade, etc.

    Construo de novos atributos

  • Transformao de dados

    Normalizao

    A propsito da normalizao minimizar os problemas oriundos do uso de unidades e disperses distintas entre as variveis

    Algumas ferramentas de modelizao so beneficiadas com a Normalizao (redes neurais, KNN, clustering)

    As variveis podem ser normalizadas segundo a amplitude ou segundo a distribuio

  • Transformao de dados

    Justificativa: unidades diferentes ou disperses muito heterogneas

    Normalizao segundo a amplitude

  • Transformao de dados

    Normalizao distribucional

    A normalizao distribucional interessante em vrias situaes: remoo de distores de valores aberrantes, obteno de simetria etc.

    As transformaes mais comuns so:

    A mais suave a raiz e a mais forte a inversa negativa

  • Reduo de Dados

    Outras vantagens da reduo de dados:

    reduo do tempo de aprendizagem interpretao mais fcil dos conceitos aprendidos

    Razes para a reduo de dados:

    ultrapassagem da capacidade de processamento dos programas de aprendizagem tempo muito longo para obter uma soluo

    Reduo de dados:

    Obtem uma respresentao reduzida da srie de dados de que muito menor no volume mas contudo produz os mesmos (ou quase os mesmos) resultados analticos

  • Reduo de Dados

    Estratgias para a reduo de dados

    Agregao via cubo Reduo de dimenso Compresso de dados Reduo de casos Discretizao e construo de hierarquias conceituais

  • Reduo de Dados

    Em data mining a supresso de uma coluna (atributo) muito mais Delicada do que a supresso de uma linha (observao) Retirar atributos relevantes ou permanecer com atributos irrelevantes Pode implicar na descoberta de padres de baixa qualidade

    Uma abordagem para a seleo a manual, baseada em conhecimento especialista

    Da a necessidade de um estgio de seleo de atributos

    Reduo de dimenso

  • Reduo de Dados

    Algumas abordagens automticas de seleo de variveis

    Seleo do menor conjunto de atributos

    Selecionar o menor conjunto de atributos suficiente para dividir o espao das instancias de tal maneira que a distribuio das classes no novo espao to prxima quanto possvel daquela do espao original

    Problemas: busca exaustiva e overfitting

    Algoritmo de construo de rvores de deciso

    Aplicar esse algoritmo nos dados completos e ento selecionar apenas as variveis presentes na rvore de deciso

  • Reduo de Dados

    Conjunto inicial de atributos: {A1, A2, A3, A4, A5, A6}

    A4 ?

    A1? A6?

    Class 1 Class 2 Class 1 Class 2

    > Conjunto reduzido de atributos: {A1, A4, A6}

  • Reduo de Dados

    Seleo por busca no espao de atributos

    Existem 2d possveis sub-conjuntos de a partir de d atributos Vrias heursticas para a seleo de variveis

    seleo forward: a busca iniciada sem atributos e os mesmos so adicionados um a um. Cada atributo adicionado isoladamente e o conjunto resultante avaliado segundo um critrio. O atributo que produz o melhor critrio incorporado

    eliminao backward: a busca iniciada com o conjunto completo de atributos e os mesmos so suprimidos um de cada vez. Cada atributo suprimido isoladamente e o conjunto resultante avaliado segundo um critrio. O atributo que produz o melhor critrio finalmente suprimido combinao da seleo forward com a eliminao backward

  • Compresso de Dados

    Essas tcnicas comprimem os dados originais

    Dados originais Dados

    Comprimidos Sem perda

    Aproximao dos dados originais

  • Compresso de Dados

    Extrao de Variveis

    Objetivo: obter novas variveis partir dos atributos iniciais. Em geral as novas variveis so combinaes lineares das variveis iniciais

    Limitaes: modelo linear (no adequado especialmente para para os mtodos de data mining baseados em lgica)

    Essas tcnicas so teis tambm para tratar a redundncia de informaes (correlao entre variveis) e rudo

    As tcnicas de reduo de dimenses se propem a reduzir o nmero de variveis com a menor perda possvel de informaes

  • Compresso de Dados

    Extrao de Variveis

    Mtodos no supervisionados: Anlise de Componentes Principais (variveis quantitativas) Anlise de Correspondncias (variveis qualitativas)

    A primeira componente a combinao linear das variveis iniciais de maior varincia (maximiza a separao entre os indivduos). A segunda componente ortogonal a primeira (correlao nula), tambm combinao linear das variveis iniciais e apresenta a segunda maior varincia. E assim por diante.

    Famlias de Mtodos Mtodos no supervisionados Mtodos supervisionados

  • Compresso de Dados

    Extrao de Variveis

    X1

    X2

    Y1 Y2

  • Compresso de Dados

    Extrao de Variveis

    Mtodos supervisionados

    Anlise Fatorial Discriminante

    A primeira componente a combinao linear das variveis iniciais que melhor separa os grupos entre si, isto , ela toma valores os mais prximos possveis para os indivduos de um mesmo grupo e os mais diferentes para indivduos de grupos distintos. A segunda componente a combinao linear das variveis iniciais ortogonal a primeira (correlao nula) que melhor separa os grupos entre si. E assim por diante.

  • Reduo de Casos

    Reduo do volume de dados via representao econmica dos mesmos

    " Mtodos paramtricos Supe que os dados ajustam um modelo, estimam os

    parmetros do modelo, armazena apenas os parmetros e descarrega os dados (exceto os aberrantes)

    Principais modelos: regresso (simples e multipla) e modelo log-linear

    " Mtodos no paramtricos No assume modelos Famlias principais: histogramas, clustering, amostragem

  • Reduo de Casos

    Regresso e modelos log-linear

    " Regresso linear: os dados so modelados para se ajustarem a uma linha reta Em geral usa o mtodo dos quadrados mnimos para ajustar a linha

    " Regresso mltipla: permite que uma varivel resposta seja

    modelada como uma funo linear de um vetor de atributos " Modelo Log-linear : aproxima distribuies de probabilidade

    discretas multidimensionais

  • Reduo de Casos

    Histogramas

    " Particiona os dados em caixas e armazena a frequencia mdia dos valores

    " Em uma dimenso pode ser construido pela otimizao de um critrio via programao dinmica

  • Reduo de Casos

    Clustering

    " Os dados so particionados em clusters e armazena-se apenas

    a representao do mesmo

    " Pode ser muito eficaz se os dados so agrupados mas no se

    esto apenas sujos

    " Existem muitas opes de mtodos de e algoritmos de

    agrupamento

  • Reduo de Casos

    Amostragem

    " Permite que os algoritmos de minerao tratem enormes bases de dados pela reduo dos casos

    " Tipos de Amostragem:

    Amostragem aleatria simples com reposio

    Amostragem aleatria simples sem reposio

    Amostragem estratificada

    Amostragem por conglomerado

  • Reduo de Casos

    Amostragem

    Duas formas bsicas de amostragem so interessantes no contexto da minerao de dados:

    Amostragens incrementais Amostragens seguida de voto

  • Reduo de Casos

    Amostragem incremental

    O treinamento realizado em amostras aleatrias cada vez maiores de casos, observar a tendncia e parar quando no h mais progresso

    Um padro tpico de tamanhos de amostras pode ser 10%, 20%, 33%, 50%, 67% e 100%

    Critrios para passar para uma outra amostra

    O erro diminuiu? A complexidade do tratamento aumentou mais do que a queda da taxa de erro? A complexidade da soluo atual aceitvel para a interpretao?

  • Reduo de Casos

    Amostragem seguida de voto

    O mesmo mtodo de minerao aplicado para diferentes amostras de mesmo tamanho resultando em uma soluo para cada amostra

    Quando um novo caso aparece, cada soluo fornece uma resposta. A reposta final obtida por votao (classificao) ou pela mdia (regresso)

    Interesse: quando o mtodo de minerao suporta apenas N casos

  • Discretizao e Construo de Hierarquias

    Interesse: reduo do numero de valores. Muito interessante em rvores de deciso

    " Discretizao reduz o nmero de valores de um dado atributo contnuo pela diviso

    da amplitude do atributo em intervalos. Os rtulos dos intevalos substituem os valores.

    " Hierarquias Conceituais reduz os dados pela substituio de rtulos de nvel inferior (como os

    valores numricos do atributo idade) por rtulos de nvel superior (tais como jovem, meia-idade, etc)

  • Discretizao e Construo de Hierarquias

    Ferramentas

    " Alisamento

    " Histograma

    " Clustering

    " Discretizao baseada em entropia

    " Segmentao via particionamento natural

  • Discretizao e Construo de Hierarquias

    Abordagens para a discretizao de intervalos: discretizao no supervisionada discretizao supervisionada

    Discretizao no supervisionada a discretizao realizada sem levar em conta os grupos a que pertencem as instncias no conjunto de treinamento

    Discretizao supervisionada a discretizao realizada levando em conta os grupos a que pertencem as instncias no conjunto de treinamento

  • Discretizao e Construo de Hierarquias

    Partio em intervalos iguais riscos: escolher fronteiras que colocam juntas muitas instancias de diferentes classes; intervalos sem nenhuma instancia outras com muitas

    Partio por efetivos iguais riscos: escolher fronteiras que colocam juntas muitas instancias de diferentes classes

    Partio em intervalos arbitrrios

    Partio por minimizao da varincia

    Tcnicas de Discretizao no supervisionada

  • Discretizao e Construo de Hierarquias

    Discretizao divisiva (top-down) Exemplo: procura recursiva da partio binria que minimiza o ganho de entropia

    Discretizao aglomerativa (bottom-up) Exemplo: isolar cada instancia em um intervalo e em seguida fusionar intervalos segundo um critrio estatstico

    Tcnicas de Discretizao supervisionada

  • Hierarquias de conceitos para dados categricos

    " Especificao explcita de uma ordem parcial dos atributos ao nvel do esquema pelos usurios e/ou especialistas

    " Especificao de uma poro de hierarquia via agrupamento de dados

    " Especificao do conjunto de atributos, mas no da ordem parcial

    " Especificao de de um conjunto de atributos parcialmente

  • Hierarquias de conceitos para dados categricos

    Hierarquia conceitual pode ser gerada automaticamente com base no nmero de valores distintos por atributo. O atributo com o maior nmero de valores distintos colocado no nvel mais baixo da hierarquia.

    Pais

    Estado

    Cidade

    Rua

    15 valores distintos

    65 volores distintos

    3567 valores distintos

    674,339 valores distintos