Técnicas de Pre-processamento Baseadas no livro de Pyle e no livro de J. Han (cap 3)

Técnicas de Pre-processamento

Baseadas no livro de Pyle e no livro de J. Han (cap 3)

Por que o Pre-processamento Dados são problemáticos:

Incompletos: faltam valores, faltam certos atributos de interesse, ou contém dados agregados

Ruídos: contém erros ou outliers Inconsistente: contém discrepâncias em códigos ou

nomes Sem qualidade dos dados – não há resultados

Decisoes de qualidade devem ser baseadas em dados de qualidade

DW precisa de integração consistente de dados de qualidade

Tarefas principais de pre-processamento de dados

Limpeza de dadosPreencher valores nulos, tratar ruídos, identificar ou

remover outliers e resolver inconsistências Integração de Dados Transformação de dados

normalização e agregação Redução de dados Discretização dos dados

Redução de dados com uma particular importância para dados numéricos

Formas de pre-processamento

Limpeza de dados Tarefas de limpeza de dados

Preencher valores ausentes Suavizar o ruído Identificar valores outliers Identificar inconsistências

Valores ausentes Dados não estão disponíveis A ausência de dados pode ser

conseqüência de: Mau funcionamento do equipamento Não entrada de dados Inconsistência com outros dados registrados e

assim o dado torna-se ausente Certos dados não são considerados importantes Engano na entrada de dados

Como lidar com valores ausentes

Ignorar a tupla Preencher os valores ausentes manualmente

(tedioso) Usar uma constante global para representar o

valor ausente. Ex. “desconhecido” – uma nova classe

Usar a média Usar a média por classe Usar o valor mais provável baseada por

inferência (fórmula bayesiana ou árvore de decisão)

Dados com ruídos Ruído: erro aleatório Valores incorretos devido a:

Problemas com instrumentos de entrada de dados Problemas de transmissão de dados Limitação tecnológica Não segui o mesmo padrão

Problemas de dados que requerem limpeza de dados Registros duplicados Dados incompletos Dados inconsistentes

Como manusear dados com ruídos 1/4 Método binning para suavizar os dados

É a distribuição dos dados ordenados em caixas tendo como referencia os seus vizinhos

Ordenação: 1 1 2 3 3 3 4 5 5 7Particionamento em caixas 112 333 4557Suavizar pela mediana111 333 5555

Como manusear dados com ruídos 2/4

Ordernar dados: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34

Particionar em caixas (bins): - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34Suavizar pela mediana - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29Suavizar pela fronteira - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34

Como manusear dados com ruídos 3/4 Clusterização: detecção e remoção de

valores outliers Os valores são organizados em grupos.

Valores isolados são considerados outliers

Como manusear dados com ruídos 4/4

Regressão: os dados podem ser suavizados pelo ajustamento a uma função (p.ex. regressão linear)

x

y = x + 1

X1

Y1

Y1’

Integração de Dados É a fusão de dados a partir de diferentes fontes

em uma única fonte consistente Integração de Esquema

Integrar metadados de diferentes fontes Problema de identificação das entidades

Detectando e resolvendo conflitos de valores de dados Para a mesma entidade valores de atributos de

diferentes fontes são diferentes Razoes: representações diferentes, escalas

diferentes, ex. temperatura em C ou F / Peso(libras ou em quilos)/ altura (valor numérico ou categórico)

Lidando com dados redundantes na integração de dados Dados redundantes aparecem quando há

integração de multiplos BDs O mesmo atributo deve ter diferentes nomes Um atributo pode ser um atributo derivado em

outra tabela Dados redundantes são detectados por

analise correlacional Integração cuidadosa de dados a partir das

fontes múltiplas ajudam a reduzir / evitar inconsistencias e melhorar a qualidade e velocidade da mineração

Transformação de Dados 1/2 Objetivo: obter os dados em uma forma

mais apropriada para a mineração Suavizar – remover ruído dos dados Agregação: sumários de dados (soma,

etc) quando construir cubos de dados Generalização: dados primitivos são

substituídos por conceitos de ordem superior via uma hierarquia de conceitos. Ex. valores do atributo idade mapeados para jovem, meia-idade

Transformação de Dados 2/2 Construção de novos atributos Normalização – minimizar os

problemas relacionados ao de unidades e dispersões distintas entre as variáveis

As variáveis podem ser normalizadas segundo a amplitude ou segundo a distribuição

Transformação dos dados: Normalização 1/2 Normalização segundo a amplitude

Unidades diferentes ou dispersões muito heterogêneas

Normalização min-max

AAA

AA

A

minnewminnewmaxnewminmax

minvv _)__('

Transformação dos dados: Normalização 2/2 Normalização segundo a distribuição Interessante em situações como:

remoção de distorções de valores outliers, obtenção de simetria, etc.

x

)xlog(x1

Redução de Dados Razoes: obter uma representação

reduzida dos dados muito menor que produz o mesmo resultado analítico

Vantagens: Redução do tempo de aprendizagem Interpretação mais fácil dos conceitos

aprendidos

Redução de Dados Estratégias para a redução de dados

Agregação via cubo Redução de dimensão Compressão de dados Discretização

Redução de Dados - dimensão• Em data mining a supressão de uma coluna (atributo)

é muito mais delicada do que a supressão de uma linha (observação)

• Retirar atributos relevantes ou permanecer com atributos irrelevantes pode implicar na descoberta de padrões de baixa qualidade

• Necessidade de um estágio de seleção de atributos• Uma abordagem para a seleção é a manual, baseada

em conhecimento especialista

Redução de Dados - dimensão

• Algumas abordagens automáticas de seleção de variáveisseleção do menor conjunto de atributos• Selecionar o menor conjunto de atributos suficiente para dividir o

espaço as instancias de tal maneira que a distribuição das classes no novo espaço é tão próxima quanto possível daquela do espaço original

• Problemas: busca exaustiva e overfitting• Algoritmo de construção de árvores de decisão• Aplicar esse algoritmo nos dados completos e então

selecionar apenas as variáveis presentes na árvore de decisão

Conjunto inicial de atributos:{A1, A2, A3, A4, A5, A6}

A4 ?

A1? A6?

Class 1 Class 2 Class 1 Class 2

> Conjunto reduzido de atributos: {A1, A4, A6}

Redução de dados – uso de árvores de decisão

Altura = 1,70

maiormenor

homemmulherhomemmulher

Redução de DadosSeleção por busca no espaço de atributos

•Existem 2d possíveis sub-conjuntos de a partir de d atributos•Várias heurísticas para a seleção de variáveis•Seleção forward: a busca é iniciada sem atributos e os mesmos são adicionados um. Cada atributo é adicionado isoladamente e o conjunto resultante é avaliado segundo um critério. O atributo que produz o melhor critério é incorporado.

•Eliminação backward: a busca é iniciada com o conjunto completo de atributos e os mesmos são suprimidos um de cada vez. Cada atributo é suprimido isoladamente e o conjunto resultante é avaliado segundo um critério. O atributo que produz o melhor critério é finalmente suprimido

•Combinação da seleção forward com a eliminação backward

Compressão de Dados

Essas técnicas comprimem os dados originais

Dados originaisDados

Comprimidos

Sem perda

Aproximação dosdados originais

Com perda


Extração de Variáveis

Objetivo:obter novas variáveis à partir dos atributos iniciais. Em geral as novas variáveis sãocombinações lineares das variáveis iniciais Limitações: modelo linear (não adequado especialmente para para os métodos de data mining baseados em lógica)

Essas técnicas são úteis também para tratar a redundância de informações(correlação entre variáveis) e ruído

As técnicas de redução de dimensões se propõem a reduzir o númerode variáveis com a menor perda possível de informações



Métodos não supervisionados:Análise de Componentes Principais (variáveis quantitativas)Análise de Correspondências (variáveis qualitativas)

A primeira componente é a combinação linear das variáveis iniciais de maior variância (maximiza a separação entre os indivíduos). A segunda componente é ortogonal a primeira (correlação nula), é também combinação linear das variáveis iniciais e apresenta a segunda maior variância. E assim por diante.

Famílias de MétodosMétodos não supervisionadosMétodos supervisionados



X1

X2

Y1Y2



Métodos supervisionados

Análise Fatorial Discriminante

A primeira componente é a combinação linear das variáveis iniciais que melhorsepara os grupos entre si, isto é, ela toma valores os mais próximos possíveispara os indivíduos de um mesmo grupo e os mais diferentes para indivíduos degrupos distintos.A segunda componente é a combinação linear das variáveisiniciais ortogonal a primeira (correlação nula) que melhor separa os gruposentre si. E assim por diante.

Redução de Casos

Redução do volume de dados via representação econômica dos mesmos Métodos paramétricos

Supõe que os dados ajustam um modelo, estimam os parâmetros do modelo, armazena apenas os parâmetros e descarrega os dados (exceto os aberrantes)

Principais modelos: regressão (simples e multipla) e modelo log-linear

Métodos não paramétricos Não assume modelos Famílias principais: histogramas, clustering,

amostragem

Redução de Casos

Regressão e modelos log-linear

Regressão linear: os dados são modelados para se ajustarem a uma linha reta

Em geral usa o método dos quadrados mínimos para ajustar a linha

Regressão múltipla: permite que uma variável resposta seja modelada como uma função linear de um vetor de atributos

Modelo Log-linear : aproxima distribuições de probabilidade discretas multidimensionais

Redução de Casos

Histogramas

Particiona os dados em caixas e armazena a frequencia média dos valores

Em uma dimensão pode ser construido pela otimização de um critério via programação dinâmica 0

5

10

15

20

25

30

35

40

10000 30000 50000 70000 90000

Redução de Casos

Clustering

Os dados são particionados em clusters e

armazena-se apenas a representação do mesmo

Pode ser muito eficaz se os dados são agrupados

mas não se estão apenas sujos

Existem muitas opções de métodos de e

algoritmos de agrupamento

Redução de Casos

Amostragem

Permite que os algoritmos de mineração tratem enormes bases de dados pela redução dos casos

Tipos de Amostragem: Amostragem aleatória simples com reposição

Amostragem aleatória simples sem reposição

Amostragem estratificada

Amostragem por conglomerado

Redução de Casos

Amostragem

Duas formas básicas de amostragem são interessantes nocontexto da mineração de dados:

Amostragens incrementais

Amostragens seguida de voto

Redução de Casos

Amostragem incremental

O treinamento é realizado em amostras aleatórias cada vez maiores decasos, observar a tendência e parar quando não há mais progresso

Um padrão típico de tamanhos de amostras pode ser 10%, 20%, 33%, 50%, 67% e100%

Critérios para passar para uma outra amostra

O erro diminuiu?A complexidade do tratamento aumentou mais do que a queda da taxa de erro?A complexidade da solução atual é aceitável para a interpretação?

Redução de Casos

Amostragem seguida de voto

O mesmo método de mineração é aplicado para diferentes amostrasde mesmo tamanho resultando em uma solução para cada amostra

Quando um novo caso aparece, cada solução fornece uma resposta.

A reposta final é obtida por votação (classificação) ou pela média(regressão)

Interesse: quando o método de mineração suporta apenas N casos

Discretização e Construção de Hierarquias

Interesse: redução do numero de valores.Muito interessante em árvores de decisão

Discretização reduz o número de valores de um dado atributo contínuo

pela divisão da amplitude do atributo em intervalos. Os rótulos dos intevalos substituem os valores.

Hierarquias Conceituais reduz os dados pela substituição de rótulos de nível

inferior (como os valores numéricos do atributo idade) por rótulos de nível superior (tais como jovem, meia-idade, etc)


Ferramentas

Alisamento

Histograma

Clustering

Discretização baseada em entropia

Segmentação via particionamento “natural”


Abordagens para a discretização de intervalos:

discretização não supervisionadadiscretização supervisionada

Discretização não supervisionada

a discretização é realizada sem levar em conta os grupos a que pertencem as instâncias no conjunto de treinamento

Discretização supervisionada

a discretização é realizada levando em conta os grupos a que pertencem asinstâncias no conjunto de treinamento


•Partição em intervalos iguaisriscos: escolher fronteiras que colocam juntas muitas instancias de diferentesclasses; intervalos sem nenhuma instancia outras com muitas

•Partição por efetivos iguaisriscos: escolher fronteiras que colocam juntas muitas instancias de diferentesclasses

•Partição em intervalos arbitrários

•Partição por minimização da variância

Técnicas de Discretização não supervisionada


•Discretização divisiva (top-down)

Exemplo: procura recursiva da partição binária que minimizao ganho de entropia

•Discretização aglomerativa (bottom-up)

Exemplo: isolar cada instancia em um intervalo e em seguidafusionar intervalos segundo um critério estatístico

Técnicas de Discretização supervisionada

Hierarquias de conceitos para dados categóricos

Especificação explícita de uma ordem parcial dos atributos ao nível do esquema pelos usuários e/ou especialistas

Especificação de uma porção de hierarquia via agrupamento

de dados

Especificação do conjunto de atributos, mas não da ordem

parcial

Especificação de um conjunto de atributos parcialmente

Hierarquias de conceitos para dados categóricos

Hierarquia conceitual pode ser gerada automaticamente com base no número de valores distintos por atributo. O atributo com o maior número de valores distintos é colocado no nível mais baixo da hierarquia.

Pais

Estado

Cidade

Rua

15 valores distintos

65 volores distintos

3567 valores distintos

674,339 valores distintos

Resumo Preparação de dados é uma grande tarefa

para warehousing e mineração Preparação de dados incluem

Limpeza de dados e integração de dados Redução de dados e seleção de características Discretização

Muitos métodos estão sendo desenvolvidos mas ainda é uma área bastante ativa

Técnicas de Pre-processamento Baseadas no livro de Pyle e no livro de J. Han (cap 3)

Documents

Transcript of Técnicas de Pre-processamento Baseadas no livro de Pyle e no livro de J. Han (cap 3)