A Preparação dos Dados -...
Transcript of A Preparação dos Dados -...
-
A Preparao dos Dados
-
Escolhas Bsicas
Objetos do mundo real: carros, arvores, etc
Ponto de vista da minerao: um objeto descrito por uma coleo de caractersticas sobre as quais podem ser realizadas medidas
Objetos, casos, instncias
Conceito
A entidade a ser aprendida. Alguns algoritmos de aprendizagem fornecem uma descrio de um conceito
-
Medidas
Uma varivel representa uma medida que toma um numero particular de valores, com a possibilidade de valores diferentes para cada observao.
Variveis, descritores
O que possvel medir sobre as caractersticas: meu carro azul escuro, 2 portas, 6 cilindros, 5 passageiros
-
Escalas
Escala Nominal
Nessa escala os valores so no numricos e so no ordenados. Duas instncias apresentam ou no o mesmo valor. Ex: Cor, Modelos de Carro, etc
Nessa escala os so no numricos e ordenados. Uma instncia pode apresentar um valor comparativamente maior do que uma outra. Ex: Grau de Instruo
Escala Ordinal
-
Escalas
Escala Intervalar
Nessa escala de valores numricos, existe no apenas uma ordem entre os valores, mas tambm existe diferena entre esses valores. O zero relativo. Ex: Temperatura em Graus Celsius
Nessa escala de valores numricos, alm da diferena, tem sentido calcular a proporo entre valores (o zero absoluto). Ex: Peso, Altura, etc.
Escala Proporcional
-
Cardinalidade dos atributos das variveis
Qualitativo / quantitativo
Variveis qualitativas: escalas nominais ou ordinais
Variveis quantitativas: escalas intervalares e proporcionais
-
Cardinalidade: Discreto versus Continuo
Variveis dicotmicas Ex: Sexo (M, F)
Variveis binrias
Em geral so codificadas como 0, 1
0 em geral indica ausncia de propriedade
Ex: Possui antenas? (Sim , no)
-
Cardinalidade: Discreto versus Continuo
Variveis Discretas
Qualquer varivel que possui um conjunto finito de valores distintos. Ex: Departamentos do CIn
Variveis contnuas
Podem, em principio, assumir qualquer valor dentro de um intervalo. Exemplo: Peso, altura
-
Valores ausentes e valores inaplicveis
Valores ausentes
Um valor ausente aquele ausente no conjunto de dados mas existente no contexto em que a medida foi realizada Numa base de dados eles so indicados por valores negativos ou nulos em atributos numricos. Em atributos no numricos por brancos ou traos. As vezes so indicados por uma mesma constante
-
Valores ausentes e valores inaplicveis
Um valor inaplicvel um valor ausente e inexistente no contexto em que a medida foi realizada. Ex: Sexo = Masculino e Nmero de Partos = null Sexo = Feminino e Nmero de Partos = 0
Valores inaplicveis
-
Valores ausentes e valores inaplicveis
Valores ausentes e vazios
A diferenciao entre valores ausentes e valores inaplicveis importante mais ainda no se dispe de tcnicas automticas para fazer isso. Deve-se faze-lo manualmente
Quase todas as ferramentas de modelizao dispem de tcnicas para tratar dados ausentes: ignora - los, atribuir um valor fixo aos valores ausentes ou estimar os valores ausentes partir de outras variveis
Em algumas situaes os dados ausentes so altamente informativos e ao serem tratados perde-se essa informao
-
Mudana de Escala
Ex: Idade O = [0, 150] 0-20: jovem; 20-60: adulto; >60: idoso O={jovem, adulto, idoso}
Trata-se de subdividir O em subintervalos contguos e associar a cada um deles uma modalidade
Intervalar Ordinal
Interesse Muitos modelos s se aplicam variveis de mesma escala
-
Mudana de Escala
Intervalar
Perda de informao
Ordinal
Distino entre objetos de uma mesma categoria
Amplitude da diferena entre objetos de categorias diferentes
-
Mudana de Escala
Ordinal Nominal
Basta desconsiderar a ordem entre as modalidades
Cada modalidade transformada em uma varivel binria
Codificao disjuntiva Codificao aditiva
Ordinal ou Nominal Binria
-
Mudana de Escala
Cor: 1(verde), 2(azul), 3(marrom) Idade: 1(0-20), 2(20-60), 3(> 60)
Cor Idade w 1 2 w 2 1
Verde Azul Marrom 0-20 0-60 >60 w 1 0 0 1 1 0 w 0 1 0 1 0 0
Ordinal ou Nominal Binria
-
Representao de Dados para a Minerao
Representao dos Dados
Tabelas de Dados (flat file): as colunas representam as variveis e as linhas representam as observaes
y1 y2 yp ...
i1
in
-
Os dados no mundo real esto sujos:
Necessidade do pr-processamento dos Dados
Incompletos - ausncia de atributos de interesse - apenas dados agregados - ausncia de valores
Ruidosos - erros aleatrios - valores aberrantes (outliers)
Inconsistentes - discrepncias nas codificaes ou nos nomes
Sem dados de boa qualidade o resultado da minerao pobre
-
Principais etapas na preparao de dados
Pr-processamento dos dados
Limpeza dos dados - preencher dados ausentes, alisar rudo, identificar e/ou remover - valores aberrantes, resolver inconsistncias
Integrao e transformao de Dados - integrao de mltiplas bases de dados, cubos e arquivos - Normalizao e agregao
Reduo de Dados - reduo no volume de dados com resultados similares
Discretizao e Construo de Hierarquias Conceituais - importante para dados numricos
-
Pr-processamento dos dados
-
Em que consiste a limpeza dos dados?
Limpeza dos dados
preencher dados ausentes alisar o ruido identificar valores aberrantes Identificar inconsistncias etc
-
Valores ausentes
" Dados no esto sempre disponveis Ex., muitas tuplas no tem nenhum valor gravado para vrios
atributos (renda do cliente em dados relativos a vendas
" A ausncia de dados pode ser consequncia mau funcionamento do equipamento
inconsistncia com outros dados gravados e conseqente supresso
No entrada de dados devido a enganos
determinados dados podem no ser considerados importantes no momento do registro
etc.
" Pode ser necessrio inferir os dados ausentes
-
Quais os tratamentos usuais para valores ausentes?
Valores ausentes
Ignorar a descrio do indivduo ou mesmo eliminar o descritor;
Preencher os valores ausentes manualmente; Usar uma constante global para representar os
valores ausentes (no recomendado, pois o sistema pode identificar esse valor como um conceito);
Usar a mdia (ou a moda); Usar a mdia (ou a moda) por classe Usar o valor mais provvel segundo um modelo
(regresso, regra de Bayes, rvores de deciso)
-
Rudo: erro aleatrio ou variabilidade presente em descritores
Dados com rudo e/ou valores aberrantes
Alisamento Regresso
Algumas tcnicas para a remoo de rudo
Clustering Inspeo
Algumas tcnicas para a identificao de valores aberrantes
-
Alisamento: consiste em distribuir dados ordenados em caixas tendo Como referncia os seus vizinhos
Dados com rudo e /ou valores aberrantes
Ordenao: 1, 1, 2, 3, 3, 3, 4, 5, 5, 7
Particionamento em caixas
Alisamento pela mediana
Outras alternativas: mdia, fronteiras
-
Clustering: deteo e remo de valores aberrantes - os valores so organizados em grupos; os valores isolados podem ser considerados aberrantes;
Dados com rudo e /ou valores aberrantes
-
Regresso: - os dados podem ser alisados pelo ajustamento a uma funo (regresso linear, por exemplo);
Dados com rudo e /ou valores aberrantes
x
y
y = x + 1
X1
Y1
Y1
-
Erros no momento de introduo dos dados Erros oriundos da integrao de vrias bases de dados
- mesmo atributo com diferentes codificaes; - duplicao de objetos
etc
Dados Inconsistentes
-
Integrao de dados
- Fuso de dados partir de diferentes fontes em uma nica fonte coerente. As fontes podem ser bases de dados, cubos ou arquivos texto
Transformao de Dados
- necessrio para obter os mesmos em uma forma apropriada para a minerao
Integrao e Transformao de Dados
-
Integrao de Dados
Esquema em bases de dados relacionais - identificao das mesmas entidades do mundo real a partir de mltiplas fontes de dados - Integrao dos metadados de diferentes fontes
Redundncia Dados redundantes ocorrem quando da integrao de bases de dados
- Diferentes nomes para um mesmo atributo; - Um atributo pode ser derivado diretamente de outro;
Anlise de correlao: instrumento para a deteco de redundncias Duplicao de objetos;
-
Integrao de Dados
Deteco e resoluo de conflitos
Os valores de um mesmo atributo pode diferir segundo as diversas fontes Isso pode acontecer devido a diferenas na representao, Escala ou codificao Peso (em libras ou em quilos) Altura (valor numrico ou categrico (mdio, pequeno...) Preo (pode indicar servios diferentes)
-
Transformao de dados
Alisamento
sumrios dos dados (soma, etc) quando da construo de cubos para OLAP
Objetivo: obter os dados em uma forma mais apropriada para a minerao
Agregao:
Generalizao
Dados primitivos so substitudos por conceitos de ordem superior via uma hierarquia de conceitos.
Ex. valores do atributo numrico idade so mapeados em jovem, meia-idade, etc.
Construo de novos atributos
-
Transformao de dados
Normalizao
A propsito da normalizao minimizar os problemas oriundos do uso de unidades e disperses distintas entre as variveis
Algumas ferramentas de modelizao so beneficiadas com a Normalizao (redes neurais, KNN, clustering)
As variveis podem ser normalizadas segundo a amplitude ou segundo a distribuio
-
Transformao de dados
Justificativa: unidades diferentes ou disperses muito heterogneas
Normalizao segundo a amplitude
-
Transformao de dados
Normalizao distribucional
A normalizao distribucional interessante em vrias situaes: remoo de distores de valores aberrantes, obteno de simetria etc.
As transformaes mais comuns so:
A mais suave a raiz e a mais forte a inversa negativa
-
Reduo de Dados
Outras vantagens da reduo de dados:
reduo do tempo de aprendizagem interpretao mais fcil dos conceitos aprendidos
Razes para a reduo de dados:
ultrapassagem da capacidade de processamento dos programas de aprendizagem tempo muito longo para obter uma soluo
Reduo de dados:
Obtem uma respresentao reduzida da srie de dados de que muito menor no volume mas contudo produz os mesmos (ou quase os mesmos) resultados analticos
-
Reduo de Dados
Estratgias para a reduo de dados
Agregao via cubo Reduo de dimenso Compresso de dados Reduo de casos Discretizao e construo de hierarquias conceituais
-
Reduo de Dados
Em data mining a supresso de uma coluna (atributo) muito mais Delicada do que a supresso de uma linha (observao) Retirar atributos relevantes ou permanecer com atributos irrelevantes Pode implicar na descoberta de padres de baixa qualidade
Uma abordagem para a seleo a manual, baseada em conhecimento especialista
Da a necessidade de um estgio de seleo de atributos
Reduo de dimenso
-
Reduo de Dados
Algumas abordagens automticas de seleo de variveis
Seleo do menor conjunto de atributos
Selecionar o menor conjunto de atributos suficiente para dividir o espao das instancias de tal maneira que a distribuio das classes no novo espao to prxima quanto possvel daquela do espao original
Problemas: busca exaustiva e overfitting
Algoritmo de construo de rvores de deciso
Aplicar esse algoritmo nos dados completos e ento selecionar apenas as variveis presentes na rvore de deciso
-
Reduo de Dados
Conjunto inicial de atributos: {A1, A2, A3, A4, A5, A6}
A4 ?
A1? A6?
Class 1 Class 2 Class 1 Class 2
> Conjunto reduzido de atributos: {A1, A4, A6}
-
Reduo de Dados
Seleo por busca no espao de atributos
Existem 2d possveis sub-conjuntos de a partir de d atributos Vrias heursticas para a seleo de variveis
seleo forward: a busca iniciada sem atributos e os mesmos so adicionados um a um. Cada atributo adicionado isoladamente e o conjunto resultante avaliado segundo um critrio. O atributo que produz o melhor critrio incorporado
eliminao backward: a busca iniciada com o conjunto completo de atributos e os mesmos so suprimidos um de cada vez. Cada atributo suprimido isoladamente e o conjunto resultante avaliado segundo um critrio. O atributo que produz o melhor critrio finalmente suprimido combinao da seleo forward com a eliminao backward
-
Compresso de Dados
Essas tcnicas comprimem os dados originais
Dados originais Dados
Comprimidos Sem perda
Aproximao dos dados originais
-
Compresso de Dados
Extrao de Variveis
Objetivo: obter novas variveis partir dos atributos iniciais. Em geral as novas variveis so combinaes lineares das variveis iniciais
Limitaes: modelo linear (no adequado especialmente para para os mtodos de data mining baseados em lgica)
Essas tcnicas so teis tambm para tratar a redundncia de informaes (correlao entre variveis) e rudo
As tcnicas de reduo de dimenses se propem a reduzir o nmero de variveis com a menor perda possvel de informaes
-
Compresso de Dados
Extrao de Variveis
Mtodos no supervisionados: Anlise de Componentes Principais (variveis quantitativas) Anlise de Correspondncias (variveis qualitativas)
A primeira componente a combinao linear das variveis iniciais de maior varincia (maximiza a separao entre os indivduos). A segunda componente ortogonal a primeira (correlao nula), tambm combinao linear das variveis iniciais e apresenta a segunda maior varincia. E assim por diante.
Famlias de Mtodos Mtodos no supervisionados Mtodos supervisionados
-
Compresso de Dados
Extrao de Variveis
X1
X2
Y1 Y2
-
Compresso de Dados
Extrao de Variveis
Mtodos supervisionados
Anlise Fatorial Discriminante
A primeira componente a combinao linear das variveis iniciais que melhor separa os grupos entre si, isto , ela toma valores os mais prximos possveis para os indivduos de um mesmo grupo e os mais diferentes para indivduos de grupos distintos. A segunda componente a combinao linear das variveis iniciais ortogonal a primeira (correlao nula) que melhor separa os grupos entre si. E assim por diante.
-
Reduo de Casos
Reduo do volume de dados via representao econmica dos mesmos
" Mtodos paramtricos Supe que os dados ajustam um modelo, estimam os
parmetros do modelo, armazena apenas os parmetros e descarrega os dados (exceto os aberrantes)
Principais modelos: regresso (simples e multipla) e modelo log-linear
" Mtodos no paramtricos No assume modelos Famlias principais: histogramas, clustering, amostragem
-
Reduo de Casos
Regresso e modelos log-linear
" Regresso linear: os dados so modelados para se ajustarem a uma linha reta Em geral usa o mtodo dos quadrados mnimos para ajustar a linha
" Regresso mltipla: permite que uma varivel resposta seja
modelada como uma funo linear de um vetor de atributos " Modelo Log-linear : aproxima distribuies de probabilidade
discretas multidimensionais
-
Reduo de Casos
Histogramas
" Particiona os dados em caixas e armazena a frequencia mdia dos valores
" Em uma dimenso pode ser construido pela otimizao de um critrio via programao dinmica
-
Reduo de Casos
Clustering
" Os dados so particionados em clusters e armazena-se apenas
a representao do mesmo
" Pode ser muito eficaz se os dados so agrupados mas no se
esto apenas sujos
" Existem muitas opes de mtodos de e algoritmos de
agrupamento
-
Reduo de Casos
Amostragem
" Permite que os algoritmos de minerao tratem enormes bases de dados pela reduo dos casos
" Tipos de Amostragem:
Amostragem aleatria simples com reposio
Amostragem aleatria simples sem reposio
Amostragem estratificada
Amostragem por conglomerado
-
Reduo de Casos
Amostragem
Duas formas bsicas de amostragem so interessantes no contexto da minerao de dados:
Amostragens incrementais Amostragens seguida de voto
-
Reduo de Casos
Amostragem incremental
O treinamento realizado em amostras aleatrias cada vez maiores de casos, observar a tendncia e parar quando no h mais progresso
Um padro tpico de tamanhos de amostras pode ser 10%, 20%, 33%, 50%, 67% e 100%
Critrios para passar para uma outra amostra
O erro diminuiu? A complexidade do tratamento aumentou mais do que a queda da taxa de erro? A complexidade da soluo atual aceitvel para a interpretao?
-
Reduo de Casos
Amostragem seguida de voto
O mesmo mtodo de minerao aplicado para diferentes amostras de mesmo tamanho resultando em uma soluo para cada amostra
Quando um novo caso aparece, cada soluo fornece uma resposta. A reposta final obtida por votao (classificao) ou pela mdia (regresso)
Interesse: quando o mtodo de minerao suporta apenas N casos
-
Discretizao e Construo de Hierarquias
Interesse: reduo do numero de valores. Muito interessante em rvores de deciso
" Discretizao reduz o nmero de valores de um dado atributo contnuo pela diviso
da amplitude do atributo em intervalos. Os rtulos dos intevalos substituem os valores.
" Hierarquias Conceituais reduz os dados pela substituio de rtulos de nvel inferior (como os
valores numricos do atributo idade) por rtulos de nvel superior (tais como jovem, meia-idade, etc)
-
Discretizao e Construo de Hierarquias
Ferramentas
" Alisamento
" Histograma
" Clustering
" Discretizao baseada em entropia
" Segmentao via particionamento natural
-
Discretizao e Construo de Hierarquias
Abordagens para a discretizao de intervalos: discretizao no supervisionada discretizao supervisionada
Discretizao no supervisionada a discretizao realizada sem levar em conta os grupos a que pertencem as instncias no conjunto de treinamento
Discretizao supervisionada a discretizao realizada levando em conta os grupos a que pertencem as instncias no conjunto de treinamento
-
Discretizao e Construo de Hierarquias
Partio em intervalos iguais riscos: escolher fronteiras que colocam juntas muitas instancias de diferentes classes; intervalos sem nenhuma instancia outras com muitas
Partio por efetivos iguais riscos: escolher fronteiras que colocam juntas muitas instancias de diferentes classes
Partio em intervalos arbitrrios
Partio por minimizao da varincia
Tcnicas de Discretizao no supervisionada
-
Discretizao e Construo de Hierarquias
Discretizao divisiva (top-down) Exemplo: procura recursiva da partio binria que minimiza o ganho de entropia
Discretizao aglomerativa (bottom-up) Exemplo: isolar cada instancia em um intervalo e em seguida fusionar intervalos segundo um critrio estatstico
Tcnicas de Discretizao supervisionada
-
Hierarquias de conceitos para dados categricos
" Especificao explcita de uma ordem parcial dos atributos ao nvel do esquema pelos usurios e/ou especialistas
" Especificao de uma poro de hierarquia via agrupamento de dados
" Especificao do conjunto de atributos, mas no da ordem parcial
" Especificao de de um conjunto de atributos parcialmente
-
Hierarquias de conceitos para dados categricos
Hierarquia conceitual pode ser gerada automaticamente com base no nmero de valores distintos por atributo. O atributo com o maior nmero de valores distintos colocado no nvel mais baixo da hierarquia.
Pais
Estado
Cidade
Rua
15 valores distintos
65 volores distintos
3567 valores distintos
674,339 valores distintos