SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos...

28
SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa de Pós-Graduação em Engenharia Elétrica PPGEE0138 – MINERAÇÃO DE DADOS G3: Arilson Galdino da Silva, Daniel Martins, Marcio Nirlando, Lino Cesar. 12/09/2014 1 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes 2º Semestre de 2014 Prof. Dr. Ádamo Santana

Transcript of SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos...

Page 1: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

1

SEMINÁRIO – (Primeira avaliação)

Mecanismos de Valores Ausentes.

Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes

PPGEE – Programa de Pós-Graduação em Engenharia ElétricaPPGEE0138 – MINERAÇÃO DE DADOS

G3: Arilson Galdino da Silva, Daniel Martins, Marcio Nirlando, Lino Cesar.

12/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

2º Semestre de 2014Prof. Dr. Ádamo Santana

Page 2: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

2

Valores ausentesO que fazer com valores ausentes:

1. Omitir as amostras com valores ausentes?2. Substituir os “ausentes” por um valor possível?3. Procurar significado no fato de que um valor

estar ausente?

Os mineradores tratam valores ausentes mas cada um pode aplicar soluções diferentes resultados diferentes.

12/09/2014

Prob

lem

ática

Page 3: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

312/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

Exemplo da representação de dados ausentes no WEKA (modo “edit”)

(O arquivo .raff usa “?”)Algumas re

presentações:

NaN , -1 , ?

, “ “

, NA

Padrões ou Tipos Característicos de Ausência

1. MCAR – Missing Completely At Random: a ausência de dados é completamente aleatória. A observação dos dados ausentes não sugere nenhum método de tentativa de recuperação. MCAR significa que o mecanismo que produz o dado ausente não está relacionado com qualquer variável na análise.

2. MAR – Missing At Random: Os valores ausentes dependem de algumas variáveis na análise mas, para aquelas variáveis, não têm nenhuma relação com os dados observados para aquele atributo.

3. NMAR – Not Missing At Random. NMAR significa que a ausência de dados depende, de fato, dos valores observados.

Prob

lem

ática

Page 4: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

4

Soluções simples (que nem sempre funcionam) [Stef Van Buuren] 1 - Listwise deletion. 2 – Pairwise deletion.3 – Mean imputation. 4 - Regression imputation.5 – Stochastic regression imputation 6 - LOCF BOCF.

1. ELIMINAÇÃO PELA LISTA (Listwise Deletion) - Modo default de manipulação de dados incompletos em muitos pacotes estatísticos incluindo SPSS, SAS, STATA e S-PLUS e R. Remove todas amostras que contenham dados ausentes.• Vantagem – Conveniência. Para dados do tipo MCAR, este modo

costuma produzir erros e significados incorretos para o subconjunto de dados restantes da eliminação.

• Desvantagem – É um desperdício em potencial degradando a habilidade de se encontrar efeitos de interesse. Para dados diferentes de MCAR, pode polarizar severamente a estimativa de média e os coeficientes de regressão e correlação.

12/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

MCA

R

Anál

ise

de d

ados

Disc

reto

s / co

ntún

uos

Page 5: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

5

Soluções simples (que nem sempre funcionam) [Stef Van Buuren]

2. ELIMINAÇÃO POR PARES (Pairwise Deletion)- São eliminadas apenas as amostras relacionadas a cada par de atributos onde ambos estejam com dados ausentes. • Vantagem – Conveniência. Para dados do tipo MCAR, este modo

costuma produzir erros e significados incorretos para o subconjunto de dados restantes da eliminação.

• Desvantagem – É um desperdício em potencial degradando a habilidade de se encontrar efeitos de interesse. Para dados diferentes de MCAR, pode polarizar severamente a estimativa de média e os coeficientes de regressão e correlação.

12/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

MCA

R

Anál

ise

de d

ados

Disc

reto

s / co

ntún

uos

Page 6: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

6

Soluções (que nem sempre funcionam) [Stef Van Buuren]

3. SUBSTITUIÇÃO PELA MÉDIA/MODA (Mean imputation) - Uma maneira razoável de substituir dados omitidos é substituí-los pelo valor médio para valores numéricos ou pela moda ou o valor mais frequente, para valores simbólicos.• Desvantagens - Distorce a distribuição deslocando a média e

correlação. Pode subestimar penosamente a variância e perturbar as relações entre as variáveis.

• Vantagens – Fácil de implementar.

Só é recomendável seu uso se o número de dados ausentes é pequeno e para ajustes iniciais da BD.

12/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

Anál

ise

de d

ados

Disc

reto

s / co

ntún

uos

Page 7: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

7

Soluções (que nem sempre funcionam) [Stef Van Buuren]

4. SUBSTITUIÇÃO PELA REGRESSÃO (Regression Imputation – Incorpora conhecimento de outros atributos de forma a produzir substituições mais inteligentes.

12/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

Como fica a distribuição da frequência da ocorrência do ozônio com valores ausentes.

Substituição pela média Substituição pela regressão

Anál

ise

de d

ados

Disc

reto

s / co

ntún

uos

Page 8: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

8

Soluções (que nem sempre funcionam) [Stef Van Buuren]

5. SUBSTITUIÇÃO PELA REGRESSÃO ESTOCÁSTICA (Stochastic Regression Imputation) – É um refinamento da substituição por valores obtidos pela regressão, onde ruído é adicionado às predições.

Um exemplo da distribuição de frequência das amostras é mostrado abaixo:

12/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

Anál

ise

de d

ados

Disc

reto

s / co

ntún

uos

Page 9: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

9

Soluções (usadas por laboratórios de análises clínicas) [Buuren]

6. SUBSTITUIÇÃO PELO ÚLTIMO VALOR OBSERVADO - LOCF (Last Observation Carried Forward) – A idéia é substituir o valor ausente pelo último não ausente.Vantagem: Aproveita todo o data-set (usado pelo FDA).

Desvantagem: Provoca polarização nos dois sentidos, à esquerda e à direita do valor padrão ou médio.

12/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

[Stef Van Buuren]

SUBSTITUIÇÃO PELA LINHA BASE - BOCF (Baseline Observation Carried Forward) : substituição pelo valor mais razoável.

Anál

ise

de d

ados

Disc

reto

s / co

ntún

uos

Page 10: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

10

SOFTWARE ESPECÍFICO PARA TRATAMENTO DE AUSÊNCIA DE DADOS

STATA - Data Analysis And Statistical Software. http://www.stata.com/why-use-stata/ ($295)

SPSS – Software de Análise de Predição.

MVA - Módulo MVA (missing value analysis) do SPSS – http://www-01.ibm.com/software/analytics/spss/products/statistics/

Quick-R - Parte do software de mineração R. http://www.statmethods.net/input/missingdata.html

SOLAS – é um software específico para trabalho com dados incompletos ou ausentes. (nQuery Advisor - 7-day Free Trial) – Acadêmico $695.00 http://www.statsols.com/products/solas-for-missing-data/12/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

Ferr

amen

tas

Page 11: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

1112/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

SOFTWARES PARA TRATAMENTO DE AUSÊNCIA DE DADOS R Data Miner – Usamos a biblioteca Amelia.

Orange – Orange Canvas Version 2.7.3 – Encontrado em: http://orange.biolab.si/download/

Oracle – http://www.oracle.com/index.html

Rapid-Miner – http://rapidminer.com/

Ferr

amen

tas

Page 12: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

1212/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

Exem

plo

de A

plic

ação

# Leitura do dataset com dados ausentesa <- "C:\\Users\\Daniel\\Dropbox\\UFPA\\PPGEE0138 - Mineracao de Dados\\MISSING_DATA\\R-DataMiner\\FREETRADE\\freetrade.csv"freetrade <- read.csv(a,sep=";",dec=".")# Carrega a biblioteca Amelia (se for o caso)require(Amelia)# Apresenta a variável freetradedata(freetrade)# Solicita um resumo da base carregadasummary(freetrade)# Apresenta um resumo para o tratamento listwise deletion summary(lm(tariff ~ polity + pop + gdp_pc + year + country,data = freetrade))# Realiza uma imputacao multipla na base freetrade a.out <- amelia(freetrade, m = 5, ts = "year", cs = "country")# lista a variavel de saida das imputacoesa.out# Plota histograma da terceira imputacaohist(a.out$imputations[[3]]$tariff, col="grey", border="white")# Salvando os datasets com dados imputados em um arquivo Rsave(a.out, file = "imputations.RData")# Salvando os datasets em arquivo próprio (no caso 5 arquivos outdataX.csv serão criados)write.amelia(obj=a.out, file.stem = "outdata")

EXEMPLO DO USO DA BIBLIOTECA Amelia PARA MÚLTIPLA IMPUTAÇÃO

Scrip

t par

a Im

puta

ção

Honaker / King / Blackwellhttp://www.jstatsoft.org/v45/i07/

Page 13: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

1312/09/2014

Arquivo original Resultado da primeira imputação

Valor da primeira amostra da variável tariff para cada uma das 5 imputações Expectation-Maximization - EM Algorithm

Fonte: wikipedia

Page 14: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

1412/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

Exem

plo

de A

plic

ação

Page 15: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

1512/09/2014

Exem

plo

de A

plic

ação

Page 16: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

1612/09/2014

IMPUTAÇÃO USANDO A MÉDIA

IMPUTAÇÃO USANDO A MODELO

IMPUTAÇÃO USANDO VALORES ALEATÓRIOS

REMOÇÃO DE DADOS AUSENTES

Page 17: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

1712/09/2014

ORIGINAL IMPUTADO COM MÉDIA IMPUTADO COM MODELO

IMPUTAÇÃO ALEATÓRIA REMOÇÃO DADOS AUSENTES

Page 18: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

Oracle Data Miner Classic

Oracle database 11g r1 ou superiorOracle Sql developerPlataforma: WindowsImportação de dados via: .csv, .txt, .tab, .xlsImputação pela: moda, média, mínimo,

máximo, k-means, regressão e classificação.

Page 19: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

Oracle Data Miner Classic

Importação de dados:

12

3

Page 20: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

Oracle Data Miner Classic

Importação de dados:

12

3

Page 21: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

Oracle Data Miner Classic

Page 22: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

Oracle Data Miner Classic

Page 23: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

Oracle Data Miner ClassicTRATAMENTO

Page 24: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

Oracle Data Miner ClassicIMPUTAÇÃO

Page 25: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

2512/09/2014

Page 26: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

2612/09/2014

Page 27: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

2712/09/2014

Page 28: SEMINÁRIO – (Primeira avaliação) Mecanismos de Valores Ausentes. Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes PPGEE – Programa.

2812/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes

BIBLIOGRAFIA

1. SAGE Publications - "Dealing With Missing Data", Encontrado em: http://www.sagepub.com/upm-data/45664_6.pd.

2. Idre - Institute of Digital Research And Education - "SPSS Learning Module Missing data“. Encontrado em: http://www.ats.ucla.edu/stat/spss/modules/missing.htm.

3. Melissa Humphries - Population Research Center - "Missing Data & How to Deal: An overview of missing data“. Encontrado em: Https://www.utexas.edu/cola/centers/prc/_files/cs/Missing-Data.

4. Joop J. Hox - "A Review of Current Software for Handling Missing Data". Kwantitatieve Methoden (1999). Encontrado em: http://joophox.net/publist/misrevkm.pdf

5. Stef van Buuren - "Flexible Imputation of Missing Data". ISBN-13: 978-1439868249. (Conseguimos uma leitura parcial pelo google academic).

6. SOLAS Version 4.0 – Missing Data, Encontrado em: http://www.statsols.com/wp-content/uploads/2013/12/Solas-4-Manual1.pdf

7. Orange Canvas Version 2.7.3 – Encontrado em: http://orange.biolab.si/download/

Obrigado.