Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

43
Aprendizagem Estatística de Aprendizagem Estatística de Dados Dados Francisco Carvalho

Transcript of Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Page 1: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Aprendizagem Estatística de DadosAprendizagem Estatística de Dados

Francisco Carvalho

Page 2: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Avaliação dos Classificadores• Existem poucos estudos analíticos sobre o

comportamento de algoritmos de aprendizagem.

• A análise de classificadores é fundamentalmente experimental.

• Dimensões de análise:Taxa de erroComplexidade dos modelosTempo de aprendizagem…

Page 3: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Avaliação de Algoritmos de Classificação• Dois Problemas distintos:

Dados um algoritmo e um conjunto de dados:¤ Como estimar a taxa de erro do algoritmo nesse

problema?Dados dois algoritmos e um conjunto de dados:

¤ A capacidade de generalização dos algoritmos é igual?

Page 4: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Avaliação• Qual o desempenho do modelo aprendido?

• Erro no conjunto de treinamento não é um bom indicador em relação ao que vai ser observado no futuro

• Solução simples quando os dados são abundantes

dividir os dados em treinamento e teste

• Porém: dados (com rótulo) usualmente são raros• Ex.: dados sobre falhas em sistemas elétricos nos últimos 15

anos

Page 5: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Avaliação• Confiabilidade estatística nas diferenças de

performance estimadas

• Escolha de medidas de desempenhoNúmero de classificações corretasErro em previsões numéricasetc

• Custo atribuído a deferentes tipos de erroMuitas aplicações práticas envolvem custos

Page 6: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Treinamento e teste• Medida natural de desempenho para problemas

de classificação: taxa de erroSucesso: a classe da instancia é prevista corretamenteErro: classe da instancia é prevista incorretamenteTaxa de erro: proporção dos erros em relação ao

conjunto de exemplos

• Erro de re-substituição: erro calculado a partir do conjunto de treinamento

• Erro de re-substituição é otimista!

Page 7: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Treinamento e teste• Conjunto de Teste: conjunto de exemplos

independentes que não tiveram nenhum papel na construção do classificador

Suposição: os conjuntos de treinamento e teste são amostras representativas do problema em questão

• Dados de teste e de treinamento podem ser de natureza diferente

Exemplo: classificadores construídos usando-se dados de clientes de duas cidades diferentes A e B

¤ Para estimar o desempenho do classificador da cidade A em uma nova cidade, teste-o com os dados de B

Page 8: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Ajuste de parâmetro• É importante que os dados de teste não sejam

usados de nenhuma maneira para construir o classificador

• Alguns algoritmos de aprendizagem operam em dois estágios

Estágio 1: construção da estrutura básicaEstágio 2: otimização do ajuste dos parâmetros

• Procedimento correto: usar 3 conjuntos: treinamento, validação e teste

Validação: usado para otimizar os parâmetros

Page 9: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Usar ao máximo os dados• Uma vez completada a avaliação, todos os dados

podem ser usados para construir o classificador final

• Geralmente, quanto maior o conjunto de treinamento melhor o classificador

• Quando maior o conjunto de teste mais exata a estimativa do erro

• Holdout: divisão dos dados originais em treinamento e teste

Dilema: idealmente deseja-se que ambos, o treinamento e o teste, sejam o maior possível

Page 10: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Previsão de desempenho• Suponha que a taxa de erro estimada é 25%. Quão

próxima isso está da verdadeira taxa de erro? Depende da quantidade de dados de teste

• Classificar pode ser assimilado ao lançamento de uma moeda viciada

Cara, sucesso; coroa, erro

• Em estatística, uma sucessão de eventos independentes como esse é chamado de processo de Bernoulli

A teoria estatística permite a construção de intervalos de confiança com uma certa probabilidade de conter a verdadeira taxa de erro

Page 11: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Intervalos de confiança• Pode-se dizer: com um certo nível de confiança,

um certo intervalo especificado pode conter p

• Exemplo: S=750 sucessos em N=1000 tentativasTaxa de sucesso estimada: 75%Quão próximo é isso da verdadeira taxa de sucesso?

¤ Resposta: com 95% de confiança [73.3;76.8] contém p

• Outro exemplo: S=75 e N=100Taxa de sucesso estimada: 75%com 95% de confiança [70;81] contém p

Page 12: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Média e Variância• S: número de sucessos. V.a. de tipo Binomial

• Média e variância para um v.a de tipo Binomial: p, Np(1-p)

• Taxa de sucesso f = S / N. V.a de tipo binomial

• Média e variância para f: p, p(1-p)/N

• Para N grande uma v.a. de tipo binomial pode ser aproximada por uma normal

Page 13: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Resultados da Estatística• V. a. de tipo t-Student

• Intervalo de confiança par ao nivel de confiança de (1-)

nsX

t nv

1

1)( ,2/,2/ tttP

]);/([ ,2/,2/ tXnstX

Page 14: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Resultados da Estatística• Grandes amostras

• Intervalo de confiança par ao nível de confiança de (1-)

• A v.a f tem que ser reduzida para ter média 0 e variância 1

1)( 2/2/ zZzP

)]n/s(zX);n/s(zX[ 2/2/

nsX

)1,0(NZns

Xt 1nv

Page 15: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Transformação para f• Intervalo de confiança par p ao nível de

confiança de (1-)

Nff

pNf)1(

, 1)

/)1(( 2/2/ z

Nffpf

zP

])1(

;)1(

[ 2/2/ Nff

zfN

ffzf

Page 16: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Estimação Holdout• O que fazer se os dados são limitados• O método holdout reserva uma certa quantidade

para teste e o restante para a aprendizagemusalmente, 1/3 para teste e 2/3 para treinamento

• Problema: a amostra pode não ser representativaexemplo: uma classe pode estar ausente no conjunto

de teste

• Amostragem estratificada: as classes são representadas com aproximadamente a mesma proporção tanto no teste como no treinamento

Page 17: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Holdout repetido• Estimação holdout pode ser realizada com mais

confiança repetindo-se o processo com diferentes sub-amostras

Em cada iteração, uma certa proporção é selecionada aleatoriamente para treino, com ou sem estratificação

uma taxa de erro global é calculada pela média das taxas de erro nas iterações

• Esse processo é chamado holdout repetido

• Problema: os diferentes conjuntos de teste não são mutuamente excludentes

Page 18: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Validação cruzada• Validação cruzada evita conjuntos de teste com

interseção não vaziaos dados são divididos em k conjuntos de mesmo

cardinalcada subconjunto é usado como teste e o restante

como treino

• Isso é chamado de validação cruzada k-fold• Os subconjuntos podem ser estratificados antes

de realizar a validação cruzada• A taxa de erro global é a média das taxas de erro

calculadas em cada etapa

Page 19: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Validação cruzada• Método usual: validação cruzada estratificada

10-fold

• Porque? Evidencias experimentais

• A estratificação reduz a variância da estimativa

• Melhor ainda: validação cruzada estratificada repetida

validação cruzada 10-fold repetida 10 vezes

Page 20: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Validação cruzada leave-one-out• É uma forma particular de validação cruzada

O número de folds é o número de exemploso classificador é construído n vezes

• usa os dados completamente no treino

• não envolve sub-amostras aleatórias

• computacionalmente custoso

• a estratificação não é possível

Page 21: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Bootstrap• Validação cruzada usa amostragem sem repetição• Bootstrap é um método de estimação que usa

amostragem com reposição para formar o conjunto de treinamento

Retira-se uma amostra aleatória de tamanho n de um conjunto de n exemplos com reposição

Essa amostra é usada para o treinamento os exemplos dos dados originais que não estão no conjunto de

treino são usados como teste

• É a melhor maneira quando o conjunto de dados é pequeno

Page 22: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Comparação de Classificadores• Situação freqüente: deseja-se saber entre dois

classificadores, qual o de melhor desempenho

• Atenção: isso depende do domínio

• Maneira óbvia: comparar as estimativas obtidas através de VC 10-fold (repetida ou não)

• Problema: variância das estimativas

Page 23: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Testes de hipóteses• Um teste de hipótese é um guia em relação a

confiança com que assumimos que realmente existe uma diferença de desempenho

• Hipótese nula: não há diferença

• Hipótese alternativa: há diferença

• Um teste mede a evidencia que existe em favor da rejeição da hipótese nula

Page 24: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Qual o melhor algoritmo para um problema ?• Dados dois algoritmos e um conjunto de dados, que

algoritmo utilizar? Que algoritmo tem menor erro na população ?

• Estimar o erro dos dois algoritmos Usando uma estratégia de amostragem Para cada algoritmo é estimado um erro

• São os dois erros estatisticamente diferentes ?• Exemplo

Usando 10-validação cruzada:

Page 25: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Teste de Hipóteses• Hipótese nula:

Ambos os algoritmos têm a mesma performance

• Como verificar a hipótese nula ?“paired tests” são mais apropriados.

¤ Eliminar a variabilidade devida a fatores externos¤ Ambos os algoritmos devem:

Aprender nos mesmosconjuntos de treinamento

Os modelos devem ser avaliadosnos mesmos conjuntos de teste

Teste para 2 caudas¤ X >> Y ou Y >> X

Page 26: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Student paired t-test• Para decidir se duas médias são estatisticamente

diferentes: Calcular di = xi – yi

Calcular

Escolher um nível de confiança

¤ Usual 5% ou 1%

¤ Usar a tabela da distribuição de t para calculo de z k-1 graus de liberdade

Se t > z ou t < -z então as médias são significativamente diferentes

¤ Para o nível de confiança escolhido.

k/

dt

2d

Page 27: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Exemplo

Page 28: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Amostras independentes• Em um esquema foi usado uma VC k-fold e no outro

uma VC j-fold• Deve-se usar um teste-t para amostras não pareadas com

min(k,j)-1 graus de liberdade• a estatística agora é

j

s

ks

mmt

yx

yx

22

Page 29: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Critica• A utilização de t-testes não é pacífica.

Elevada probabilidade de sugerir diferenças onde elas não existem (erro de Tipo I)

• Problemas: Na validação cruzada:

¤ Os conjuntos de treinamento não são independentes. Assume a distribuição normal

• Alguns autores sugerem: Wilcoxon matched-pairs signed-ranks test

Page 30: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Contabilizando os CustosContabilizando os Custos

Na prática, diferentes tipos de erros de classificação geralmente incorrem em diferentes custos

Exemplos:• Decisões de empréstimo• Detecção de vazamento de óleo• Diagnóstico de falha• Cartas promocionais

enviar carta p/ família q ñ responderá x ñ enviar carta p/ família q responderá

Page 31: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Levar em conta CustosLevar em conta Custos

A matriz “confusão”:

Há muitos outros tipos de custos• Custos de coleta de dados para treinamento

Predicted classYes No

Classe Yes True FalseAtual positive negative

No False Truepositive negative

Page 32: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Sensibilidade (abrangência):FNTP

TP

Especificidade:FPTN

TN

Valor de Predição Positivo (precisão):FPTP

TP

Valor de Predição Negativo:FNTN

TN

Acerto:FNFPTNTP

TNTP

Erro:FNFPTNTP

FNFP

Page 33: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

F-MeasureFNFPTP2

TP2

VPP1

S1

2F

F-Measure (bis)FNFPTN2

TN2

VPN1

E1

2F

O VPP é diretamente influenciado pela especificidade e pouco influenciado pela sensibilidade

O VPN é diretamente influenciado pela sensibilidade e pouco influenciado pela especificidade

Page 34: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Aprendizado Sensível ao CustoAprendizado Sensível ao Custo

A maioria dos esquemas de aprendizado não realizam aprendizado sensível ao custo• Eles geram o mesmo classificador não importando

qual o custo associado a diferentes classes• Exemplo: aprendizado de árvore de decisão

padrão Métodos simples para aprendizado sensível

ao custo:• Replicação de instâncias de acordo com os custos• Utilização de pesos para instâncias de acordo com

os custos

Page 35: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Avaliando Previsões NuméricasAvaliando Previsões Numéricas

Algumas estratégias: conjunto de teste independente, cross-validation, testes de significância, etc.

Diferença: medidas de erro Valores atuais: a1, a2, ..., an

Valores previstos: p1, p2, ..., pn Medida mais popular: erro quadrático médio(mean-

squared error)

• manipulação matemática fácil

n

apap nn22

11

Page 36: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Outras MedidasOutras Medidas

Raiz do erro quadrático médio:

O erro absoluto médio é menos sensível a outliers que o erro médio quadrático:

Às vezes valores de erros relativos são mais apropriados que valores absolutos• 10% corresponde a um erro de 50 quando prevendo 500• 10% corresponde a um erro de 0,2 quando prevendo 2

n

apap nn22

11

n

apap nn 11

Page 37: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Aprimoramento da MédiaAprimoramento da Média

As vezes queremos saber o quanto o esquema é aprimorado simplesmente prevendo a média

Erro quadrático relativo é (ā é a média):

Erro absoluto relativo é:

22

1

2211

n

nn

aaaa

apap

n

nn

aaaa

apap

1

11

Page 38: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

O Coeficiente de CorrelaçãoO Coeficiente de Correlação

Mede a correlação estatística entre os valores previstos e os valores atuais

Escala independente, entre –1 e +1

Boa performance leva a grandes valores

AP

PA

SS

S

1

))((

n

aappS i

ii

PA 1

)( 2

n

ppS i

i

P

1

)( 2

n

aaS i

i

A

Page 39: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Qual a melhor medida?Qual a melhor medida?

Melhor verificar todas elas Geralmente não importa Exemplo:

A B C DRaiz do erro quadrático médio 67,8 91,7 63,3 57,4Erro absoluto médio 41,3 38,5 33,4 29,2Raiz do erro quadrático relativo 42,2% 57,2% 39,4% 35,8%Erro absoluto relativo 43,1% 40,1% 34,8% 30,4%Coeficiente de correlação 0,88 0,88 0,89 0,91

Page 40: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Decomposição do Erro• O erro esperado de um classificador pode ser

decomposto em

Ruído no conjunto de dados Viés (Bias)

¤ Mede os erros sistemáticos

¤ Estimativa da capacidade de adaptação da linguagem de representação utilizada pelo algoritmo ao problema

Variância

¤ Mede a variabilidade das predições

¤ Estimativa da dependência do modelo gerado ao conjunto de treino

x

2x

2x

2x ianciavarviésE

Page 41: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

O Compromisso Bias-Variance• Aumentando o número de graus de liberdade de um

modelo: Diminuição da componente do “Bias” Aumento da variância.

• Minimizar o erro esperado requer um compromisso entre as duas componentes

Page 42: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Decomposição em “Bias-Variance”• Funções Discriminantes

Variância reduzida Viés elevado

• Arvores de decisão Variância elevada Bias reduzido

Page 43: Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Sumario• Avaliação de classificadores

Como estimar o erro do classificador num conjunto de dados?

Qual o melhor algoritmo para um problema?

• AmostragemValidação cruzadaAmostragem com reposição

• Teste de Hipóteses

• Decomposição do erro em viés e variância