Noções de Inferência Estatística

Post on 30-Dec-2015

57 views 0 download

description

Noções de Inferência Estatística. AULA 21 – Parte I Data Mining Sandra de Amo. Como inferir a qualidade de um classificador a partir de sua performance sobre uma amostra ?. Classificadores são avaliados sobre uma amostra de dados e não sobre o conjunto total de dados. - PowerPoint PPT Presentation

Transcript of Noções de Inferência Estatística

Noções de Inferência Estatística

AULA 21 – Parte I

Data Mining

Sandra de Amo

Como inferir a qualidade de um classificador a partir de sua performance sobre uma amostra ?

Classificadores são avaliados sobre uma amostra de dados e não sobre o conjunto total de dados.

Seja D um conjunto de N amostras de teste; Seja M um modelo de classificação

Acurácia Empírica de M = K/N, onde K = número de amostras classificadas corretamente em N tentativas.

Se a acurácia empírica é alta podemos dizer que M é um bom classificador ?

Exemplo MA foi testado em um conjunto de 30 amostras

Acc(MA) = 85% MB foi testado em um conjunto de 5000 amostras

Acc(MA) = 75% Podemos concluir que MA é melhor do que MB ? Perguntas importantes:

Qual o intervalo de confiança da acurácia obtida por MA ? Qual o intervalo de confiança da acurácia obtida por MB ? Os conjuntos de dados de testes seguem uma mesma distribuição ?

Inferência EstatísticaInferência Estatística = Processo de obter conclusões confiáveis sobre uma população geral, baseando-se em uma amostragem de dados.

Estatísticas: medidas extraídas de uma amostragem de dados através das quais se quer derivar resultados para a população geral.

Média e Variância de uma Amostragem

Algumas estatísticas importantes: Seja X uma variável aleatória (Por exemplo Altura)Consideremos N observações X1,..., XN extraídas aleatoriamente

de uma população com distribuição de probabilidade com média

Por exemplo: X1 = 1.55, X2 = 1.59, X3 = 1.65,...Xi é o evento X = altura do indivíduo sorteado.

Média da amostragem

Variância da amostragem

Valor esperado da Média da amostragem

Valor esperado da média da amostragem

Logo: as médias das amostragens se aproximam da média geral da população, sobretudo para valores grandes de N A estatística “média” é chamada de estimador não-

tendencioso da população.

Valor esperado da Variância da Amostragem

Teorema: Valor esperado da variância da média da amostragem é dado por:

onde σX é a variância da população geralSeσX for desconhecido será aproximado pela variância da amostragem sX

= desvio padrão da média das amostragens

Teorema do Limite CentralSeja uma população X com distribuição de probabilidade com média μX e variância σ2

X.

Considere uma amostragem de tamanho N extraída aleatoriamente da população X. Se é a média da amostragem , então a distribuição de se aproxima de uma distribuição normal com média μX e variância (σ2

X )/N quando N é grande.

x x

Distribuição normal (ou de Gauss).Vários fenômenos aleatórios seguem uma distribuição normal (ou de Gaus) de probabilidade.Muito importante. Tabelas disponíveis. Fácil de avaliar.

Intervalo de Confiança Estimativa dos parâmetros de uma população (ex: média, variância): muito

importante indicar a confiabilidade da estimativa.

Exemplo 1: suponha que queiramos estimar o quanto um grupo de 10000 pessoas do sexo masculino representam a população masculina brasileira em termos de altura.

Isto é, o quanto podemos confiar que a altura média destes 10.000 indivíduos representam a altura média da população masculina brasileira, com um grau de confiança de 95%

Este é um exemplo do seguinte problema:

Conhece-se a média REAL e deseja-se saber o quanto uma amostra considerada aleatoriamente está perto desta média REAL

Distribuição Normal

0,95

Area abaixo do gráficoentre -2 e 2 = 0,95

Média real

Intervalo de confiança Considera-se a tabela de distribuição normal com média μX e

variância (σ2X )/N, onde N = 10.000

Intervalo de confiança (θ1 , θ2 ) com grau de confiança = 0.95 Considera-se as extremidades do intervalo em torno da média da

distribuição Θ1 = μX - k

Θ2 = μX + k

Tal que: P[θ1 < X < θ2 ] = 0.95

Exemplo1 : Continuação Seleciona-se aleatoriamente um grupo de 10000 homens A probabilidade que a média da altura destes 10.000 homens

esteja no intervalo [μX - k, μX + k] é 95%

onde θ1 = μX - k e Θ2 = μX + k

A distribuição normal padrão Z Toda distribuição normal de média μX e variância σ2

X pode ser

transformada em uma distribuição padrão de média 0 e variância 1.

Distribuição normal (μX, σ2X ) distribuição padrão Z (1,0)

A partir da distribuição padrão Z (tabelada), encontra-se a distribuição normal específica X :

P[X = x] = P[Z = z] onde z = (x – μX)/ σX

Exemplo 2 Suponha que não conhecemos a média (real) μX da altura da

população masculina brasileira. Queremos estimar esta média a partir de uma amostra de uma

amostra X de 10.000 homens considerada aleatoriamente, com uma confiança de 68%

De acordo com o Teorema do Limite Central: a média das amostras se aproxima de uma distribuição normal com média

μX e variância σ2X/N

Média da altura da amostragem (N = 10000)

Exemplo 2 (continuação)

Portanto: o intervalo de confiança para a amostra X considerada é de [ , ] com grau de confiança de 68%

Isto é, temos 68% de certeza de que a média REAL da população encontra-se dentro deste intervalo.

Procurando na tabela de probabilidade de Z, o intervalo [-a,a] onde P[-a < Z < a] = 0.68 obtemos a = 1

Como calcular σx

Método 1:

Considera-se diversas amostras de N = 10.000 homens (por exemplo 100 amostras) Para cada amostra calcula-se sua média. Calcula-se a média de todas as 100 médias σ x = desvio padrão das 100 médias

Método 2: Na prática, pode-se aproximar σ x pelo desvio padrão da amostragem sX

considerada, onde:

Comparação de Classificadores

AULA 21 – Parte II

Data Mining

Sandra de Amo

Acurácia Empírica e Acurácia Real Acurácia empírica de um modelo de classificação é obtida

sobre um conjunto Teste com N amostras Acurácia empírica = X/N, onde X = número de amostras preditas corretamente

Acurácia Real = p = acurácia “hipotética” que seria medida sobre o conjunto de todas as amostras possíveis. Dada uma amostra qualquer, a probabilidade de que o classificador

acerte a predição é p.

Relação entre Acurácia Empirica e Acurácia Real Medir a acurácia empirica sobre um conjunto T de N amostras = experimento

binomial, consistindo em N tentativas. X = variável aleatória X = número de acertos em N tentativas P[X = v] = probabilidade de haver v acertos em N tentativas, sabendo que a

probabilidade de acerto em cada tentativa é p. Distribuição de probabilidade binomial

Média = Np, Variância = Np(1-p)

Distribuição da Acurácia Empírica Acurácia empírica: variável aleatória X/N Distribuição de probabilidade de X/N também é binomial com:

Média = p Variância = p(1-p)/N

Distribuição binomial pode ser aproximada por uma distribuição normal quando N é grande

Logo: distribuição de probabilidade da Acurácia Empírica pode ser considerada uma distribuição NORMAL com Média p e Variância p(p-1)/N

Lembrando relação entre distribuição normal e distribuição padrão Z:

Média do número de acertos em N tentativas = acurácia empíricapp(p-1)/N

acc =

Cálculos Seja a = grau de confiança Procura-se na tabela de Z o intervalo [-b,b] para o qual

P[-b < Z < b ] = a Usando-se a equação

Média do número de acertos em N tentativas = acurácia empíricapp(p-1)/Nacc

Obtém-se o seguinte intervalo de confiança para p: [θ1, θ2 ] onde

θ1 = (2N.acc +b2 – b (b2 + 4N.acc – 4N.acc2) )/ 2(N+b2)

θ2 = (2N.acc +b2 + b (b2 + 4N.acc – 4N.acc2) )/ 2(N+b2)

Exemplo Suponha um modelo de classificação que tem uma acurácia de 80% quando

calculado sobre um conjunto de teste de 100 amostras. Qual o intervalo de confiança de sua acurácia REAL com um grau de confiança

de 95% ? Acc = 0.80, N = 100, a = 0.95 Tabela de Z

ab

Fazendo-se os cálculos temos: θ1 = 71.1% e θ2 = 86,7%

Variação do intervalo de confiança quando o número de amostras aumenta

θ1 θ2

Comparando a performance de dois modelos M1 = modelo de um classificador C extraido de um conjunto

de treinamento T1 Testado sobre D1, com n1 elementos e1 = taxa de erro = 1 – acc1

M2 = modelo de um classificador C extraido de um conjunto de treinamento T2 Testado sobre D2, com n2 elementos e2 = taxa de erro = 1 – acc2

A diferença entre e1 e e2 é estatisticamente significante ?

Método d = |e1 – e2| = |acc1 – acc2| d obedece uma distribuição normal com

média dt = diferença real |e1 – e2| e variância σd

2

σd2 pode ser aproximada por σd

2 = e1(1-e1)/n1 + e2(1-e2)/n2

Intervalo de confiança de dt com a% de grau de confiança

dt = d±b σd

Variância estimada

Desvio padrão estimado = sd

b = valor encontrado na distribuição Z correspondente a a%Exercício: deduzir esta fórmula a partir da relação entre a distribuição padrão Z e a distribuição normal d (ver slide 15)

Exemplo M1 = modelo de um classificador C extraido de um conjunto de

treinamento T1 Testado sobre D1, com 30 elementos e1 = taxa de erro = 1 – acc1 = 0.15

M2 = modelo de um classificador C extraido de um conjunto de treinamento T2 Testado sobre D2, com 5000 elementos e2 = taxa de erro = 1 – acc2 = 0.25

d = |e1 – e2| = 0.1 Variância estimada = 0.15(1-0.15)/30 + 0.25(1-0.25)/5000=

0.0043 Desvio padrão estimado = 0.0043 = 0.0655

Exemplo (continuação)Qual o significado do intervalo de confiança [θ1, θ2 ] ?

Estamos testando 2 hipóteses:Hipótese Nula: dt = 0

a diferença real entre os erros é nula Hipótese alternativa: dt < > 0

a diferença real entre os erros NÃO é nula (pode ser < 0 ou > 0 )

Exemplo (continuação)

θ1 θ2

a

Queremos encontrar b na tabela da distribuição padrão Z tal que:P[-b < (d – dt)/sd < b] = a

A interpretação do intervalo[θ1, θ2] é a seguinte:

Se dt = 0 está em [θ1, θ2] então a d (que está em [θ1, θ2] ) não tem significância estatistica

Se dt = 0 não está em [θ1, θ2] (está emuma das duas regiões caudais) entãod tem significância estatistica.d – dt < 0 d – dt > 0

ddt

dtdt

O valor b na tabela ZA tabela Z envolve duas tabelas:

Unicaudal

Duplamente caudal

Para cada valor de a, pode-se encontrar dois valores de b: um para o caso unicaudal e outro para o caso duplamente caudal.

Exemplo (continuação)No exemplo : b = 1,96 (duplamente caudal)

Como o valor nulo (dt = 0) está no intervalo (0.1 – 0.128; 0.1 + 1.28)então a diferença de performance entre os dois modelos não tem significânciaestatística.

Variando o grau de confiança Quanto deveria ser o grau de confiança para que a diferença

de performance d = 0.1 tivesse significância estatística ? 0.1 > b.0,0655 ? b < 0.1/0.655 = 1.527 Procurando o valor de a na tabela duplamente caudal

correspondente a b = 1.527: a = 93.6% Logo, a hipótese nula pode ser rejeitada com um grau de

confiança 93.6%

Comparando a performance de dois classificadores L1 = técnica de classificação L2 = técnica de classificação Os testes de L1 e L2 foram feitos sobre um mesmo banco de dados D

utilizando k-cross validation. M1i = modelo de L1 obtido durante a i-ésima iteração M2i = modelo de L2 obtido durante a i-ésima iteração. Os modelos M1i e M2i são testados sobre o mesmo conjunto de teste

(correspondente a i-ésima iteração) e1i = taxa de erro de M1i e e2i = taxa de erro de M2i di = e1j – e2j = diferença das taxas de erro na i-ésima iteração Se k é suficientemente grande (o número de vezes que o experimento é

realizado é grande) então di segue uma distribuição normal Média δt = média das diferenças das taxas de erro “verdadeiras” Variância σ2

Estimativa do variância

σ2

d = média estimada da diferença dos erros

δt σ

Grau de liberdade (degree of freedom)

ExemploSuponha que a média das diferenças estimadas é 0.05

com desvio padrão de 0.002

Os testes são feitos utilizando 30-cross validation

Com um grau de confiança a = 95% a diferença real dos erros (ou da acurácia) é:

δt =

Intervalo de confiança = [0.05 – 0.00408; 0.05 + 0.00408] = = [0.04592; 005408]

Distribuição t com graus de liberdade.

k – 1 = 29

Como o valor zero (hipótese nula) não está contido no intervalo de confiança [0.04592; 005408] então podemos concluir que a diferença de performances entre as duas técnicas de classificação é estatisticamente significante.