Testes de Hipóteses Paulo J Azevedo DI - Universidade do Minho 2009
-
Upload
dawn-austin -
Category
Documents
-
view
29 -
download
0
description
Transcript of Testes de Hipóteses Paulo J Azevedo DI - Universidade do Minho 2009
Testes de Hipóteses
1
Testes de Hipóteses
Paulo J Azevedo
DI - Universidade do Minho2009
Revisão à análise de significância estatística
Testes de Hipóteses
2
Testes de Significância
• Determinar o grau de confiança com que se pode concluir que os factos observados reflectem mais do que simples coincidência do acaso.
• Em Data Mining/Machine Learning são tipicamente usados para avaliar se a amostra que estamos a estudar (factos observados) é fruto do acaso (se é ou não significativa).
• Neste contexto são muitas vezes usados para detectar falsas descobertas.• Permitem também avaliar se tem cabimento esperar que os padrões
extraídos dos dados de treino (amostra) ocorram em dados futuros.
• Todos os testes envolvem duas componentes:– Um valor observado (obtido da amostra),– O valor esperado se nada mais do que variabilidade aleatória (acaso) operar
nesta situação.
• Vários testes disponíveis dependendo do tipo de situação:.
Testes de Hipóteses
3
Testes de Significância (2)
• Quando executamos um teste de significância estatística assumimos duas teses:– A hipótese especifica que a nossa investigação pretende averiguar (Hipótese
alternativa H1),– A antítese da hipótese a investigar (Hipótese nula H0)
• Exemplo com um ensaio médico: Avaliar se os resultados de um ensaio com um novo medicamente para prevenir AVCs aplicado a 1000 pacientes com 400 resultados positivos é significativo:– H0 - o novo medicamento não tem efeito significativo– H1 – o medicamento tem algum grau de eficácia na prevenção de AVCs
• Em termos estatísticos:– H0 – o número de resultados positivos não é significativamente diferente do
valor esperado por variabilidade aleatória MCE (mean chance expectation)– H1 – o valor observado é significativamente diferente do valor esperado.
Testes de Hipóteses
4
Direccionalidade da Hipótese Alternativa
• Dependendo do tipo de questão que queremos endereçar com a nossa hipótese alternativa, esta pode ser direccional ou não-direccional.– Não direccional, se não considerar em que sentido os
valores observados se afastam do valor esperado (MCE). Assim temos:
• H0: valor observado = MCE• H1: valor observado ≠ MCE
– Direccional, se considera em que sentido os valores observados se afastam do valor esperado (MCE).
• Ho: valor observado = MCE• H1: valor observado > MCE, ou em alternativa• H1: valor observado < MCE.
Testes de Hipóteses
5
Exemplo • Lançar 100 vezes uma moeda ao ar. Verificar se o número de caras
obtido (59) é significativo (se a moeda é equilibrada o valor esperado é 50% do número de testes).
• Usando a Binomial, com N=100,k=59,p=0.5,q=0.5.
• Notar que há mais 9 caras do que o esperado!• De todos os possíveis cenários com 100 lançamentos, apenas
4.46% têm no mínimo 59 caras. O resultado dos nossos lançamentos é significativo (probabilidade ≤ 0.05)
H1: nº caras > MCE.(Hipótese direccional)
One-sided ou One-tailed test
Este valor é denominado por p-value.
Testes de Hipóteses
6
Exemplo • Agora para uma hipótese alternativa não direccional.• No nosso caso, H1: nº de caras ≠ MCE.• Ou seja, responder à pergunta: “Em 100 lançamentos, qual é a
probabilidade de obter um excesso de caras ou coroas (>50) tão grande ou igual ao valor obtido (59)”.
• Neste teste, o valor observado não é significativo (0.0892 > 0.05)
• A pergunta do teste anterior era: “Em 100 lançamentos, qual é a probabilidade de obter um excesso de caras (>50) tão grande ou igual ao valor obtido (59)”
H1: nº caras ≠ MCE.(Hipótese direccional)
Two-sided ou Two-tailed test
Valor da estatística das observações.z = ((k - μ ) ± 0.5) / σ
Testes de Hipóteses
7
Algumas Definições• p-value: é a probabilidade de obter (de forma aleatória) um
resultado tão ou mais extremo do que o que foi observado, assumindo que a hipótese nula é verdadeira. Isto é P(Obs ≥ MCE | H0)
• Interpretação alternativa, p-value é o grau de contradição da hipótese nula pelas observações na amostra estudada. Quanto menor, maior o grau de contradição.
• α é o grau de significância. O valor tradicional é 5%, mas pode também ser de 1% ou outros valores entre [0,1].
• grau de confiança (1 - α).
• α também define a região critica i.e. região onde a hipótese nula é rejeitada. α está relacionado com o erro Tipo I.
• Erro tipo I, rejeitar H0 quando ela é verdadeira (α).• Erro tipo II, não rejeitar H0 quando ela é falsa (β).
• Força do teste (power of the test): probabilidade de correctamente rejeitar H0. quando esta é falsa e não rejeitá-la quando ela é verdadeira. É, respectivamente, (1 - α) e (1 – β).
Testes de Hipóteses
8
Intervalos de Confiança• Em alternativa aos p-values, podemos usar intervalos de confiança.
Usa-se para estimar parâmetros da população usando a amostra e.g. estimar média (μ) de uma população usando média da amostra (x).
• O grau de confiança C = 1- α determina a probabilidade de o intervalo produzido pelo método usado incluir o verdadeiro valor do parâmetro a estimar. Trabalha sempre com a estatística do teste.
• Para C =0.95, z*=1.96, então IC = [x-1.96+σ/√n , x+1.96+ σ/√n]
Testes de Hipóteses
9
Teste Binomial• Testa a significância do desvio de uma amostra
representando um conjunto de experiências de Bernoulli em relação à distribuição teórica esperada dessas observações i.e as variáveis são dicotómicas – sucesso/insucesso.
• É um teste exacto !– Um teste de significância exacto é um teste onde todas as
condições assumidas para a derivação da distribuição onde o teste estatístico é baseado são satisfeitas. Consequentemente, leva também à obtenção de um p-value exacto (e não aproximado).
– Um teste aproximado é um teste onde a aproximação pode ser feita o mais precisa possível à custa da obtenção de uma amostra suficientemente grande.
Testes de Hipóteses
10
Teste Binomial (2)
• Parâmetros:– n, tamanho da amostra.– k, número de observações com sucessos em n.– p, probabilidade esperada para sucesso– q, probabilidade esperado para insucesso.– p = 1 – q (categorias dicotómicas!)
– Para one-sided test (H1: observações > MCE): • p-value = prob(k,n,p,q) + prob(k+1,n,p,q)+ prob(k+2,p,q) + … +
prob(n,n,p,q).
knk qpknk
nqpknprob
)!(!
!),,,(
Cálculo computacionalmente pesado! Por vezes faz-se uma
aproximação à Gaussiana (Normal)
Testes de Hipóteses
11
Testes Paramétricos• Estão relacionados com um ou mais parâmetros da
população (distribuição assumida) e.g. média, desvio padrão.
• Tipicamente é assumida a Gaussiana.• Testes de localização: relacionados com o valor
esperado da população (média), onde o centro da população está localizado.
• Vários tipos:– Uma amostra: dada uma amostra e um valor esperado de uma população,
testar se a amostra foi tirada da população com o valor esperado dado.
– Duas amostras independentes: dadas duas amostras independentes, testar se as amostra são originadas de populações com o mesmo valor esperado.
– Duas amostras dependentes: dadas duas amostras dependentes (paired), testar se as amostra são tiradas de uma população com o mesmo valor esperado (tipicamente 0 para verificar significância da diferença).
Testes de Hipóteses
12
Student t-test
• Assume uma distribuição Gaussiana (Normal)• Ideal para aplicar a amostra com N<30, para N≥30 devemos usar o
z-teste.• É um teste de médias.
• H0: μ = μ0 (μ0 é o valor esperado da população)
• H1: μ ≠ μ0, μ < μ0, μ > μ0 (dependendo de ser two-sided ou one-sided)
• Estatística do teste:
– onde N é o tamanho da amostra, X média na amostra, S desvio padrão na amostra.
• Quando H0 é verdadeira a TS segue uma distribuição tN-1 (N - 1 graus de liberdade i.e. nº de parâmetros que podem ser variados independentemente).
NS
XTS
/0
Testes de Hipóteses
13
Student t-test (one sample)
• Para um dado α fazemos o seguinte teste (sendo TS definida como):
• Para
– H1: μ ≠ μ0, TS ≤ -tN-1(α/2) ou TS ≥ tN-1(α/2)
– H1: μ < μ0, TS < tN-1(α)
– H1: μ > μ0, TS > tN-1(α)
• Rejeitar H0 se o teste for positivo.
• Os valores críticos de tN-1 podem ser obtidos de uma tabela…
NS
XTS
/0
Testes de Hipóteses
14
Distribuição t-student
• Upper critical values of Student's t distribution with degrees of freedom
• Probability of exceeding the critical value
Graus de liberdade
Valor crítico α
Valor da t-estatística
Testes de Hipóteses
15
Student t-test (amostras independentes)
• Usado para verificar se as amostras provêm de populações com diferentes médias.
• Três situações possíveis (e respectivas def. de TS):1. Amostras de tamanhos e variância diferente,
2. Amostras de tamanhos diferentes mas variância igual,
3. Amostras de tamanhos e variância igual.
• Se H0 for verdadeira TS segue uma distribuição tDF:
δ0 é a diferença entre valores
esperados das populações
Testes de Hipóteses
16
Student t-test (2) (amostras independentes)
• Três situações possíveis para testar H0
– H0: μA - μB = δ0
• Para um dado valor de α, rejeitar H0 se as condições forem satisfeitas:– H1: μA - μB ≠ δ0 , se TS ≤ -tGL(α/2) ou TS ≥ tGL(α/2)
– H1: μA - μB < δ0 , se TS < tGL(α)
– H1: μA - μB > δ0 , se TS > tGL(α)
• Os valores críticos de tGL são os mesmo da tabela apresentada anteriormente.
Testes de Hipóteses
17
Student t-test (paired test)
• É o t-test que nos vais ser mais útil.
• Assume amostra emparelhadas (por exemplo referente a observações no mesmo local ou tempo, etc).
• Determina se as amostras diferem de uma forma significativa, considerando as condições de que as diferenças entre pares são independentes e que seguem uma distribuição Normal.
• Hipóteses:
– H0: μΔ = 0
– H1: μΔ ≠ 0 , μΔ < 0 ou μΔ > 0
• Onde
– Δ = XA – XB é a diferença emparelhada entre as duas amostras,
– μΔ o valor esperado da diferença das populações.
– Onde Δ é a média das diferenças nas amostras, N o tamanho das amostras e SΔ o desvio padrão das diferenças nas amostras.
NSTS
/
Testes de Hipóteses
18
• Quando H0 é verdadeira TS segue uma distribuição tN - 1
• Para um dado α fazemos os seguintes testes:– H1: μΔ ≠ 0 , se TS ≤ -tN - 1(α/2) ou TS ≥ tN - 1(α/2)– H1: μΔ < 0 , se TS < tN - 1(α) – H1: μΔ > 0 , se TS > tN - 1(α)
• rejeitando H0 quando eles são verdadeiros. Os valores críticos de tN – 1 são os mesmo da tabela anterior.
• Notar que este teste acaba por ser one-sample (as diferenças entre pares formam uma só amostra)!
• Testes alternativos– Z-test quando N>30,– Mann-Whitney para amostras independentes de populações não
Normais.– Binomial, Wilcoxon para amostras emparelhadas de populações não
Normais.
Student t-test (2) (paired test)
Testes de Hipóteses
19
Teste de Mann-Whitney-Wilcoxon • Teste não paramétrico de localização. Avalia se duas amostras tem
origem na mesma população. Uma alternativa ao paired t-test.
• Assume que as observações são independentes e contínuas ou ordinais i.e. é possível estabelecer uma ordem sobre as observações.
• Testa (em vez de comparar médias) se as populações são idênticas. É um teste de ranks sinalizados (signed rank).
• Determina se há uma tendência em seriar mais alto uma amostra (observação) em relação à outra e.g. valores médicos antes e depois de tratamento. Hipótese nula assume que não há tendência.
• Hipóteses:– H0:ηA = ηB (nº de valores positivos ≈ nº de negativos i.e. não há tendência)
– H1:ηA ≠ ηB , ηA > ηB ou ηA < ηB
Testes de Hipóteses
20
Geração de ranks (com ties)
Amostra A
Amostra B Diferença entre amostras
rank das diferenças em valor absoluto
Valor absoluto da diferença
W é a soma dos ranks (sem valores nulos)
Diferenças nulas são ignoradas
Rank das diferenças com sinal
Tratamento de empates (ties): se duas ou mais diferenças têm o mesmo valor então todos passam a ter o valor médio desses
ranks. e.g. 3º,4º e 5ª dá rank 4 para todos.
Testes de Hipóteses
21
Teste de Mann-Whitney-Wilcoxon
• Procedimento:– Calcular XA – XB, ignorar casos com valor zero,
– Calcular |XA – XB|, rank deste valor e o rank sinalizado:
• + se XA – XB > 0
• - se XA – XB < 0
– (soma de um rank = N(N-1)/2, sendo N o nº de observações)– Calcular W = soma dos signed ranks
– Calcular δW
onde N é o nº de signed ranks considerados (sem os nulos).– Estatística do teste é:
6
)12)(1(
NNNW
W
Wz
5.0
Consultar valores críticos de z numa tabela própria. Com N > 20 aproxima à Normal.
Testes de Hipóteses
22
Teste de Associação• Testes não paramétricos que medem o grau de
dependência entre duas variáveis aleatórias. • Não assumem nenhum tipo de distribuição.• Assume observações de frequência de variáveis
categóricas. As variáveis da amostra estão “divididas” em categorias.
• As observações das duas variáveis são agrupadas em classes independentes (disjuntas).
• Tipicamente, os dados do teste estão representados em tabelas de contingência 2 x 2. No entanto podemos ter mais do que 2 dimensões.
• Testes a estudar– Teste do Χ2 (chi quadrado)– Teste exacto de Fisher,
Testes de Hipóteses
23
Teste do Χ2 • Hipóteses:
– H0 : as variáveis são independentes
– H1 : as variáveis não são independentes
• Sendo X e Y as nossas variáveis estas podem ser agrupadas em I (i=1,..I) e J (j=1,..,J) categorias numa tabela de contingência:
• Onde Nij é a frequência observada da var X com a categoria i conjuntamente com a var Y com a categoria j.
J
jiji NN
1
Testes de Hipóteses
24
Teste do Χ2 (2) • Estatística do teste:
• eij é a frequência esperada para a célula (i,j):
• Se H0 for verdadeira, a TS segue a distribuição Χ2(I-1)(J-1).
• Nº de graus de liberdade = (I-1) x (J-1)• Para um dado α, rejeitamos a hipótese nula se:
– TS > Χ2(I-1)(J-1)(α)
J
j ij
ijijI
i e
eNTS
1
2
1
)(
N
NNe ji
ij
Testes de Hipóteses
25
H0 : tipo de tuberculose que causa a morte a estes indivíduos é independente do seu sexo.e11 = (4853 x 3804) / 5375 = 3434.6
Χ2 = (3534 – 3434.6)2 / 3434.6 + (1319 – 1418.4)2 / 1418.4 + …..
+ (252 – 152.6)2 / 152.6 = 101.35
Para α=0.05 temos Χ2(1)(1)(0.05) =3.84. Rejeitamos H0 se Χ2 > 3.84 o que é o caso.
Conclusão: a proporção de homens que morre de tuberculose tipo SR é diferenteda proporção de mulheres. Isto é, há evidências de uma associação entre tipo deTB e sexo.
Exemplo com tabela 2 x 2
Homens Mulheres Total
TB no SR 3534 1319 4853
Outras TB 270 252 522
Total 3804 1571 5375
Valor obtido da tabela de
distribuição do Χ2.
TB
SEXO
Testes de Hipóteses
26
Características do teste do Χ2 • É um teste não direccional. É sempre two-sided.• É um teste aproximado. O p-value é obtido por
aproximação. No problema anterior p-value < 0.00001.• Para observações pequenas é um teste pouco fiável.
Para valores esperado pequenos (eij < 5) não deve ser usado.
• No caso específico de tabelas 2 x 2 devemos usar a Correcção de Yates para continuidade.
• Para o problema anterior, Yates Χ2 = 100.39.
2
1
22
1
'5.0)(
j ij
ijij
i e
eNTS
Testes de Hipóteses
27
Teste Exacto de Fisher• O teste ideal para aplicar com tabelas de contingência
de dados pequenos esparsos e não balanceados.• Não sofre dos mesmos problemas do teste Χ2 • Embora seja aplicável noutras situações, vamos sempre
usar em tabelas 2 x 2 e com hipóteses alternativas direccionais (one-sided) i.e. afasta-se de H0 numa direcção específica!
• É um teste exacto, portanto um p-value exacto.• A ideia geral é considerando a tabela de observações,
“gerar” as tabelas com as mesmas margens, que são mais extremas que a observada, na mesma direcção da nossa observação e.g. que a proporção TB do tipo SR nas mulheres é menor que proporção TB tipo SR nos homens.
Testes de Hipóteses
28
Teste Exacto de Fisher (2)• Considerando a tabela de contingência 2 x 2 geral, temos:
• A probabilidade de obter (de forma aleatória) as observações desta tabela é:
• O p-value = ∑ p das tabelas tão ou mais extremas do que a observada. (tipicamente ∑ p: p < pobservada)
• Para o exemplo anterior p-value = 2.959442371307591e-22
Y1 Y2 Total
X1 a b a + b
X2 c d c + d
Total a + c b + d n
!!!!!
)!()!()!()!(
dcban
dbcadcbap
n = a+b+c+d
As margens estão a azul
Testes de Hipóteses
29
Goodness-of-fit(testes para a qualidade do ajuste)
• No nosso caso, vai servir para verificar se duas amostras foram retiradas de uma mesma população. Tradicionalmente são utilizados para verificar a qualidade da adequação (fit) de uma distribuição teórica em relação a um conjunto de observações (amostra) e.g. testar a Normalidade de uma amostra.
• Testes não paramétricos:– Para amostras de valores contínuos
• Kolgomorov-Smirnov
– Para amostras de valores categóricos• Pearson’s goodness-of-fit (Χ2)
Testes de Hipóteses
30
Χ2 Goodness-of-fit
• Verifica se duas amostras têm origem em populações idênticas.
• H0 : populações A e B são idênticas
• H1: populações A e B são diferentes
• As observações NA e NB são agrupadas em K (K > 2) categorias (disjuntas).
• Em cada amostra é contada a frequência absoluta de cada diferente ki categoria, com ki∈K.
• As frequências esperadas são calculadas da seguinte forma:
• com Nk = NkA + NkB , N = NA + NB sendo ∑ekA= NA e ∑ekB= NB
N
NNe k
AkA kAkkB eNe
Testes de Hipóteses
31
Χ2 Goodness-of-fit (2)
• A estatística do teste é:
• H0 é verdadeira se TS segue uma distribuição Χ2K-1
• Para um dado α, rejeitamos H0 se:
– TS > Χ2K-1(α)
K
k kB
kBkBK
k kA
kAkA
e
eN
e
eNTS
1
2
1
2 )()(
Testes de Hipóteses
32
Teste de Kolgomorov-Smirnov(duas amostras)
• É um teste exacto (Χ2 é aproximado) para amostras de valores
contínuos.• Assume distribuições contínuas onde a forma e os parâmetros da
função densidade de probabilidade são conhecidos• O teste compara a proximidade entre as funções de densidade
acumulada (CDF) de cada amostra (também conhecidas por funções de distribuição empirica).
• Encontra a máxima discrepância entre as duas CDFs e verifica se esta é estatisticamente significativa.
• CDF das amostras são definidas como (N = ∑xi):
ijj
iiA xxN
xxSxxF :)(:)(
Testes de Hipóteses
33
Teste de Kolgomorov-Smirnov (2)(duas amostras)
• H0 : FA(x) = FB(x)
• H1 : FA(x) ≠ FB(x)
• A estatística do teste é:
• Para um dado α, rejeitamos H0 se o seguinte teste for verdadeiro:
• Os valores críticos de √[(NANB )/(NA + NB )]D’(α) podem ser consultados na tabela da distribuição de Kolgomorov.
)()(max' xSxSDTS BAx
)(' ' DDNN
NN
BA
BA
Testes de Hipóteses
34
Teste de Kolgomorov-Smirnov (3)(execução)
)()(max' xSxSDTS BAx
Testes de Hipóteses
35
Múltiplas Hipóteses• Controle da capitalização do acaso.
• Exemplo de situação típica:– Queremos contratar um corrector para investir na bolsa. A
função deste corrector é emitir previsões sobre a subida/descida do indicador PSI20 ao fim de cada dia. Queremos ter a garantia que não contratamos um charlatão (alguém cujas previsões não são melhores do que o acaso). Para avaliar esta possibilidade usamos um teste de 14 dias de bolsa. Se o consultar acertar em 11 ou mais dias então aceitamo-lo como fiável.
– São 11 em 14 dias porque há 50% de hipóteses de acertar em cada dia, logo há só 2.87% de acertar ao acaso em 11 ou mais dias.
– Assim, se um corrector for contratado porque passou o teste dos 11 dias, temos uma probabilidade ≤ 0.0287 de contratar um charlatão.
Teste Binomial com: n=14, k=11, p=0.5, q=0.5,
e H1: obs > MCE
Testes de Hipóteses
36
Múltiplas Hipóteses• Nova situação:
– Vamos imaginar agora que aceitamos 10 candidatos para esta função, onde vamos seleccionar o corrector com maior precisão.
– Para n candidatos, n > 1, cada charlatão tem 2.87% de passar o teste.
– Em geral, a probabilidade de seleccionar um charlatão
é ≤ 1 - (1 – 0.0287)n.
No caso de n=10, esta probabilidade é ≤ 25.3%
– Conclusão: Se não ajustarmos o nosso limite α, que define quando um corrector passa a ser considerado um charlatão, aumentamos a probabilidade de ocorrer um erro do tipo I.
– Com um nº suficientemente grande de charlatães entre os candidatos, iremos quase de certeza ter pelo menos um deles com um desempenho que passa qualquer limite α (sem a garantia de ele não ser um charlatão).
Testes de Hipóteses
37
Múltiplas Hipóteses (2)• Problema das Multiplas Comparações. Risco de erro tipo I
é não mais do que α.• Probabilidade de ocorrer um erro de tipo I aumenta com o
número de testes. • Para n testes αreal = 1 - (1 - α)n
• Usar Ajustamento de Bonferroni:– (corrigir α para n testes como sendo κ= α/n)– tendência a ser um crivo demasiado fino!
• Usar Ajustamento de Holm (k em vez de α).– Requer ordenação crescente dos p-values e ter disponíveis todos
estes valores antes de determinar valor de ajustamento (k). – Para n testes, )
1:max( 1
jnppk jiji
Testes de Hipóteses
38
Ajustamento de Bonferroni(utilização típica em Data Mining)
• Usar Ajustamento de Bonferroni (corrigir α para n testes como sendo κ= α/n).
• Usar layered critical values,• Em vezes de um cutoff global que corrige o α
inicial, obter vários α’L para cada nível L.
)('
max LL SL
Onde SL é o nº de padrões possíveis de gerar com tamanho L. Lmax é o tamanho máximo de um padrão. Temos a garantia que:
max
1
'L
L LL S
Testes de Hipóteses
39
Resumo
• Testes de significância,• Inferência estatística e controle de fenómenos
fruto do acaso,• Tipos de erro,• Testes paramétricos e não paramétricos,• Direccionalidade, poder do teste, região crítica,
p-value e intervalos de confiança,• Testes de localização, associação e goodness-
of-fit,• Múltiplas hipóteses e controle de erro,• Ajustamento do valor de significância (α).