Teste Chi-Quadrado de Independênciamdauft.wdfiles.com/local--files/aula6/Teste...
Transcript of Teste Chi-Quadrado de Independênciamdauft.wdfiles.com/local--files/aula6/Teste...
Teste Chi-Quadrado de Independência
Prof. David Prata
Novembro de 2016
Duas Variáveis Categóricas
• Análise de variância envolve o exame da relação entre uma variável categórica explicativa e uma variável quantitativa de resposta. Agora, vamos considerar inferências sobre as relações entre duas variáveis categóricas. O teste estatístico que vai responder a esta pergunta é chamado de teste do Chi quadrado de Independência.
• No início de 1970, um jovem desafiou uma lei do estado de Oklahoma que proibiu a venda de cerveja com mais de 3,2% de álcool, para homens com menos de 21 anos de idade, mas permitiu a sua venda para mulheres na mesma faixa etária. O caso foi finalmente ouvido pelo Supremo Tribunal dos EUA. A principal justificativa apresentada pela corte de Oklahoma para esta lei era a segurança do tráfego. Uma das três partes principais de dados apresentada ao tribunal foi o resultado de uma pesquisa aleatória na estrada que continha informação sobre sexo. E se o condutor tinha ou não bebido álcool nas duas horas anteriores. Houve um total de 619 motoristas com menos de 20 anos de idade incluídos na pesquisa.
Tabela
• Temos uma tabela de duas vias resumindo as observações da pesquisa de beira de estrada. Nossa tarefa é abordar se estes resultados fornecem evidência de uma relação significativa ou estatisticamente significativa entre sexo e dirigir embriagado. Ambas as variáveis são de valores categóricos e, portanto, a nossa tabela tem duas vias de contagens observadas em um dois a dois. O procedimento Chi Quadrado não é limitado a situações dois por dois, ele também pode ser usado para um número maior de categorias explicativas.
Cálculo da Percentagens
• A chave para relatar um resumo adequado para uma tabela de duas vias é decidir qual das duas variáveis categóricas desempenha o papel da variável explicativa. Calculando, em seguida, as percentagens condicionais separadamente. Isto é, as percentagens da variável resposta para cada valor da variável explicativa. Nesse caso, uma vez que a variável explicativa é sexo, calculamos a percentagem de motoristas que beberam e não beberam álcool para homens e mulheres separadamente. Segue a tabela de percentagens condicionais.
Maioria de Bêbados Homens
• Para a amostra de 619 motoristas, uma maior porcentagem de homens foram encontrados bêbados comparado com as mulheres, 16% versus 11,6%. Os nossos dados, em outras palavras, proporcionaram alguma evidência que motoristas bêbados estão relacionados ao gênero. No entanto, isso por si só não é suficiente para concluir que tal relação existe em uma população maior de condutores menores de 20 anos.
16% X 11,6%
• Precisamos investigar melhor os dados e decidir entre os dois seguintes pontos de vista. Que não há nenhuma diferença na taxa de condução embriagado entre homens e mulheres com menos de 20 anos, a nossa hipótese nula. Ou que existe uma diferença na taxa de direção alcoolizada entre machos e fêmeas com menos de 20 anos, nossa hipótese alternativa. Em outras palavras, a evidência fornecida pela pesquisa rodoviária, 16% versus 11,6%, é forte o suficiente para concluir para além de uma dúvida razoável que deve haver uma relação entre embriaguez ao volante e o sexo da população de condutores menores de 20 anos. Ou, a evidência fornecida pela pesquisa de beira de estrada não é forte o suficiente para fazer essa conclusão? Isso poderia ter acontecido apenas por acaso? Isto é devido à variabilidade da amostragem e não necessariamente por causa de um relacionamento existente na população. Estas são as hipóteses nula e alternativa para o teste do qui-quadrado de Independência.
Hipótese Nula e Alternativa
• H0: Não há nenhuma relação entre as duas variáveis categóricas. Elas são independentes. Ou,
• Ha: Existe uma relação entre as duas variáveis categóricas. Elas não são independentes.
• Algebricamente, independência entre gênero e dirigir embriagado é equivalente a ter proporções iguais de quem bebeu ou não bebeu para homens versus mulheres. Na verdade, a hipótese nula e alternativa poderia ser reformulada como:• H0: a proporção de motoristas bêbados do sexo masculino ser igual a
proporção de motoristas bêbados do sexo feminino. Ou,• Ha: a proporção de homens motoristas bêbados não ser igual à proporção
de motoristas bêbados do sexo feminino.
Se Hipótese Nula fosse verdadeira, quantos motoristas homens bêbados encontraríamos?• A ideia por trás do teste qui-quadrado de independência, bem como a
análise de variância, é medir até que ponto os dados estão do que é reivindicado pela hipótese nula. Quanto mais longe os dados estão da hipótese nula, mais evidências os dados apresentarão contra ela. Aqui, o sexo e os dados de dirigir alcoolizado são representados pelas contagens observadas. Para representar a hipótese nula, vamos calcular um outro conjunto de contagens. As contagens que esperaríamos ver, ao invés das contagens observadas. Ou seja, se dirigir embriagado e sexo são realmente independentes. Isto é, se a hipótese nula é verdadeira. Por exemplo, realmente foram observados 77 homens que dirigiam embriagado. Se dirigir embriagado e sexo forem realmente independentes, ou seja, se a hipótese nula fosse verdadeira, quantos homens motoristas bêbados esperamos encontrar, ao invés de 77?
E mulheres bêbadas? E homens e mulheres não-embriagados?• Também vamos fazer o mesmo tipo de pergunta para as outras três
células da nossa tabela. Se a hipótese nula fosse verdade, quantos motoristas mulheres bêbadas esperamos encontrar, ao invés de 16? Quantos homens de condução não-embriagado esperamos ver, ao invés de 404? Quantas mulheres de condução não-embriagada esperamos ver, em vez de 122?
Qual a diferença entre as observações esperadas das observações coletadas?• Em outras palavras, teremos dois conjuntos de contagens. As
contagens observadas, isto é os dados. E as contagens esperadas, no caso da hipótese nula ser verdadeira. Vamos medir o quão longe a contagem de observações está das observações esperadas. Vamos basear nossa decisão no tamanho da discrepância entre o que observamos e o que se espera observar, claro, se a hipótese nula for verdadeira. Como as contagens esperadas são calculadas?
Se os Eventos são Independentes
• Se os eventos A e B são independentes, então, a probabilidade de A e B é igual a probabilidade de A vezes a probabilidade de B.• P (A e B) = P(A) * P(B).
P(Bebado e Masculino) = P(Bebado) * P(Masculino)• Nós usamos essa regra para calcular a contagem esperada em uma célula
de cada vez. Aplicando a regra para o primeiro canto superior esquerdo da célula. Se dirigir bêbado e sexo forem independentes, então, a probabilidade de estar bêbado e ser do sexo masculino é igual à probabilidade de estar bêbado vezes a probabilidade de ser do sexo masculino. Ao dividir as contagens na nossa tabela, vemos que a probabilidade de estar bêbado é igual a 93 dividido por 619. E a probabilidade de ser masculino é 481 dividido por 619. Assim, a probabilidade de estar bêbado e ser do sexo masculino é 93 dividido por 619 vezes 481 dividido por 619.• P(Bebado) = 93/619• P(Masculino) = 481/619• P(Bebado e Masculino) = (93/619) * (481/619) = 0,1168
Se dirigir embriago e sexo forem independentes• Portanto, uma vez que temos um total de 619 motoristas. Se dirigir
embriagado e sexo forem independentes, a contagem de condutores do sexo masculino bêbados que poderíamos esperar ver seria o seguinte.• 619 * P(Bebado e Masculino) = 619 * 0,1168 = 72,3
Tabela de valores esperados
• Seguindo esta fórmula, segue abaixo a tabela completa de contagens esperadas.
• Importante, o único número que resume a diferença global entre as contagens observadas e esperadas é o qui-quadrado estatístico denotado como chi quadrado.
Cálculo do Chi-Quadrado
• Para cada célula, tomamos a contagem observada, subtraímos da contagem esperada e elevamos este valor ao quadrado. Este valor é então dividido pela contagem esperada e, em seguida, esse número é somado para todas as células na tabela.
• ((77 - 72,3)2/72,3) + ((404 - 408,7)2/408,7) + ((16 - 20,7)2/20,7) + ((122 - 117,3)2/117,3) = 0,3056 + 0,055 + 1,068 + 0,1884 = 1,62
Estatisticamente Significativa?
• Uma vez que a estatística qui-quadrado for calculada, podemos ter uma ideia do seu tamanho. Existe uma diferença relativamente grande entre o que observamos e o que a hipótese nula alega? Ou relativamente pequena? Acontece que, para casos dois a dois como o nosso, somos inclinados a chamar a estatística qui-quadrado de grande se for maior do que 3,84. Portanto, a nossa estatística de teste não é grande, o que indica que os dados não são suficientemente diferentes para que a hipótese nula seja rejeitada.
Valor P para o Teste Chi-Quadrado
• Para fins diferentes de casos dois a dois, existem diferentes pontos de corte para o que seja considerado grande, sendo determinados pela distribuição nula. Assim, vamos confiar apenas no valor p para as nossas conclusões. Mesmo quando não for possível realmente usar a estatística qui-quadrado, foi importante aprender sobre ela, uma vez que engloba a ideia por trás do teste.
• O valor p para o teste qui-quadrado de independência é a probabilidade de obter contagens como as observadas, assumindo que as duas variáveis não estão relacionadas.
Sexo Masculino X Feminino
• É exatamente o que a hipótese nula reivindica. Quanto menor for o valor p, mais surpreendente é obter a contagem como fizemos, se a hipótese nula fosse verdadeira. Tecnicamente, o valor p é a probabilidade de observar um qui-quadrado pelo menos tão grande como o observado.
• Usando nosso software estatístico, encontraremos que o valor de p para este teste é 0,201. O valor p de 0,201 não é tão pequeno. Não há nenhuma estatística convincente com evidência para rejeitar a hipótese nula. Então, continuamos assumindo que a hipótese nula é verdadeira. Gênero e dirigir embriagado devem ser independentes.
• E assim os dados sugerem que uma lei que proíbe a venda de cerveja com menos de 3,2% de álcool para o sexo masculino e permite para as mulheres, é injustificada. Na verdade, o Supremo Tribunal pela maioria de votos, sete a dois, derrubou a Lei de Oklahoma como discriminatória e injustificada.