Teste Chi-Quadrado de Independênciamdauft.wdfiles.com/local--files/aula6/Teste...

Teste Chi-Quadrado de Independência

Prof. David Prata

Novembro de 2016

Duas Variáveis Categóricas

• Análise de variância envolve o exame da relação entre uma variável categórica explicativa e uma variável quantitativa de resposta. Agora, vamos considerar inferências sobre as relações entre duas variáveis categóricas. O teste estatístico que vai responder a esta pergunta é chamado de teste do Chi quadrado de Independência.

• No início de 1970, um jovem desafiou uma lei do estado de Oklahoma que proibiu a venda de cerveja com mais de 3,2% de álcool, para homens com menos de 21 anos de idade, mas permitiu a sua venda para mulheres na mesma faixa etária. O caso foi finalmente ouvido pelo Supremo Tribunal dos EUA. A principal justificativa apresentada pela corte de Oklahoma para esta lei era a segurança do tráfego. Uma das três partes principais de dados apresentada ao tribunal foi o resultado de uma pesquisa aleatória na estrada que continha informação sobre sexo. E se o condutor tinha ou não bebido álcool nas duas horas anteriores. Houve um total de 619 motoristas com menos de 20 anos de idade incluídos na pesquisa.

Tabela

• Temos uma tabela de duas vias resumindo as observações da pesquisa de beira de estrada. Nossa tarefa é abordar se estes resultados fornecem evidência de uma relação significativa ou estatisticamente significativa entre sexo e dirigir embriagado. Ambas as variáveis são de valores categóricos e, portanto, a nossa tabela tem duas vias de contagens observadas em um dois a dois. O procedimento Chi Quadrado não é limitado a situações dois por dois, ele também pode ser usado para um número maior de categorias explicativas.

Cálculo da Percentagens

• A chave para relatar um resumo adequado para uma tabela de duas vias é decidir qual das duas variáveis categóricas desempenha o papel da variável explicativa. Calculando, em seguida, as percentagens condicionais separadamente. Isto é, as percentagens da variável resposta para cada valor da variável explicativa. Nesse caso, uma vez que a variável explicativa é sexo, calculamos a percentagem de motoristas que beberam e não beberam álcool para homens e mulheres separadamente. Segue a tabela de percentagens condicionais.

Maioria de Bêbados Homens

• Para a amostra de 619 motoristas, uma maior porcentagem de homens foram encontrados bêbados comparado com as mulheres, 16% versus 11,6%. Os nossos dados, em outras palavras, proporcionaram alguma evidência que motoristas bêbados estão relacionados ao gênero. No entanto, isso por si só não é suficiente para concluir que tal relação existe em uma população maior de condutores menores de 20 anos.

16% X 11,6%

• Precisamos investigar melhor os dados e decidir entre os dois seguintes pontos de vista. Que não há nenhuma diferença na taxa de condução embriagado entre homens e mulheres com menos de 20 anos, a nossa hipótese nula. Ou que existe uma diferença na taxa de direção alcoolizada entre machos e fêmeas com menos de 20 anos, nossa hipótese alternativa. Em outras palavras, a evidência fornecida pela pesquisa rodoviária, 16% versus 11,6%, é forte o suficiente para concluir para além de uma dúvida razoável que deve haver uma relação entre embriaguez ao volante e o sexo da população de condutores menores de 20 anos. Ou, a evidência fornecida pela pesquisa de beira de estrada não é forte o suficiente para fazer essa conclusão? Isso poderia ter acontecido apenas por acaso? Isto é devido à variabilidade da amostragem e não necessariamente por causa de um relacionamento existente na população. Estas são as hipóteses nula e alternativa para o teste do qui-quadrado de Independência.

Hipótese Nula e Alternativa

• H0: Não há nenhuma relação entre as duas variáveis categóricas. Elas são independentes. Ou,

• Ha: Existe uma relação entre as duas variáveis categóricas. Elas não são independentes.

• Algebricamente, independência entre gênero e dirigir embriagado é equivalente a ter proporções iguais de quem bebeu ou não bebeu para homens versus mulheres. Na verdade, a hipótese nula e alternativa poderia ser reformulada como:• H0: a proporção de motoristas bêbados do sexo masculino ser igual a

proporção de motoristas bêbados do sexo feminino. Ou,• Ha: a proporção de homens motoristas bêbados não ser igual à proporção

de motoristas bêbados do sexo feminino.

Se Hipótese Nula fosse verdadeira, quantos motoristas homens bêbados encontraríamos?• A ideia por trás do teste qui-quadrado de independência, bem como a

análise de variância, é medir até que ponto os dados estão do que é reivindicado pela hipótese nula. Quanto mais longe os dados estão da hipótese nula, mais evidências os dados apresentarão contra ela. Aqui, o sexo e os dados de dirigir alcoolizado são representados pelas contagens observadas. Para representar a hipótese nula, vamos calcular um outro conjunto de contagens. As contagens que esperaríamos ver, ao invés das contagens observadas. Ou seja, se dirigir embriagado e sexo são realmente independentes. Isto é, se a hipótese nula é verdadeira. Por exemplo, realmente foram observados 77 homens que dirigiam embriagado. Se dirigir embriagado e sexo forem realmente independentes, ou seja, se a hipótese nula fosse verdadeira, quantos homens motoristas bêbados esperamos encontrar, ao invés de 77?

E mulheres bêbadas? E homens e mulheres não-embriagados?• Também vamos fazer o mesmo tipo de pergunta para as outras três

células da nossa tabela. Se a hipótese nula fosse verdade, quantos motoristas mulheres bêbadas esperamos encontrar, ao invés de 16? Quantos homens de condução não-embriagado esperamos ver, ao invés de 404? Quantas mulheres de condução não-embriagada esperamos ver, em vez de 122?

Qual a diferença entre as observações esperadas das observações coletadas?• Em outras palavras, teremos dois conjuntos de contagens. As

contagens observadas, isto é os dados. E as contagens esperadas, no caso da hipótese nula ser verdadeira. Vamos medir o quão longe a contagem de observações está das observações esperadas. Vamos basear nossa decisão no tamanho da discrepância entre o que observamos e o que se espera observar, claro, se a hipótese nula for verdadeira. Como as contagens esperadas são calculadas?

Se os Eventos são Independentes

• Se os eventos A e B são independentes, então, a probabilidade de A e B é igual a probabilidade de A vezes a probabilidade de B.• P (A e B) = P(A) * P(B).

P(Bebado e Masculino) = P(Bebado) * P(Masculino)• Nós usamos essa regra para calcular a contagem esperada em uma célula

de cada vez. Aplicando a regra para o primeiro canto superior esquerdo da célula. Se dirigir bêbado e sexo forem independentes, então, a probabilidade de estar bêbado e ser do sexo masculino é igual à probabilidade de estar bêbado vezes a probabilidade de ser do sexo masculino. Ao dividir as contagens na nossa tabela, vemos que a probabilidade de estar bêbado é igual a 93 dividido por 619. E a probabilidade de ser masculino é 481 dividido por 619. Assim, a probabilidade de estar bêbado e ser do sexo masculino é 93 dividido por 619 vezes 481 dividido por 619.• P(Bebado) = 93/619• P(Masculino) = 481/619• P(Bebado e Masculino) = (93/619) * (481/619) = 0,1168

Se dirigir embriago e sexo forem independentes• Portanto, uma vez que temos um total de 619 motoristas. Se dirigir

embriagado e sexo forem independentes, a contagem de condutores do sexo masculino bêbados que poderíamos esperar ver seria o seguinte.• 619 * P(Bebado e Masculino) = 619 * 0,1168 = 72,3

Tabela de valores esperados

• Seguindo esta fórmula, segue abaixo a tabela completa de contagens esperadas.

• Importante, o único número que resume a diferença global entre as contagens observadas e esperadas é o qui-quadrado estatístico denotado como chi quadrado.

Cálculo do Chi-Quadrado

• Para cada célula, tomamos a contagem observada, subtraímos da contagem esperada e elevamos este valor ao quadrado. Este valor é então dividido pela contagem esperada e, em seguida, esse número é somado para todas as células na tabela.

• ((77 - 72,3)2/72,3) + ((404 - 408,7)2/408,7) + ((16 - 20,7)2/20,7) + ((122 - 117,3)2/117,3) = 0,3056 + 0,055 + 1,068 + 0,1884 = 1,62

Estatisticamente Significativa?

• Uma vez que a estatística qui-quadrado for calculada, podemos ter uma ideia do seu tamanho. Existe uma diferença relativamente grande entre o que observamos e o que a hipótese nula alega? Ou relativamente pequena? Acontece que, para casos dois a dois como o nosso, somos inclinados a chamar a estatística qui-quadrado de grande se for maior do que 3,84. Portanto, a nossa estatística de teste não é grande, o que indica que os dados não são suficientemente diferentes para que a hipótese nula seja rejeitada.

Valor P para o Teste Chi-Quadrado

• Para fins diferentes de casos dois a dois, existem diferentes pontos de corte para o que seja considerado grande, sendo determinados pela distribuição nula. Assim, vamos confiar apenas no valor p para as nossas conclusões. Mesmo quando não for possível realmente usar a estatística qui-quadrado, foi importante aprender sobre ela, uma vez que engloba a ideia por trás do teste.

• O valor p para o teste qui-quadrado de independência é a probabilidade de obter contagens como as observadas, assumindo que as duas variáveis não estão relacionadas.

Sexo Masculino X Feminino

• É exatamente o que a hipótese nula reivindica. Quanto menor for o valor p, mais surpreendente é obter a contagem como fizemos, se a hipótese nula fosse verdadeira. Tecnicamente, o valor p é a probabilidade de observar um qui-quadrado pelo menos tão grande como o observado.

• Usando nosso software estatístico, encontraremos que o valor de p para este teste é 0,201. O valor p de 0,201 não é tão pequeno. Não há nenhuma estatística convincente com evidência para rejeitar a hipótese nula. Então, continuamos assumindo que a hipótese nula é verdadeira. Gênero e dirigir embriagado devem ser independentes.

• E assim os dados sugerem que uma lei que proíbe a venda de cerveja com menos de 3,2% de álcool para o sexo masculino e permite para as mulheres, é injustificada. Na verdade, o Supremo Tribunal pela maioria de votos, sete a dois, derrubou a Lei de Oklahoma como discriminatória e injustificada.

Teste Chi-Quadrado de Independênciamdauft.wdfiles.com/local--files/aula6/Teste...

Documents

Transcript of Teste Chi-Quadrado de Independênciamdauft.wdfiles.com/local--files/aula6/Teste...