Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste...

30
Inferência Estatística: decidindo na presença de incerteza Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Estatística Princípios de Bioestatística Aula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis Qualitativas

Transcript of Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste...

Page 1: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Inferência Estatística:

decidindo na presença de incerteza

Universidade Federal de Minas GeraisInstituto de Ciências ExatasDepartamento de Estatística

Princípios de Bioestatística

Aula 12 :

Teste Qui-Quadrado:

Comparação de Várias ProporçõesAssociação entre duas Variáveis Qualitativas

Page 2: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Exemplo Inicial : Igualdade de Proporções

A administração de um hospital deseja verificar se luvas de trêsmarcas (A, B e C) são homogêneas quanto à permeabilidade avírus.

Para isto, realizou um experimento, no qual 240 luvas da marca A,240 luvas da marca B e 300 luvas da marca C foram submetidas àtensão.

Durante os testes, 151 luvas da marca A (62.9%), 134 luvas daDurante os testes, 151 luvas da marca A (62.9%), 134 luvas damarca B (55.8%) e 177 luvas da marca C (59.0%) deixaram passarvírus.

Os dados do experimento apresentam evidências estatísticassuficientes contra a hipótese de que as três marcas possuem amesma permeabilidade?

H0: PA = PB = PC = PH1: ao menos uma das permeabilidades é diferente das outras

Page 3: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Teste de Igualdade de Proporções (mais de uma população)

Tabela de valores observados

Marca daluva

Deixou passar vírus quando submetida à tensão? Total

Sim Não luva Sim Não

A 151 89 240

B 134 106 240

C 177 123 300

Total 462 318 780

Tabela de Classificação Cruzada

Page 4: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Marca daluva

Deixou passar vírus quando submetida à tensão? Total

Sim Não

A 151 89 240

B 134 106 240

C 177 123 300

H0: PA = PB = PC = PH1: ao menos uma das permeabilidades é diferente das outras

C 177 123 300Total 462 318 780

462ˆ780

P = estimativa da permeabilidade comum sob H0

Page 5: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Marca daluva

Deixou passar vírus quando submetida à tensão? Total

Sim Não

Se H0 (PA = PB = PC = P) é verdadeira:

quantas luvas que deixam passar o vírus deveríamos esperar dentre as luvas da marca A ? E dentre as luvas da marca B ? E da marca C ?

luva Sim Não

A 151 .................................... 89............................. 240

B 134..................................... 106............................... 240

C 177..................................... 123............................... 300

Total 462 318 780

462ˆ780

P =

(240x462/780=142.15)

(240x462/780=142.15)

(300x462/780=177.70)

(240-142.15=97.85)

(240-142.15=97.85)

(300-177.70=122.30)

Valores esperados sob H 0= 0.593

Page 6: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Note que os valores esperados sob H0 são calculados como uma função simples dos totais de linha, coluna e do total geral:

(240 462/780=142.15) (240x318/780=97.85)

(total de linha) (total de coluna)Valor Esperado da casela

(total geral)

×=

Marca daluva

Deixou passar vírus quando submetida à tensão? Total

Sim Não

A 151 .................................... 89............................. 240(240x462/780=142.15)

(240x462/780=142.15)

(300x462/780=177.70)

(240x318/780=97.85)

(240x318/780=97.85)

(300x318/780=122.30)

A 151 .................................... 89............................. 240

B 134..................................... 106............................... 240

C 177..................................... 123............................... 300

Total 462 318 780

Page 7: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Marca daluva

Deixou passar vírus quando submetida à tensão?

Total

Sim Não

A 151 (142.15) 89 (97.85) 240

B 134 (142.15) 106 (97.85) 240

C 177 (177.70) 123 (122.30) 300

Tabela de Valores Observados (esperados sob H0 entre parênteses)

C 177 (177.70) 123 (122.30) 300

Total 462 318 780

Estatística de Teste = “Observado – Esperado sob H0”

Page 8: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Tabela de Valores Observados (esperados sob H0 entre parênteses)

Marca daluva

Deixou passar vírus quando submetida à tensão?

Total

Sim Não

A 151 (142.15) 89 (97.85) 240

B 134 (142.15) 106 (97.85) 240

C 177 (177.70) 123 (122.30) 300

Estatística de Teste = (151-142.15) (89-97.85)

(134-142.15) (106-97.85)

(177-177.70) (123-122.30)

2 2

22

2 2

C 177 (177.70) 123 (122.30) 300

Total 462 318 780

Page 9: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Tabela de Valores Observados (esperados sob H0 entre parênteses)

Marca daluva

Deixou passar vírus quando submetida à tensão?

Total

Sim Não

A 151 (142.15) 89 (97.85) 240

B 134 (142.15) 106 (97.85) 240

C 177 (177.70) 123 (122.30) 300

2 2 2

2 2 2

(151-142.15) (89-97.85) (134-142.15)Estatística de Teste =

142.15 97.85 142.15

(106-97.85) (177-177.70) (123-122.30)

97.85 177.70 122.30

+ +

+

+

+2X 2.50=

C 177 (177.70) 123 (122.30) 300

Total 462 318 780

Page 10: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Valores críticos para X2

O valor de X2 está perto ou longe do zero?

5 g.l.

Valores de Referência para X2 � Distribuição de Probabilidade de X2

5 g.l.

10 g.l.

0

Distribuição Qui-quadrado

2glχ

Page 11: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis
Page 12: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Graus de Liberdade para o Teste Qui-Quadrado

No caso do teste Qui-quadrado, os graus de liberdade da distribuição de referência equivalem ao

número de caselas livres na tabela

Exemplo: Tabela 2 x 2

Marca daluva

Deixou passar vírus quando submetida à tensão?

Total

Sim Não

A 151 89 240

B 134 106 240

Total 285 195 480

G.L. = (número de linhas -1) x (número de colunas -1)

Page 13: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Voltando ao exemplo inicial ….

Tabela 3 x 2 � G.l. = (3-1) x (2-1) = 2 x 1 = 2

O valor da estatística X2 deve ser comparado aos valores de distribuição Qui-quadrado com 2 graus de liberdade.

gl

Se α = 0.05,

RR : X2 > χ20.05 ; 2

Percentil que deixa uma área de α=0.05 acima dele na distribuição Qui-quadrado com 2 graus de liberdade (linha 2 , coluna do 0.05)

Page 14: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis
Page 15: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Voltando ao exemplo inicial ….

O valor da estatística observado de X2 foi 2.50.

Como esse valor não pertence à região de valores críticos do teste qui-quadrado, a distância entre os valores observados e os valores

RR(5%) : X2 > 5.991

qui-quadrado, a distância entre os valores observados e os valores esperados sob H0 foi considerada pequena.

Assim, o experimento não mostrou evidências estatísticas suficientes para a rejeição da hipótese de que as permeabilidades das luvas das três marcas sejam iguais, a 5% de significância.

Page 16: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Se rejeitarmos a hipótese da homogeneidade das permeabilidades usando os dados deste experimento ….

Valor P = P[ obter um valor de X2 ainda “mais extremo” do que o

Qual será o risco de estarmos cometendo o erro tipo I ?

Valor P = P[ obter um valor de X ainda “mais extremo” do que o valor observado ]

X2obs

Valor PValor P = P[χ2gl> X2obs]

Page 17: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Voltando ao exemplo inicial ….

Na linha 2 da Tabela Qui-quadrado, não existe o valor 2.50.

Valor P = P[χ22> 2.50]

2.50

Valor P = P[χ22> 2.50] > 0.10

Conclusão : Os dados do experimento não mostraram evidências estatísticas suficientes para a rejeição da hipótese de que as permeabilidades das luvas das três marcas sejam iguais (valor P > 0.10).

Page 18: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Teste Qui-Quadrado para Homogeneidade de Proporções

H0: As proporções de sucesso são homogêneas para todas as populaçõesHa: Ao menos uma população tem proporção de sucesso diferente das demais

Onde :

Nc é o número total de caselas da tabela

22

1

( )cNi i

obsi i

O EX

E=

−=∑

c

Oi é o valor observado na casela i, i=1,2,…, Nc

Ei é o valor esperado na casela i.

(total de linha) (total de coluna)

(total geral)iE×=

Valor P = P[χ2gl> X2obs], onde g.l. = (l-1) x (c-1)

Page 19: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Teste Qui-Quadrado de Independência

Variável B

Variável A B 1 B2 .... Bc Total

A1A2

Os n indivíduos de uma amostra são classificados segundo duas variáveis qualitativas (variável A e variável B):

A2A3

ALTotal n

Page 20: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Cor dos cabelos

Cor dos olhosTotal

Verde Acinzentado Azul Castanho

Preto 5 15 20 68 108

Castanho 29 54 84 119 286

Ruivo 14 14 17 26 71

Exemplo : Distribuição de 592 estudantes de uma universidade segundo as variáveis cor dos cabelos e cor de olhos.

Loiro 16 10 94 7 127

Total 64 93 215 220 592

Pergunta : Existe associação entre a cor de olhos e a cor doscabelos de uma pessoa?

A distribuição percentual das cores de olhos é igual em cadacor de cabelo (e vice-versa)?

Page 21: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Cor dos cabelos

Cor dos olhosTotal

Verde Acinzentado Azul Castanho

Preto 5 15 20 68 108

Castanho 29 54 84 119 286

14 14 17 26 71

Valores observados na amostra (valores esperados sob H 0):

H0: não existe associação cor de olhos e a cor dos cabelos.

Ruivo 14 14 17 26 71

Loiro 16 10 94 7 127

Total 64 93 215 220 592

(total de linha) (total de coluna)Valor Esperado da casela

(total geral)

×=

Page 22: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Verde Cinza Azul Castanho AllPreto 5 15 20 68 108

11.68 16.97 39.22 40.14

Castanho 29 54 84 119 28630.92 44.93 103.87 106.28

Ruivo 14 14 17 26 717.68 11.15 25.79 26.39

Loiro 16 10 94 7 12713.73 19.95 46.12 47.2013.73 19.95 46.12 47.20

All 64 93 215 220 592

Chi-Square = 138.290; DF = 9; P-Value = 0.000

22

1

( )cNi i

obsi i

O EX

E=

−=∑

Page 23: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

Exemplo: associação entre grupo sanguíneo e presença de uma característica de interesse

Tabela de Classificação Cruzada

Grupo Sangüíneo

CaracterísticaTotal

Presente Ausente

A 32 47 79

B 8 19 27B 8 19 27

AB 7 14 21

O 9 64 73

Total 56 144 200

Page 24: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

H0: Variável A não está associada à Variável B (A e B são independentes)

HA: Variável A está associada à Variável B (A e B não são independentes)

Onde :

Nc é o número total de caselas da tabela

22

1

( )cNi i

obsi i

O EX

E=

−=∑Oi é o valor observado na casela i, i=1,2,…, Nc

Ei é o valor esperado na casela i.

(total de linha) (total de coluna)

(total geral)iE×=

Valor P = P[χ2gl> X2obs], onde g.l. = (l-1) x (c-1)

Page 25: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

“Associação entre toxoplasmose e acidente de trânsito em pessoas com sangue Rh negativo”

“Increased incidence of traffic accidents in Toxoplasma-infected military drivers and protective effect RhD molecule revealed by a large- scale prospective cohort study”

Page 26: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

H0: acidente automobilístico NÃO está associado à presença de toxoplasmose em pessoas com Rh negativo

HA: acidente automobilístico está associado àpresença de toxoplasmose em pessoas com Rh negativo

Toxoplasma Acidente ? Total

Não Sim

Não 526 14 540

Sim 170 11 181Sim 170 11 181

Total 696 25 721

Valor P = P[χ21> 4.92]

X2 = 4.92

Page 27: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

0.025 < Valor P < 0.05)

4.92

(0.025 < Valor P < 0.05)

Ao nível de 5% de significância, há evidências estatísticas suficientes a favor da hipótese de associação entre acidente automobilístico e presença de toxoplasmose em pessoas com sangue Rh negativo (0.025 < Valor P < 0.05).

Page 28: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

“Associação entre toxoplasmose e acidente de trânsito em pessoas com sangue Rh positivo”

“Increased incidence of traffic accidents in Toxoplasma-infected military drivers and protective effect RhD molecule revealed by a large- scale prospective cohort study”

Page 29: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

H0: acidente automobilístico NÃO está associado à presença de toxoplasmose em pessoas com Rh positivo

HA: acidente automobilístico está associado àpresença de toxoplasmose em pessoas com Rh positivo

Toxoplasma Acidente ? Total

Não Sim

Não 2391 69 2460

Sim 692 17 709Sim 692 17 709

Total 3083 86 3169

Valor P = P[χ21> 0.21]

X2 = 0.21

Page 30: Aula 12 : Teste Qui-Quadrado: Comparação de Várias …edna/pgf/PBio-Aula12.pdfAula 12 : Teste Qui-Quadrado: Comparação de Várias Proporções Associação entre duas Variáveis

(0.10 < Valor P < 0.90)

0.21

(0.10 < Valor P < 0.90)

Para pessoas com sangue Rh positivo, os dados amostrais não fornecem evidências estatísticas suficientes contra a hipótese de independência entre acidente automobilístico e presença de toxoplasmose (Valor P > 0.10).