Post on 02-Dec-2018
UNIVERSIDADE FEDERAL DA BAHIA
ESCOLA POLITÉCNICA
MEAU- MESTRADO EM ENGENHARIA AMBIENTAL URBANA
ENG C 18 Métodos de Pesquisa Quantitativos e Qualitativos
AULA 10 RELACIONAMENTOS ENTRE DUAS
VARIÁVEIS
ANÁLISE DE DADOS CATEGORIZADOS
DOCENTE: CIRA SOUZA PITOMBO
Free Template from
www.brainybetty.com 2
O que vimos até aqui? • Pesquisas e dados – Cap 2
• Técnicas de amostragem – Cap 3
• Explorando dados categorizados – Cap 4
• Explorando dados quantitativos – Cap 5
• Medidas descritivas – Cap 6
• Modelos probabilísticos – Cap 7
• Distribuições contínuas e o modelo normal – Cap 8
• Estimação de parâmetros – Cap 9
• Testes estatísticos de hipótese – Cap 10
Free Template from
www.brainybetty.com 3
Relacionamento entre duas
variáveis
• Como medir e testar a siginificância da
associação entre duas variáveis qualitativas?
• Como estudar a correlação entre duas
variáveis quantitativas?
• Como construir modelos para relacionamento
entre duas variáveis?
RELEMBRANDO – AULA 1 - DESMITIFICANDO
A ESTATÍSTICA
Trabalho 2: Analisar relações entre aumento da frota
veicular e número de acidentes de trânsito
DESMITIFICANDO A ESTATÍSTICA
Trabalho 2: Analisar relações entre aumento da frota
veicular e número de acidentes de trânsito
Etapa 2: Exploração dos dados
0
200
400
600
800
1000
1200
0 500 1000 1500 2000 2500
0,982436
DESMITIFICANDO A ESTATÍSTICA Trabalho 2: Analisar relações entre aumento da frota
veicular e número de acidentes de trânsito
Etapa 2: Exploração dos dados – Medidas descritivas
Statistics
31 31
0 0
1324,65 484,94
384,596 273,393
800 100
2220 1100
Valid
Missing
N
Mean
Std. Dev iation
Minimum
Maximum
VMD Acidentes
DESMITIFICANDO A ESTATÍSTICA Trabalho 2: Analisar relações entre aumento da frota
veicular e número de acidentes de trânsito
Etapa 3: Inferência estatística
y = 0,6984x - 440,16
R2 = 0,9652
0
200
400
600
800
1000
1200
0 500 1000 1500 2000 2500
Free Template from
www.brainybetty.com 8
Dados categorizados
• Duas ou mais variáveis associadas
• Se o conhecimento de uma altera a
probabilidade de algum resultado da outra
• Propensão da pessoa ir à praia x clima
Free Template from
www.brainybetty.com 9
Na aula de hoje
• Testar se existe associação entre duas
variáveis qualitativas
• Com base numa amostra de observações
• Veremos também uma maneira de medir o
grau de associação descrito pela amostra
Free Template from
www.brainybetty.com 10
O teste de associação Qui-
Quadrado
• É um método que permite
testar a significância da
associação entre duas
variáveis qualitativas
Free Template from
www.brainybetty.com 11
O teste de associação Qui-
Quadrado • Para estudar a associação entre sexo (masculino e feminino) e
tabagismo (fumante ou não fumante), numa certa população,
observou-se uma amostra aleatória de 300 pessoas adultas
• Deseja-se verificar se os dados da amostra mostram evidência suficiente
para afirmar que, na população em estudo, existe associação entre sexo
e tabagismo
mh mh
Free Template from
www.brainybetty.com 12
O teste de associação Qui-
Quadrado
mh mh
Ho : Sexo e tabagismo são variáveis independentes na população
em estudo
H1: Existe associação entre as variáveis sexo e tabagismo na
população em estudo
Relembrando a aula 1:DESMITIFICANDO A
ESTATÍSTICA
Trabalho 1: Investigar o grau de instrução do chefe da
casa nas famílias residente na cidade de Cirópolis.
Região A Região B
Trabalho 1: Investigar o
grau de instrução do
chefe da casa nas
famílias residente na
cidade de Cirópolis.
ID Família Grau de instrução Região
1 1 A
2 1 A
3 1 A
4 1 A
5 1 A
6 1 A
7 1 A
8 2 A
9 3 A
10 3 A
11 3 B
12 3 B
13 3 B
14 3 C
15 3 A
16 3 A
17 2 A
18 2 A
19 2 A
20 2 A
Relembrando a aula 1:DESMITIFICANDO A
ESTATÍSTICA
Free Template from
www.brainybetty.com 15
O teste de associação Qui-
Quadrado
Ho : As duas variáveis são independentes
H1: Existe associação entre as duas variáveis
Trabalho 1: Investigar o grau de instrução do chefe da
casa nas famílias residente na cidade de Cirópolis.
Free Template from
www.brainybetty.com 16
A estatística t A estatística do teste é uma espécie de medida de
distância entre as frequencias observadas, O, e as frequencias que
esperaríamos encontrar, E, na suposição das variáveis serem
independentes
2
43,3% de 200 homens fumantes (0,433) x (200) = 86,6
56,7% de 200 homens não fumantes (0,567) x (200) = 113,4
De forma análoga, poderemos obter as freqüências esperadas
nos estratos das mulheres
Free Template from
www.brainybetty.com 17
A estatística t Freqüências esperadas
eraltota
unatotaldacolxhatotaldalinE
lg
)()(
E
EO 22 )(
Cálculo das Freqüências esperadas
Cálculo das Parcelas da estatística qui-quadrado
Free Template from
www.brainybetty.com 18
A estatística t Cálculo das Parcelas da estatística qui-quadrado
74,1501,0251,0656,0328,02
Quando as variáveis são independentes (Ho) verdadeira, as frequencias
observadas tendem a ficar perto das frequencias esperadas. Neste caso o
valor de qui-quadrado deve ser pequeno. Um valor grande da estatística
qui-quadrado sinaliza que as diferenças entre as frequencias observadas e
esperadas não devem ser meramente causais.
Free Template from
www.brainybetty.com 19
Distribuição de referência Precisamos de uma distribuição de referência que permita julgar se
determinado valor da estatística qui-quadrado pode ser considerado
grande o suficiente para rejeitar Ho, em favor e H1. Suposições básicas:
Os dados estejam dispostos numa tabela de contingência propriamente
dita, isto é, cada elemento observado é alocado numa e apenas numa
célula.
As amostras sejam grandes
Supondo Ho verdadeira e as condições acima, os possíveis valores da
estatística seguem a chamada distribuição qui-quadrado com gl=(l-
1).(c-1) graus de liberdade, onde l é o número de linhas e c é o número
de colunas da tabela
2
2
Free Template from
www.brainybetty.com 20
Distribuição de referência No exemplo, ambas as variáveis têm duas categorias, então l=2 e c=2,
portante gl= (2-1).(2-1) = 1
Se Ho for verdadeira, os possíveis valores da estatística devem
seguir uma distribuição qui-quadrado com gl=1. A forma da distribuição
qui-quadrado torna-se menos assimétrica à medida que cresce o número
de graus de liberdade 2
2
Free Template from
www.brainybetty.com 21
Distribuição de referência
2
0 5 10 15 20 252
1 gl
4 gl
10 gl
20 gl
Free Template from
www.brainybetty.com 22
Probabilidade de significância Supondo que as duas variáveis sejam independentes (Ho verdadeira), o
valor p é a probabilidade de a estatística qui-quadrado acusar um valor
maior ou igual do que o valor , calculado com base na amostra.
2
2
2
F(x)
Valor p
Quando os dados levam a um grande (e, em consequencia, um valor
p pequeno), o teste rejeita Ho, em favor de H1. Por outro lado, quando os
dados observados levam um pequeno (e, em consequencia, um
valor p grande), o teste não rejeita Ho.
2
2
p>α – Aceita Ho
p<α – Rejeita Ho em
favor de H1
Free Template from
www.brainybetty.com
Exemplo: 2(16, 0.05) = ?
0
)05.0,16(2 2
05.0
Na Tabela qui-quadrado
Área à direita
gl 0.05
16 26.3
2(16, 0.05) = 26.3
Free Template from
www.brainybetty.com
Exemplo: 2(10, 0.99) = ?.
0 )99.0,10(2 2
Área à direita
gl 0.99
10 2.56
Na Tabela
2(10, 0.99) = 2.56
Coeficiente de contingência Um coeficiente muito usado para medir o grau de associação em uma
tabela de contingência (n=número de elementos da amostra)
2
2
nC
Chamando de k o menor valor entre l (número de linhas da tabela) e c
(número de colunas da tabela). O coeficiente de contingência modificado
é dado por:
)()1(
.2
2
nk
kC
O valor de C sempre estará no intervalo entre 0 e 1.
Valores próximos de 1 descrevem uma forte
associação
Relembrando a aula 1:DESMITIFICANDO A
ESTATÍSTICA
Trabalho 1: Investigar o grau de instrução do chefe da
casa nas famílias residente na cidade de Cirópolis.
Região A Região B
Trabalho 1: Investigar o
grau de instrução do
chefe da casa nas
famílias residente na
cidade de Cirópolis.
ID Família Grau de instrução Região
1 1 A
2 1 A
3 1 A
4 1 A
5 1 A
6 1 A
7 1 A
8 2 A
9 3 A
10 3 A
11 3 B
12 3 B
13 3 B
14 3 C
15 3 A
16 3 A
17 2 A
18 2 A
19 2 A
20 2 A
Relembrando a aula 1:DESMITIFICANDO A
ESTATÍSTICA
Grau de instrução * Região Crosstabulation
Count
7 10 23 40
25 5 6 36
9 25 10 44
41 40 39 120
1
2
3
Grau de
instrução
Total
A B C
Região
Total
Chi-Square Tests
42.746a 4 .000
40.097 4 .000
120
Pearson Chi-Square
Likelihood Ratio
N of Valid Cases
Value df
Asy mp. Sig.
(2-sided)
0 cells (.0%) have expected count less than 5. The
minimum expected count is 11.70.
a.
Symmetric Measures
.597 .000
.422 .000
.512 .000
120
Phi
Cramer's V
Contingency Coef f icient
Nominal by
Nominal
N of Valid Cases
Value Approx. Sig.
Not assuming the null hy pothesis.a.
Using the asymptotic s tandard error assuming the null
hy pothesis.
b.