Estatística - Análise Bivariada

19
Cap´ ıtulo IV An´ alise bivariada Nos cap´ ıtulos anteriores, vimos formas de apresentar e analisar a distribui¸c˜ ao de uma vari´ avel de maneira “isolada”, o que configura uma an´aliseunivariada. Todavia, duas (ou mais) vari´aveis de um conjunto de dados podem estar, de alguma forma, associadas. O objetivo de uma an´alise bivariada ´ e verificar, ao menos preliminarmente, a associa¸c˜ ao (ou falta de associa¸c˜ ao) entre duas vari´aveis de um conjunto de dados. Neste cap´ ıtulo, veremos formas de apresentar a rela¸c˜ao entre duas vari´ aveis qualitativas (por meio de tabelas de contingˆ encias e gr´ aficos de barras m´ ultiplas) e entre duas vari´ aveis quantitativas (por meio de diagrama de dispers˜ ao e coeficiente de correla¸c˜ ao). 4.1 Associa¸ ao entre duas vari´ aveis qualitativas 4.1.1 Tabela de contingˆ encia Tabelas de contingˆ encia s˜ ao usadas para registrar frequˆ encias cruzadas dos atributos de duas ou mais vari´ aveis qualitativas. Neste curso, estamos interessados no caso particular de tabelas de contingˆ encia com apenas duas vari´aveis, tamb´ em conhecidas como tabelas de dupla entrada. Uma tabela de dupla entrada ´ e uma vers˜ ao da tabela dedistribui¸c˜ ao de frequˆ encias que traz a frequˆ encia de cada cruzamento dos atributos de duas vari´ aveis qualitativas. Um exemplo de tabela de contingˆ encia segue abaixo. 1

description

Análise Bivariada

Transcript of Estatística - Análise Bivariada

Page 1: Estatística - Análise Bivariada

Capıtulo IV

Analise bivariada

Nos capıtulos anteriores, vimos formas de apresentar e analisar a distribuicao de uma

variavel de maneira “isolada”, o que configura uma analise univariada. Todavia, duas

(ou mais) variaveis de um conjunto de dados podem estar, de alguma forma, associadas.

O objetivo de uma analise bivariada e verificar, ao menos preliminarmente, a

associacao (ou falta de associacao) entre duas variaveis de um conjunto de dados.

Neste capıtulo, veremos formas de apresentar a relacao entre duas variaveis

qualitativas (por meio de tabelas de contingencias e graficos de barras multiplas) e

entre duas variaveis quantitativas (por meio de diagrama de dispersao e coeficiente de

correlacao).

4.1 Associacao entre duas variaveis qualitativas

4.1.1 Tabela de contingencia

Tabelas de contingencia sao usadas para registrar frequencias cruzadas dos atributos

de duas ou mais variaveis qualitativas. Neste curso, estamos interessados no caso

particular de tabelas de contingencia com apenas duas variaveis, tambem conhecidas

como tabelas de dupla entrada. Uma tabela de dupla entrada e uma versao da tabela

de distribuicao de frequencias que traz a frequencia de cada cruzamento dos atributos de

duas variaveis qualitativas. Um exemplo de tabela de contingencia segue abaixo.

1

Page 2: Estatística - Análise Bivariada

2 Prof. Felipe Rafael Ribeiro Melo

Nıvel de InstrucaoLocal

TotalMonte Verde Parque da Figueira Encosta da Morro

Sem instrucao 6 14 18 38

Fundamental 11 14 13 38

Medio 23 15 6 44

Total 40 43 37 120

Tabela 4.1: Tabela de contingencia com as variaveis Nıvel de instrucao e Local.

A ultima linha e a ultima coluna da tabela acima (referente aos totais) sao, de certa

forma, opcionais. Entretanto, as informacoes que elas trazem serao necessarias quando

quisermos analisar:

• o perfil do nıvel de instrucao (em termos percentuais) em cada localidade; ou

• o perfil da localidade (em termos percentuais) em cada nıvel de instrucao.

Quando porcentagens sao incluıdas em tabelas de contingencia, podemos escreve-las entre

parenteses ao lado das respectivas frequencias absolutas. Observe a tabela abaixo.

Nıvel de InstrucaoLocal

Monte Verde Parque da Figueira Encosta da Morro

Sem instrucao 6 (15,0) 14 (32,6) 18 (48,6)

Fundamental 11 (27,5) 14 (32,6) 13 (35,1)

Medio 23 (57,5) 15 (34,8) 6 (16,2)

Total 40 (100,0) 43 (100,0) 37 (100,0)

Tabela 4.2: Perfil do nıvel de instrucao do chefe da casa em cada uma das localidades.

A tabela acima fornece, de forma direta, as conclusoes abaixo.

• Dentre as 40 famılias entrevistadas no C. R. Monte Verde:

– 15,0% possui chefe da casa sem instrucao;

Page 3: Estatística - Análise Bivariada

3

– 27,5% possui chefe da casa com ensino fundamental;

– 57,5% possui chefe da casa com ensino medio.

• Dentre as 43 famılias entrevistadas no C. R. Parque da Figueira:

– 32,6% possui chefe da casa sem instrucao;

– 32,6% possui chefe da casa com ensino fundamental;

– 34,8% possui chefe da casa com ensino medio.

• Dentre as 37 famılias entrevistadas na Encosta do Morro:

– 48,6% possui chefe da casa sem instrucao;

– 35,1% possui chefe da casa com ensino fundamental;

– 16,2% possui chefe da casa com ensino medio.

Agora vamos “inverter” nossa analise. Observe a tabela a seguir.

Nıvel de InstrucaoLocal

TotalMonte Verde Parque da Figueira Encosta da Morro

Sem instrucao 6 (15,8) 14 (36,8) 18 (47,4) 38 (100,0)

Fundamental 11 (28,9) 14 (36,8) 13 (34,2) 38 (100,0)

Medio 23 (52,3) 15 (34,1) 6 (13,6) 44 (100,0)

Tabela 4.3: Perfil do local da moradia da famılia em cada nıvel de instrucao do chefe da

casa.

A tabela acima fornece, de forma direta, as conclusoes abaixo.

• Dentre as 38 famılias entrevistadas cujo chefe da casa e sem instrucao:

– 15,8% residem no C.R. Monte Verde;

– 36,8% residem no C.R. Parque da Figueira;

– 47,4% residem na Encosta do Morro.

Page 4: Estatística - Análise Bivariada

4 Prof. Felipe Rafael Ribeiro Melo

• Dentre as 38 famılias entrevistadas cujo chefe da casa tem ensino fundamental como

grau de instrucao:

– 28,9% residem no C.R. Monte Verde;

– 36,8% residem no C.R. Parque da Figueira;

– 34,2% residem na Encosta do Morro.

• Dentre as 44 famılias entrevistadas cujo chefe da casa tem ensino medio como grau

de instrucao:

– 52,3% residem no C.R. Monte Verde;

– 34,1% residem no C.R. Parque da Figueira;

– 13,6% residem na Encosta do Morro.

Observacao 4.1 Tambem e possıvel utilizar variavel quantitativa discreta em tabelas

de contingencia, desde que tenhamos poucos valores distintos desta variavel no nosso

conjunto de dados.

4.1.2 Grafico de barras multiplas

O grafico de barras multiplas e uma alternativa para colocar varios graficos de

barras em apenas uma figura, ou ainda de representar as frequencias de uma tabela

de contingencia. A Figura 4.1 traz um grafico de barras multiplas com as informacoes da

Tabela 4.1. Note que temos tres graficos de barras na mesma figura: nıvel de instrucao

do chefe da casa nas casas entrevistadas no C.R. Monte Verde; nıvel de instrucao do

chefe da casa nas casas entrevistadas no C.R. Parque da Figueira; e nıvel de instrucao

do chefe da casa nas casas entrevistadas na Encosta do Morro.

No lugar da frequencia (absoluta), podemos usar frequencia relativa ou porcentagem

no eixo vertical. Como na Figura 4.1 estamos avaliando a frequencia do nıvel de instrucao,

converter frequencias absolutas em porcentagens deve ser feito conforme esta na Tabela

4.2. O grafico resultante e exposto na Figura 4.2.

Page 5: Estatística - Análise Bivariada

5

Figura 4.1: Grafico de barras multiplas apresentando as frequencias do nıvel de instrucao

por localidade.

Figura 4.2: Grafico de barras multiplas apresentando os percentuais do nıvel de instrucao

por localidade. Os percentuais sao os mesmos expressos na Tabela 4.2.

Page 6: Estatística - Análise Bivariada

6 Prof. Felipe Rafael Ribeiro Melo

4.2 Associacao entre duas variaveis quantitativas

Quando um determinado conjunto de dados apresenta duas ou mais variaveis

quantitativas, e interessante verificar se existe alguma associacao entre elas. Por exemplo,

no conjunto de dados Famılias.xlsx, temos o tamanho da famılia e a renda familiar (em

s.m.) como variaveis quantitativas. Os valores observados evidenciam alguma associacao

entre estas duas variaveis? Para responder esta pergunta, a primeira ferramenta que

podemos utilizar e uma representacao grafica denominada diagrama de dispersao.

4.2.1 Diagrama de dispersao

O diagrama de dispersao nos fornece uma primeira impressao da associacao (ou falta

de associacao) entre duas variaveis quantitativas. Primeiramente, vamos denotar as duas

variaveis em questao pelas letras X e Y 1. A ideia e verificar se os valores assumidos pela

variavel Y podem ser “explicados” pelos valores assumidos pela variavel X.

O diagrama de dispersao e uma representacao grafica tracada no plano cartesiano. Ele

consiste de um conjunto de pontos, e cada ponto esta associado a uma observacao.

No eixo-x (eixo horizontal) sao colocados os valores da variavel X, e no eixo-y (eixo

vertical) sao colocados os valores da variavel Y . Para um total de n observacoes,

marcamos n pontos (pares ordenados) da seguinte forma:

• Se a 1a observacao assume valor x1 para a variavel X e valor y1 para a variavel

Y , entao marcamos o par ordenado (x1, y1) no plano cartesiano como o ponto

associado a 1a observacao;

...

• Se a n-esima observacao assume valor xn para a variavel X e valor yn para a

variavel Y , entao marcamos o par ordenado (xn, yn) no plano cartesiano como

o ponto associado a n-esima observacao.

1Entenderemos melhor esta notacao quando abordarmos o conceito de regressao linear.

Page 7: Estatística - Análise Bivariada

7

A Figura 4.3 ilustra um exemplo simples de diagrama de dispersao com n = 3

observacoes.

Figura 4.3: Exemplo de diagrama de dispersao com n = 3 observacoes.

Exemplo 4.2 A Tabela 4.4 exibe alguns dados baseados no censo demografico de 2000,

de uma amostra aleatoria de 12 municıpios brasileiros.

Page 8: Estatística - Análise Bivariada

8 Prof. Felipe Rafael Ribeiro Melo

Municıpio DistCap EspVida MortInf Alfab Renda

Araruna (PR) 365 67,99 23,19 86,23 188,29

Nova Redencao (BA) 278 61,19 56,56 63,00 74,79

Moncao (MA) 150 59,58 63,32 63,64 66,96

Porto Rico do Maranhao (MA) 78 58,96 66,05 79,33 65,34

Campo Ere (SC) 468 68,10 31,71 83,38 173,38

Lagoa do Piauı (PI) 40 63,65 47,08 65,81 60,00

Sao Jose dos Palmares (PR) 486 71,01 16,62 77,54 150,67

Paraıba do Sul (RJ) 83 71,36 15,69 89,28 264,55

Malhada dos Bois (SE) 65 64,46 44,18 69,95 80,69

Jandaıra (BA) 175 62,45 51,57 59,72 58,68

Vespasiano (MG) 14 68,68 32,81 90,43 196,51

Ipaba (MG) 167 67,42 37,04 81,82 125,75

Tabela 4.4: Alguns dados baseados no Censo Demografico de 2000, de uma amostra

aleatoria de municıpios brasileiros.

• Descricao das variaveis:

– DistCap: distancia a capital (em km) da respectiva Unidade da Federacao.

– EspVida: esperanca de vida ao nascer.

– MortInf: mortalidade (numero medio de mortes em 1000) ate 1 ano de idade.

– Alfab: taxa de alfabetizacao (porcentagem da populacao adulta alfabetizada).

– Renda: renda per capita do municıpio (R$).

Note que todas as cinco variaveis expostas na Tabela 4.4 sao quantitativas. Podemos

entao realizar varios diagramas de dispersao envolvendo diferentes pares de variaveis

(a saber, uma possibilidade de 10 pares diferentes). Abaixo, seguem algumas destas

associacoes.

Page 9: Estatística - Análise Bivariada

9

• Associacao entre X = Renda per capita e Y = Taxa de alfabetizacao:

Figura 4.4: Diagrama de dispersao Renda per capita x Taxa de alfabetizacao dos dados

da Tabela 4.4.

O diagrama de dispersao acima nos mostra que, para os municıpios amostrados, ha

uma tendencia de aumento da taxa de alfabetizacao conforme a renda per capita cresce.

Ou seja, uma associacao positiva.

Page 10: Estatística - Análise Bivariada

10 Prof. Felipe Rafael Ribeiro Melo

• Associacao entre X = Taxa de mortalidade infantil e Y = Esperanca de vida ao

nascer:

Figura 4.5: Diagrama de dispersao Taxa de mortalidade infantil x Esperanca de vida ao

nascer dos dados da Tabela 4.4.

O diagrama de dispersao acima nos mostra que, para os municıpios amostrados, ha

uma tendencia de decrescimento da esperanca de vida ao nascer conforme a taxa de

mortalidade infantil cresce. Ou seja, uma associacao negativa.

Page 11: Estatística - Análise Bivariada

11

• Associacao entre X = Taxa de mortalidade infantil e Y = Taxa de alfabetizacao:

Figura 4.6: Diagrama de dispersao Taxa de mortalidade infantil x Taxa de alfabetizacao

dos dados da Tabela 4.4.

O diagrama de dispersao acima nos mostra que, para os municıpios amostrados,

ha uma tendencia de decrescimento da taxa de alfabetizacao conforme a taxa de

mortalidade infantil cresce. Ou seja, uma associacao negativa.

Page 12: Estatística - Análise Bivariada

12 Prof. Felipe Rafael Ribeiro Melo

• Associacao entre X = Distancia da capital e Y = Taxa de alfabetizacao:

Figura 4.7: Diagrama de dispersao Distancia da capital x Taxa de alfabetizacao dos dados

da Tabela 4.4.

O diagrama de dispersao acima nos mostra que, para os municıpios amostrados, nao

existe uma tendencia de aumento ou decrescimento da taxa de alfabetizacao conforme

a distancia da capital cresce.

Page 13: Estatística - Análise Bivariada

13

4.2.2 Coeficiente de correlacao de Pearson

Apesar de nos dar uma ideia preliminar da associacao entre duas variaveis

quantitativas em um banco de dados, o diagrama de dispersao nao fornece de maneira

explıcita a forca desta associacao. Precisamos portanto de uma medida que mensure a

forca da associacao entre duas variaveis de um banco de dados. Veremos aqui a medida

mais utilizada para este fim: o coeficiente de correlacao de Pearson (ou simplesmente

coeficiente de correlacao), o qual mede o grau de associacao linear2 entre as variaveis.

Para um conjunto de dados com n observacoes, seja: xi o valor da variavel X para a

i-esima observacao; yi o valor da variavel Y para a i-esima observacao; x a media dos n

valores observados da variavel X; e y a media dos n valores observados da variavel Y . O

coeficiente de correlacao entre X e Y , denotado por r(X, Y ) (ou simplesmente pela letra

r), e dado por

r = r(X, Y ) =

∑ni=1

[(xi − x)(yi − y)

]√∑ni=1(xi − x)2 ×

√∑ni=1(yi − y)2

.

Neste curso, nao entraremos em detalhes de como obter o coeficiente de correlacao via

formula acima (para tal, vamos usar o R Commander). Na tabela abaixo, temos o

coeficiente de correlacao para as associacoes de variaveis feitas do Exemplo 4.2.

Variavel X Variavel Y r(X, Y )

Renda per capita Taxa de alfabetizacao 0, 8627

Taxa de mortalidade infantil Esperanca de vida ao nascer −0, 9833

Taxa de mortalidade infantil Taxa de alfabetizacao −0, 6841

Distancia da capital Taxa de alfabetizacao 0, 0870

Tabela 4.5: Coeficientes de correlacao para os quatro pares de variaveis analisados.

Observacao 4.3 Para calcular o coeficiente de correlacao, nao importa qual variavel foi

chamada de X e qual variavel foi chamada de Y , ou seja, r(X, Y ) = r(Y,X). Porem,

como ja mencionado na Secao 4.2.1, a ideia e que Y possa ser, de certa forma, explicada

2A ideia deste tipo de associacao sera melhor compreendida na Observacao 4.4.

Page 14: Estatística - Análise Bivariada

14 Prof. Felipe Rafael Ribeiro Melo

por X. Por exemplo, num banco de dados com peso e altura de indivıduos, faz mais

sentido explicar o peso como funcao da altura do que explicar a altura como funcao do

peso. Neste caso, e razoavel fazer X =altura e Y =peso.

• Mas como interpretar o coeficiente de correlacao?

→ O coeficiente de correlacao sempre resulta em um valor no intervalo

[−1 ; 1], isto e, nunca retorna um valor maior que 1 ou menor que -1;

→ r > 0 indica associacao positiva entre as variaveis, e r < 0 indica associacao

negativa entre as variaveis;

→ Quanto mais proximo de 1, maior e a associacao (linear) positiva entre

as variaveis, e quanto mais proximo de -1, maior e a associacao (linear)

negativa entre as variaveis;

→ Valores proximos de zero indicam associacao (linear) fraca.

A Figura 4.8 ilustra os valores que indicam associacao linear forte, moderada e fraca.

r ∈ [0, 7 ; 1] ou r ∈ [−1 ; −0, 7]⇒ associacao linear forte ;

r ∈ (0, 3 ; 0, 7) ou r ∈ (−0, 7 ; −0, 3)⇒ associacao linear moderada ;

r ∈ [−0, 3 ; 0, 3]⇒ ausencia linear fraca .

Figura 4.8: Ilustracao dos valores assumidos pelo coeficiente de correlacao quanto ao grau

de associacao linear entre os pares observados.

Page 15: Estatística - Análise Bivariada

15

Observando os coeficientes de correlacao na Tabela 4.5, podemos dizer que, dentre os

municıpios desta amostra:

• Renda per capita e Taxa de alfabetizacao apresentam associacao linear forte;

• Taxa de mortalidade infantil e Esperanca de vida ao nascer apresentam associacao

linear forte;

• Taxa de mortalidade infantil e Taxa de alfabetizacao apresentam associacao linear

moderada;

• Distancia da capital e Taxa de alfabetizacao apresentam associacao linear fraca

(quase nula).

Observacao 4.4 O coeficiente de correlacao mede a forca da associacao linear entre

duas variaveis observadas. Pode ocorrer de notarmos uma associacao consideravel entre

as variaveis analisadas (positiva ou negativa) pela visualizacao do diagrama de dispersao,

porem o coeficiente de correlacao acusar um valor que indique uma associacao linear

fraca ou moderada. Isto pode ser um indıcio de que, apesar da tendencia estar clara no

diagrama de dispersao, os pares ordenados nao estao se comportando em torno de uma

reta imaginaria, mas sim fazendo um outro “desenho” no plano cartesiano. A Figura

4.6 ilustra esta situacao: o diagrama de dispersao aponta uma clara associacao. Porem,

do ponto de vista linear, tal associacao e apenas moderada.

Observacao 4.5 A Figura abaixo traz um criterio alternativo mais refinado que o

exposto na Figura 4.8.

Page 16: Estatística - Análise Bivariada

16 Prof. Felipe Rafael Ribeiro Melo

4.2.3 Reta de regressao

Quando o coeficiente de correlacao acusa uma associacao (linear) forte ou ate mesmo

moderada, pode ser interessante adicionar ao diagrama de dispersao a chamada reta de

regressao3. Esta reta define posicao e inclinacao da tendencia dos pares avaliados. Para

associacoes lineares fortes (isto e, r ∈ [0, 7 ; 1] ou r ∈ [−1 ; −0, 7]), espera-se que a maior

parte dos pares ordenados no diagrama de dispersao se posicione em torno desta reta.

Para obter a reta de regressao, e utilizada uma tecnica chamada de metodo dos

mınimos quadrados. Nao entraremos em detalhes sobre tal metodo neste capıtulo.

Nas figuras abaixo, seguem os diagramas de dispersao tracados nas Figuras 4.4 a 4.6,

cada qual com sua reta de regressao.

Figura 4.9: Diagrama de dispersao da associacao Renda per capita x Taxa de alfabetizacao

dos dados da Tabela 4.4, com a respectiva reta de regressao.

3No R Commander, a reta de regressao e chamada de linha de quadrados mınimos, pelo fato desta

ser fruto do metodo de mınimos quadrados.

Page 17: Estatística - Análise Bivariada

17

Figura 4.10: Diagrama de dispersao da associacao Taxa de mortalidade infantil x

Esperanca de vida ao nascer dos dados da Tabela 4.4, com a respectiva reta de regressao.

Page 18: Estatística - Análise Bivariada

18 Prof. Felipe Rafael Ribeiro Melo

Figura 4.11: Diagrama de dispersao da associacao Taxa de mortalidade infantil x Taxa

de alfabetizacao dos dados da Tabela 4.4, com a respectiva reta de regressao.

Page 19: Estatística - Análise Bivariada

Referencias Bibliograficas

[1] BARBETTA, Pedro Alberto. Estatıstica Aplicada as Ciencias Sociais. 8a

edicao revista. Florianopolis: Editora da UFSC, 2012.

[2] SHIMAKURA, Sılvia. Interpretando o coeficiente de correlacao. Curitiba:

UFPR/LEG, 2006. Disponıvel em: http://leg.ufpr.br/~silvia/CE003/node74.

html.

19