Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92...

Post on 24-Jul-2020

4 views 0 download

Transcript of Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92...

1

Parte 2 – Explorando os dados

2

• O uso adequado de gráficos é fundamental em qualquer análise estatística, possibilitando o conhecimento

inicial de dados e direcionando as análises posteriores;

• Em análise de regressão, o uso de gráficos pode auxiliar na especificação de uma função de regressão

apropriada, no diagnóstico do modelo e na identificação de medidas corretivas para modelos mal ajustados.

• Na sequência são relacionados alguns gráficos importantes. Para fins de ilustração, será usado o banco de

dados mtcars do R.

3

• Dados de 32 modelos de automóveis norte-americanos. Dentre as variáveis consideradas, destacamos:

o mpg: Consumo de combustível (em milhas por galão);

o hp: Potência do motor (em cavalos);

o wt: Peso do carro (em libras);

o carb: Número de carburadores.

mpg cyl disp hp drat wt qsec vs am gear carb

Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4

Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4

Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1

Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1

Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2

Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1

Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4

Merc 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2

Merc 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2

Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4

• Para mais detalhes sobre os dados, bater help(“mtcars”) no R.

4

Gráficos para uma variável

1- Histograma – Gráfico de barras justapostas utilizado para avaliar a distribuição de variáveis numéricas.

Exemplo 1 – Consumo de combustível (em milhas por galão) de 32 modelos de automóveis norte-americanos.

Nota – Repare, na Figura 1, que o histograma (e, consequentemente sua interpretação) é afetado pelo número

de categorias consideradas. A escolha dos valores iniciais e finais do gráfico também o altera. Deve-se tomar

cuidado com tais especificações.

No R: Função hist.

5

a

Consumo (mpg)

Fre

quência

10 20 30 40

0

5

10

15

20

b

Consumo (mpg)

Fre

quência

10 15 20 25 30 35

0

2

4

6

8

10

12

c

Consumo (mpg)

Fre

quência

10 15 20 25 30

0

1

2

3

4

5

6

7

Figura 1 - Histogramas para os consumos de combustível de 36 modelos de carros norte-americanos com os

dados agrupados em três (a), cinco (b) e dez (c) categorias.

6

2- Gráfico do estimador não paramétrico da função densidade – Consiste numa curva que estima a

distribuição da variável com base nos dados.

� Estimadores não paramétricos podem ser empregados, como alternativa (ou complemento) ao

histograma, na obtenção de uma representação ‘suavizada’ da distribuição dos dados.

� Um dos métodos disponíveis para a estimação da função densidade é o método kernel. A estimativa

da densidade para algum valor real x de uma variável de interesse, com base em n observações

nxxx ,...,, 21 , é dado por:

( ) ∑=

−=

n

i

i

h

xxK

nhxf

1

1ˆ ,

onde:

a. )(K é a função kernel, geralmente uma função simétrica, unimodal e que integra 1 (pode ser a

densidade normal, por exemplo);

7

b. h (chamado comprimento de banda) é o parâmetro que define o grau de suavização da densidade

estimada (quanto maior o valor de h , mais suave – e mais viciada – é a estimativa obtida).

� Alguns exemplos de kernel:

1) Uniforme: ( ) { }12

1≤= uIuK ;

2) Triangular: ( ) ( ) { }11 ≤−= uIuuK ;

3) Epanechnikov: ( ) ( ) { }121

4

3≤−= uIuuK ;

4) Biweight: ( ) ( ) { }1

22116

15≤−= uIuuK ;

5) Triweight: ( ) ( ) { }1

32132

35≤−= uIuuK ;

6) Gaussianno: ( ) 2

2

2

1u

euK−

;

7) Cosseno: ( ) { }12cos

4 ≤

= uIuuK

ππ.

8

Figura 2 – Gráficos de sete funções kernel (fonte: Wikipédia).

9

� Repare, pela definição do método, que a densidade estimada num valor real x será a soma dos valores

produzidos pela função kernel para x considerando cada uma das observações na amostra.

� Assim, quanto mais observações próximas a x , maiores os “pesos” a serem somados e,

consequentemente, maior a densidade estimada.

� A escolha do kernel determina a forma como serão distribuídos os pesos em torno das observações

amostrais.

10

Figura 3 – Ilustração do método kernel (fonte: internet).

No R: Função density.

Exemplo 2 – Consumo de combustível de 36 modelos de automóveis norte-americanos.

11

10 20 30 40

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

Gaussiano

N = 32 Bandwidth = 2.477

Density

10 20 30 40

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

Triangular

N = 32 Bandwidth = 2.477

Density

10 20 30 40

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

Cosseno

N = 32 Bandwidth = 2.477

Density

10 20 30 40

0.00

0.02

0.04

0.06

Uniforme

N = 32 Bandwidth = 2.477

Density

Figura 4 – Densidades estimadas pelo método kernel para os consumos de combustível para quatro funções

kernel distintas (fixando o tamanho da banda).

12

10 15 20 25 30 35

0.00

0.02

0.04

0.06

0.08

0.10

0.12

N = 32 Bandwidth = 0.5

Density

10 15 20 25 30 35

0.00

0.02

0.04

0.06

0.08

N = 32 Bandwidth = 1

Density

5 10 15 20 25 30 35 40

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

N = 32 Bandwidth = 2

Density

0 10 20 30 40 50

0.00

0.01

0.02

0.03

0.04

0.05

N = 32 Bandwidth = 5D

ensity

Figura 5 – Densidades estimadas pelo método kernel para os consumos de combustível para quatro tamanhos de

banda distintos (usando kernel gaussiano).

13

Consumo (mpg)

Densid

ade

10 15 20 25 30 35

0.00

0.02

0.04

0.06

0.08

Figura 6 – Histograma e função densidade estimada com kernel gaussiano (as marcações sobre o eixo horizontal

indicam os consumos observados na amostra).

14

3- Boxplot – Representação gráfica do resumo dos cinco números (mínimo, máximo, 1º quartil, 3º quartil e

mediana).

Nota 1 – O ésimop − quantil de uma amostra corresponde ao ésimok − maior valor amostral, tal que

( )1+= npk (se k não for inteiro, deve-se usar interpolação).

Exemplo – Para os dados apresentados na sequência:

11 16 23 31 36 39 41 43 44 48

Obtenha os quartis (quantis 0,25; 0,50 e 0,75), além dos quantis 0,1 e 0,85.

Nota 2 – Quantis populacionais, por sua vez, são determinados a partir da distribuição da variável de interesse.

Assim, para uma variável aleatória Y , o ésimop − quantil é definido por py que satisfaz ( ) pyYP p =≤ e

( ) pyYP p −=> 1 .

15

x

f(x)

p0.01 p0.05 p0.25 p0.5 p0.75 p0.95 p0.99

x

f(x)

p0.0

1p

0.0

5

p0.2

5

p0.5

p0.7

5

p0.9

5

Figura – Ilustração de quantis populacionais para uma distribuição simétrica (Normal) e outra assimétrica

(lognormal).

16

Exemplo – Para a variável aleatória Y , com distribuição definida pela função densidade de probabilidade:

( ) ( )

≤<−=

contráriocaso

xxxf

,0

10,12

3 2

Obtenha os quartis (quantis 0,25; 0,50 e 0,75), além dos quantis 0,1 e 0,85.

� Boxplots são úteis para avaliar diferentes características da distribuição, como locação, centralidade,

dispersão e presença de outliers.

17

Mínimo

p0.25

p0.5

p0.75

Máximo

Figura 7 – Representação genérica de um box-plot.

18

Nota – A linha que se estende a partir do 3º quartil ( 75,0p ) alcança a maior observação que não esteja a uma

distância superior a 1,5( 25,075,0 pp − ). A partir daí, as observações são representadas por pontos, indicando

outliers (o mesmo vale abaixo do 1º quartil ( 25,0p ).

No R – Função boxplot.

Exemplo 3 – Consumos de combustível de 32 modelos de automóveis norte-americanos.

19

10

15

20

25

30

Consum

o (m

pg)

Figura 8 – Boxplot para os consumos de combustível de 32 modelos de automóveis norte-americanos.

20

4- Gráficos quantil-quantil (ou gráficos probabilísticos)– Utilizados para se avaliar a aderência da

distribuição amostral a alguma distribuição teórica, plotando-se, num gráfico de dispersão, os quantis da

primeira versus os quantis da segunda.

� Num gráfico quantil-quantil, quanto mais os pontos se aproximarem da reta identidade, maior a

aderência da distribuição amostral à distribuição teórica.

� Gráficos quantil-quantil são frequentemente utilizados para avaliar a aderência à distribuição Normal.

21

Procedimento:

1- Ordenar os dados amostrais ( nxxx ,...,, 21 ) do menor ao maior, resultando num conjunto de estatísticas de

ordem, denotadas por ( ) ( ) ( )nxxx ,...,, 21 ;

2- Calcular a proporção acumulada de dados “abaixo” de ( )ix por:

.,...,2,1,2

1

nin

i

Pi =

=

3- Usar a inversa da distribuição teórica proposta para obter o quantil iz correspondente a cada valor de iP

obtido no passo 2, ni ,...,2,1= ;

22

4- Plotar, num diagrama de dispersão, ( )ix vs iz . Se a amostra de fato foi gerada pela distribuição teórica

proposta, então ( ) ii zx ≈ , e os pontos oscilarão aleatoriamente em torno da reta identidade.

Notas:

I. Se as distribuições forem idênticas, exceto pela locação, então o gráfico será aproximadamente linear de

forma que ( ) ii zx +≈ µ . Se as distribuições diferem em locação e escala, mas tem a mesma forma, então

( ) ii zx σµ +≈ .

II. A representação da reta identidade (ou da reta apropriada, se as duas distribuições tiverem locações

distintas), ajuda a visualizar a aderência da distribuição amostral à distribuição teórica.

23

5- Uma forma de acomodar a aleatoriedade dos dados é acrescentar ao gráfico quantil-quantil bandas

(envelopes) de confiança. As bandas de (aproximadamente) 95% de confiança podem ser obtidas

calculando, para cada i :

( ) ( )( )

n

PP

zpx ii

i

i

−×±

1ˆ2ˆ

σ,

sendo ( )izp a função densidade de probabilidade correspondente a ( )izP e unindo os valores obtidos.

No R: Funções qqPlot (pacote car) e qnorm.

Exemplo 4 – Consumos de combustível de 32 modelos de automóveis norte-americanos.

24

-2 -1 0 1 2

10

15

20

25

30

Quantis - Normal

Quantis

am

ostrais

10 15 20 25 30 35

10

15

20

25

30

Quantis - Gamma

Quantis

am

ostrais

Figura 9 – Gráficos quantil-quantil (ou probabilísticos) Normal e Gama para os consumos de combustível

de 32 modelos de automóveis norte-americanos.

25

Exemplo 5 – Vamos simular 100 observações independentes de cada uma das três distribuições:

o Amostra 1 - ( )2,10 == σµNormal ;

o Amostra 2 - 22χ (qui-quadrado com dois graus de liberdade);

o Amostra 3 - 2t (t-Student com dois graus de liberdade).

o Avalie cada um dos gráficos quantil-quantil apresentados na sequência, em particular os gráficos

baseados na distribuição Normal para as amostras 2 e 3. Identifique, respectivamente, a disposição

dos pontos nas formas de ‘U’ e ‘S’ e tente explicá-las.

26

-2 -1 0 1 2

0

5

10

15

20

Quantis - Normal

Quantis

- A

mostra 1

-2 -1 0 1 2

0

2

4

6

8

10

Quantis - Normal

Quantis

- A

mostra 2

-2 -1 0 1 2

-10

-5

0

5

10

Quantis - Normal

Quantis

- A

mostra 3

Figura 10 – Gráficos probabilísticos normal para as três amostras simuladas.

27

-2 -1 0 1 2

0

5

10

15

20

Quantis - Normal

Quantis

- A

mostra 1

0 2 4 6 8 10

0

2

4

6

8

10

Quantis - chi (df=2))

Quantis

- A

mostra 2

-10 -5 0 5 10

-10

-5

0

5

10

Quantis - t (df=2))

Quantis

- A

mostra 3

Figura 11 – Gráficos probabilísticos para as três amostras simuladas considerando as distribuições teóricas

usadas na simulação.

28

Gráficos para duas variáveis

• Gráfico de dispersão – É a representação geométrica dos valores de duas variáveis numéricas.

No R: Função plot.

o Um recurso bastante útil para melhor visualizar a relação entre duas variáveis num gráfico de dispersão é

acrescentar ao gráfico o ajuste de uma regressão não paramétrica entre as variáveis, por meio do ajuste

de polinômios locais (trataremos disso com mais detalhes adiante).

No R: Funções lowess ou loess. A função scatterplot, do pacote car, produz o gráfico de dispersão

já com a regressão não paramétrica ajustada (além de outros recursos).

Exemplo 6 – Gráficos de dispersão de consumo versus peso e potência versus peso para os dados de 32

modelos de automóveis norte-americanos.

29

1 2 3 4 5 6

10

15

20

25

30

Peso (x1000 lb)

Consum

o(m

pg)

Cadillac FleetwoodLincoln Continental

Chrysler Imperial

Fiat 128

Toyota Corolla

1 2 3 4 5 6

50

100

150

200

250

300

Peso (x1000 lb)

Potê

ncia

Cadillac Fleetwood

Lincoln Continental

Chrysler Imperial

Honda Civic

Lotus Europa

Maserati Bora

Figura 12 - Gráficos de dispersão de consumo versus peso e potência versus peso para os dados de 32 modelos

de automóveis norte-americanos.

30

2 3 4 5

10

15

20

25

30

Peso (lb)

Consum

o

Figura 13 - Gráfico de dispersão de consumo versus peso para os dados de 32 modelos de automóveis norte-

americanos usando a função scatterplot, do pacote car.

31

• Boxplot –boxplots permitem comparar a distribuição de alguma variável quantitativa de interesse para

diferentes níveis de alguma variável qualitativa, ou categorizada (ex: Índice de massa corporal por sexo;

Engorda de bovinos por tipo de dieta; Tempo até o efeito por tipo de medicação...).

• Gráficos de média ± desvio padrão – Alternativa ao boxplot. Representação gráfica da média, para cada

resultado da variável qualitativa, com linhas estendidas verticalmente, com comprimento de 1 desvio

padrão.

Nota – Essa representação é apropriada quando a variável sob estudo tem distribuição Normal. Além disso,

uma extensão desse gráfico é o gráfico de média ± 2 erros padrões da média, o que permite representar

intervalos de (aproximadamente) 95% de confiança.

Exemplo 7 – Comparação dos pesos de 71 frangos segundo o tipo de dieta fornecida (para mais detalhes,

bater ?chickwts no R.

32

casein horsebean linseed meatmeal soybean sunflower

100

150

200

250

300

350

400

Tipo de dieta

Peso n

a s

exta

sem

ana (gra

mas)

Figura 14 – Boxplots para os pesos de 71 frangos segundo o tipo de dieta.

33

100

150

200

250

300

350

400

Tipo de dieta

Peso d

os fra

ngos (g)

horsebean linseed soybean sunflower meatmeal casein

Figura 15 – Gráficos de média ± desvio padrão para os pesos de 71 frangos segundo o tipo de dieta.

34

Exemplo 8 – Consumo de combustível versus número de carburadores para 32 modelos de automóveis norte-

americanos.

1 2 3 4 ou mais

10

15

20

25

30

Número de carburadores

Consum

o(m

pg)

Figura 16 – Consumo de combustível versus número de carburadores para 32 modelos de automóveis norte-americanos.

35

Gráficos para múltiplas variáveis

Nota – Diversos gráficos para múltiplas variáveis, semelhantes ou diferentes daqueles apresentados na

sequência, estão disponíveis em pacotes do R como o lattice e o gplot, por exemplo.

1- Matriz de gráficos de dispersão – Representação, numa única figura, dos gráficos de dispersão bivariados

para cada par de variáveis.

No R: Função plot ou scatterplotMatrix (pacote car).

Exemplo 9 – Matriz de gráficos de dispersão para as variáveis consumo, tempo, potência e peso para os 32

modelos de automóveis norte-americanos.

36

Consumo

16 18 20 22 2 3 4 5

10

15

20

25

30

16

18

20

22 Tempo

Potência

50

100

150

200

250

300

10 15 20 25 30

2

3

4

5

50 100 150 200 250 300

Peso

Figura 17 – Matriz de gráficos de dispersão para o consumo de combustível, tempo até percorrer 0,25 milha,

potência e peso de 32 modelos de automóveis norte-americanos.

37

2- Gráficos de dispersão condicionais (coplot) – Permitem avaliar a relação entre a variável resposta e uma

particular variável explicativa em grupos, formados por uma segunda variável explicativa.

No R: Função xyplot (pacote lattice).

Exemplo 10 – Dados de um experimento com 125 moscas divididas aleatoriamente em 5 grupos de 25 cada,

sendo que os grupos foram submetidos às seguintes condições:

Grupo 1 (isolated) – Moscas solitárias;

Grupo 2 (low)– Mantidos individualmente com uma fêmea não grávida por dia;

Grupo 3 (high)– Mantidos individualmente com oito fêmeas não grávidas por dia;

Grupo 4 (one)– Mantidos individualmente com uma fêmea grávida por dia;

Grupo 5 (many)– Mantidos individualmente com oito fêmeas grávidas por dia;

� A variável resposta é o tempo de vida Adicionalmente, mediu-se o tamanho do tórax de cada macho,

pois se sabe que tal medida está relacionada à longevidade das moscas.

38

Tamanho do tórax

Longevid

ade

20

40

60

80

100

0.65 0.70 0.75 0.80 0.85 0.90 0.95

isolated one

0.65 0.70 0.75 0.80 0.85 0.90 0.95

low

many

0.65 0.70 0.75 0.80 0.85 0.90 0.95

20

40

60

80

100

high

Figura 18 – Gráficos de dispersão para longevidade versus tamanho do tórax segundo o tratamento em um

experimento envolvendo 125 moscas.

39

Gráficos de dispersão tridimensionais

• Visualizar a dispersão dos dados com relação a três variáveis, conjuntamente;

• O uso de funções com recursos interativos permite melhor visualização.

No R: Função scatterplot3d (pacote scatterplot3d), função scatter3d (pacote car). Ver também

pacotes lattice e rggobi.

Exemplo 11 – Gráfico de dispersão tridimensional

40

50 100 150 200 250 300 350

10

15

20

25

30

35

1

2

3

4

5

6

Potência

Peso

Consum

o

Figura 19 – Gráfico de dispersão tridimensional para o consumo, peso e potência de

32 modelos de carros norte-americanos.

41

Trabalho 2

Os alunos, divididos em duplas, deverão pesquisar uma base de dados (disponível no R, em algum outro

software, em algum repositório online...) que contenha múltiplas variáveis (sendo ao menos duas delas

quantitativas). Utilizando a base escolhida, deverão produzir um relatório (com seis a oito páginas, além da capa,

conforme sugerido no trabalho 1), o qual deverá conter:

• A descrição da base e das variáveis contidas. Havendo informações sobre o estudo e seus objetivos,

apresentá-las;

• A análise descritiva dos dados, utilizando gráficos para uma, duas ou múltiplas variáveis. Medidas resumo

pertinentes também podem ser apresentadas.

Exemplo – Construa (passo a passo, sem utilizar funções específicas do R ou de outro software) um gráfico

quantil-quantil para avaliar a aderência da amostra à distribuição )5,100( == σµNormal .

42

99 105 97 103 93