Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92...

42
1 Parte 2 – Explorando os dados

Transcript of Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92...

Page 1: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

1

Parte 2 – Explorando os dados

Page 2: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

2

• O uso adequado de gráficos é fundamental em qualquer análise estatística, possibilitando o conhecimento

inicial de dados e direcionando as análises posteriores;

• Em análise de regressão, o uso de gráficos pode auxiliar na especificação de uma função de regressão

apropriada, no diagnóstico do modelo e na identificação de medidas corretivas para modelos mal ajustados.

• Na sequência são relacionados alguns gráficos importantes. Para fins de ilustração, será usado o banco de

dados mtcars do R.

Page 3: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

3

• Dados de 32 modelos de automóveis norte-americanos. Dentre as variáveis consideradas, destacamos:

o mpg: Consumo de combustível (em milhas por galão);

o hp: Potência do motor (em cavalos);

o wt: Peso do carro (em libras);

o carb: Número de carburadores.

mpg cyl disp hp drat wt qsec vs am gear carb

Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4

Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4

Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1

Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1

Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2

Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1

Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4

Merc 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2

Merc 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2

Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4

• Para mais detalhes sobre os dados, bater help(“mtcars”) no R.

Page 4: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

4

Gráficos para uma variável

1- Histograma – Gráfico de barras justapostas utilizado para avaliar a distribuição de variáveis numéricas.

Exemplo 1 – Consumo de combustível (em milhas por galão) de 32 modelos de automóveis norte-americanos.

Nota – Repare, na Figura 1, que o histograma (e, consequentemente sua interpretação) é afetado pelo número

de categorias consideradas. A escolha dos valores iniciais e finais do gráfico também o altera. Deve-se tomar

cuidado com tais especificações.

No R: Função hist.

Page 5: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

5

a

Consumo (mpg)

Fre

quência

10 20 30 40

0

5

10

15

20

b

Consumo (mpg)

Fre

quência

10 15 20 25 30 35

0

2

4

6

8

10

12

c

Consumo (mpg)

Fre

quência

10 15 20 25 30

0

1

2

3

4

5

6

7

Figura 1 - Histogramas para os consumos de combustível de 36 modelos de carros norte-americanos com os

dados agrupados em três (a), cinco (b) e dez (c) categorias.

Page 6: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

6

2- Gráfico do estimador não paramétrico da função densidade – Consiste numa curva que estima a

distribuição da variável com base nos dados.

� Estimadores não paramétricos podem ser empregados, como alternativa (ou complemento) ao

histograma, na obtenção de uma representação ‘suavizada’ da distribuição dos dados.

� Um dos métodos disponíveis para a estimação da função densidade é o método kernel. A estimativa

da densidade para algum valor real x de uma variável de interesse, com base em n observações

nxxx ,...,, 21 , é dado por:

( ) ∑=

−=

n

i

i

h

xxK

nhxf

1

1ˆ ,

onde:

a. )(K é a função kernel, geralmente uma função simétrica, unimodal e que integra 1 (pode ser a

densidade normal, por exemplo);

Page 7: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

7

b. h (chamado comprimento de banda) é o parâmetro que define o grau de suavização da densidade

estimada (quanto maior o valor de h , mais suave – e mais viciada – é a estimativa obtida).

� Alguns exemplos de kernel:

1) Uniforme: ( ) { }12

1≤= uIuK ;

2) Triangular: ( ) ( ) { }11 ≤−= uIuuK ;

3) Epanechnikov: ( ) ( ) { }121

4

3≤−= uIuuK ;

4) Biweight: ( ) ( ) { }1

22116

15≤−= uIuuK ;

5) Triweight: ( ) ( ) { }1

32132

35≤−= uIuuK ;

6) Gaussianno: ( ) 2

2

2

1u

euK−

;

7) Cosseno: ( ) { }12cos

4 ≤

= uIuuK

ππ.

Page 8: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

8

Figura 2 – Gráficos de sete funções kernel (fonte: Wikipédia).

Page 9: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

9

� Repare, pela definição do método, que a densidade estimada num valor real x será a soma dos valores

produzidos pela função kernel para x considerando cada uma das observações na amostra.

� Assim, quanto mais observações próximas a x , maiores os “pesos” a serem somados e,

consequentemente, maior a densidade estimada.

� A escolha do kernel determina a forma como serão distribuídos os pesos em torno das observações

amostrais.

Page 10: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

10

Figura 3 – Ilustração do método kernel (fonte: internet).

No R: Função density.

Exemplo 2 – Consumo de combustível de 36 modelos de automóveis norte-americanos.

Page 11: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

11

10 20 30 40

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

Gaussiano

N = 32 Bandwidth = 2.477

Density

10 20 30 40

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

Triangular

N = 32 Bandwidth = 2.477

Density

10 20 30 40

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

Cosseno

N = 32 Bandwidth = 2.477

Density

10 20 30 40

0.00

0.02

0.04

0.06

Uniforme

N = 32 Bandwidth = 2.477

Density

Figura 4 – Densidades estimadas pelo método kernel para os consumos de combustível para quatro funções

kernel distintas (fixando o tamanho da banda).

Page 12: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

12

10 15 20 25 30 35

0.00

0.02

0.04

0.06

0.08

0.10

0.12

N = 32 Bandwidth = 0.5

Density

10 15 20 25 30 35

0.00

0.02

0.04

0.06

0.08

N = 32 Bandwidth = 1

Density

5 10 15 20 25 30 35 40

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

N = 32 Bandwidth = 2

Density

0 10 20 30 40 50

0.00

0.01

0.02

0.03

0.04

0.05

N = 32 Bandwidth = 5D

ensity

Figura 5 – Densidades estimadas pelo método kernel para os consumos de combustível para quatro tamanhos de

banda distintos (usando kernel gaussiano).

Page 13: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

13

Consumo (mpg)

Densid

ade

10 15 20 25 30 35

0.00

0.02

0.04

0.06

0.08

Figura 6 – Histograma e função densidade estimada com kernel gaussiano (as marcações sobre o eixo horizontal

indicam os consumos observados na amostra).

Page 14: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

14

3- Boxplot – Representação gráfica do resumo dos cinco números (mínimo, máximo, 1º quartil, 3º quartil e

mediana).

Nota 1 – O ésimop − quantil de uma amostra corresponde ao ésimok − maior valor amostral, tal que

( )1+= npk (se k não for inteiro, deve-se usar interpolação).

Exemplo – Para os dados apresentados na sequência:

11 16 23 31 36 39 41 43 44 48

Obtenha os quartis (quantis 0,25; 0,50 e 0,75), além dos quantis 0,1 e 0,85.

Nota 2 – Quantis populacionais, por sua vez, são determinados a partir da distribuição da variável de interesse.

Assim, para uma variável aleatória Y , o ésimop − quantil é definido por py que satisfaz ( ) pyYP p =≤ e

( ) pyYP p −=> 1 .

Page 15: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

15

x

f(x)

p0.01 p0.05 p0.25 p0.5 p0.75 p0.95 p0.99

x

f(x)

p0.0

1p

0.0

5

p0.2

5

p0.5

p0.7

5

p0.9

5

Figura – Ilustração de quantis populacionais para uma distribuição simétrica (Normal) e outra assimétrica

(lognormal).

Page 16: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

16

Exemplo – Para a variável aleatória Y , com distribuição definida pela função densidade de probabilidade:

( ) ( )

≤<−=

contráriocaso

xxxf

,0

10,12

3 2

Obtenha os quartis (quantis 0,25; 0,50 e 0,75), além dos quantis 0,1 e 0,85.

� Boxplots são úteis para avaliar diferentes características da distribuição, como locação, centralidade,

dispersão e presença de outliers.

Page 17: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

17

Mínimo

p0.25

p0.5

p0.75

Máximo

Figura 7 – Representação genérica de um box-plot.

Page 18: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

18

Nota – A linha que se estende a partir do 3º quartil ( 75,0p ) alcança a maior observação que não esteja a uma

distância superior a 1,5( 25,075,0 pp − ). A partir daí, as observações são representadas por pontos, indicando

outliers (o mesmo vale abaixo do 1º quartil ( 25,0p ).

No R – Função boxplot.

Exemplo 3 – Consumos de combustível de 32 modelos de automóveis norte-americanos.

Page 19: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

19

10

15

20

25

30

Consum

o (m

pg)

Figura 8 – Boxplot para os consumos de combustível de 32 modelos de automóveis norte-americanos.

Page 20: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

20

4- Gráficos quantil-quantil (ou gráficos probabilísticos)– Utilizados para se avaliar a aderência da

distribuição amostral a alguma distribuição teórica, plotando-se, num gráfico de dispersão, os quantis da

primeira versus os quantis da segunda.

� Num gráfico quantil-quantil, quanto mais os pontos se aproximarem da reta identidade, maior a

aderência da distribuição amostral à distribuição teórica.

� Gráficos quantil-quantil são frequentemente utilizados para avaliar a aderência à distribuição Normal.

Page 21: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

21

Procedimento:

1- Ordenar os dados amostrais ( nxxx ,...,, 21 ) do menor ao maior, resultando num conjunto de estatísticas de

ordem, denotadas por ( ) ( ) ( )nxxx ,...,, 21 ;

2- Calcular a proporção acumulada de dados “abaixo” de ( )ix por:

.,...,2,1,2

1

nin

i

Pi =

=

3- Usar a inversa da distribuição teórica proposta para obter o quantil iz correspondente a cada valor de iP

obtido no passo 2, ni ,...,2,1= ;

Page 22: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

22

4- Plotar, num diagrama de dispersão, ( )ix vs iz . Se a amostra de fato foi gerada pela distribuição teórica

proposta, então ( ) ii zx ≈ , e os pontos oscilarão aleatoriamente em torno da reta identidade.

Notas:

I. Se as distribuições forem idênticas, exceto pela locação, então o gráfico será aproximadamente linear de

forma que ( ) ii zx +≈ µ . Se as distribuições diferem em locação e escala, mas tem a mesma forma, então

( ) ii zx σµ +≈ .

II. A representação da reta identidade (ou da reta apropriada, se as duas distribuições tiverem locações

distintas), ajuda a visualizar a aderência da distribuição amostral à distribuição teórica.

Page 23: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

23

5- Uma forma de acomodar a aleatoriedade dos dados é acrescentar ao gráfico quantil-quantil bandas

(envelopes) de confiança. As bandas de (aproximadamente) 95% de confiança podem ser obtidas

calculando, para cada i :

( ) ( )( )

n

PP

zpx ii

i

i

−×±

1ˆ2ˆ

σ,

sendo ( )izp a função densidade de probabilidade correspondente a ( )izP e unindo os valores obtidos.

No R: Funções qqPlot (pacote car) e qnorm.

Exemplo 4 – Consumos de combustível de 32 modelos de automóveis norte-americanos.

Page 24: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

24

-2 -1 0 1 2

10

15

20

25

30

Quantis - Normal

Quantis

am

ostrais

10 15 20 25 30 35

10

15

20

25

30

Quantis - Gamma

Quantis

am

ostrais

Figura 9 – Gráficos quantil-quantil (ou probabilísticos) Normal e Gama para os consumos de combustível

de 32 modelos de automóveis norte-americanos.

Page 25: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

25

Exemplo 5 – Vamos simular 100 observações independentes de cada uma das três distribuições:

o Amostra 1 - ( )2,10 == σµNormal ;

o Amostra 2 - 22χ (qui-quadrado com dois graus de liberdade);

o Amostra 3 - 2t (t-Student com dois graus de liberdade).

o Avalie cada um dos gráficos quantil-quantil apresentados na sequência, em particular os gráficos

baseados na distribuição Normal para as amostras 2 e 3. Identifique, respectivamente, a disposição

dos pontos nas formas de ‘U’ e ‘S’ e tente explicá-las.

Page 26: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

26

-2 -1 0 1 2

0

5

10

15

20

Quantis - Normal

Quantis

- A

mostra 1

-2 -1 0 1 2

0

2

4

6

8

10

Quantis - Normal

Quantis

- A

mostra 2

-2 -1 0 1 2

-10

-5

0

5

10

Quantis - Normal

Quantis

- A

mostra 3

Figura 10 – Gráficos probabilísticos normal para as três amostras simuladas.

Page 27: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

27

-2 -1 0 1 2

0

5

10

15

20

Quantis - Normal

Quantis

- A

mostra 1

0 2 4 6 8 10

0

2

4

6

8

10

Quantis - chi (df=2))

Quantis

- A

mostra 2

-10 -5 0 5 10

-10

-5

0

5

10

Quantis - t (df=2))

Quantis

- A

mostra 3

Figura 11 – Gráficos probabilísticos para as três amostras simuladas considerando as distribuições teóricas

usadas na simulação.

Page 28: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

28

Gráficos para duas variáveis

• Gráfico de dispersão – É a representação geométrica dos valores de duas variáveis numéricas.

No R: Função plot.

o Um recurso bastante útil para melhor visualizar a relação entre duas variáveis num gráfico de dispersão é

acrescentar ao gráfico o ajuste de uma regressão não paramétrica entre as variáveis, por meio do ajuste

de polinômios locais (trataremos disso com mais detalhes adiante).

No R: Funções lowess ou loess. A função scatterplot, do pacote car, produz o gráfico de dispersão

já com a regressão não paramétrica ajustada (além de outros recursos).

Exemplo 6 – Gráficos de dispersão de consumo versus peso e potência versus peso para os dados de 32

modelos de automóveis norte-americanos.

Page 29: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

29

1 2 3 4 5 6

10

15

20

25

30

Peso (x1000 lb)

Consum

o(m

pg)

Cadillac FleetwoodLincoln Continental

Chrysler Imperial

Fiat 128

Toyota Corolla

1 2 3 4 5 6

50

100

150

200

250

300

Peso (x1000 lb)

Potê

ncia

Cadillac Fleetwood

Lincoln Continental

Chrysler Imperial

Honda Civic

Lotus Europa

Maserati Bora

Figura 12 - Gráficos de dispersão de consumo versus peso e potência versus peso para os dados de 32 modelos

de automóveis norte-americanos.

Page 30: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

30

2 3 4 5

10

15

20

25

30

Peso (lb)

Consum

o

Figura 13 - Gráfico de dispersão de consumo versus peso para os dados de 32 modelos de automóveis norte-

americanos usando a função scatterplot, do pacote car.

Page 31: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

31

• Boxplot –boxplots permitem comparar a distribuição de alguma variável quantitativa de interesse para

diferentes níveis de alguma variável qualitativa, ou categorizada (ex: Índice de massa corporal por sexo;

Engorda de bovinos por tipo de dieta; Tempo até o efeito por tipo de medicação...).

• Gráficos de média ± desvio padrão – Alternativa ao boxplot. Representação gráfica da média, para cada

resultado da variável qualitativa, com linhas estendidas verticalmente, com comprimento de 1 desvio

padrão.

Nota – Essa representação é apropriada quando a variável sob estudo tem distribuição Normal. Além disso,

uma extensão desse gráfico é o gráfico de média ± 2 erros padrões da média, o que permite representar

intervalos de (aproximadamente) 95% de confiança.

Exemplo 7 – Comparação dos pesos de 71 frangos segundo o tipo de dieta fornecida (para mais detalhes,

bater ?chickwts no R.

Page 32: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

32

casein horsebean linseed meatmeal soybean sunflower

100

150

200

250

300

350

400

Tipo de dieta

Peso n

a s

exta

sem

ana (gra

mas)

Figura 14 – Boxplots para os pesos de 71 frangos segundo o tipo de dieta.

Page 33: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

33

100

150

200

250

300

350

400

Tipo de dieta

Peso d

os fra

ngos (g)

horsebean linseed soybean sunflower meatmeal casein

Figura 15 – Gráficos de média ± desvio padrão para os pesos de 71 frangos segundo o tipo de dieta.

Page 34: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

34

Exemplo 8 – Consumo de combustível versus número de carburadores para 32 modelos de automóveis norte-

americanos.

1 2 3 4 ou mais

10

15

20

25

30

Número de carburadores

Consum

o(m

pg)

Figura 16 – Consumo de combustível versus número de carburadores para 32 modelos de automóveis norte-americanos.

Page 35: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

35

Gráficos para múltiplas variáveis

Nota – Diversos gráficos para múltiplas variáveis, semelhantes ou diferentes daqueles apresentados na

sequência, estão disponíveis em pacotes do R como o lattice e o gplot, por exemplo.

1- Matriz de gráficos de dispersão – Representação, numa única figura, dos gráficos de dispersão bivariados

para cada par de variáveis.

No R: Função plot ou scatterplotMatrix (pacote car).

Exemplo 9 – Matriz de gráficos de dispersão para as variáveis consumo, tempo, potência e peso para os 32

modelos de automóveis norte-americanos.

Page 36: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

36

Consumo

16 18 20 22 2 3 4 5

10

15

20

25

30

16

18

20

22 Tempo

Potência

50

100

150

200

250

300

10 15 20 25 30

2

3

4

5

50 100 150 200 250 300

Peso

Figura 17 – Matriz de gráficos de dispersão para o consumo de combustível, tempo até percorrer 0,25 milha,

potência e peso de 32 modelos de automóveis norte-americanos.

Page 37: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

37

2- Gráficos de dispersão condicionais (coplot) – Permitem avaliar a relação entre a variável resposta e uma

particular variável explicativa em grupos, formados por uma segunda variável explicativa.

No R: Função xyplot (pacote lattice).

Exemplo 10 – Dados de um experimento com 125 moscas divididas aleatoriamente em 5 grupos de 25 cada,

sendo que os grupos foram submetidos às seguintes condições:

Grupo 1 (isolated) – Moscas solitárias;

Grupo 2 (low)– Mantidos individualmente com uma fêmea não grávida por dia;

Grupo 3 (high)– Mantidos individualmente com oito fêmeas não grávidas por dia;

Grupo 4 (one)– Mantidos individualmente com uma fêmea grávida por dia;

Grupo 5 (many)– Mantidos individualmente com oito fêmeas grávidas por dia;

� A variável resposta é o tempo de vida Adicionalmente, mediu-se o tamanho do tórax de cada macho,

pois se sabe que tal medida está relacionada à longevidade das moscas.

Page 38: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

38

Tamanho do tórax

Longevid

ade

20

40

60

80

100

0.65 0.70 0.75 0.80 0.85 0.90 0.95

isolated one

0.65 0.70 0.75 0.80 0.85 0.90 0.95

low

many

0.65 0.70 0.75 0.80 0.85 0.90 0.95

20

40

60

80

100

high

Figura 18 – Gráficos de dispersão para longevidade versus tamanho do tórax segundo o tratamento em um

experimento envolvendo 125 moscas.

Page 39: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

39

Gráficos de dispersão tridimensionais

• Visualizar a dispersão dos dados com relação a três variáveis, conjuntamente;

• O uso de funções com recursos interativos permite melhor visualização.

No R: Função scatterplot3d (pacote scatterplot3d), função scatter3d (pacote car). Ver também

pacotes lattice e rggobi.

Exemplo 11 – Gráfico de dispersão tridimensional

Page 40: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

40

50 100 150 200 250 300 350

10

15

20

25

30

35

1

2

3

4

5

6

Potência

Peso

Consum

o

Figura 19 – Gráfico de dispersão tridimensional para o consumo, peso e potência de

32 modelos de carros norte-americanos.

Page 41: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

41

Trabalho 2

Os alunos, divididos em duplas, deverão pesquisar uma base de dados (disponível no R, em algum outro

software, em algum repositório online...) que contenha múltiplas variáveis (sendo ao menos duas delas

quantitativas). Utilizando a base escolhida, deverão produzir um relatório (com seis a oito páginas, além da capa,

conforme sugerido no trabalho 1), o qual deverá conter:

• A descrição da base e das variáveis contidas. Havendo informações sobre o estudo e seus objetivos,

apresentá-las;

• A análise descritiva dos dados, utilizando gráficos para uma, duas ou múltiplas variáveis. Medidas resumo

pertinentes também podem ser apresentadas.

Exemplo – Construa (passo a passo, sem utilizar funções específicas do R ou de outro software) um gráfico

quantil-quantil para avaliar a aderência da amostra à distribuição )5,100( == σµNormal .

Page 42: Parte 2 – Explorando os dados - UFPRtaconeli/CE071/Aula2.pdf · Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 • Para mais detalhes sobre os dados, bater help(“mtcars”)

42

99 105 97 103 93