ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem...

41
Estatística-2018/2 Turma: Geografia

Transcript of ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem...

Page 1: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

Estatística-2018/2 Turma: Geografia

Page 2: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

Mostrar como o usar o R para:

calcular medidas de posição e dispersão de um conjunto de dados;

construir um boxplot.

Objetivos da aula

Page 3: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

A função apropriada do R para obter os quantis de uma distribuição é a função quantile.

Se x é o vetor contendo os dados, e desejamos determinar os três quartis, digitamos

quantile(x,c(0.25,0.5,0.75)) Se desejamos o quinto (5%) e o nonagésimo-

quinto (95%) percentis, pedimos

quantile(x,c(0.05,0.95)) Em geral, q(p) quantile(x,p)

Determinação dos quantis de uma distribuição usando o R

Page 4: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

Exemplo dos salários:

dados=read.table(“E:\\geografia\\ciaMB.txt”,header=T)

# calculando os quartis

quantile(dados$sal, c(0.25,0.5,0.75))

25% 50% 75%

7.5525 10.1650 14.0600

Pedindo a saída com duas casas decimais

round(quantile(dados$sal,c(0.25,0.5,0.75)),digits=2)

25% 50% 75%

7.55 10.16 14.06

Page 5: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

Continuação do Exemplo:

Esquema dos cinco números:

fivenum(dados$sal)

[1] 4.000 7.515 10.165 14.270 23.300

mean(dados$sal) # média

[1] 11.12222

median(dados$sal) #mediana

[1] 10.165

max(dados$sal) # máximo

[1] 23.3

min(dados$sal) #mínimo

[1] 4

Page 6: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados
Page 7: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados são do ano de 1995.

Fonte: Stabilizing The Atmosphere: Population, Consumption and Greenhouse Gases.

Exemplo 1: Emissão de Dióxido de Carbono

Page 8: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

dados=read.table(“c:\\flavia\\dados13bm.txt”,header=T)

# na primeira coluna está o nome do país e, na segunda, o dado sobre emissão do país.

Comando para ler o arquivo

Page 9: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

Determine os três quartis, os decis, a média e o desvio-padrão das emissões registradas para os 72 países em 1995.

Exemplo 1: Emissão de Dióxido de Carbono (cont.)

Page 10: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

names(dados) # nomes atribuídos as duas colunas do conjunto de dados

"pais" "emissao"

quantile(dados$emissao,c(0.25,0.5,0.75))

# comando para retornar os quantis de 25%, 50% e 75%, os três quartis.

25% 50% 75%

0.0675 0.4150 1.4725

Exemplo 1: Emissão de Dióxido de Carbono (cont.)

Page 11: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

quantile(dados$emissao,c(.1,.2,.3,.4,.5,.6,.7,.8,.9))

# comando para retornar os 9 decis, a saber, 10%, 20%, ..., 90%.

10% 20% 30% 40% 50% 60% 70% 80% 90%

0.02 0.05 0.14 0.28 0.42 0.87 1.26 1.99 3.02

Observe que nessa lista os valores estão arredondados com duas casas decimais.

Exemplo 1: Emissão de Dióxido de Carbono (cont.)

Page 12: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

• > mean(dados$emissao) • # retorna a média de emissões • [1] 1.174167 • > var(dados$emissao) • # retorna a variância • 2.853036 • > sd(dados$emissao) • #retorna o desvio padrão de emissões • [1] 1.689093 • median(dados$emissao) # retorna a mediana de emissões • [1] 0.415

Exemplo 1: Emissão de Dióxido de Carbono (cont.)

Page 13: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

• > round(mean(dados$emissao),digit=2)

• # retorna a média de emissões com duas casas decimais

• [1] 1.17

• > round(sd(dados$emissao) ,digit=2)

• #retorna o desvio padrão de emissões com duas casas decimais

• [1] 1.69

Exemplo 1: Emissão de Dióxido de Carbono (cont.)

Page 14: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

Histograma das emissões

Observe que a distribuição de frequências de dados sobre emissão apresenta forte assimetria positiva

Observe também que há uma classe sem representantes nessa distribuição

Page 15: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

Histograma das emissões: sugerindo 10 intervalos:

(0,0.33,0.67,1,1.33,1.67,2,3,4,6,10)

Observe que nesse histograma os intervalos têm comprimentos diferentes.

Nesse caso devemos usar a escala de densidade de frequência dada pela razão da frequência com o comprimento do intervalo.

Page 16: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

Observe que nessa figura tem-se Q2-Q1<Q3-Q2 Q2-x(1)<<x(n)-Q2 Q1-x(1)<<x(n)-Q3

Page 17: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

É uma lista de informações da distribuição que inclui cinco medidas, a saber, x(1), Q1, Q2, Q3 e x(n).

Estes cinco valores são importantes para se ter uma boa ideia da assimetria dos dados.

Esquema dos cinco números

Page 18: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

Para uma distribuição simétrica ou aproximadamente simétrica, deveríamos ter:

(a) Q2- x(1) x(n)-Q2;

(b) Q2-Q1 Q3-Q2;

(c) Q1- x(1) x(n)-Q3;

Esquema dos cinco números

Page 19: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

O R possui uma função que retorna as informações do esquema dos cinco números: fivenum(x), se x é o vetor que contém os dados.

Exemplo:

x<-c(1,1,1,2,2,2,2,3,3,3,4,4,4,5,5,6,7,8,9,10)

fivenum(x)

[1] 1.0 2.0 3.5 5.5 10.0

Comandos summary() e fivenum()

Page 20: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max.

1.00 2.00 3.50 4.10 5.25 10.00

O comando summary(x), quando x é um vetor numérico, produz as informações do esquema dos cinco números e a média.

Comandos summary() e fivenum()

Page 21: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

A informação contida no esquema dos cinco números pode ser traduzida graficamente num diagrama, conhecido como box plot.

A figura a seguir, ilustra o boxplot.

Desenho Esquemático (Box Plots)

Page 22: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados
Page 23: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

O retângulo no boxplot é traçado de tal maneira que suas bases têm alturas correspondentes aos primeiro e terceiro quartis da distribuição.

O retângulo é cortado por um segmento paralelo às bases, na altura correspondente ao segundo quartil.

Assim, o retângulo do boxplot correponde aos 50% valores centrais da distribuição.

Boxplot

Page 24: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados
Page 25: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

Depois de desenhado o retângulo, traça-se um segmento paralelo ao eixo, partindo do ponto médio da base superior do retângulo até o maior valor observado que NÃO supera o valor de Q3+(1,5)DEQ.

O mesmo é feito a partir do ponto médio da base inferior do retângulo, até o menor valor que NÃO é menor do que Q1-(1,5)DEQ.

Cosntruindo o boxplot

Page 26: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados
Page 27: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

As observações que estiverem acima de Q3+(1,5)DEQ ou abaixo de Q1-(1,5)DEQ são chamadas pontos exteriores e representadas por asteriscos.

Essa observações destoantes das demais podem ser o que chamamos de outliers ou valores atípicos.

Fechando o boxplot

Page 28: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados
Page 29: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados
Page 30: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

Observações

Não necessariamente haverá a presença de pontos exteriores num boxplot.

Quando for este o caso, o esquema terá a seguinte aparência:

Page 31: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

Experimente pedir ao R para construir um boxplot dos dados sobre emissões de dióxido de carbono: boxplot(dados$emissao)

A função boxplot no R

Page 32: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados
Page 33: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados
Page 34: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

Observação: é possível construir vários boxplots na mesma função.

boxwex: controla a largura dos retângulos no boxplot. O default é 0.8.

outline: valor lógico. Se T, os pontos exteriores são assinalados (default). Se F, os pontos exteriores não são assinalados

Alguns argumentos da função boxplot

Page 35: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

Vamos trabalhar com os dados sobre salários para diferentes profissões/formações do conjunto dados6bm.txt.

dados<-read.table(“c:\\flavia\\dados6bm.txt”,header=T)

Há quatro profissões diferentes, a saber, nivelmedio, mecanico, administrador, engeletrico.

boxplot(dados[,2],dados[,3],dados[,4],dados[,5],names=c(“nivel medio”,”mecanico”,”administrador”,”eng.eletrico”))

Exemplo 2

Page 36: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

1 – nível médio

2 – mecânico

3 – administrador

4 – Eng. Elétrico

Page 37: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

Cores

col - cor de preenchimento dos retângulos

Page 38: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

Boxplots horizontais

horizontal - valor lógico, se T o boxplot fica na posição horizontal. Se F (default) fica na posição vertical.

Page 39: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

ylim: controla a escala de valores

main: título

sub: sub-título

names: vetor com os rótulos dos conjuntos de dados, quando são pedidos mais de um boxplot.

pch: específica o caracter a ser usado nos pontos exteriores. Ex.: pch=“*”.

Outros argumentos

Page 40: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

Exemplo 3

Dados sobre temperaturas médias mensais.

(dados5bm.txt)

Com as temperaturas médias mensais, separadas mês a mês,

para cada cidade, construa boxplots para analisar

o comportamento das mesmas, para cada cidade.

Page 41: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados

Boxplots das temperaturas mensais de Ubatuba e Cananéia

mês do ano mês do ano