ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem...
-
Upload
trannguyet -
Category
Documents
-
view
216 -
download
0
Transcript of ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem...
Estatística-2018/2 Turma: Geografia
Mostrar como o usar o R para:
calcular medidas de posição e dispersão de um conjunto de dados;
construir um boxplot.
Objetivos da aula
A função apropriada do R para obter os quantis de uma distribuição é a função quantile.
Se x é o vetor contendo os dados, e desejamos determinar os três quartis, digitamos
quantile(x,c(0.25,0.5,0.75)) Se desejamos o quinto (5%) e o nonagésimo-
quinto (95%) percentis, pedimos
quantile(x,c(0.05,0.95)) Em geral, q(p) quantile(x,p)
Determinação dos quantis de uma distribuição usando o R
Exemplo dos salários:
dados=read.table(“E:\\geografia\\ciaMB.txt”,header=T)
# calculando os quartis
quantile(dados$sal, c(0.25,0.5,0.75))
25% 50% 75%
7.5525 10.1650 14.0600
Pedindo a saída com duas casas decimais
round(quantile(dados$sal,c(0.25,0.5,0.75)),digits=2)
25% 50% 75%
7.55 10.16 14.06
Continuação do Exemplo:
Esquema dos cinco números:
fivenum(dados$sal)
[1] 4.000 7.515 10.165 14.270 23.300
mean(dados$sal) # média
[1] 11.12222
median(dados$sal) #mediana
[1] 10.165
max(dados$sal) # máximo
[1] 23.3
min(dados$sal) #mínimo
[1] 4
Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados são do ano de 1995.
Fonte: Stabilizing The Atmosphere: Population, Consumption and Greenhouse Gases.
Exemplo 1: Emissão de Dióxido de Carbono
dados=read.table(“c:\\flavia\\dados13bm.txt”,header=T)
# na primeira coluna está o nome do país e, na segunda, o dado sobre emissão do país.
Comando para ler o arquivo
Determine os três quartis, os decis, a média e o desvio-padrão das emissões registradas para os 72 países em 1995.
Exemplo 1: Emissão de Dióxido de Carbono (cont.)
names(dados) # nomes atribuídos as duas colunas do conjunto de dados
"pais" "emissao"
quantile(dados$emissao,c(0.25,0.5,0.75))
# comando para retornar os quantis de 25%, 50% e 75%, os três quartis.
25% 50% 75%
0.0675 0.4150 1.4725
Exemplo 1: Emissão de Dióxido de Carbono (cont.)
quantile(dados$emissao,c(.1,.2,.3,.4,.5,.6,.7,.8,.9))
# comando para retornar os 9 decis, a saber, 10%, 20%, ..., 90%.
10% 20% 30% 40% 50% 60% 70% 80% 90%
0.02 0.05 0.14 0.28 0.42 0.87 1.26 1.99 3.02
Observe que nessa lista os valores estão arredondados com duas casas decimais.
Exemplo 1: Emissão de Dióxido de Carbono (cont.)
• > mean(dados$emissao) • # retorna a média de emissões • [1] 1.174167 • > var(dados$emissao) • # retorna a variância • 2.853036 • > sd(dados$emissao) • #retorna o desvio padrão de emissões • [1] 1.689093 • median(dados$emissao) # retorna a mediana de emissões • [1] 0.415
Exemplo 1: Emissão de Dióxido de Carbono (cont.)
• > round(mean(dados$emissao),digit=2)
• # retorna a média de emissões com duas casas decimais
• [1] 1.17
• > round(sd(dados$emissao) ,digit=2)
• #retorna o desvio padrão de emissões com duas casas decimais
• [1] 1.69
Exemplo 1: Emissão de Dióxido de Carbono (cont.)
Histograma das emissões
Observe que a distribuição de frequências de dados sobre emissão apresenta forte assimetria positiva
Observe também que há uma classe sem representantes nessa distribuição
Histograma das emissões: sugerindo 10 intervalos:
(0,0.33,0.67,1,1.33,1.67,2,3,4,6,10)
Observe que nesse histograma os intervalos têm comprimentos diferentes.
Nesse caso devemos usar a escala de densidade de frequência dada pela razão da frequência com o comprimento do intervalo.
Observe que nessa figura tem-se Q2-Q1<Q3-Q2 Q2-x(1)<<x(n)-Q2 Q1-x(1)<<x(n)-Q3
É uma lista de informações da distribuição que inclui cinco medidas, a saber, x(1), Q1, Q2, Q3 e x(n).
Estes cinco valores são importantes para se ter uma boa ideia da assimetria dos dados.
Esquema dos cinco números
Para uma distribuição simétrica ou aproximadamente simétrica, deveríamos ter:
(a) Q2- x(1) x(n)-Q2;
(b) Q2-Q1 Q3-Q2;
(c) Q1- x(1) x(n)-Q3;
Esquema dos cinco números
O R possui uma função que retorna as informações do esquema dos cinco números: fivenum(x), se x é o vetor que contém os dados.
Exemplo:
x<-c(1,1,1,2,2,2,2,3,3,3,4,4,4,5,5,6,7,8,9,10)
fivenum(x)
[1] 1.0 2.0 3.5 5.5 10.0
Comandos summary() e fivenum()
summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max.
1.00 2.00 3.50 4.10 5.25 10.00
O comando summary(x), quando x é um vetor numérico, produz as informações do esquema dos cinco números e a média.
Comandos summary() e fivenum()
A informação contida no esquema dos cinco números pode ser traduzida graficamente num diagrama, conhecido como box plot.
A figura a seguir, ilustra o boxplot.
Desenho Esquemático (Box Plots)
O retângulo no boxplot é traçado de tal maneira que suas bases têm alturas correspondentes aos primeiro e terceiro quartis da distribuição.
O retângulo é cortado por um segmento paralelo às bases, na altura correspondente ao segundo quartil.
Assim, o retângulo do boxplot correponde aos 50% valores centrais da distribuição.
Boxplot
Depois de desenhado o retângulo, traça-se um segmento paralelo ao eixo, partindo do ponto médio da base superior do retângulo até o maior valor observado que NÃO supera o valor de Q3+(1,5)DEQ.
O mesmo é feito a partir do ponto médio da base inferior do retângulo, até o menor valor que NÃO é menor do que Q1-(1,5)DEQ.
Cosntruindo o boxplot
As observações que estiverem acima de Q3+(1,5)DEQ ou abaixo de Q1-(1,5)DEQ são chamadas pontos exteriores e representadas por asteriscos.
Essa observações destoantes das demais podem ser o que chamamos de outliers ou valores atípicos.
Fechando o boxplot
Observações
Não necessariamente haverá a presença de pontos exteriores num boxplot.
Quando for este o caso, o esquema terá a seguinte aparência:
Experimente pedir ao R para construir um boxplot dos dados sobre emissões de dióxido de carbono: boxplot(dados$emissao)
A função boxplot no R
Observação: é possível construir vários boxplots na mesma função.
boxwex: controla a largura dos retângulos no boxplot. O default é 0.8.
outline: valor lógico. Se T, os pontos exteriores são assinalados (default). Se F, os pontos exteriores não são assinalados
Alguns argumentos da função boxplot
Vamos trabalhar com os dados sobre salários para diferentes profissões/formações do conjunto dados6bm.txt.
dados<-read.table(“c:\\flavia\\dados6bm.txt”,header=T)
Há quatro profissões diferentes, a saber, nivelmedio, mecanico, administrador, engeletrico.
boxplot(dados[,2],dados[,3],dados[,4],dados[,5],names=c(“nivel medio”,”mecanico”,”administrador”,”eng.eletrico”))
Exemplo 2
1 – nível médio
2 – mecânico
3 – administrador
4 – Eng. Elétrico
Cores
col - cor de preenchimento dos retângulos
Boxplots horizontais
horizontal - valor lógico, se T o boxplot fica na posição horizontal. Se F (default) fica na posição vertical.
ylim: controla a escala de valores
main: título
sub: sub-título
names: vetor com os rótulos dos conjuntos de dados, quando são pedidos mais de um boxplot.
pch: específica o caracter a ser usado nos pontos exteriores. Ex.: pch=“*”.
Outros argumentos
Exemplo 3
Dados sobre temperaturas médias mensais.
(dados5bm.txt)
Com as temperaturas médias mensais, separadas mês a mês,
para cada cidade, construa boxplots para analisar
o comportamento das mesmas, para cada cidade.
Boxplots das temperaturas mensais de Ubatuba e Cananéia
mês do ano mês do ano