EXPERIMENTAÇÃO AGRÍCOLA Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari
Algumas medidas
1. Medidas de tendência central
As duas medidas de tendência central mais utilizadas para
resumir um conjunto de dados quantitativos são: a média
aritmética e a mediana.
Média Aritmética: é a soma dos valores numéricos de uma variável
dividida pelo numero total de variáveis, e é dada por:
𝑚 =1
𝑛 𝑦𝑖
𝑛
𝑖=1
onde, 𝑛: é o número total de variáveis da amostra
𝑦𝑖 : o valor observado da variável na 𝑖-ésima unidade
experimental
Algumas medidas
Exemplo 1. Considere os pesos ao nascer, em kg, de 10 bezerros da
raça de gado Crioula e da raça Nelore apresentados na tabela
abaixo:
• Média da raça Crioula:
𝑚 = 𝑦𝑖
10𝑖=1
10=
47+51+45+50+50+52+46+49+53+51
10=
494
10= 49,4 kg
• Média da raça Nelore:
𝑚 = 𝑦𝑖
10𝑖=1
10=
51+40+46+48+54+56+44+43+55+57
10=
494
10= 49,4 kg
Raça Pesos ao nascer em kg
Crioula 47 51 45 50 50 52 46 49 53 51
Nelore 51 40 46 48 54 56 44 43 55 57
Algumas medidas
Exemplo 1. Considere os pesos ao nascer, em kg, de 10 bezerros da raça de gado
Crioula e da raça Nelore apresentados na tabela abaixo:
No R...
# Média da raça Crioula TR_C <- c(rep("crioula",10)); TR_C r <- c(1:10); r Y_C <- c(47,51,45,50,50,52,46,49,53,51); Y_C df_C <- data.frame(cbind(TR_C,r,Y_C)); df_C mean(Y_C); # média # Média da raça Nelore TR_N <- c(rep("nelore",10)); TR_N rep <- c(1:10); rep Y_N <- c(51,40,46,48,54,56,44,43,55,57); Y_N df_N <- data.frame(cbind(TR_N,rep,Y_N)); df_N mean(Y_C); # média
Raça Pesos ao nascer em kg
Crioula 47 51 45 50 50 52 46 49 53 51
Nelore 51 40 46 48 54 56 44 43 55 57
Algumas medidas
• É uma medida bastante adequada
quando os dados apresentam,
aproximadamente, uma distribuição
normal.
• Quando a distribuição é assimétrica
deve-se utilizar, preferencialmente,
a mediana.
• A principal restrição ao uso da média
aritmética é que ela é muito sensível a
valores excessivamente altos ou baixos
(outliers)
média média mediana
mediana mediana média
Algumas medidas
Desvio: O desvio de um dado 𝑦𝑖 em relação a média 𝑚 é dado por:
𝑒 𝑖 = 𝑦𝑖 − 𝑚
• Assim, existem desvios positivos, negativos e nulos.
• Para os dados de pesos ao nascer de bezerros da raça Crioula,
apresentado no Exemplo 1, com média 𝑚 = 49,4 kg, temos:
• Para os dados de pesos ao nascer de bezerros da raça Nelore,
apresentado no Exemplo 1, com média 𝑚 = 49,4 kg, temos:
𝒚𝒊 47 51 45 50 50 52 46 49 53 51
𝒆 𝒊 -2,4 1,6 -4,4 0,6 0,6 2,6 -3,4 -0,4 3,6 1,6
𝒚𝒊 51 40 46 48 54 56 44 43 55 57
𝒆 𝒊 1,6 -9,4 -3,4 -1,4 4,6 6,6 -5,4 -6,4 5,6 7,6
desvio
Raça Crioula Raça Nelore
Algumas medidas
47
51
45
50 50
52
46
49
53 51
38
40
42
44
46
48
50
52
54
56
58
peso ao nascer
peso médio
51
40
46
48
54
56
44 43
55
57
38
40
42
44
46
48
50
52
54
56
58
peso ao nascer
peso médio
desvio
• Da composição dos dois gráficos, pode-se verificar que na Raça
Crioula houve menor variação do desvio (menor dispersão dos
dados ao redor da média)
Algumas medidas
Propriedades da média aritmética
P1: A soma dos desvios calculados em relação à média aritmética do
conjunto de dados é nula, isto é:
𝑦𝑖 − 𝑚
𝑛
𝑖=1
= 𝑒 𝑖
𝑛
𝑖=1
= 0
P2: O menor valor da soma dos quadrados desvios é atingido quando estes são
calculados em relação à média, ou seja:
𝑦𝑖 − 𝑚 2
𝑛
𝑖=1
= 𝑒 𝑖2
𝑛
𝑖=1
≤ 𝑦𝑖 − 𝑎 2
𝑛
𝑖=1
, ∀𝑎 ∈ ℝ
PS: Quando trabalhamos com todos os 𝑁 elementos de uma população, a média
aritmética é representada por 𝜇, e calculada por:
𝜇 =1
𝑁 𝑦𝑖
𝑁
𝑖=1
43 44 45 46 47 48 49 50 51 52 53 54 55
Pesos ao nascer
valor da mediana (𝑀𝑑)
Algumas medidas
Mediana: é o valor que divide ao meio um conjunto de dados ordenados,
em que 50% dos valores se posicionam abaixo e 50% acima dele
Na prática, nem sempre existe este valor central e toma-se como
mediana a média dos dois valores centrais.
Para os dados de pesos ao nascer de bezerros da raça Crioula,
apresentado no Exemplo 1, com média 𝑚 = 49,4 kg, temos:
45 46 47 49 50 50 51 51 52 53
Raça Pesos ao nascer em kg
Crioula 47 51 45 50 50 52 46 49 53 51
posição da mediana
Conjunto de dados ordenados
𝑀𝑑 =50 + 50
2= 50 Diagrama de pontos para peso ao nascer da
raça Crioula – cálculo da mediana
Algumas medidas
Os cálculos da mediana e dos quartis para um histograma serão feitos por meio de
argumentos geométricos, através da proporcionalidade existente entre área e base
de retângulos.
Geometricamente:
a mediana 𝑀𝑑 é o valor da abscissa que determina uma linha vertical que
divide o histograma em duas partes de áreas iguais, ou seja, 50% da área está
abaixo do primeiro quartil e 50% da área está acima.
o primeiro quartil 𝑄1 é o valor da abscissa que determina uma linha vertical
que divide o histograma em duas partes distintas, ou seja, 25% da área está
abaixo do primeiro quartil e 75% da área está acima.
o terceiro quartil 𝑄3 é o valor da abscissa que determina uma linha vertical
que divide o histograma em duas partes distintas, ou seja, 75% da área está
abaixo do terceiro quartil e 25% da área está acima.
Desenho esquemático para uma
distribuição normal
Algumas medidas
Os cálculos da mediana e dos quartis no R...
# Determinação dos quartis da raça Crioula
TR_C <- c(rep("crioula",10)); TR_C
r <- c(1:10); r
Y_C <- c(47,51,45,50,50,52,46,49,53,51); Y_C
df_C <- data.frame(cbind(TR_C,r,Y_C)); df_C
sort(Y_C) # organiza os dados em ordem crescente (Crioula)
quantile(Y_C) # calculo dos quartis (Crioula)
# Determinação dos quartis da raça Nelore
TR_N <- c(rep("nelore",10)); TR_N
rep <- c(1:10); rep
Y_N <- c(51,40,46,48,54,56,44,43,55,57); Y_N
df_N <- data.frame(cbind(TR_N,rep,Y_N)); df_N
sort(Y_N) # organiza os dados em ordem crescente (Nelore)
quantile(Y_N) # calculo dos quartis (Nelore)
Desenho esquemático para uma
distribuição normal
Algumas medidas
2. Medidas de dispersão
Quando apresentamos uma medida de tendência central para representar
um conjunto de dados, é necessário que essa medida seja acompanhada
de uma outra que resume a variabilidade (dispersão dos dados).
• Apesar das duas distribuições terem a mesma média nas amostras, os
valores da raça Nelore estão mais espalhados (dispersos) do que os valores
da raça Crioula.
• A variabilidade na raça Nelore é maior que na raça Crioula.
38 40 42 44 46 48 50 52 54 56 58
Pesos ao nascer
Nelore
Crioula
médias
𝑚 = 49,4
Diagrama de pontos para peso ao nascer das raças Crioula e Nelore
Algumas medidas
2. Medidas de dispersão
Uma medida de dispersão quantifica a magnitude da
variabilidade dos dados. Ela é de fundamental importância, pois a
estatística só existe porque o fenômenos tem variabilidade.
• Vamos estudar as seguintes medidas de dispersão:
• variância
• desvio padrão
• erro padrão
• coeficiente de variação
• distância interquartílica
Algumas medidas
Variância e desvio padrão
Para o cálculo da variância e do desvio padrão, o princípio básico é
analisar os desvios das observações em relação à média aritmética.
• O valor zero para a variância ou desvio padrão indica ausência de
variação; o valor da medida vai aumentando à medida que aumenta
a variação.
sendo:
𝑁: tamanho da população 𝑛: tamanho da amostra
𝜇: média populacional 𝑚 : média da amostra
Variância Populacional Variância da Amostra
𝜎2 =1
𝑁 𝑦𝑖 − 𝜇 2
𝑁
𝑖=1
𝑠2 =1
𝑛 − 1 𝑦𝑖 − 𝑚 2
𝑛
𝑖=1
Algumas medidas
Variância e desvio padrão
A variância apresenta um inconveniente de ordem prática, ela é
expressa em unidades ao quadrado, isto causa problemas de
interpretação.
• Uma medida de variabilidade, calculada com base na variância é o
desvio padrão, o qual é expresso na mesma unidade dos dados
originais.
Desvio Padrão Populacional Desvio Padrão da Amostra
𝜎 = 𝜎2 𝑠 = 𝑠2
Algumas medidas
Vamos calcular a variância e o desvio padrão dos pesos ao nascer de
bezerros, em kg, da raça Crioula.
• Variância da Amostra: 𝑠2 =1
10−1 𝑦𝑖 − 𝑚 210
𝑖=1
𝑠2 =1
95,76+2,56+19,4+0,36+0,36+6,76+11,6+0,16+13+2,56
𝑠2 =1
962,4 = 6,93 kg2
• Desvio Padrão da Amostra: 𝑠 = 𝑠2
𝑠 = 6,93 = 2,63 kg
Raça Crioula
𝒚𝒊 47 51 45 50 50 52 46 49 53 51
𝒎 49,4 49,4 49,4 49,4 49,4 49,4 49,4 49,4 49,4 49,4
𝒚𝒊 − 𝒎 -2,4 1,6 -4,4 0,6 0,6 2,6 -3,4 -0,4 3,6 1,6
𝒚𝒊 − 𝒎 𝟐 5,76 2,56 19,4 0,36 0,36 6,76 11,6 0,16 13 2,56
Algumas medidas
Vamos calcular a variância e o desvio padrão dos pesos ao nascer de
bezerros, em kg, da raça Crioula.
No R...
Y_C <- c(47,51,45,50,50,52,46,49,53,51); Y_C
var(Y_C) # variância da raça Crioula
sd(Y_C) # desvio padrão da raça Crioula
Raça Crioula
𝒚𝒊 47 51 45 50 50 52 46 49 53 51
𝒎 49,4 49,4 49,4 49,4 49,4 49,4 49,4 49,4 49,4 49,4
𝒚𝒊 − 𝒎 -2,4 1,6 -4,4 0,6 0,6 2,6 -3,4 -0,4 3,6 1,6
𝒚𝒊 − 𝒎 𝟐 5,76 2,56 19,4 0,36 0,36 6,76 11,6 0,16 13 2,56
Algumas medidas
Vamos calcular a variância e o desvio padrão dos pesos ao nascer
de bezerros, em kg, da raça Nelore.
• Variância da Amostra: 𝑠2 =1
10−1 𝑥𝑖 − 𝑚 210
𝑖=1
𝑠2 =1
92,56+88,36+11,56+1,96+21,16+43,56+29,16+40,96+31,36+57,76
𝑠2 =1
9328,4 = 36,49 kg2
• Desvio Padrão da Amostra: 𝑠 = 𝑠2
𝑠 = 36,49 = 6,04 kg
Raça Nelore
𝒚𝒊 51 40 46 48 54 56 44 43 55 57
𝒎 49,4 49,4 49,4 49,4 49,4 49,4 49,4 49,4 49,4 49,4
𝒚𝒊 − 𝒎 1,6 -9,4 -3,4 -1,4 4,6 6,6 -5,4 -6,4 5,6 7,6
𝒚𝒊 − 𝒎 𝟐 2,56 88,36 11,56 1,96 21,16 43,56 29,16 40,96 31,36 57,76
Algumas medidas
Vamos calcular a variância e o desvio padrão dos pesos ao nascer
de bezerros, em kg, da raça Nelore.
• No R...
Y_N <- c(51,40,46,48,54,56,44,43,55,57); Y_N
var(Y_N) # variância da raça Nelore
sd(Y_N) # desvio padrão da raça Nelore
Raça Nelore
𝒚𝒊 51 40 46 48 54 56 44 43 55 57
𝒎 49,4 49,4 49,4 49,4 49,4 49,4 49,4 49,4 49,4 49,4
𝒚𝒊 − 𝒎 1,6 -9,4 -3,4 -1,4 4,6 6,6 -5,4 -6,4 5,6 7,6
𝒚 − 𝒎 𝟐 2,56 88,36 11,56 1,96 21,16 43,56 29,16 40,96 31,36 57,76
Algumas medidas
Resumindo...
• Portanto, a raça Nelore apresentou uma variabilidade muito
maior do que a raça Crioula, para o peso no nascimento,
conforme já havíamos concluído a partir da análise do
diagrama de pontos.
Raça Variância Desvio Padrão
Crioula 6,93 2,63
Nelore 36,49 6,04
MEDIDAS DE POSIÇÃO E DE DISPERSÃO
Medidas de Dispersão
Erro Padrão da Média
Se retirarmos várias amostras de uma mesma população, teremos diversas
estimativas da média, obtidas em cada uma das amostras.
• Com essas estimativas da média, pode-se estimar uma variância, considerando-se
os desvios de cada média em relação à média de todas elas.
• Assim, a estimativa da variância da média pode ser calculada por 𝑉 𝑚 =𝑠2
𝑛,
sendo 𝑠2 a estimativa da variância dos n dados da amostra.
• A raiz quadrada dessa estimativa de variância é denominada erro padrão da
média, que pode ser calculado por:
𝑠 𝑚 =𝑠
𝑛
• Quanto menor for o valor de 𝑠 𝑚 , maior será a precisão da estimativa da média.
Algumas medidas
Vamos calcular a variância da média e o erro padrão da média dos
pesos ao nascer de bezerros, em kg, da raça Nelore.
• Variância da Média: 𝑉 𝑚 =𝑠2
𝑛
𝑉 𝑚 =36,49
10= 3,65
• Erro Padrão da Média: 𝑠 𝑚 =𝑠
𝑛
𝑠 𝑚 =6,04
10= 1,91
Repetições 𝒎 𝒔𝟐 𝒔
Raça Nelore 51 40 46 48 54 56 44 43 55 57 49,4 36,49 6,04
No R... Y_N <- c(51,40,46,48,54,56,44,43,55,57); Y_N var_media_N=var(Y_N)/length(Y_N); var_media_N erro_padrao_N=sd(Y_N)/sqrt(length(Y_N)); erro_padrao_N # erro padrão
Algumas medidas
O uso da média e do desvio padrão na interpretação de um
conjunto de Dados: Como o desvio padrão é uma medida que
indica quanto, em média, os elementos de um conjunto de dados se
afastam da média deles, utilizamos: 𝑚 − 𝑘 ∙ 𝑠,𝑚 + 𝑘 ∙ 𝑠
• Vamos considerar os pesos ao nascer de bezerros, em kg, da raça
Crioula, o intervalo:
𝑘 = 1: 𝑚 − 1 ∙ 𝑠;𝑚 + 1 ∙ 𝑠 = 49,4 − 2,63 ; 49,4 + 2,63 = 46,77; 52,53
𝑘 = 2: 𝑚 − 2 ∙ 𝑠;𝑚 + 2 ∙ 𝑠 = 49,4 − 2 2,63 ; 49,4 + 2 2,63 = 44,14; 55,16
Raça Pesos ao nascer em kg 𝒎 𝒔
Crioula 47 51 45 50 50 52 46 49 53 51 49,4 2,63
Algumas medidas
Através da análise de amplitude desses intervalos, o
pesquisador pode avaliar se eles são:
• amplos (pouco precisos) ou não (precisos)
para o fenômeno real em estudo.
• Em uma distribuição normal, valores maiores que
𝑚 + 3𝑠 e menores que 𝑚 − 3𝑠 são considerados
valores discrepantes ou outliers.
Algumas medidas
Coeficiente de Variação
O coeficiente de variação (𝐶𝑉 ) é utilizado quando temos
interesse em comparar variabilidades em situações nas quais as
médias são muito diferentes ou as unidades de medida são
diferentes.
• Ele é uma medida de dispersão relativa (porque estabelece uma
relação entre desvio padrão e média) dada em percentual da
variabilidade dos dados em torno da média e expresso por:
𝐶𝑉 =𝑠
𝑚 ∙ 100
sendo, 𝑠: desvio padrão da amostra
𝑚 : média da amostra
Algumas medidas
Vamos calcular o coeficiente de variação dos pesos ao nascer de
bezerros, em kg, das raças Crioula e Nelore.
• Raça Crioiula: 𝑚 𝑐 = 49,40 e 𝑠𝑐 = 2,63
𝐶𝑉𝑐 =𝑠𝑐
𝑚 𝑐∙ 100 =
2,63
49,40∙ 100 = 5,32%
• Raça Nelore: 𝑚 𝑁 = 49,40 e 𝑠𝑁 = 6,04
𝐶𝑉𝑁 =𝑠𝑁
𝑚 𝑁∙ 100 =
6,04
49,40∙ 100 = 12,23%
Portanto, a variabilidade de peso ao nascer na amostra da raça
Crioula é menor do que da raça Nelore.
No R... #Raça Crioula Y_C <- c(47,51,45,50,50,52,46,49,53,51); Y_C # Coeficiente de Variação: cv_C <- (sd(Y_C)/mean(Y_C))*100; cv_C #Raça Nelore Y_N <- c(51,40,46,48,54,56,44,43,55,57); Y_N # Coeficiente de Variação cv_N <- (sd(Y_N)/mean(Y_N))*100; cv_N
Algumas medidas
O coeficiente de variação é bastante utilizado em estudos de
dinâmica de populações vegetais e animais.
• Na estatística experimental, ele indica a precisão do experimento,
ou seja, a capacidade de o realizarmos novamente, sob as
mesmas condições, e produzir resultados semelhantes.
• Os valores de CV dependem do tipo de pesquisa e da variável em
estudo para ser considerado aceitável.
• Tem-se a seguinte orientação: 𝐶𝑉 ≤ 10%,10% < 𝐶𝑉 ≤ 20%,20% < 𝐶𝑉 ≤ 30%,
𝐶𝑉 > 30%
⇒ baixo ⇒ médio
⇒ alto ⇒ muito alto
Algumas medidas
Distância interquartílica
Da mesma forma que a média aritmética, a variância é uma
medida bastante apropriada para representar a dispersão de dados
com distribuição normal.
• Uma medida de variabilidade, útil para diferentes tipos de
distribuição, é dada pela distância interquartílica (𝐷𝐼), calculada
por:
𝐷𝐼 = 𝑄3 − 𝑄1
que representa a amplitude do intervalo que contém os 50% dos
dados centrais, ou seja, como eles estão espalhados.
Algumas medidas
Para os valores dos pesos ao nascer de bezerros, em kg, das raças
Crioula e Nelore temos as seguintes distâncias interquartílicas:
•Raça Crioiula:
𝑄1𝑐 = 47,50 e 𝑄3𝑐= 51,00
𝐷𝐼𝐶 = 3,5 kg
•Raça Nelore:
𝑄1𝑁 = 44,50 e 𝑄3𝑁= 54,75
𝐷𝐼𝑁 = 10,25 kg
No R... TR_C <- c(rep("crioula",10)); TR_C r <- c(1:10); r Y_C <- c(47,51,45,50,50,52,46,49,53,51); Y_C df_C <- data.frame(cbind(TR_C,r,Y_C)); df_C sort(Y_C); # ordem crescente mean(Y_C); # média var(Y_C); # variância quantile(Y_C) # quartis
TR_N <- c(rep("nelore",10)); TR_N rep <- c(1:10); rep Y_N <- c(51,40,46,48,54,56,44,43,55,57); Y_N df_N <- data.frame(cbind(TR_N,rep,Y_N)); df_N sort(Y_N); # ordem crescente mean(Y_N); # média var(Y_N); # variância quantile(Y_N) # quartis
Algumas medidas
O uso da mediana e dos quartis na interpretação de um conjunto de
dados: O objetivo da mediana de dos quartis é obter informações sobre
a forma, o valor representativo, a dispersão e os valores discrepantes da
distribuição dos dados observados e, assim, responder importantes
questões da pesquisa
• Somente com a média e o desvio padrão não temos ideia da forma
como os dados se distribuem, a sugestão é fazer o uso das seguintes
medidas:
i. Mediana 𝑀𝑑 ;
ii. Valores máximo 𝑚𝑎𝑥 e mínimo (𝑚𝑖𝑛) ;
iii. O primeiro 𝑄1 e o terceiro quartil 𝑄3 quartis;
iv. Distância Interquartílica 𝐷𝐼 .
Algumas medidas
Exemplo de uso da mediana e dos quartis na interpretação de um
conjunto de dados. Foram tomadas duas amostras de tamanhos iguais a
25 observações, de crescimento do pseudobulbo, em cm, da espécie de
orquídea Laelia purpurata, sob duas condições de luminosidade (com luz
direta e com luz indireta). Os dados estão apresentados na tabela abaixo.
Luz Direta 1,6 1,6 1,9 1,9 2,1 2,1 2,1 2,1 2,1
2,4 2,5 2,5 2,7 3,4 3,4 3,7 3,9 4,2
4,8 6,3 6,5 7,2 8,8 9,4 9,5
Luz Indireta 1,4 1,9 2,8 3,1 3,5 3,5 3,6 3,9 4,3
4,5 4,6 4,8 6,3 6,5 6,7 6,7 6,8 6,9
8,1 8,6 10,4 12,7 16,3 16,8 16,9
mínimo
𝑸𝟑 máximo
𝑴𝒅 𝑸𝟏
Algumas medidas
Condições 𝑴𝒅 𝑸𝟏 𝑸𝟑 𝑴𝒊𝒏 𝑴𝒂𝒙 𝑸𝟑 − 𝑸𝟏
Luz Direta (LD) 2,7 2,1 4,8 1,6 9,5 2,7
Luz Indireta (LI) 6,3 3,6 8,1 1,4 16,9 4,5
Cálculo dos quartis e extremos para os dados de crescimento do
pseldobulbo da Laelia purpurata
No R...
LD <- c(1.6, 1.6, 1.9, 1.9, 2.1, 2.1, 2.1, 2.1, 2.1, 2.4, 2.5, 2.5, 2.7, 3.4, 3.4, 3.7, 3.9, 4.2, 4.8,
6.3, 6.5, 7.2, 8.8, 9.4, 9.5); LD
LI <- c(1.4, 1.9, 2.8, 3.1, 3.5, 3.5, 3.6, 3.9, 4.3, 4.5, 4.6, 4.8, 6.3, 6.5, 6.7, 6.7, 6.8, 6.9, 8.1,
8.6, 10.4, 12.7, 16.3, 16.8, 16.9); LI
summary(LD)
summary(LI)
Algumas medidas
Condições 𝑴𝒅 𝑸𝟏 𝑸𝟑 𝑴𝒊𝒏 𝑴𝒂𝒙 𝑸𝟑 − 𝑸𝟏
Luz Direta (LD) 2,7 2,1 4,8 1,6 9,5 2,7
Luz Indireta (LI) 6,3 3,6 8,1 1,4 16,9 4,5
Cálculo dos quartis e extremos para os dados de crescimento do
pseldobulbo da Laelia purpurata
Podemos concluir que:
• O crescimento maior ocorreu com luz indireta, pois 𝑀𝑑𝐿𝐷 = 𝟐, 𝟕 cm
e 𝑀𝑑𝐿𝐼 = 𝟔, 𝟑 cm
• A maior variabilidade dos dados centrais também ocorreu na luz
indireta, pois a distância interquartílica foi de 𝟒, 𝟓 cm contra 𝟐, 𝟕 cm da
luz direta
99,3%
𝑸𝟏 − 𝟏, 𝟓𝑫𝑰 𝑸𝟑 + 𝟏, 𝟓𝑫𝑰
Algumas medidas
Com o uso dos quartis:
• É possível verificar (detectar) se um ou mais valores da distribuição são
considerados discrepantes.
• Considere 𝑥𝑖 a 𝑖-ésima observação do conjunto de dados e 𝐷𝐼 a
distância interquartílica
• Se 𝑥𝑖 < 𝑸𝟏 − 𝟏, 𝟓𝑫𝑰 ou 𝑥𝑖 > 𝑄3 + 1,5𝐷𝐼 então 𝑥𝑖 é
considerado um valor discrepante (outlier)
• O valor 1,5 é utilizado no cálculo dos valores discrepantes,
pois a área da curva normal no intervalo
𝑄1 − 1,5𝐷𝐼 ; 𝑄3 + 1,5𝐷𝐼 é igual a 99,3%
• logo estamos considerando 0,7% dos valores da
distribuição normal como sendo valores discrepantes
ou outliers.
Algumas medidas
Em um conjunto de dados pode existir mais de um valor discrepante.
• No exemplo dos dados de crescimento do pseldobulbo da Laelia
purpurata:
assim:
Condições 𝑸𝟏 𝑸𝟑 𝑫𝑰 𝑸𝟏 − 𝟏, 𝟓𝑫𝑰 𝑸𝟑 + 𝟏, 𝟓𝑫𝑰
Luz Direta (LD) 2,1 4,8 2,7 -1,95 8,85
Luz Indireta (LI) 3,6 8,1 4,5 -3,15 14,85
Luz Direta 1,6 1,6 1,9 1,9 2,1 2,1 2,1 2,1 2,1
2,4 2,5 2,5 2,7 3,4 3,4 3,7 3,9 4,2
4,8 6,3 6,5 7,2 8,8 9,4 9,5
Luz Indireta 1,4 1,9 2,8 3,1 3,5 3,5 3,6 3,9 4,3
4,5 4,6 4,8 6,3 6,5 6,7 6,7 6,8 6,9
8,1 8,6 10,4 12,7 16,3 16,8 16,9
outlier de LD
Outlier de LI
Algumas medidas
Desenho Esquemático
• As informações da mediana e quartis podem ser representadas
graficamente em um box-plot, bastante apropriado para se efetuar
comparações entre distribuições de dados de diferentes tratamentos.
𝑀𝑑𝐿𝐼
outliers para LI
Valores não
outliers
para LI 𝐷𝐼𝐿𝐼
𝑄3𝐿𝐼
𝑄1𝐿𝐼
Algumas medidas
Desenho Esquemático
• As informações da mediana e quartis podem ser representadas
graficamente em um box-plot, bastante apropriado para se efetuar
comparações entre distribuições de dados de diferentes tratamentos.
No R... TR <- c(rep("Luz direta",25), rep("Luz indireta",25)); TR rep <- c(1:25,1:25); rep Y <- c(1.6, 1.6, 1.9, 1.9, 2.1, 2.1, 2.1, 2.1, 2.1, 2.4, 2.5, 2.5, 2.7, 3.4, 3.4, 3.7, 3.9, 4.2, 4.8, 6.3, 6.5, 7.2, 8.8, 9.4, 9.5, 1.4, 1.9, 2.8, 3.1, 3.5, 3.5, 3.6, 3.9, 4.3, 4.5, 4.6, 4.8, 6.3, 6.5, 6.7, 6.7, 6.8, 6.9, 8.1, 8.6, 10.4, 12.7, 16.3, 16.8, 16.9); Y df1 <- data.frame(cbind(TR,rep,Y)); df1 FTR <- as.factor(TR) # TODA FONTE DE VARIAÇÃO DEVE SER UM FATOR m <- tapply(Y,FTR,mean); m # Médias dos Tratamentos lmin <- 0 # limite mínimo lmax <- 10 # limite máximo barplot(m,ylim=c(lmin,lmax)) # gráfico das médias dos tratamentos plot(Y~FTR) # gráfico box-plot por tratamentos
Correlação
Utilizado para analisar o comportamento conjunto de duas ou mais
variáveis quantitativas.
• Estamos interessados em obter uma medida estatística que indique se existe ou
não uma associação linear entre duas variáveis e, se existir, qual a sua
magnitude e sinal.
• O primeiro passo para verificar se existe correlação entre duas variáveis
quantitativas, é construir um gráfico de dispersão. No eixo das abscissas
colocamos a variável X e no das ordenadas a variável Y
Radiação fotossintética (W/m2)
Pro
du
ção (
g/m
2)
Correlação
Exemplo. Considere os dados referentes à produção de matéria seca de
uma cultura (Y) e a quantidade de radiação fotossintética ativa (X). Os
dados obtidos do experimento são apresentados na tabela abaixo:
1 2 3 4 5 6 7 8 9 10
Produção (Y) 10 60 110 160 220 280 340 400 460 520
Radiação (X) 18 55 190 300 410 460 570 770 815 965
Através do diagrama de pontos, concluímos que
existe uma correlação positiva entre as
variáveis Produção e Radiação (𝑟 = 0.995),
• pois a medida que aumenta a radiação
fotossintética, também aumenta a produção de
matéria seca.
Assim, pode-se concluir que o conhecimento da
quantidade de radiação pode ajudar a prever a
produção de matéria seca.
Correlação
Exemplo. Considere os dados referentes à produção de matéria seca de
uma cultura (Y) e a quantidade de radiação fotossintética ativa (X). Os
dados obtidos do experimento são apresentados na tabela abaixo:
1 2 3 4 5 6 7 8 9 10
Produção (Y) 10 60 110 160 220 280 340 400 460 520
Radiação (X) 18 55 190 300 410 460 570 770 815 965
No R...
Y <- c(10, 60, 110, 160, 220, 280, 340, 400, 460, 520); Y
X <- c(18, 55, 190, 300, 410, 460, 570, 770, 815, 965); X
z=plot(X,Y) # gráfico de dispersão
cor(X,Y) # coeficiente de correlação
regressao=lm(Y~X); regressao # estimativa dos parâmetros
abline(regressao) # adiciona ao gráfico a reta de ajustada
grid(z) # quadricula o gráfico
𝑦 = 0,5312𝑥 + 14,1537
𝑟 = 0,9953
Exercícios
Exercícios
Exercício 1. Foi observado a espessura, em micra
(10−6𝑚 = 𝜇𝑚), do epitélio da mucosa vaginal em 10
porcas diestro, conforme tabela seguinte.
Com base nestes dados, pede-se:
a) Estimar a espessura média, em micra, do epitélio da mucosa vaginal para
essas porcas.
b) Calcular a amplitude 𝐴 = 𝑦 − 𝑦𝑚𝑖𝑛.
c) Calcular a variância
d) Calcular o desvio padrão
e) Calcular o erro padrão da média.
f) Calcular o coeficiente de variação.
43 58 50 39 62 38 23 31 45 49
Com base nestes dados, pede-se:
a) Estimar a espessura média, em micra, do epitélio da mucosa vaginal para
essas porcas.
𝑚 =43 + 58 + 50 + 39 + 62 + 38 + 23 + 31 + 45 + 49
10=
438
10= 43,8𝜇𝑚
b) Calcular a amplitude.
𝐴 = 62,0 − 23,0 = 39𝜇𝑚
Exercício 1 – solução
Exercício 1. Foi observado a espessura, em micra
(10−6𝑚 = 𝜇𝑚), do epitélio da mucosa vaginal em 10
porcas diestro, conforme tabela seguinte.
43 58 50 39 62 38 23 31 45 49
Com base nestes dados, pede-se:
c) Calcular a variância
Solução.
𝑠2 =1
10−1 𝑦𝑖 − 43,8 210
𝑖=1 =1
90,64+202+38,4+23+331+33,6+433+164+1,44+27
𝑠2 =1
91254 = 139,2889𝜇𝑚2
Exercício 1 – solução
Exercício 1. Foi observado a espessura, em micra
(10−6𝑚 = 𝜇𝑚), do epitélio da mucosa vaginal em 10
porcas diestro, conforme tabela seguinte.
𝒚𝒊 43 58 50 39 62 38 23 31 45 49
𝒎 43,8 43,8 43,8 43,8 43,8 43,8 43,8 43,8 43,8 43,8
𝒚𝒊 − 𝒎 -0,8 14,2 6,2 -4,8 18,2 -5,8 -20,8 -12,8 1,2 5,2
𝒚𝒊 − 𝒎 𝟐 0,64 201,6 38,4 23 331,2 33,6 432,6 163,8 1,44 27
Com base nestes dados, pede-se:
d) Calcular o desvio padrão.
𝑠 = 𝑠2 = 139,2889 = 11,8021𝜇𝑚
e) Calcular o erro padrão da média. 𝑠 𝑚 =𝑠
𝑛
𝑠 43,8 =11,8021
10= 3,7321𝜇𝑚
f) Calcular o coeficiente de variação
𝐶𝑉 =100 × 11,8021
43,8= 26,95%
Exercício 1 – solução
Exercício 1. Foi observado a espessura, em micra (10−6𝑚 = 𝜇𝑚), do epitélio da
mucosa vaginal em 10 porcas diestro, conforme tabela seguinte.
43 58 50 39 62 38 23 31 45 49
Exercícios
Exercício 2. O intervalo entre partos de vacas leiteiras
em uma fazenda apresentou um valor médio de 840
dias e um desvio padrão de 275 dias. Sendo uma
variável que depende de fator hormonal, entre muitos
outros, seu coeficiente de variação deve ser elevado.
Calcule-o.
Solução. Note que 𝑚 = 840dias e s = 275 dias. Lembrando que o coeficiente de variação
𝐶𝑉 , que avalia a instabilidade relativa, é dado por 𝐶𝑉 =100×𝑠
𝑚 , então:
𝐶𝑉 =100×275
840= 32,70%
• Dessa maneira, o coeficiente de variação é de 32,7 %, o que pode não parecer muito elevado.
Mas devemos considerar que no processo seletivo usualmente feito nos rebanhos de
leite, muitas vacas são descartadas por não retornarem ao cio em tempo pré-
estabelecido pelo manejo da fazenda.
Top Related