4 Descritiva_Medidas
-
Upload
rodrigo-rubino -
Category
Documents
-
view
214 -
download
0
Transcript of 4 Descritiva_Medidas
-
8/17/2019 4 Descritiva_Medidas
1/26
Análise descritiva de Dados
A todo instante do nosso dia-a-dia nos deparamos com dados .
Por exemplo, para decidir pela compra de um eletrodoméstico,um aparelho eletrônico ou até mesmo na compra de uma caixa desabão em pó temos diferentes opções:
marca: prós e contra de cada uma.
preço: é compatível com o que o produto oferece e com o
nosso orçamento?
melhor custo/benefício.
garantia, assistência técnica, acabamento, etc...
Na Pesquisa Científica , no entanto, os dados são um fator preponderante para que possamos responder às nossas indagações .
Portanto, segundo a metodologia científ ica , a observação eanálise dos dados devem ser feitas de maneira criteriosa e objetiva para que os resultados sejam confiáveis.
1.
Etapas de uma pesquisa
A) O Problema => normalmente surge de um questionamento, noentanto, a definição do problema vai muito além de um simplesquestionamento, envolvendo uma ampla revisão l iterária sobre otema em questão.
Uma vez definido o problema a ser abordado, os objetivos da pesquisa devem ser elaborados de forma bastante clara.
-
8/17/2019 4 Descritiva_Medidas
2/26
Exemplo:Qual o material metálico com melhores propriedades mecânicas
para utilização em projetos na área aeroespacial.
Objetivo: Encontrar um material metálico com propriedadesmecânicas adequadas para projetos aeroespaciais.Artigo: Establishing Mechanical Property Allowables for Metals, Journal of Testing and Evaluation, 1998, p. 293-299.
B) Definição dos objetivos
Os objetivos podem ser gerais ou específicos e devem serdefinidos no início da pesquisa, na fase das definições e planejamento.
Objetivo geral : é o objetivo central e responsável pelo desencadeardo estudo.
Objetivos específicos: são formados por questões secundárias queajudam a entender o resultado da pesquisa,corroborando, ou não, com o objetivo geral.
Exemplo 1:
No exemplo acima, temos apenas o objetivo geral, porém, emoutras situações pode haver objetivos específicos em função do problema que se defronta.
-
8/17/2019 4 Descritiva_Medidas
3/26
Exemplo 2:Determinar o padrão de comportamento de estudantes
universitários do primeiro ano quanto ao hábito de assistir TV.
Objetivo geral:
Determinar a quantidade de horas semanais que um estudanteassite TV.
Objetivos específicos: determinar o perfil socioeconômico dessesestudantes quanto a:- sexo;- idade;- obesidade;- outros hábitos (p.ex. fumar);- perfil econômico e social da família.
C) Coleta de dados
Em relação à coleta dos dados vamos abordar apenas os estudosexperimentais:
Estudo Experimental: consiste na coleta de informação por meiode um experimento, no qual o pesquisador deliberadamente aplicaum estimulo (tratamento ) nas unidades amostrais para observarsua resposta.
É previamente planejado , sendo que o pesquisador conseguecontrolar fatores que possam interferir na resposta, diminuindo suavariabilidade final. O pesquisador pode, com isso, otimizar osresultados, com uma quantidade bastante reduzida de amostras.
Exemplos: ensaio para se verificar o grau de dureza de diferentesmateriais; ensaios de tração para diferentes composições de matéria
prima; estudos caso-controle em epidemiologia; pesos de cobaiassubmetidos a diferentes dietas; etc...
-
8/17/2019 4 Descritiva_Medidas
4/26
2. As variáveis
Uma variável é uma característica, desconhecida, da população
que pode ser observada ou mensurada e que deve gerar umaúnica resposta.R epresenta uma característica ou parâmetro da população
que se tem interesse em conhecer.
As variáveis devem der definidas no planejamento da pesquisarepresentando “o que” se vai observar, ou medir, em cada um dosindivíduos da amostra.
Exemplo: Estudo para determinar o padrão de comportamento deestudantes universitários quanto ao hábito de assistir TV:
Sexo: masculino (M) ou feminino (F)Idade: idade em anos
Altura: altura em metros
Peso: peso em quilogramasSe fuma: sim (S) ou não (N)
Horas de TV: horas gastas assistindo TV, por semanaAparelhos de TV: número de aparelhos de TV na residência
Computador: se tem microcomputador sim(S) ou não(N)
2.1.
Tipos de variáveis
As varáveis podem ser classificadas segundo o seu tipo.
a) Variáveis qualitativas: variáveis cujos possíveis resultados sãoatributos ou qualidades.São NÃO NUMÉRICAS.
-
8/17/2019 4 Descritiva_Medidas
5/26
São subdivididas em:
Ordinais: quando obedecem a uma ordem natural;
Nominais: quando não obedecem nenhuma ordem predefinida.
b) Variáveis quantitativas: variáveis cujos possíveis resultados são valores NUMÉRICOS resultantes de uma mensuração oucontagem.
São subdivididas em:
Discretas: quando assumem valores inteiros
Contínuas: quando assumem valores reais.
Esquematicamente:
NOMINAISQUALITATIVAS
ORDINAISVARIÁVEISDISCRETAS
QUANTITATIVASCONTÍNUAS
Exemplo: Estudo do hábito de assistir TV:
SexoIdadeAlturaPeso
Se fuma sim/nãoHoras de TV
Aparelhos de TVComputador
-
8/17/2019 4 Descritiva_Medidas
6/26
2.2. Os dados
Dados são os resultados observados para uma, ou mais,variáveis.
São coletados segundo um procedimento observacional ou demensuração. Nos estudos experimentais, por exemplo, temos osexperimentos fatoriais a um e dois fatores, amostras pareadas,medidas repetidas, etc...
Uma quantidade de observações coletadas aleatoriamente pormeio de um planejamento de coleta pré-determinado, é chamada deamostra.
A seguir veremos as técnicas descritivas para representação eanálise de dados amostrais.
-
8/17/2019 4 Descritiva_Medidas
7/26
3. Análise descritiva para variáveis quantitativas
3.1. Medidas de Posição:
Considere uma amostra com n observações: x1, x2, . . . , xn.
a) Média: (ou média aritmética) é representada por x e é dadasoma das observações, divida pelo número de observações.
n
x x
n
i i 1
b) Mediana: representada por )( xmed , é observação que ocupa a
posição central das observações ordenadas.
Sejam as observações ordenadas: x(1) x(2) . . . x(n), então, a
posição central é dada por 21n , portanto,
2
1)( n x xmed
Notas:
i )
A mediana também é presentada por x~
.i i )
Se n é par, a mediana é dada pela média aritmética das duasobservações centrais.
c) Moda: representada por )( xmo , é observação da amostra com
maior frequência, ou seja, a que mais se repete.
Um conjunto de dados pode ter mais de uma moda, ou atémesmo, não ter moda.
-
8/17/2019 4 Descritiva_Medidas
8/26
Em relação ao número de modas um conjunto de dados pode
ser:
i )
unimodal: quando o conjunto tem uma única moda;i i )
bimodal: quando o conjunto tem duas modas;i i i )
multimodal: quando o conjunto tem três ou mais modas;iv)
amodal: quando o conjunto não tem moda (neste caso, todas asobservações aparecem uma única vez na amostra).
Exemplos de medidas da posição :1) Dados discretos: uma grande companhia está preocupada com otempo em que seus equipamentos ficam em manutenção naassistência técnica. Assim sendo, fez um levantamento do tempo demanutenção (dias) de 50 equipamentos para um estudo maisdetalhado. X = dias em manutenção de equipamentos.
15 13 21 9 5 5 10 6 2 29 10 3 4 2 13 12 16 7 64 11 8 6 6 10 17 13 9 52 5 9 14 15 3 6 18 3 45 7 8 3 10 5 5 4 5 2
Dados Ordenados:2 2 2 2 2 3 3 3 3 44 4 4 5 5 5 5 5 5 55 6 6 6 6 6 7 7 8 89 9 9 9 10 10 10 10 11 1213 13 13 14 15 15 16 17 18 21
n = 50 observações
-
8/17/2019 4 Descritiva_Medidas
9/26
Medidas Descritivas de Posição:
i ) Média: xi = 392 84.750
392 x dias
i i ) Mediana: 5.252
51
2
1
n, logo a mediana é a média da 25ª e
26ª observações ordenadas:
62
66
2~ )26()25(
x x x dias
i i i ) Moda: mo( x) = 5 dias aparece 8 vezes na amostra.
-
8/17/2019 4 Descritiva_Medidas
10/26
2) Dados contínuos: Em 1798 o cientista Henry Cavendish mediu adensidade do globo terrestre em 29 ensaios. Os dados foramobtidos do Annals os Statistics, 1977. X = densidade do globo terrestre (g/cm3).
5.50 5.61 4.88 5.07 5.26 5.55 5.36 5.29 5.58 5.655.57 5.53 5.62 5.29 5.44 5.34 5.79 5.10 5.27 5.395.42 5.47 5.63 5.34 5.46 5.30 5.75 5.68 5.85
Dados ordenados4.88 5.07 5.10 5.26 5.27 5.29 5.29 5.30 5.34 5.34
5.36 5.39 5.42 5.44 5.46 5.47 5.50 5.53 5.55 5.575.58 5.61 5.62 5.63 5.65 5.68 5.75 5.79 5.85
n = 29 observações
Medidas Descritivas de Posição:
i ) Média: xi = 157.99 448.529
99.157 x g/cm3
i i ) Mediana: 152
1
n, logo a mediana é a 15ª observação
ordenada
5.46~ )15( x x g/cm3
i i i ) Moda: mo( x) = 5.29 g/cm3 e mo( x) = 5.34 g/cm3
o conjunto é bimodal .
-
8/17/2019 4 Descritiva_Medidas
11/26
3.2. Medidas de Dispersão (ou variação):
a) Amplitude: é dada pela diferença entre o maior e o menor valorda amostra.Sejam ],,,[min 21)1( n
x x x x x e ],,,[max 21)( n
xn x x x x ,
então, a amplitude da amostra é definida por
)1()( x x A n
A amplitude A representa o tamanho da região na qual os dados
foram observados
b) Variância amostral: a variância amostral é definida pela somados quadrados dos desvios das observações em relação à mediaamostral x , dividida por (n – 1), ou seja
n
i
i
n x x s
1
2
2
1.
Mostra-se facilmente que s2 pode ser escrita como
1
21
22
n
xn x s
n
i i .
c) Amplitude Interquartil: é dada pela diferença entre o 3º e o 1ºquartis.
Para definir a amplitude interquartil, vamos primeiro definir oque são quartis amostrais.
-
8/17/2019 4 Descritiva_Medidas
12/26
-
8/17/2019 4 Descritiva_Medidas
13/26
Métodos para a obtenção dos quartis amostrais:
Para a obtenção dos quartis devemos proceder da mesma formaque para a mediana.
Uma vez que a mediana esteja determinada, temos o conjuntode dados ordenados dividido em duas partes. Os quartis, então, sãodados pelas observações centrais destas duas metades.
Q 1 med (x ) Q 3Observação centralda metade inferior
Observação centralda metade superior
O procedimento para encontrar os quartis é o mesmo usado para a mediana, porém, teremos dois procedimentos dependendo
do tamanho da amostra n ser par ou ímpar.
i ) n par: o procedimento é o mesmo que para a mediana, sendoaplicada a cada uma das duas metades;
Exemplo:
Dados: 1 1 2 3 4 5 5 6 6 6 7 8 8 9
n = 14
5.52
65
2)(
)8()7(
x x
xmed
A mediana med ( x) = 5.5 divide os dados em dois gruposordenados de 7 observações cada. Assim,
-
8/17/2019 4 Descritiva_Medidas
14/26
42
17
Q1 é a 4ª observação da metade inferior e,
Q3 é a 4ª observação da metade superior.
Desta forma, os quartis serão as observações ordenadas queocupam as posições 4 e 11.
5.51 1 2 3 4 5 5 6 6 6 7 8 8 9
3)4(1 xQ
7)11(3 xQ
i i )
n ímpar: devemos optar por incluir, ou não, a mediana no procedimento de determinação dos quartis.
i i .1 ) se a mediana não for incluída, então teremos dois grupos,inferior e superior à mediana, cada um com 2)1( n
observações
2
1n
observaçõesinferiores 2
1n
observaçõessuperiores
Q 1 med (x ) Q 3
e os quartis Q1 e Q3 são obtidos normalmente.
-
8/17/2019 4 Descritiva_Medidas
15/26
Exemplo:
Dados: 1 1 2 3 4 5 5 6 6 6 7 8 9 n = 13
A mediana 5)( )7( x xmed divide os dados em dois gruposordenados de 6 observações cada.
5.32
16
Q1 é a média da 3ª e 4ª observações do
grupo inferior e,
Q3 é a média da 3ª e 4ª observações dogrupo superior.
51 1 2 3 4 5 6 6 6 7 8 9
5.22
32
2
)4()3(1
x xQ
5.62
76
2
)10()9(3
x xQ
i i .2 ) se a mediana for incluída, então, ela deve ser considerada1 tanto para a obtenção do 1º quartil, na metade inferiorcomo na obtenção do 3º quartil, na metade superior. Destaforma, teremos 2 grupos, com 2)1( n observações cada,
1 Observe que a mediana é uma só. Ela é apenas considerada nos dois grupos para as contagens das posições dos quartis.
-
8/17/2019 4 Descritiva_Medidas
16/26
grupoinferior
gruposuperior
Q 1 med (x ) Q 3
e os quartis Q1 e Q3 são obtidos normalmente.
Exemplo:Dados: 1 1 2 3 4 5 5 6 6 6 7 8 9 n = 13
A mediana 5)( )7( x xmed divide os dados em dois grupos
ordenados de 6 observações cada.Incluindo a mediana no procedimento, teremos uma observação
a mais em cada grupo, ou seja, teremos 7 observações
42
17
Q1 é a 4ª observação do grupo inferior e,
Q3 é a 4ª observação do grupo superior, ouseja, a 11ª observação ordenada (7 + 4).
1 1 2 3 4 5 55 6 6 6 7 8 9
3)4(1 xQ
7)11(3 xQ
-
8/17/2019 4 Descritiva_Medidas
17/26
i i i ) Outra forma para a obtenção dos quartis é apresentada porMurteira (2002).
] Se a mediana ocupa a posição (n + 1)/2, então Q1 deverá
ocupar a posição:
4
3
2
12
1
n
n
Para a posição de Q3 fazemos:
4
13
4
3)1(
nn
n
Portanto, Q1 e Q3 são dados pelas observações ordenadas que
ocupam as posições4
3n e
4
13 n, respectivamente.
Se os valores de4
3n e
4
13 n não forem inteiros, Q1 e Q3
devem ser obtidos por interpolação linear.
Por exemplo, se
k n
4
3,
em que k é a parte inteira e a parte decimal, então, Q1 pertence aointervalo );( )1()( k k x x e
][ )()1()(1 k k k x x xQ
-
8/17/2019 4 Descritiva_Medidas
18/26
Para Q3 o procedimento é semelhante, ou seja, se
4
13n,
então, Q3 pertence ao intervalo );( )1()( x x e
][ )()1()(3 x x xQ
Exemplo:
Dados: 1 1 2 3 4 5 5 6 6 6 7 8 8 9
n = 14Para a determinação de Q1, temos:
posição de Q1: 25.44
17
4
314
Como = 0.25, Q1 é a interpolação entre a 4ª e 5ª observações
ordenadas:
25.3)34(25.031 Q
Para a determinação de Q3, temos:
posição de Q3: 75.10443
41143
Aqui = 0.75 e Q3 é a interpolação entre a 10ª e 11ª observaçõesordenadas:
75.6)67(75.063 Q
Obs: o item (i i i ) com n ímpar é equivalente ao item e (i i .2).
-
8/17/2019 4 Descritiva_Medidas
19/26
Notas:Assim como a mediana, os quartis amostrais dependem dotamanho da amostra n, fazendo com que nem sempre os quatro
grupos tenham o mesmo tamanho;
Existem diversas outras formas para a determinação dos quartis. Nesta disciplina daremos ênfase nos itens (i ) e (i i .1).
Para n pequeno, pode-se, ainda, obter os quartis graficamente pelo histograma dos dados.
Os quartis são casos especiais dos quantis (ou percentis), quesão denotados por:
x (p ) p-ésimo quantil ou quantil de ordem p.
Portanto, o quantil x (p ) é dado pela observação ordenada que
deixa uma frequência acumulada igual 100
p % abaixo de si.
Assim sendo temos que:
i ) Q1 = x(0.25) quantil de ordem 0.25;
i i ) Q2 = med ( x) = x(0.5) quantil de ordem 0.50;
i i i ) Q3 = x(0.75) quantil de ordem 0.75.
-
8/17/2019 4 Descritiva_Medidas
20/26
Exemplos de medidas de dispersão :
3) Dados discretos: dias de manutenção de equipamentos de umagrande companhia. (n = 50 observações) X = dias em manutenção de equipamentos.
Dados Ordenados:2 2 2 2 2 3 3 3 3 44 4 4 5 5 5 5 5 5 55 6 6 6 6 6 7 7 8 89 9 9 9 10 10 10 10 11 1213 13 13 14 15 15 16 17 18 21
3921
n
i i x e 4178
12
n
i i x
84.750
392 x dias
i )
Variância amostral:
545.2249
28.30734178
150
)84.7(504178 22
s dias2
Desvio padrão amostral: 7482.4545.22 s dias
i i ) Amplitude amostral: 19221 A dias
-
8/17/2019 4 Descritiva_Medidas
21/26
i i i ) Amplitude interquartil:
A mediana está entre a 25ª e 26ª posição, logo o primeiroquartil é a posição central da metade inferior dos dados, ou seja:
132
125
, logo o 1º quartil é a 13ª observação ordenada,
4)13(1 xQ dias.
O terceiro quartil é a posição central da metade superior
382
12525
, logo o 3º quartil é a 38ª observação ordenada,
10)38(3 xQ dias.
Desta forma, a amplitude interquartil é:
Q A 10 – 4 = 6 dias
-
8/17/2019 4 Descritiva_Medidas
22/26
4) Dados contínuos: Dados Cavendish.X = densidade do globo terrestre (g/cm3).
Dados ordenados
4.88 5.07 5.10 5.26 5.27 5.29 5.29 5.30 5.34 5.345.36 5.39 5.42 5.44 5.46 5.47 5.50 5.53 5.55 5.575.58 5.61 5.62 5.63 5.65 5.68 5.75 5.79 5.85
n = 29 observações
99.1571
n
i i x e 0855.862
12
n
i i x
448.529
99.157 x g/cm3
i )
Variância amostral:
04882.028
3669.1
129
)448.5(290855.862 22
s (g/cm3)2
Desvio padrão amostral: 2209.004882.0 s g/cm3
i i )
Amplitude amostral: 97.088.485.5 A g/cm3
-
8/17/2019 4 Descritiva_Medidas
23/26
i i i ) Amplitude interquartil:
A mediana é 15ª observação ordenada, o primeiro quartil(excluindo-se a mediana do cálculo) é a posição central da metade
inferior dos dados, ou seja:
5.72
114
, logo o 1º quartil é a média da 7ª e 8ª observações
ordenadas,
295.52
30.529.5
2
)8()7(
1
x x
Q g/cm
3
.
O terceiro quartil é a posição central da metade superior
5.225.715 , logo o 3º quartil é a média da 22ª e 23ªobservações ordenadas,
615.52
62.561.5
2
)23()22(3
x xQ g/cm3
Desta forma, a amplitude interquartil é:
Q A 5.615 –
5.295 = 0.320 g/cm3
.
-
8/17/2019 4 Descritiva_Medidas
24/26
3.2.1. O coeficiente de variação amostral:
Uma medida utilizada para quantificar a variabilidade dosdados é o coeficiente de variação, ou cv.
O cv de variação é dado pela razão entre o desvio padrão e amédia de uma variável aleatória sendo que, o coeficiente devariação amostral é dado pela razão do desvio padrão da amostra s e a média amostral x :
x
scv
Notas:
O coeficiente de variação compara a magnitude do desvio
padrão s com a média x . Se 1cv x s . O coeficiente de variação é uma medida adimensional (é um
número puro) podendo ser expresso em %.
Exemplos :
a) Dias de manutenção de equipamentos:84.7 x dias
545.222 s dias2
7482.4545.22 s dias
6056.084.7
7482.4cv ou 60.56%
b) Dados Cavendish:
448.5
x g/cm
3
04882.02 s (g/cm3)2
-
8/17/2019 4 Descritiva_Medidas
25/26
2209.0 s g/cm3
0405.0448.5
2209.0
cv ou 4.05%.
Nos exemplos acima temos os cv’s de dois processos, sendoum deles 15 vezes maior do que outro, indicando claramente qualdeles tem maior dispersão dos dados.
Um ponto de grande interesse, contudo, diz respeito aquantificar o cv e poder dizer se um conjunto de dados tem umadispersão muito alta, ou não. A seguir serão apresentados trêscritérios para classificação do coeficiente de variação.
Como classificar o Coeficiente de Variação
O cv tem uma característica particular de ser intrínseco a
cada processo, tendo sido muito estudado na área agrícola, maisespecificamente, na experimentação agronômica.
Vários autores indicam diferentes métodos para se classificar ocoeficiente de variação. A seguir, são apresentadas trêsclassificações.
I) Classificação segundo Pimentel Gomes (1985), baseada em
ensaios agrícolas.Faixa cv dispersão
menor ou igual a 10% baixo baixa dispersão dos dados
entre 10% e 20% médio média dispersão dos dados
entre 20% e 30% alto alta dispersão dos dados
maior do que 30% muito alto dispersão dos dados muito alta
-
8/17/2019 4 Descritiva_Medidas
26/26
II) Classificação segundo Ferreira, F.V. (1991), EstatísticaExperimental Aplicada à Agronomia, classifica com respeito à precisão do processo.
Faixa precisão cventre 10% e 15% ótima baixo
entre 15% e 20% boa médio
entre 20% e 30% regular alto
maior do que 30%muito ruim
(ou péssima)muito alto
III) Classificação obtida no site www.datalyser.com.brutilizada em CEP – Controle Estatístico do Processo.
Faixa cv dispersão
menor ou igual a 15% baixo baixa dispersão dos dados
entre 15% e 30% médio média dispersão dos dados
maior do que 30% alto alta dispersão dos dados
Exemplos :
a)
Dias de manutenção de equipamentos:
6056.084.7
7482.4cv (60.6%) cv alto ou muito alto.
b) Dados Cavendish:
0405.0448.5
2209.0
cv (4.05%) cv baixo.