4 Descritiva_Medidas

download 4 Descritiva_Medidas

of 26

Transcript of 4 Descritiva_Medidas

  • 8/17/2019 4 Descritiva_Medidas

    1/26

    Análise descritiva de Dados

    A todo instante do nosso dia-a-dia nos deparamos com dados .

    Por exemplo, para decidir pela compra de um eletrodoméstico,um aparelho eletrônico ou até mesmo na compra de uma caixa desabão em pó temos diferentes opções:

     marca: prós e contra de cada uma.

      preço: é compatível com o que o produto oferece e com o

    nosso orçamento?

     melhor custo/benefício.

     garantia, assistência técnica, acabamento, etc...

     Na Pesquisa Científica , no entanto, os dados são um fator preponderante para que possamos responder às nossas indagações .

    Portanto, segundo a metodologia científ ica , a observação eanálise dos dados devem ser feitas de maneira criteriosa e objetiva para que os resultados sejam confiáveis.

    1. 

    Etapas de uma pesquisa

    A)  O Problema => normalmente surge de um questionamento, noentanto, a definição do problema   vai muito além de um simplesquestionamento, envolvendo uma ampla revisão l iterária   sobre otema em questão.

    Uma vez definido o problema a ser abordado, os objetivos  da pesquisa devem ser elaborados de forma bastante clara.

  • 8/17/2019 4 Descritiva_Medidas

    2/26

     Exemplo:Qual o material metálico com melhores propriedades mecânicas

     para utilização em projetos na área aeroespacial.

    Objetivo:   Encontrar um material metálico com propriedadesmecânicas adequadas para projetos aeroespaciais.Artigo:  Establishing Mechanical Property Allowables for Metals, Journal of Testing and Evaluation, 1998, p. 293-299.

    B)  Definição dos objetivos

    Os objetivos podem ser gerais   ou específicos   e devem serdefinidos no início da pesquisa, na fase das definições e planejamento.

    Objetivo geral : é o objetivo central e responsável pelo desencadeardo estudo.

    Objetivos específicos:  são formados por questões secundárias queajudam a entender o resultado da pesquisa,corroborando, ou não, com o objetivo geral.

     Exemplo 1:

     No exemplo acima, temos apenas o objetivo geral, porém, emoutras situações pode haver objetivos específicos em função do problema que se defronta.

  • 8/17/2019 4 Descritiva_Medidas

    3/26

     Exemplo 2:Determinar o padrão de comportamento de estudantes

    universitários do primeiro ano quanto ao hábito de assistir TV.

    Objetivo geral:

    Determinar a quantidade de horas semanais que um estudanteassite TV.

    Objetivos específicos:   determinar o perfil socioeconômico dessesestudantes quanto a:- sexo;- idade;- obesidade;- outros hábitos (p.ex. fumar);- perfil econômico e social da família.

    C)  Coleta de dados

    Em relação à coleta dos dados  vamos abordar apenas os estudosexperimentais:

    Estudo Experimental: consiste na coleta de informação por meiode um experimento, no qual o pesquisador deliberadamente aplicaum estimulo (tratamento ) nas unidades amostrais para observarsua resposta.

    É previamente planejado , sendo que o pesquisador conseguecontrolar fatores  que possam interferir na resposta, diminuindo suavariabilidade final. O pesquisador pode, com isso, otimizar osresultados, com uma quantidade bastante reduzida de amostras.

     Exemplos:  ensaio para se verificar o grau de dureza de diferentesmateriais; ensaios de tração para diferentes composições de matéria

     prima; estudos caso-controle em epidemiologia; pesos de cobaiassubmetidos a diferentes dietas; etc... 

  • 8/17/2019 4 Descritiva_Medidas

    4/26

     

    2.  As variáveis

    Uma variável é uma característica, desconhecida, da população

    que pode ser observada  ou mensurada  e que deve gerar umaúnica resposta.R epresenta uma característica ou  parâmetro  da população

    que se tem interesse em conhecer.

    As variáveis devem der definidas no planejamento da pesquisarepresentando “o que” se vai observar, ou medir, em cada um dosindivíduos da amostra.

    Exemplo: Estudo para determinar o padrão de comportamento deestudantes universitários quanto ao hábito de assistir TV: 

    Sexo: masculino (M) ou feminino (F)Idade: idade em anos

    Altura: altura em metros

    Peso: peso em quilogramasSe fuma: sim (S) ou não (N)

    Horas de TV: horas gastas assistindo TV, por semanaAparelhos de TV: número de aparelhos de TV na residência

    Computador: se tem microcomputador sim(S) ou não(N)

    2.1. 

    Tipos de variáveis 

    As varáveis podem ser classificadas segundo o seu tipo.

    a)  Variáveis qualitativas: variáveis cujos possíveis resultados sãoatributos ou qualidades.São NÃO NUMÉRICAS.

  • 8/17/2019 4 Descritiva_Medidas

    5/26

    São subdivididas em:

    Ordinais: quando obedecem a uma ordem natural;

     Nominais: quando não obedecem nenhuma ordem predefinida.

    b)  Variáveis quantitativas: variáveis cujos possíveis resultados são valores NUMÉRICOS resultantes de uma mensuração oucontagem.

    São subdivididas em:

     Discretas: quando assumem valores inteiros

    Contínuas: quando assumem valores reais.

    Esquematicamente:

     NOMINAISQUALITATIVAS

    ORDINAISVARIÁVEISDISCRETAS

    QUANTITATIVASCONTÍNUAS

     Exemplo: Estudo do hábito de assistir TV:

    SexoIdadeAlturaPeso

    Se fuma sim/nãoHoras de TV

    Aparelhos de TVComputador

  • 8/17/2019 4 Descritiva_Medidas

    6/26

     

    2.2.  Os dados

    Dados são os resultados observados  para uma, ou mais,variáveis.

    São coletados segundo um procedimento observacional ou demensuração. Nos estudos experimentais, por exemplo, temos osexperimentos fatoriais a um e dois fatores, amostras pareadas,medidas repetidas, etc...

    Uma quantidade de observações coletadas aleatoriamente pormeio de um planejamento de coleta pré-determinado, é chamada deamostra.

    A seguir veremos as técnicas descritivas para representação eanálise de dados amostrais.

  • 8/17/2019 4 Descritiva_Medidas

    7/26

    3.  Análise descritiva para variáveis quantitativas 

    3.1.  Medidas de Posição:

    Considere uma amostra com n observações: x1, x2, . . . , xn.

    a) Média:  (ou média aritmética) é representada por  x   e é dadasoma das observações, divida pelo número de observações.

    n

     x x

    n

    i   i     1  

    b) Mediana: representada por )( xmed  , é observação que ocupa a

     posição central das observações ordenadas.

    Sejam as observações ordenadas:  x(1)   x(2)  . . .   x(n), então, a

     posição central é dada por        21n , portanto,

     

      

      

    2

    1)( n x xmed   

     Notas:

    i )  

    A mediana também é presentada por  x~

    .i i )  

    Se n  é par, a mediana é dada pela média aritmética das duasobservações centrais.

    c) Moda: representada por )( xmo , é observação da amostra com

    maior frequência, ou seja, a que mais se repete.

    Um conjunto de dados pode ter mais de uma moda, ou atémesmo, não ter moda.

  • 8/17/2019 4 Descritiva_Medidas

    8/26

     Em relação ao número de modas um conjunto de dados pode

    ser:

    i )  

    unimodal: quando o conjunto tem uma única moda;i i )  

     bimodal: quando o conjunto tem duas modas;i i i ) 

     

    multimodal: quando o conjunto tem três ou mais modas;iv) 

     

    amodal: quando o conjunto não tem moda (neste caso, todas asobservações aparecem uma única vez na amostra).

    Exemplos de medidas da posição :1) Dados discretos: uma grande companhia está preocupada com otempo em que seus equipamentos ficam em manutenção naassistência técnica. Assim sendo, fez um levantamento do tempo demanutenção (dias) de 50 equipamentos para um estudo maisdetalhado. X  = dias em manutenção de equipamentos.

    15 13 21 9 5 5 10 6 2 29 10 3 4 2 13 12 16 7 64 11 8 6 6 10 17 13 9 52 5 9 14 15 3 6 18 3 45 7 8 3 10 5 5 4 5 2

    Dados Ordenados:2 2 2 2 2 3 3 3 3 44 4 4 5 5 5 5 5 5 55 6 6 6 6 6 7 7 8 89 9 9 9 10 10 10 10 11 1213 13 13 14 15 15 16 17 18 21

    n = 50 observações

  • 8/17/2019 4 Descritiva_Medidas

    9/26

     

    Medidas Descritivas de Posição:

    i )   Média:   xi = 392   84.750

    392 x  dias

    i i )  Mediana:  5.252

    51

    2

    1

    n, logo a mediana é a média da 25ª e

    26ª observações ordenadas:

    62

    66

    2~   )26()25(

      x x x  dias

    i i i )  Moda: mo( x) = 5 dias   aparece 8 vezes na amostra.

  • 8/17/2019 4 Descritiva_Medidas

    10/26

    2) Dados contínuos: Em 1798 o cientista Henry Cavendish mediu adensidade do globo terrestre em 29 ensaios. Os dados foramobtidos do Annals os Statistics, 1977. X  = densidade do globo terrestre (g/cm3).

    5.50 5.61 4.88 5.07 5.26 5.55 5.36 5.29 5.58 5.655.57 5.53 5.62 5.29 5.44 5.34 5.79 5.10 5.27 5.395.42 5.47 5.63 5.34 5.46 5.30 5.75 5.68 5.85

    Dados ordenados4.88 5.07 5.10 5.26 5.27 5.29 5.29 5.30 5.34 5.34

    5.36 5.39 5.42 5.44 5.46 5.47 5.50 5.53 5.55 5.575.58 5.61 5.62 5.63 5.65 5.68 5.75 5.79 5.85

    n = 29 observações

    Medidas Descritivas de Posição:

    i )   Média:   xi = 157.99   448.529

    99.157  x g/cm3 

    i i )  Mediana:  152

    1

    n, logo a mediana é a 15ª observação

    ordenada

    5.46~ )15(    x x g/cm3 

    i i i )  Moda: mo( x) = 5.29 g/cm3  e mo( x) = 5.34 g/cm3 

      o conjunto é bimodal .

  • 8/17/2019 4 Descritiva_Medidas

    11/26

    3.2.  Medidas de Dispersão (ou variação):

    a) Amplitude: é dada pela diferença entre o maior e o menor valorda amostra.Sejam ],,,[min 21)1(   n

     x x x x x     e ],,,[max 21)(   n

     xn   x x x x   ,

    então, a amplitude da amostra é definida por

    )1()(   x x A n    

    A amplitude A representa o tamanho da região na qual os dados

    foram observados

    b) Variância amostral: a variância amostral é definida pela somados quadrados dos desvios das observações em relação à mediaamostral  x , dividida por (n  –  1), ou seja

     

      n

    i

    i

    n x x s

    1

    2

    2

    1.

    Mostra-se facilmente que s2 pode ser escrita como

    1

    21

    22

       

    n

     xn x s

    n

    i   i .

    c) Amplitude Interquartil: é dada pela diferença entre o 3º e o 1ºquartis.

    Para definir a amplitude interquartil, vamos primeiro definir oque são quartis amostrais.

  • 8/17/2019 4 Descritiva_Medidas

    12/26

  • 8/17/2019 4 Descritiva_Medidas

    13/26

    Métodos para a obtenção dos quartis amostrais:

    Para a obtenção dos quartis devemos proceder da mesma formaque para a mediana.

    Uma vez que a mediana esteja determinada, temos o conjuntode dados ordenados dividido em duas partes. Os quartis, então, sãodados pelas observações centrais destas duas metades.

    Q 1  med (x )  Q 3Observação centralda metade inferior

    Observação centralda metade superior

    O procedimento para encontrar os quartis é o mesmo usado para a mediana, porém, teremos dois procedimentos dependendo

    do tamanho da amostra n ser par ou ímpar.

    i )  n  par:  o procedimento é o mesmo que para a mediana, sendoaplicada a cada uma das duas metades;

     Exemplo:

    Dados: 1 1 2 3 4 5 5 6 6 6 7 8 8 9

      n = 14

    5.52

    65

    2)(

      )8()7(

      x x

     xmed   

    A mediana med ( x) = 5.5 divide os dados em dois gruposordenados de 7 observações cada. Assim,

  • 8/17/2019 4 Descritiva_Medidas

    14/26

        42

    17

        Q1 é a 4ª observação da metade inferior e,

      Q3 é a 4ª observação da metade superior.

    Desta forma, os quartis serão as observações ordenadas queocupam as posições 4 e 11.

    5.51 1 2 3  4 5 5 6 6 6 7  8 8 9

    3)4(1    xQ  

    7)11(3    xQ  

    i i )  

    n   ímpar:  devemos optar por incluir, ou não, a mediana no procedimento de determinação dos quartis.

    i i .1 )  se a mediana não for incluída, então teremos dois grupos,inferior e superior à mediana, cada um com 2)1(   n  

    observações

    2

    1n 

    observaçõesinferiores 2

    1n 

    observaçõessuperiores 

    Q 1  med (x )  Q 3

    e os quartis Q1 e Q3 são obtidos normalmente.

  • 8/17/2019 4 Descritiva_Medidas

    15/26

     

     Exemplo:

    Dados:  1 1 2 3 4 5 5 6 6 6 7 8 9   n = 13

    A mediana 5)( )7(    x xmed   divide os dados em dois gruposordenados de 6 observações cada.

      5.32

    16

        Q1 é a média da 3ª e 4ª observações do

    grupo inferior e,

      Q3 é a média da 3ª e 4ª observações dogrupo superior.

    51 1 2 3  4 5 6 6 6 7  8 9

    5.22

    32

    2

    )4()3(1  

      x xQ  

    5.62

    76

    2

    )10()9(3  

      x xQ  

    i i .2 )  se a mediana for incluída, então, ela deve ser considerada1 tanto para a obtenção do 1º quartil, na metade inferiorcomo na obtenção do 3º quartil, na metade superior. Destaforma, teremos 2 grupos, com 2)1(   n observações cada,

    1 Observe que a mediana é uma só. Ela é apenas considerada nos dois grupos para as contagens das posições dos quartis.

  • 8/17/2019 4 Descritiva_Medidas

    16/26

     

    grupoinferior

    gruposuperior  

    Q 1  med (x )  Q 3

    e os quartis Q1 e Q3 são obtidos normalmente.

     Exemplo:Dados:  1 1 2 3 4 5 5 6 6 6 7 8 9   n = 13

    A mediana 5)( )7(    x xmed   divide os dados em dois grupos

    ordenados de 6 observações cada.Incluindo a mediana no procedimento, teremos uma observação

    a mais em cada grupo, ou seja, teremos 7 observações

      42

    17

        Q1 é a 4ª observação do grupo inferior e,

      Q3 é a 4ª observação do grupo superior, ouseja, a 11ª observação ordenada (7 + 4).

    1 1 2 3  4 5 55 6 6 6 7  8 9 

    3)4(1    xQ  

    7)11(3    xQ  

  • 8/17/2019 4 Descritiva_Medidas

    17/26

    i i i )  Outra forma para a obtenção dos quartis é apresentada porMurteira (2002).

    ] Se a mediana ocupa a posição (n  + 1)/2, então Q1  deverá

    ocupar a posição:

    4

    3

    2

    12

    1

     

      

        n

    n

     

    Para a posição de Q3 fazemos:

    4

    13

    4

    3)1(

     

     

      

          nn

    n  

    Portanto, Q1  e Q3  são dados pelas observações ordenadas que

    ocupam as posições4

    3n  e

    4

    13   n, respectivamente.

    Se os valores de4

    3n  e

    4

    13   n  não forem inteiros, Q1 e Q3 

    devem ser obtidos por interpolação linear.

    Por exemplo, se 

    k n

    4

    3,

    em que k  é a parte inteira e a parte decimal, então, Q1 pertence aointervalo );( )1()(   k k    x x  e

    ][ )()1()(1   k k k    x x xQ      

  • 8/17/2019 4 Descritiva_Medidas

    18/26

      Para Q3 o procedimento é semelhante, ou seja, se

    4

    13n,

    então, Q3 pertence ao intervalo );( )1()(     x x  e

    ][ )()1()(3     x x xQ      

     Exemplo:

    Dados: 1 1 2 3 4 5 5 6 6 6 7 8 8 9

      n = 14Para a determinação de Q1, temos:

     posição de Q1: 25.44

    17

    4

    314

     

    Como = 0.25, Q1 é a interpolação entre a 4ª e 5ª observações

    ordenadas:

    25.3)34(25.031   Q  

    Para a determinação de Q3, temos:

     posição de Q3: 75.10443

    41143  

    Aqui = 0.75 e Q3 é a interpolação entre a 10ª e 11ª observaçõesordenadas:

    75.6)67(75.063   Q  

    Obs: o item (i i i ) com n ímpar  é equivalente ao item e (i i .2).

  • 8/17/2019 4 Descritiva_Medidas

    19/26

     

     Notas:Assim como a mediana, os quartis amostrais dependem dotamanho da amostra n, fazendo com que nem sempre os quatro

    grupos tenham o mesmo tamanho;

    Existem diversas outras formas para a determinação dos quartis. Nesta disciplina daremos ênfase nos itens (i ) e (i i .1).

    Para n  pequeno, pode-se, ainda, obter os quartis graficamente pelo histograma  dos dados.

    Os quartis são casos especiais dos quantis (ou percentis), quesão denotados por:

    x (p )     p-ésimo quantil ou quantil de ordem p.

    Portanto, o quantil x (p )  é dado pela observação ordenada que

    deixa uma frequência acumulada igual 100 

    p  % abaixo de si.

    Assim sendo temos que:

    i )   Q1 = x(0.25)   quantil de ordem 0.25;

    i i )   Q2 = med ( x) = x(0.5)   quantil de ordem 0.50;

    i i i )  Q3 = x(0.75)   quantil de ordem 0.75.

  • 8/17/2019 4 Descritiva_Medidas

    20/26

    Exemplos de medidas de dispersão :

    3) Dados discretos:  dias de manutenção de equipamentos de umagrande companhia. (n = 50 observações) X  = dias em manutenção de equipamentos.

    Dados Ordenados:2 2 2 2 2 3 3 3 3 44 4 4 5 5 5 5 5 5 55 6 6 6 6 6 7 7 8 89 9 9 9 10 10 10 10 11 1213 13 13 14 15 15 16 17 18 21

    3921

       n

    i   i x   e 4178

    12  

    n

    i   i x  

    84.750

    392 x  dias

    i )  

    Variância amostral: 

      545.2249

    28.30734178

    150

    )84.7(504178   22

     s  dias2 

    Desvio padrão amostral:  7482.4545.22    s  dias

    i i )  Amplitude amostral:  19221    A  dias

  • 8/17/2019 4 Descritiva_Medidas

    21/26

    i i i )  Amplitude interquartil: 

    A mediana está entre a 25ª e 26ª posição, logo o primeiroquartil é a posição central da metade inferior dos dados, ou seja:

    132

    125

    , logo o 1º quartil é a 13ª observação ordenada,

    4)13(1    xQ  dias.

    O terceiro quartil é a posição central da metade superior

    382

    12525  

    , logo o 3º quartil é a 38ª observação ordenada,

    10)38(3    xQ  dias.

    Desta forma, a amplitude interquartil é:

    Q A  10  –  4 = 6 dias

  • 8/17/2019 4 Descritiva_Medidas

    22/26

    4) Dados contínuos: Dados Cavendish.X = densidade do globo terrestre (g/cm3).

    Dados ordenados

    4.88 5.07 5.10 5.26 5.27 5.29 5.29 5.30 5.34 5.345.36 5.39 5.42 5.44 5.46 5.47 5.50 5.53 5.55 5.575.58 5.61 5.62 5.63 5.65 5.68 5.75 5.79 5.85

    n = 29 observações

    99.1571

       n

    i   i x   e 0855.862

    12  

    n

    i   i x  

    448.529

    99.157 x g/cm3 

    i )  

    Variância amostral: 

      04882.028

    3669.1

    129

    )448.5(290855.862   22

     s  (g/cm3)2 

    Desvio padrão amostral:  2209.004882.0    s  g/cm3 

    i i )  

    Amplitude amostral:  97.088.485.5    A  g/cm3 

  • 8/17/2019 4 Descritiva_Medidas

    23/26

    i i i )  Amplitude interquartil: 

    A mediana é 15ª observação ordenada, o primeiro quartil(excluindo-se a mediana do cálculo) é a posição central da metade

    inferior dos dados, ou seja:

    5.72

    114

    , logo o 1º quartil é a média da 7ª e 8ª observações

    ordenadas,

    295.52

    30.529.5

    2

    )8()7(

      x x

    Q  g/cm

    3

    .

    O terceiro quartil é a posição central da metade superior

    5.225.715   , logo o 3º quartil é a média da 22ª e 23ªobservações ordenadas,

    615.52

    62.561.5

    2

    )23()22(3  

      x xQ  g/cm3 

    Desta forma, a amplitude interquartil é:

    Q A  5.615 – 

     5.295 = 0.320 g/cm3

    .

  • 8/17/2019 4 Descritiva_Medidas

    24/26

    3.2.1.  O coeficiente de variação amostral:

    Uma medida utilizada para quantificar a variabilidade dosdados é o coeficiente de variação, ou cv.

    O cv de variação é dado pela razão entre o desvio padrão e amédia de uma variável aleatória sendo que, o coeficiente devariação amostral é dado pela razão do desvio padrão da amostra s e a média amostral  x :

     x

     scv   

    Notas:

     O coeficiente de variação compara a magnitude do desvio

     padrão s com a média  x . Se 1cv      x s  .  O coeficiente de variação é uma medida adimensional (é um

    número puro) podendo ser expresso em %.

    Exemplos :

    a) Dias de manutenção de equipamentos:84.7 x  dias

    545.222  s  dias2

    7482.4545.22    s  dias

    6056.084.7

    7482.4cv   ou 60.56%

    b) Dados Cavendish:

    448.5

     x g/cm

    3

     04882.02  s  (g/cm3)2 

  • 8/17/2019 4 Descritiva_Medidas

    25/26

     

    2209.0 s  g/cm3 

    0405.0448.5

    2209.0

    cv   ou 4.05%.

     Nos exemplos acima temos os cv’s de dois processos, sendoum deles 15 vezes maior do que outro, indicando claramente qualdeles tem maior dispersão dos dados.

    Um ponto de grande interesse, contudo, diz respeito aquantificar o cv  e poder dizer se um conjunto de dados tem umadispersão muito alta, ou não. A seguir serão apresentados trêscritérios para classificação do coeficiente de variação.

    Como classificar o Coeficiente de Variação

    O cv  tem uma característica particular de ser intrínseco a

    cada processo, tendo sido muito estudado na área agrícola, maisespecificamente, na experimentação agronômica.

    Vários autores indicam diferentes métodos para se classificar ocoeficiente de variação. A seguir, são apresentadas trêsclassificações.

    I)  Classificação segundo Pimentel Gomes (1985), baseada em

    ensaios agrícolas.Faixa cv dispersão

    menor ou igual a 10% baixo baixa dispersão dos dados

    entre 10% e 20% médio média dispersão dos dados

    entre 20% e 30% alto alta dispersão dos dados

    maior do que 30% muito alto dispersão dos dados muito alta

  • 8/17/2019 4 Descritiva_Medidas

    26/26

    II)  Classificação segundo Ferreira, F.V. (1991), EstatísticaExperimental Aplicada à Agronomia, classifica com respeito à precisão do processo.

    Faixa precisão cventre 10% e 15% ótima baixo

    entre 15% e 20% boa médio

    entre 20% e 30% regular alto

    maior do que 30%muito ruim

    (ou péssima)muito alto

    III)  Classificação obtida no site www.datalyser.com.brutilizada em CEP  –  Controle Estatístico do Processo.

    Faixa cv dispersão

    menor ou igual a 15% baixo baixa dispersão dos dados

    entre 15% e 30% médio média dispersão dos dados

    maior do que 30% alto alta dispersão dos dados

    Exemplos :

    a) 

    Dias de manutenção de equipamentos:

    6056.084.7

    7482.4cv   (60.6%)   cv alto ou muito alto.

    b) Dados Cavendish:

    0405.0448.5

    2209.0

    cv   (4.05%)   cv baixo.