Apontamentos de Estatística Descritiva 2011-2012

download Apontamentos de Estatística Descritiva 2011-2012

of 22

Transcript of Apontamentos de Estatística Descritiva 2011-2012

Probabilidades e Estatstica

Estatstica DescritivaIntroduoEstatstica Cincia/Disciplina cujo objectivo fundamental a recolha, a compilao, a anlise e a interpretao de dados. Nota: A palavra estatstica deriva da palavra alem staatenkund que significa cincia das coisas do estado. Os primeiros estudos estatsticos tinham como objectivo o conhecimento dos bens do Estado e de como estavam distribudos pela populao. Como todas as cincias, a Estatstica utiliza uma linguagem prpria. Assim, num estudo estatstico, comeamos por definir: Populao/Universo conjunto de elementos com determinada caracterstica em comum e com interesse para o estudo. Ex.: Objectivo: estudar a altura dos alunos do IPCB. Populao: conjunto de todos os alunos do IPCB. Populao Alvo a totalidade dos elementos sobre os quais se deseja obter determinado tipo de informao. Ex: Aceitao de uma bebida alcolica pelos portugueses. Populao: Habitantes de Portugal. Populao Alvo: Portugueses maiores de idade ( 18 anos). Finita nmero de alunos de uma escola. Populao Infinita conjunto das temperaturas nos diversos pontos do pas num determinado momento. Cada elemento da populao designado por unidade experimental ou unidade estatstica. Ex.: cada aluno do IPCB constitui uma unidade experimental do estudo das alturas dos alunos do IPCB.

NATRCIA SANTOS

2011/2012

1

PROBABILIDADES E ESTATSTICA

ESTATSTICA DESCRITIVA

Se vamos estudar a altura dos alunos do IPCB, caracterstica altura chamamos varivel estatstica. Varivel Estatstica caracterstica ou atributo em estudo, comum a todos os elementos de uma populao. Ex.: cor dos olhos, altura, idade, etc. Quantitativa: quando se expressa numericamente (altura, peso, etc.) (mensurvel). Varivel Estatstica Qualitativa: quando se expressa nominalmente (profisso, cor dos olhos, religio, etc) (no mensurvel). Cada varivel pode tomar um determinado conjunto de valores. Ex.: cor dos olhos (varivel) > azul, castanho, verde, etc. (valores)

Discreta: pode tomar um nmero finito de valores. Ex.: n de golos num jogo. Varivel Estatstica Quantitativa Contnua: pode tomar um nmero infinito de valores. Ex.: peso corporal, altura, etc.

Ao resultado da observao de uma varivel chama-se dado estatstico. No classificado: sem qualquer ordenao. Dado Estatstico Classificado: agrupados atravs de um quadro estatstico. Ex.: abb cad dbc Valores qualitativos Dados no classificados xi a b c d Fi 2 3 2 2

Dados classificados

NATRCIA SANTOS

2011/2012

2

PROBABILIDADES E ESTATSTICA

ESTATSTICA DESCRITIVA

Nota: por vezes conveniente fazer corresponder um nmero a cada expresso nominal correspondente a um dado qualitativo para facilitar o tratamento dos dados. Ex.: Varivel: cor dos olhos 1 azul 2 verde (...) Para se efectura um estudo estatstico necessrio recolher os dados. A recolha de dados pode ser realizada atravs de um censo/resenseamento ou de uma sondagem. Censo/Resenseamento processo que permite ter acesso a todos os elementos da populao. Nem sempre possvel ou conveniente analisar todos os elementos da populao em estudo, porque: O universo infinito ou demasiado extenso. Ex.: Presses atmosfricas nos diversos pontos da terra, num dado momento. A recolha de dados muito dispendiosa ou leva muito tempo e quando fica completa os resultados j esto desactualizados. Ex.: Censo opinio pblica sobre um candidato. A observao implicaria a destruio generalizada dos elementos da populao. Ex.: Experimentar fsforos para verificar se tm problemas. Nestes casos recorre-se a uma amostra. Amostra subconjunto de elementos extrados da populao. Sondagem estudo estatstico de uma populao feito atravs de uma amostra. Este processo permite, ter acesso a todos os elementos da amostra. Distribuio Estatstica conjunto de dados ordenados de forma ascendente [x(1), x(2), ..., x(n)]. Parmetro Estatstico caracterstica numrica da populao. Se for seleccionada uma boa amostra, podemos calcular caractersticas amostrais (ex.: mdia das alturas dos alunos da ESTCB), e com base nesses resultados efectuar uma boa avaliao dos parmetros correspondentes da populao (Ex.: Altura mdia (Parmetro populacional) dos alunos do IPCB).

NATRCIA SANTOS

2011/2012

3

PROBABILIDADES E ESTATSTICA

ESTATSTICA DESCRITIVA

Tcnicas de Amostragem Amostragem: Operao atravs da qual se torna um certo nmero de elementos da populao em estudo. Para se obter uma amostra representativa da populao devem ser tomados os seguintes cuidados: Imparcialidade todos os elementos devem ter a mesma oportunidade de fazer parte da amostra. Representatividade a amostra deve conter em proporo tudo o que a populao possui, qualitativamente e quantitativamente. Tamanho a amostra deve ter uma dimenso adequada.

Aleatria: escolha parcial/totalmente ao acaso dos elementos a Amostragem constituirem a amostra No aleatria/ Viciada

Amostragem Aleatria Simples extrair da populao ao acaso, um nmero de elementos fixado como dimenso da amostra. Ex.: atribuir um nmero a cada aluno da EST e seleccionar 30 ao acaso. Estratificada recenseamento das unidades mais abrangentes e procede-se a uma amostragem aleatria simples em cada um dos estratos, na proporo em que a dimenso do estrato est para a dimenso da populao. Ex.: Considerar que cada curso um estrato. O nmero de alunos a escolher em cada estrato deve ser proporcional ao nmero de alunos de cada curso. Sistemtica seleccionar os elementos da amostra a partir de intervalos fixos. Ex.: Seleccionar os alunos cujo nmero mltiplo de 5.

Amostragem No aleatria Acidental baseia-se no que convm ao observador. Por cotas por idade / por classe social, etc. Convenincia seleccionar os empregados de uma empresa para responder sobre o grau de satisfao dos clientes em relao ao atendimento.

NATRCIA SANTOS

2011/2012

4

PROBABILIDADES E ESTATSTICA

ESTATSTICA DESCRITIVA

Consoante o tipo de estudo a realizar podemos classificar a estatstica em: Estatstica Descritiva quando se analisa um conjunto de dados retirados de uma amostra. Estatstica Dedutiva/Inferncia Estatstica quando a partir das concluses obtidas durante a anlise de um conjunto de dados se retiram concluso sobre todos os elementos da populao a estudar.

Populao

amostra

Parmetros (desconhecidos)

Estatsticas (conhecidos)

NATRCIA SANTOS

2011/2012

5

PROBABILIDADES E ESTATSTICA

ESTATSTICA DESCRITIVA

Organizao de DadosAps a recolha de dados necessrio proceder sua organizao de forma a se conseguir retirar informao. A organizao dos dados pode ser realizada atravs de Tabelas de Frequncias e de Grficos. A forma de organizao em tabela ou o tipo de grfico a usar depende do tipo de dados: Discretos ou Contnuos.

Tabelas de Frequncias As tabelas de frequncias permitem organizar os dados observados. Numa primeira coluna colocamos os dados observados (xi) por ordem crescente (no caso dos dados serem contnuos os dados so agrupados em classes sendo estas apresentadas na primeira coluna da tabela ver forma de criao de classes mais frente). Uma vez definidos os valores da varivel, vamos contabilizar quantas vezes observado cada um desses valores, obtendo-se a Frequncia Absoluta de cada dado. Supondo que foram observados k dados diferentes, a tabela seguinte apresenta a forma de organizao dos dados em tabela de frequncias: xi x1 x2 ... xkk

fi f1 f2 ... fk

Fi F1=f1+0 F2=f2+F1

fri

Fri Fr1=fr1+0 Fr2=fr2+Fr1

fr1 = fr2

f1 n f2 = n

Fk=fk+Fk-1=n

frk =k

fk n

Frk=frk+Fr(k-1)=1

fi = ni =1

fri = 1i =1

fi - Frequncia Absoluta: corresponde ao nmero de vezes que ocorre o valor do dado de ndice i. A soma de todas as frequncias absolutas igual ao nmero total de observaes da amostra.

fi = ni =1

k

Fi Frequncia Absoluta Acumulada: o somatrio de todas as frequncias absolutas de ndice menor ou igual a i.

NATRCIA SANTOS

2011/2012

6

PROBABILIDADES E ESTATSTICA

ESTATSTICA DESCRITIVA

fri Frequncia Relativa: o quociente entre a frequncia absoluta e o

f nmero total de observaes da amostra. fri = i nFri Frequncia Relativa Acumulada: o somatrio de todas as frequncias relativas de ndice menor ou igual a i. No caso dos dados serem relativos a variveis contnuas ou, sendo dados discretos, apresentem uma grande diversidade de dados observados, os dados so agrupados em intervalos ou classes sendo estas que passam a figurar na 1 coluna da respectiva Tabela de Frequncias. Definio: No mbito da disciplina define-se classe como sendo um intervalo fechado esquerda e aberto direita: [Ii;Si[ onde Ii e Si definem respectivamente os limites inferior e superior da classe. Com esta definio de classe podemos definir: Amplitude da Classe = Si - Ii

I + Si Ponto Mdio da Classe = i = x i' 2Com base nos dados observados, para proceder sua organizao em tabela de frequncias necessrio definir as classes com que vamos trabalhar. Para isso devemos comear por definir quantas classes vamos usar e depois a amplitude de cada classe. No existe uma regra universalmente aceite para determinar o n de classes a considerar. No mbito da disciplina iremos utilizar a seguinte regra:

5 , se n < 25 k = n , se n 25 Uma vez definido o n de classes a considerar, a amplitude de cada classe ser determinada da seguinte forma: Amplitude da Classe =

Amplitude do Intervalo de Variao = N de Classes Valor Mximo Observado Valor Mnimo Observado N de Classes

=

A definio das classe deve comear tendo por base o valor mais baixo observado ao qual se soma a amplitude calculada obtendo-se o limite superior da classe. Este valor usado como limite inferior da classe seguinte ao qual se soma a amplitude calculada para obter o limite superior. Este procedimento repetido at se definirem todas as classes previstas para o conjunto de dados.

NATRCIA SANTOS

2011/2012

7

PROBABILIDADES E ESTATSTICA

ESTATSTICA DESCRITIVA

NOTA: Por vezes acontece termos observaes que no ficam incluidas nas classes consideradas inicialmente. Geralmente este facto deve-se a arredondamentos nos clculos e resolve-se criando uma nova classe com a amplitude da anterior de forma a que todas as observaes constem na tabela de frequncias.

Representaes Grficas Os dados tambm podem ser representados graficamente. Os tipos de grficos a usar dependem do tipo de dados com que estamos a trabalhar: Grficos Dados Discretos Grficos de Barras usam-se para representar frequncia absolutas ou frequncias relativas Pictogramas (semelhantes aos grficos de barras mas que utilizam imagens relativas aos dados em vez das barras) Sectogramas - usam-se para representar frequncia absolutas Diagramas de Caule e Folhas - usam-se para organizar/representar os dados observados sem recurso tabela de frequncias Grficos da Funo Cumulativa usam-se para representar frequncias absolutas acumuladas ou frequncias relativas acumuladas Grficos Dados Agrupados em Classes Histograma grfico construdo com rectngulos adjacentes de tal modo que a base de cada rectngulo tem largura proporcional amplitude da respectiva classe e a altura proporcional respectiva frequncia (absoluta, relativa, absoluta acumulada ou relativa acumulada, consoante o que se pretende representar) Polgonos de Frequncias Os polgonos de frequncias so grficos construdos a partir de histogramas diferindo o modo de construo consoante se est a representar frequncias absolutas/relativas ou frequncias acumuladas. Caso o polgono esteja a ser construido com base no histograma de frequncias absolutas/relativas, este obtm-se unindo os pontos mdios dos topos dos rectngulos dos histogramas. Caso o polgono esteja a ser construido com base no histograma de frequncias acumuladas (absolutas/relativas), este obtm-se unindo os limites superiores dos topos dos rectngulos dos histogramas. A este polgono d-se o nome de Ogiva de Galton. Apresentam-se de seguida exemplos de organizao de dados.

NATRCIA SANTOS

2011/2012

8

PROBABILIDADES E ESTATSTICA

ESTATSTICA DESCRITIVA

Exemplos de Organizao de Dados Discretos A tabela seguinte apresenta as idades de 20 alunos de uma turma. 17 18 19 17 21 20 19 20 22 18 18 17 18 18 18 19 19 17 18 19

Organizao dos dados em Tabela de Frequncias xi 17 18 19 20 21 22k

fi 4 7 5 2 1 1

Fi 4+0=4 7+4=11 5+11=16 18 19 20k

fri

Fri 0,2 0,35+0,2=0,55 0,8 0,9 0,95 1

4 = 0,2 20 7 = 0,35 200,25 0,10 0,05 0,05

fi = 20

i =1

fri = 1i =1

Atravs da tabela podemos verificar que: Existem 7 alunos com 18 anos (ver nas frequncia absolutas); Existem 16 alunos com idade inferior a 20 anos (ver nas frequncias absolutas acumuladas); Os alunos com 20 anos constituem 10% do total de alunos (ver nas frequncia relativas); 80% dos alunos tm idade inferior ou igual a 19 anos (ver nas frequncia relativas acumuladas).

NATRCIA SANTOS

2011/2012

9

PROBABILIDADES E ESTATSTICA

ESTATSTICA DESCRITIVA

Representaes Grficas Grficos de Barras:

fi 8 7 6 5 4 3 2 1 0

Grfico de Barras

17

18

19

20

21

22 Xi

Sectograma:

grfico circular dividido em sectores. Cada sector corresponde a um valor

observado sendo a sua amplitude proporcional respectivafrequncia absoluta. O clculo da amplitude de cada sector realiza-se da seguinte forma:

n 360 o fi

ai

f * 360 o ou seja amplitude do sector = ai = i nPor exemplo, a amplitude do sector

correspondente aos alunos com 18 anos ser igual a:

a18 =Procedendo

7 * 360 o = 126 o 20para cada idade observada

obtm-se o grfico apresentado ao lado.

Diagrama de Caule e Folhas: Permite ao observados uma percepo do aspecto global dos dados sem perda da informao contida na coleco de dados inicial. Trata-se de uma linha vertical registando-se esquerda o dgito das dezenas e direita os sucessivos dgitos das unidades. Com base directa nos dados observados temos:

NATRCIA SANTOS

2011/2012

10

PROBABILIDADES E ESTATSTICA

ESTATSTICA DESCRITIVA

0 1 7898887998887799 2 1200 3 Ordenando obtemos, 0 1 7777888888899999 2 0012 3

NOTA: Apesar de neste documento no aparecerem exemplos de grficos de funo cumulativa ou de frequncias relativas no significa que no sejam objecto de avaliao este um documento de apoio, mas no uma sebenta exaustiva de todos os casos estudados nas aulas... O estudo da disciplina deve ser realizado preferencialmente atravs dos

apontamentos fornecidos nas aulas

NATRCIA SANTOS

2011/2012

11

PROBABILIDADES E ESTATSTICA

ESTATSTICA DESCRITIVA

Exemplos de Organizao de Dados Agrupados em Classes A tabela seguinte apresenta as alturas de 20 alunos de uma turma. 151 157 158 156 163 170 172 171 174 150 154 162 173 166 165 160 160 164 153 158

Organizao dos dados em Tabela de Frequncias 1- Calcular o n de classes a considerar Como n=20 0 , Distribuio Assimtrica Positiva

C p1 < 0 , Distribuio Assimtrica Negativa

NATRCIA SANTOS

2011/2012

20

PROBABILIDADES E ESTATSTICA

ESTATSTICA DESCRITIVA

Segundo Coeficiente de Assimetria de Pearson

3 (x Me ) C p2 = s

_

C p2 = 0 , Distribuio SimtricaSe C p2 > 0 , Distribuio Assimtrica Positiva

C p2 < 0 , Distribuio Assimtrica Negativa

Tambm

podemos

classificar

a

distribuio

usando

o

Coeficiente

Quartlico

de

Assimetria:

Cq

Q + Q1 2Q 2 = 3 Q 3 Q1

C q = 0 , Distribuio SimtricaSe C q > 0 , Distribuio Assimtrica Positiva

C q < 0 , Distribuio Assimtrica Negativa

NOTA: Em certas situaes pode acontecer que as concluses obtidas atravs destes mtodos no sejam todas coincidentes. Tal facto, usualmente, deve-se a erros de arredondamento dos clculos ou ao facto de no se usarem os dados todos disponveis para o clculo dos coeficientes.

NATRCIA SANTOS

2011/2012

21

PROBABILIDADES E ESTATSTICA

ESTATSTICA DESCRITIVA

Medidas de Achatamento ou CurtoseAs medidas de achatamento do uma indicao da intensidade das frequncias na vizinhana dos valores centrais. A classificao da distribuio quanto curtose realizada por comparao com a curva da Distribuio Normal: Distribuio Mesocrtica: Se a curva da distribuio for igual curva da distribuio Normal; Distribuio Leptocrtica: Se a curva da distribuio for mais afunilada do que a curva da distribuio Normal; Distribuio Platicrtica: Se a curva da distribuio for mais achatada do que a curva da distribuio Normal.

Leptocrtica

Mesocrtica

Platicrtica

Coeficiente de Curtose

K =

Q 3 Q1 0,263 2 (P90 P10 )

K = 0 , Distribuio MesocrticaSe K > 0 , Distribuio Platicrtica

K < 0 , Distribuio Leptocrtica

NATRCIA SANTOS

2011/2012

22