ESTATÍSTICA - 1ª UNIDADE APOSTILA final

download ESTATÍSTICA - 1ª UNIDADE APOSTILA final

of 39

Transcript of ESTATÍSTICA - 1ª UNIDADE APOSTILA final

UNIVERSIDADE DO ESTADO DA BAHIA UNEB CAMPUS II ALAGOINHAS DEPARTAMENTO DE CINCIAS EXATAS E DA TERRA

BIOESTATSTICA/ESTATSTICA/ESTATSTICA I

APOSTILA DA 1 UNIDADE

ESTATSTICA DESCRITIVA

PROFESSORA CRISTIANE MERCS

PREFCIO Para muitos, a Estatstica no passa de conjuntos de dados numricos. A estatstica originou-se com a coleta e construo de tabelas de dados para o governo, a situao evoluiu e esta coleta de dados representa somente um dos aspectos da estatstica. A Estatstica hoje a linguagem predominante para a comunicao de resultados recentes que devem ser incorporados a prtica em qualquer rea de conhecimento. A Estatstica tambm instrumento bsico para a realizao das pesquisas que geram estes resultados. A Estatstica que mais conhecida no ambiente das Cincias da Sade e das Cincias Sociais, tem como particularidade a Bioestatstica, que um conjunto de mtodos estatsticos usados no tratamento da variabilidade nas cincias mdicas e biolgicas. A Bioestatstica fornece mtodos para se tomar decises timas na presena de incerteza. Segundo Diaz e Lpez (2007), o desenvolvimento, bem como o nvel de aplicao que a Bioestatstica, como ferramenta til e rigorosa no campo da investigao em todas as Cincias Sociais, experimentou nos ltimos anos, foi espetacular. Segundo os autores no h duvida de que esse progresso no conhecimento e na aplicao da Estatstica surgiu estreitamente vinculado ao que experimentou a rea da informtica, que nos legou uma sociedade absolutamente informatizada, transformando o computador em utenslio pessoal de uso comum. Este auge e processo da informtica, software e hardware, tornou possvel, por sua vez, a realizao de trabalhos estatsticos que, de forma habitual, eram de alto custo do ponto de vista humano, assim como movimentar volumes de informaes que seriam absolutamente impensveis. Salvador, 22 de abril de 2009 Prof Cristiane Ferreira Mercs dos Santos

1 INTRODUO 1.1 Conceitos Bsicos:PROFESSORA CRISTIANE MERCS

Definio de Estatstica A Estatstica uma cincia ( ou mtodo) baseada na teoria das probabilidades, cujo objetivo principal nos auxiliar a tomar decises ou tirar concluses em situaes de incerteza, a partir de informaes numricas. Temos ento o seguinte esquema para um aplicao de um estudo estatstico: Amostra Concluses Populao Anlise Informaes Inferncia caracterstica Descritiva sobre as Estatstica contidas caracterstica nos dados s s da populao

PROFESSORA CRISTIANE MERCS

Tcnica de Amostragem

A estatstica dividida basicamente em trs partes:Modos de de ESTATSTICA Coleta, crtica, INFERNCIA Anlise concluir ou TEORIA DAS organizao, resumo PROBABILIDADES eventos com sobre predizer algo ESTATSTICA DESCRITIVA e apresentao de eventos provveis resultados (geralmente referente a dados ou informes possveis, mas populao), com base caractersticos e incertos. relativos aos concretos em fatos eventos ou (extrados de dos aos atributos suas fenmenos amostras). estudados.

PROFESSORA CRISTIANE MERCS

Populao Conjunto de indivduos ou elementos que possui certas propriedades comuns. Amostra Subconjunto representativo de uma populao. Parmetro Funo definida sobre os valores numricos de caractersticas mensurveis de uma populao.

2. ORGANIZAO DOS DADOS Varivel: so informaes que se deve medir o mensurvel e transformar em mensurvel o que, primeira vista, no , ou seja, uma medida de propriedade que identificam, caracterizam, descrevem, qualificam ou organizam o fenmeno (fsico, social ou econmico), o fato ou a populao que se quer analizar. classificada em: Quantitativa: expressa alguma propriedade mensurvel do evento de interesse: Pode ser: Discretas: numeral associvel ao conjunto dos inteiros, contvel; exemplos: numero de alunos na sala, tamanho de roupas e calados, etc. Contnuas: a que pode assumir qualquer valor em dado espao de medida, associvel ao conjunto de reais; exemplos: comprimento, rea, volume, peso, etc. Qualitativa: distinguem os informes em funo de suas propriedades, atribuies particulares. Pode ser: Nominal: quando reunvel em categoria ou espcies mutuamente exclusivas mas com idnticas propriedades; ex.: nacionalidade, sexo, etnia, doena, religio, etc. Ordinal: dispe as informaes segundo dada ordem, posio hierrquica ou seqncia classificatria; ex.: classe sociais, nvel de escolaridade, etc. 2.1 Anlise Exploratria de dados ou anlise descritiva dos dadosPROFESSORA CRISTIANE MERCS

a fase na qual os dados de um experimento ou pesquisa, so organizados, resumidos, descritos, apresentados e interpretados. Esta fase de grande importncia para uma pesquisa, pois nela, podemos perceber as tendncias do nosso conjunto de dados. Aps a coleta dos dados experimentais, devemos organiz-los e apresent-los; esta apresentao, pode ser feita atravs de tabelas e grficos ou medidas estatsticas.

Tabelas ou Quadros So formas assemelhada de apresentao de dados. Quadros: no resumem informaes, apenas as registram, razo pela qual os valores que compem no podem ser relacionados entre si. Tabelas: permitem totalizar linhas e colunas e estabelecem propores em varias direes, conforme as necessidades do estudo. muito comum nos dias de hoje, devido ao uso de computadores, realizarem pesquisas em que a coleta de dados resulta em grandes colees (quantidades) de dados para anlise e torna-se quase impossvel entend-los, quanto ao(s) particular(es) objetivo(s) de estudo, se estes dados no estiverem resumidos. Em outras palavras, os dados na forma em que foram coletados no permitem, de maneira fcil e rpida, que se extraia informaes. Torna-se difcil detectar a existncia de algum padro. necessrio trabalhar os dados para transformlos em informaes, para compar-los com outros resultados, ou ainda para julgar sua adequao a alguma teoria (Bussab, 2003, p.1). Montgomery (2003, p.14) afirma que sumrios e apresentaes de dados bem constitudos so essenciais ao bom julgamento estatstico, porque permitem focar as caractersticas importantes dos dados ou ter discernimento acerca do tipo de modelo que deveria ser usado na soluo do problema em questo. Pode-se classificar uma tabela de acordo com os dados que a compe, a forma como eles evoluem ou ento nela distribudos, a regio ou fenmeno a que se referem e at seus usos. Em termos de seus dados componentes, uma tabela pode ser: Temporal (ou histrica ou cronolgica);

PROFESSORA CRISTIANE MERCS

Geogrfica (ou territorial ou espacial); Especifica (ou categrica); Mista. A apresentao atravs de tabelas, em uma pesquisa, segue algumas convenes / normas, dependendo de qual instituio, congresso ou rgo, esta tabela ser apresentada. Mas alguns princpios bsicos, podemos utilizar, segundo as normas do IBGE (Instituto Brasileiro de Geografia e Estatstica):

Ttulo: aonde dada uma noo inicial ao leitor sobre o que a tabela; Cabealho: para que sejam identificados os contedos referentes a cada coluna da tabela. O cabealho deve conter o suficiente para responder as questes: o que est sendo representado ? onde ocorreu ? Quando ocorreu ?

Coluna Indicadora: que especifica as diferentes categorias da varivel; Corpo: representado por colunas e subcolunas dos quais so registrados os dados numricos e informaes. Rodap ou p: onde identificada a fonte original dos dados, ou alguma nota referente a tabela.

Tabela 1: Casos registrados de intoxicao

Ttulo

Cabealho

humana segundo a causa determinante. Brasil, 1993. Causa Acidente Abuso Suicdio Profissional Freqncia 29.601 2.604 7.965 3.735PROFESSORA CRISTIANE MERCS

Corpo

Outras IgnoradaFonte: Mensrio Estatstico 259/260

1.959 1.103

Nota ou Chamada

Destaca-se que as tabelas devem ser numeradas em ordem crescente ou em que aparecem no texto, como o caso de trabalhos cientficos; as bordas superiores e inferior devem ser fechadas com traos horizontais enquanto s da esquerda e direita no, podendo ou no ser fechadas por traos verticais a separao das colunas no corpo da tabela. conveniente tambm que o nmero de casas decimais seja padronizado. De acordo com Magalhes (2000), a tabela de dados brutos, contm muita informao, porm pode no ser muito rpido e prtico obter estas informaes. Neste sentido, podese construir outra tabela para cada uma das variveis que resumir as informaes ali contidas. Segundo o mesmo autor, observa-se tambm que, ao usar programas computacionais e para facilitar/agilizar a digitao do banco de dados, s variveis qualitativas associam-se valores numricos e nem por isso a varivel deixa de ser qualitativa. Cabe ao bom senso lembrar da natureza da varivel. Todas as variveis podem ser resumidas atravs de uma tabela, mas a construo diferenciada dependendo do tipo de varivel. Denomina-se Tabela Simples tabela que resume os dados de uma nica varivel qualitativa e Distribuio de Freqncias ao resumo de uma nica varivel quantitativa. TABELA SIMPLES Uma tabela simples contm as diferentes categorias observadas de uma varivel qualitativa e suas respectivas contagens, denominadas freqncias absolutas. A contagem refere-se ao nmero de ocorrncias de cada categoria. Quanto classificao, uma tabela simples pode ser temporal quando as observaes so feitas levando-se emPROFESSORA CRISTIANE MERCS

considerao o tempo; geogrfica quando os dados referem-se ao local de ocorrncia; especfica (ou categrica) quando tempo e local so fixos; e comparativa quando a tabela resume informaes de duas ou mais variveis. A tabela comparativa tambm denominada tabela cruzada ou de dupla ou mais entradas. Os nomes da coluna indicadora e cabealho podem ser escritos iniciando-se com letras maisculas. Tambm prtica comum justificar esquerda as diferentes categorias da varivel qualitativa que se apresentam no contedo das linhas, iniciando-se com letras maisculas e podem ser dispostas na ordem em que aparecem nos questionrios, ordem alfabtica ou ordem decrescente de freqncia absoluta. Tabela 02 Nmero de alunos matriculados na disciplina Bioestatstica do curso de Biologia da Universidade Estadual da Bahia. Ano N de alunos 2000 40 2001 59 2002 63 2004 71 Dados hipotticos comum e til na interpretao de tabelas a incluso de uma coluna contendo as freqncias relativas e/ou relativas em percentual. A freqncia relativa obtida dividindose a freqncia absoluta de cada categoria da varivel pelo nmero total de observaes (nmero de elementos da amostra ou da populao). Multiplicando-se este resultado por 100, obtm-se a freqncia relativa em percentual. Segundo Barbetta et al. (2004), as freqncias relativas em percentual so teis ao se comparar tabelas ou pesquisas diferentes. Por exemplo, quando amostras (ou populaes) tm nmeros de elementos diferentes, a comparao atravs das freqncias absolutas pode resultar em afirmaes errneas enquanto que pelas freqncias relativas em percentual no, pois os percentuais totais so os mesmos. Exerccio 01. Construa tabelas simples, incluindo os percentuais, para as variveis estado civil, relao do trabalho com o curso de graduao e meio de transporte maisPROFESSORA CRISTIANE MERCS

utilizado referentes pesquisa realizada em sala de aula. Construa tambm, uma tabela cruzada para as variveis estado civil e meio de informao. TABELA DE DISTRIBUIO DE FREQUNCIA Como j mencionado no incio deste captulo, dependendo do volume de dados, torna-se difcil ou impraticvel tirar concluses a respeito do comportamento das variveis e, em particular, de variveis quantitativas. Pode-se, no entanto, colocar os dados brutos de cada uma das variveis quantitativas em uma ordem crescente ou decrescente, denominado rol. A visualizao de algum padro ou comportamento continua sendo de difcil observao ou at mesmo cansativa, mas torna-se rpido identificar maiores e menores valores ou concentraes de valores no caso de variveis quantitativas. Estes nmeros (menor e maior valor observado) servem de ponto de partida para a construo de tabelas para estas variveis. Vale destacar que para as variveis qualitativas, pode-se tambm construir um rol em ordem temporal ou alfabtica, por exemplo.

So tabelas que apresentam o resumo dos valores coletados em classes, categorias ou intervalos convenientemente estabelecidos. Podem ser classificadas em:

Freqncia absoluta (fi): o nmero de vezes em que cada elemento aparece na amostra ou populao. Na tabela acima, esta freqncia absoluta est sendo expressa pela empresas fiscalizadas.

Freqncia Absoluta Acumulada (Fi): a soma das freqncias dos dados anteriores.

Freqncia Relativa (fri): a razo entre o valor de cada freqncia absoluta e o nmero total de dados existentes na observao. Ou seja:fr = fi n

ou freuncia relativa persentual

PROFESSORA CRISTIANE MERCS

(fri%), isto fr = fi n

x100. A soma de todas as freqncias relativas percentuais deve ser

igual a 100. Entretanto, quando so feitas aproximaes, tal fato pode no ocorrer. Para o caso em que for menor que 100, soma-se uma unidade ao dgito de interesse das maiores freqncias relativas at que a soma seja 100. Se for maior que 100, deve-se subtrair uma unidade das maiores freqncias relativas. Agora, se ocorrem empates ou se as maiores freqncias forem nmeros inteiros, conveniente trabalhar com as outras freqncias. O importante que a distribuio dos dados no seja alterada.

Freqncia Relativa Acumulada (Fr): a soma das freqncias relativas dos dados anteriores. Distribuio de freqncia pontual A construo de uma distribuio de freqncia pontual equivalente construo de uma tabela simples, onde se listam os diferentes valores observados da varivel, com suas freqncias absolutas, denotadas por fi, onde o ndice i corresponde ao nmero de linhas da tabela.

Distribuio de freqncia em classe A distribuio de freqncias em classes apropriada para apresentar dados quantitativos contnuos ou discretos com um nmero elevado de possveis valores (Medronho, 2003, p231). necessrio dividir os dados em intervalos ou faixas de valores que so denominadas classes. Uma classe uma linha da distribuio de freqncias. O menor valor da classe denominado limite inferior (li) e o maior valor da classe denominado limite superior (Li). O intervalo ou classe pode ser representado das seguintes maneiras:

PROFESSORA CRISTIANE MERCS

a) li |____ Li, onde o limite inferior da classe includo na contagem da freqncia absoluta mas o superior no; b) li____| Li, onde o limite superior da classe includo na contagem mas o inferior no; c) li |____| Li, onde tanto o limite inferior quanto o superior so includos na contagem; d) li ____ Li, onde os limites no fazem parte da contagem. Pode-se escolher qualquer uma destas opes sendo o importante tornar claro no texto ou na tabela qual est sendo usada. Se houver muitos intervalos, o resumo no constituir grande melhoria com relao aos dados brutos. Se houver muito poucos, um grande volume de informao se perder. Embora no seja necessrio, os intervalos so freqentemente construdos de modo que todos tenham larguras iguais, o que facilita as comparaes entre as classes. (Pagano, 2004, p.11). Solues para a definio do nmero de intervalos: a) Se o nmero de elementos (n) for menor que 25 ento o nmero de classes (k) igual a 5; se n for maior que 25, ento o nmero de classes aproximadamente a raiz quadrada positiva de n. Ou seja:

Para n 25, k = 5 Para n > 25, k =

n

b) Frmula de Sturges: k 1 + 3,3 log n.

Por outro lado, o pesquisador pode definir o nmero de classes baseando-se em sua experincia. - Amplitude total ou range (R) : a diferena entre o maior e o menor valor observados no conjunto de dados.PROFESSORA CRISTIANE MERCS

- Amplitude dos intervalos ou das classes (h) : o maior inteiro da diviso da amplitude total (R) pelo nmero de intervalos (k). Ou seja: h

R kNo caso de uma distribuio de freqncia contnua, ou em classes, uma outra coluna pode ser acrescentada tabela. a coluna dos pontos mdios, denotada por xi e definida como a mdia dos limites da classe: Xi = li + Li / 2 i = 1, 2, ..., k Estes valores so utilizados na construo de grfico e na obteno de medidas descritivas com o auxlio de calculadoras. Exemplo 01: Construir uma tabela de freqncia em classe com a varivel idade do questionrio aplicado na sala de aula.

3 REPRESENTAO GRFICA

A representao grfica outra forma de mostra os dados de forma resumida na analise descritiva dos dados. Temos os seguintes parmetros na construo de um grfico: O tamanho do grfico deve ser adequado sua publicao; Todo grfico dever ter sempre um ttulo e uma escala, sendo que, esta escala deve ser adequada para que no desfigure os fatos. Grfico um recurso visual da Estatstica utilizado para representar um fenmeno. Sua utilizao em larga escala nos meios de comunicao social, tcnica e cientfica, devemse tanto sua capacidade de refletir padres gerais e particulares do conjunto de dados em observao, como facilidade de interpretao e a eficincia com que resume informaes dos mesmos.

PROFESSORA CRISTIANE MERCS

Embora os grficos forneam menor grau de detalhes que as tabelas, estes apresentam um ganho na compreenso global dos dados, permitindo que se aperceba imediatamente da sua forma geral sem deixar de evidenciar alguns aspectos particulares que sejam de interesse do pesquisador. Uma representao grfica coloca em evidncia as tendncias, as ocorrncias ocasionais, os valores mnimos e mximos e tambm as ordens de grandezas dos fenmenos que esto sendo observados. Todo grfico, em sua verso final deve primar pela simplicidade, clareza e veracidade nasinformaes. Para atingir tal objetivo, a construo de um grfico exige muito trabalho e cuidados. Segundo Silva (apud WALLGREN, 1996), a escolha da representao grfica e, conseqentemente, a escolha do tipo de grfico mais adequado para representar um conjunto de dados deve ser feita com base nas respostas de questes como: - Um grfico realmente a melhor opo? - Qual o pblico-alvo? - Qual o objetivo do grfico? - Que tipo de grfico deve ser usado? - Como o grfico deve ser apresentado? - Que tamanho o grfico deve ter? - Dever ser usado apenas um grfico? - A qual meio tcnico se deve recorrer? Ao incluir um grfico em um trabalho, sua identificao deve aparecer na parte inferior, precedido pela palavra Grfico seguida de seu nmero de ordem de ocorrncia no texto (algarismos arbicos), de seu respectivo ttulo e/ou legenda explicativa de maneira breve e clara (dispensando a leitura do texto) e da fonte de onde se extraiu os dados. Uma regra bsica para a elaborao adequada do ttulo de qualquer grfico, verificar se o mesmo responde a trs exigncias: o qu, onde e quando.

PROFESSORA CRISTIANE MERCS

Quando um grfico for inserido em um texto, recomenda-se que este seja destacado tanto do texto que o precede, como do texto imediatamente subseqente, por meio de trs espaos simples. O ttulo escrito em letras minsculas, exceto a inicial da frase e dos nomes prprios. Deve ser separado da numerao do grfico por um hfen seguido de um espao. Caso seja composto por mais de uma linha, estas devem ser alinhadas sob a primeira letra da primeira linha do ttulo. Em casos onde a legenda se fizer necessrio, como nos casos de grficos comparativos, ela deve ser colocada direita ou abaixo do grfico. D-se preferncia a pouca variao de cores. A variao de cores num mesmo grfico recomendada para o caso de grficos comparativos. Existem diversos tipos de grficos. Porm, sero destacados aqueles de maior interesse pedaggico na representao das variveis qualitativas e quantitativas.

Representao grfica de variveis qualitativas Grfico em Barras

um grfico formado por retngulos horizontais de larguras iguais, onde cada um deles representa a intensidade de uma modalidade ou atributo. recomendvel que cada coluna conserve uma distncia entre si de aproximadamente 2/3 da largura da base de cada barra, evidenciando deste modo, a no continuidade na seqncia dos dados. O objetivo deste grfico de comparar grandezas e recomendvel para variveis cujas categorias tenham designaes extensas.

Tabela 3: Internaes em estabelecimento de sade, por espcie de clnica - 1992Espcie de Clnica Freqncia Freqncia relativa (%) PROFESSORA CRISTIANE MERCS

Mdica Ginecologia e Obstetrcia Cirurgia Pediatria Outros

6457923 3918308 3031075 2943939 3513186

32,51 19,73 15,26 14,82 17,69

Fonte: IBGE, Diretoria de Pesquisa, Pesquisa de Assistncia Mdico-Sanitria.

Figura 1: Internaes em estabelecimento de sade, por espcie de clnica - IBGE 1992.

Grfico em Colunas

o grfico mais utilizado para representar variveis qualitativas. Difere do grfico de barras por serem seus retngulos dispostos verticalmente ao eixo das abscissas sendo mais indicado quando as designaes das categorias so breves. Tambm para este tipo de grfico deve ser preservada a distncia entre cada retngulo de, aproximadamente, 2/3 da largura da base de cada coluna. O nmero de colunas ou barras do grfico no deve ser superior a 12 (doze).Figura 2: Internaes em estabelecimento de sade, por espcie de clnica - IBGE 1992.

Ao se descrever simultaneamente duas ou mais categorias para uma varivel, conveniente fazer uso dos grficos de barras ou colunas justapostas (ou sobrepostas), chamados de grficos comparativos. De acordo com as normas contidas em Grficos (UFPR, 2001), este tipo de grfico s deve ser utilizado quando apresentar at trs elementos para uma srie de no mximo quatro valores.

PROFESSORA CRISTIANE MERCS

Salvador

Alagoinhas

Feira de Santana

Figura 3 - Municpio de procedncia segundo o tipo de transporte utilizado pelos alunos da disciplina Bioestatstica do curso de Biologia da Universidade do Estado da Bahia, 2006 Grfico de Setores (pizza)

Tipo de grfico onde a varivel em estudo projetada num crculo, de raio arbitrrio, dividido em setores com reas proporcionais s freqncias das suas categorias. So indicados quando se deseja comparar cada valor da srie com o total. Recomenda-se seu uso para o caso em que o nmero de categorias no grande e no obedecem a alguma ordem especfica.

18% 32%

Mdica Ginicologia e Obstretrcia Cirurgia Pediatria Outros

15%

15%

20%

Figura 4: Internaes em estabelecimento de sade, por espcie de clnica - IBGE 1992.

PROFESSORA CRISTIANE MERCS

Grfico de Linhas

Sua aplicao mais indicada para representaes de sries temporais sendo por tal razo, conhecidos tambm como grficos de sries cronolgicas. Sua construo feita colocando-se no eixo vertical (y) a mensurao da varivel em estudo e na abscissa (x), as unidades da varivel numa ordem crescente. Este tipo de grfico permite representar sries longas, o que auxilia detectar suas flutuaes tanto quanto analisar tendncias. Tambm podem ser representadas vrias sries em um mesmo grfico.

Figura 5 - Nmero de matrculas anuais na disciplina Estatstica do curso de Bioestatstica da UNEB, 2005. Exemplo 02: Considerando as informaes sobre os questionrios aplicados em sala de aula, construa um grfico adequado para representar as variveis: a) sexo; b) estado civil; c) transporte; d) meios de informao segundo o sexo dos alunos.

Representao grfica de variveis quantitativas Discretas Grfico de BastesPROFESSORA CRISTIANE MERCS

Este grfico formado por segmentos de retas perpendiculares ao eixo horizontal (eixo da varivel), cujo comprimento corresponde freqncia absoluta ou relativa de cada elemento da distribuio. Suas coordenadas no podem ser unidas porque a leitura do grfico deve tornar claro que no h continuidade entre os valores individuais assumidos pela varivel em estudo.

Figuras 6 Nmero de irmos dos alunos da disciplina Bioestatstica do curso de Biologia da UNEB, 2005.

Grfico de Frequncia acumuladaA Figura 7 mostra o grfico para freqncia acumulada de uma varivel quantitativa discreta. Na abscissa so alocados os valores assumidos pela varivel nmero de irmos e no eixo das ordenadas suas freqncias acumuladas. Observa-se que a leitura do grfico exige alguns cuidados bsicos: caso o valor da varivel esteja ou no includo, sua freqncia acumulada difere. Se for de interesse saber quantos alunos tem dois ou menos irmos (inclui-se dois irmo), a freqncia acumulada de 19 alunos. Caso se queira apenas saber quantos alunos tm menos de dois irmos (portanto o nmero dois no est incluso), sua freqncia acumulada de 7 alunos.PROFESSORA CRISTIANE MERCS

Figura 7 Nmero acumulado de irmos dos alunos da disciplina Bioestatstica do curso de Biologia da UNEB, 2005.

Representao grfica de variveis quantitativas Contnuas Histograma

um grfico de colunas justapostas que representa uma distribuio de freqncia para dados contnuos ou uma varivel discreta quando esta apresentar muitos valores distintos. No eixo horizontal so dispostos os limites das classes segundo as quais os dados foram agrupados enquanto que o eixo vertical corresponde s freqncias absolutas ou relativas das mesmas.

Figura 8: peso ao nascer dos nascidos vivos, em quilogramas.

Polgono de freqncias

PROFESSORA CRISTIANE MERCS

um grfico de linha cuja construo feita unindo-se os pontos de coordenadas de abscissas correspondentes aos pontos mdios de cada classe e as ordenadas, s freqnciasabsolutas ou relativas dessas mesmas classes. O polgono de freqncia um grfico que deve ser fechado no eixo das abscissas. Ento, para finalizar sua elaborao, deve-se acrescentar distribuio, uma classe esquerda e outra direita, ambas com freqncias zero. Tal procedimento permite que a rea sob a linha de freqncias seja igual rea do histograma.Uma das vantagens da aplicao de polgonos de freqncias que, por serem grficos de linhas, permitem a comparao entre dois ou mais conjuntos de dados por meio da superposio dos mesmos.1 4 1 2 F 1 r 0 e q 8 n 6 c ia 4 2 0 1 5 ,7 2 5 ,2 2 5 ,7 3 5 ,2 3 5 ,7 4 5 ,2 4 5 M is ,7 a Ps a nse eo o acrFigura 9: peso ao nascer dos nascidos vivos, em quilogramas.

Fre qu nc ia

4 MEDIDAS DESCRITIVAS Uma outra maneira de se resumir os dados de uma varivel quantitativa, alm de tabelas e grficos, apresent-los na forma de valores numricos, denominados medidas descritivas. Estas medidas, se calculadas a partir de dados populacionais, so denominadas parmetros e se calculadas a partir de dados amostrais so denominadas estimadores ou estatsticas.PROFESSORA CRISTIANE MERCS

As medidas descritivas auxiliam a anlise do comportamento dos dados. Tais dados so provenientes de uma populao ou de uma amostra, o que exige uma notao especfica para cada caso, conforme mostra o Quadro 01.

Quadro 1 Principais estatsticas e estimadoresParmetro populacional Tamanho Mdia Proporo Varincia Tamanho da populao Estimador Tamanho da amostra

NMdia populacional

nMdia amostral

XProporo amostral

Proporo populacional Varincia populacional2

PVarincia amostral

S2Desvio padro amostral

Desvio padro Desvio padro populacional

SCoef. correlao amostral

Coeficiente de correlao

Coef. correlao populac.

r

Classificam-se as medidas descritivas como: medidas posio (tendncia central e separatrizes), medidas de disperso, medidas de assimetria e de curtose.

4.1 MEDIDAS DE TENDNCIA CENTRALAs medidas de tendncia central so assim denominadas por indicarem um ponto em torno do qual se concentram os dados. Este ponto tende a ser o centro da distribuio dos dados. Reis (1998), afirmar que:o valor a escolher depende das caractersticas dos dados. Por exemplo, num estudo agrcola sobre a produo de trigo por hectare de terra arvel podemos estar interessados em conhecer o valor mais elevado da

PROFESSORA CRISTIANE MERCS

produtividade do solo agrcola das vrias exploraes analisadas. Num outro estudo sobre os resultados de uma turma de estudantes universitrios talvez seja mais interessante conhecer o resultado mdio obtido por 50% dos estudantes. Num outro estudo sobre os rendimentos per capta dos pases da CEE, a comparao entre pases ser facilitada se calcularmos os rendimentos mdios de cada pas.

A seguir, so definidas as principais medidas de tendncia central: mdia, mediana e moda. 4.1.1 Mdia Aritmtica A mdia aritmtica (X) a soma de todos os valores observados da varivel dividida pelo nmero total de observaes. Sob uma viso geomtrica a mdia de uma distribuio o centro de gravidade, representa o ponto de equilbrio de um conjunto de dados. a medida de tendncia central mais utilizada para representar a massa de dados. Seja (x1, ..., xn) um conjunto de dados. A mdia dada por:= i=1NXiN ou X= i=1nXin

Para os dados populacionais e amostrais respectivamente. Caso os dados estejam apresentados segundo uma distribuio de freqncias, tm-se:= i=1NXifiN ou X= i=1nXifin

Observe que no caso de dados agrupados a mdia obtida a partir de uma ponderao, onde os pesos so as freqncias absolutas de cada classe e xi o ponto mdio da classe i. Citam-se a seguir, algumas propriedades da mdia aritmtica: 1. a mdia um valor calculado facilmente e depende de todas as observaes; 2. nica em um conjunto de dados e nem sempre tem existncia real, ou seja, nem sempre igual a um determinado valor observado; 3. a mdia afetada por valores extremos observados; 4. por depender de todos os valores observados, qualquer modificao nos dados far com que a mdia fique alterada. Isto quer dizer que somando-se, subtraindo-se, multiplicando-se ou dividindo-se uma constante a cada valor observado, a mdia ficar acrescida, diminuda, multiplicada ou dividida desse valor.

PROFESSORA CRISTIANE MERCS

5. a soma da diferena de cada valor observado em relao mdia zero, ou seja, a soma dos desvios zero.xi-x=0

A propriedade 5, de extrema importncia para a definio de varincia, uma medida de disperso a ser definida posteriormente. Destaca-se, ainda, que a propriedade 3, quando se observam no conjunto dados discrepantes, faz da mdia uma medida no apropriada para representar os dados. Neste caso, no existe uma regra prtica para a escolha de uma outra medida. O ideal , a partir da experincia do pesquisador, decidir pela moda ou mediana. Para ilustrar, considere o nmero de filhos, por famlia, para um grupo de 8 famlias: 0, 1, 1, 2, 2, 2, 3, 4. Neste caso, a mdia x = 1,875 filhos por famlia. Entretanto, incluindo ao grupo uma nova famlia com 10 filhos, a mdia passa a ser x = 2,788, o que eleva em 48,16% o nmero mdio de filhos por famlia. Assim, ao observar a mdia, pode-se pensar que a maior parte das famlias deste grupo tem trs filhos quando, na verdade, apenas uma tem trs filhos.

Exemplo 03: Calcule a mdia aritmtica das medidas necessrias dos questionrios aplicados em sala de aula.

PROFESSORA CRISTIANE MERCS

4.1.2 MODA A moda (Mo) o valor que apresenta a maior freqncia da varivel entre os valores observados. Para o caso de valores individuais, a moda pode ser determinada imediatamente observando-se o rol ou a freqncia absoluta dos dados. Por outro lado, em se tratando de uma distribuio de freqncia de valores agrupados em classes, primeiramente necessrio identificar a classe modal, aquela que apresenta a maior freqncia, e a seguir a moda calculada tirando o ponto mdio dessa classe modal, denominada de moda bruta. relevante salientar que um conjunto de dados pode apresentar todos seus elementos com a mesma freqncia absoluta, e neste caso no existir um valor modal, o que significa que a distribuio ser classificada como amodal. Pode ocorrer, tambm, casos em que a seqncia de observaes apresente vrios elementos com freqncia iguais, implicando numa distribuio plurimodal. O uso da moda mais indicado quando se deseja obter, rapidamente, uma medida de tendncia central. Um outro aspecto que favorece a utilizao da moda que seu valor no afetado pelos valores extremos do conjunto de dados analisado. 4.1.3 MEDIANA A mediana (Md) o valor que ocupa a posio central da srie de observaes de uma varivel, em rol, dividindo o conjunto em duas partes iguais, ou seja, a quantidade de valores inferiores mediana igual quantidade de valores superiores a mesma. Exemplo 4: Retomando o exemplo do nmero de filhos por famlias, verifica-se que: Para o caso de oito famlias, n=8, a mediana determinada como a seguir:

PROFESSORA CRISTIANE MERCS

Quando se acrescenta ao grupo uma outra famlia com 10 filhos o tamanho da amostra passa a ser n=9. Neste caso, a mediana :

Observe que nos dois casos, por coincidncia, a mediana manteve-se a mesma, Md=2, significando que 50% das famlias possuem menos de 2 filhos ou 50% possuem mais de 2 filhos. Passos para encontrar a mediana: Caso n 1: quando o nmero de dados impar 1. Ordenar os dados em ordem ascendente (pode ser tambm na ordem descendente, mas no comum e pode atrapalhar na hora de calcular as medidas de posio)2.

O lugar ou posio que a mediana ocupa : (n+1)/2 e

3. O valor da mediana o valor da varivel que ocupa o lugar (n+1)/2

Me = X(n+1)/2Caso n 2: quando o nmero de dados par 4. Ordenar os dados em ordem ascendente5.

O lugar ou posio que a mediana ocupa est entre: n/2 e (n/2)+1 e

6. O valor da mediana ser a mdia simples dos valores que ocupam esses lugares

X n/2 + X n/2 +1 Me = 2Mostra-se assim, que a mediana no influenciada por valores extremos. Este procedimento pode tornar-se inadequado quando o conjunto de dados for composto por muitos elementos. Os passos a seguir indicam uma forma para o clculo da mediana, independentemente do tamanho da amostra.PROFESSORA CRISTIANE MERCS

Ordenar as observaes em ordem crescente ou decrescente (rol). Calcular a posio da mediana dado por EMd = n2 e calcula a mediana atravs da frmula:Md=l+li EMd- FantfMd

Onde: L = limite inferior da classe da mediana Li = amplitude do intervalo de classe FMd = freqncia simples da classe mediana Fant = freqncia acumulada at a classe anterior classe mediana. Para ilustrar graficamente o clculo da mediana, considere novamente um conjunto de pesos fictcios. Deve-se localizar no eixo da varivel o ponto que divide o histograma ao meio. Isto feito somando-se as reas (freqncias relativas) at que se obtenha 50%. No histograma abaixo, a classe que contm a mediana a classe de 62 a 68 kg, com freqncia relativa igual a 36%. Pode-se observar ento que faltam 18%, 50%-(14% +18%) para completar 50% da distribuio. Tem-se ento que o limite superior da base do retngulo hachurado a mediana da distribuio.

PROFESSORA CRISTIANE MERCS

Aplicando a proporcionalidade entre rea e base do retngulo resultar na mediana:

Portanto a mediana igual a 65 kg. Exemplo 4: Calcular as medidas de posio para os dados do questionrio aplicado em sala de aula.

4.2 MEDIDAS SEPARATRIZES Estas medidas so valores que ocupam posies no conjunto de dados, em rol, dividindoo em partes iguais e podem ser: Quartil: Os quartis dividem o conjunto de dados em quatro partes iguais.

PROFESSORA CRISTIANE MERCS

ou a posio EQi=in4

Decil: Os decis dividem o conjunto de dados em dez partes iguais.

Ou a posio : EDi=in10

Percentil: Os percentis dividem o conjunto de dados em cem partes iguais. A seguir so apresentados alguns dos percentis mais usados:

PROFESSORA CRISTIANE MERCS

Ou a posio : EPi= in100 Para os dados em rol, o clculo das medidas separatrizes a mesma que a da mediana.

4.3 MEDIDAS DE DISPERSO De acordo com Toledo (1985), fenmenos que envolvem anlises estatsticas caracterizam-se por suas semelhanas e variabilidades. As medidas de disperso auxiliam as medidas de tendncia central a descrever o conjunto de dados adequadamente. Indicam se os dados esto, ou no, prximos uns dos outros. Desta forma, no h sentido calcular a mdia de um conjunto onde no h variao dos seus elementos. Existe ausncia de disperso e a medida de disperso igual a zero. Por outro lado, aumentando-se a disperso, o valor da medida aumenta e se a variao for muito grande, a mdia no ser uma medida de tendncia central representativa. Faz-se necessrio, portanto, ao menos uma medida de tendncia central e uma medida de disperso para descrever um conjunto de dados. As quatro medidas de disperso que sero definidas a seguir so: amplitude total, amplitude interquartlica, desvio padro e varincia. Com exceo primeira, todas tm como ponto de referncia a mdia.PROFESSORA CRISTIANE MERCS

4.3.1 Amplitude TotalA amplitude total de um conjunto de dados a diferena entre o maior e o menor valor observado. A medida de disperso no levar em considerao os valores intermedirios perdendo a informao de como os dados esto distribudos e/ou concentrados.At= xmx- xmin

4.3.2 Amplitude InterquartlicaA amplitude interquartlica a diferena entre o terceiro e o primeiro quartil. Esta medida mais estvel que a amplitude total por no considerar os valores mais extremos. Esta medida abrange 50% dos dados e til para detectar valores discrepantes.dq= Q3- Q1

Por outro lado, a amplitude semi-interquartlica definida como a mdia aritmtica da diferena entre a mediana e os quartis:dqm= Q3-Q12

4.3.3 Desvio-mdio A diferena entre cada valor observado e a mdia denominado desvio e dado por (xi ) se o conjunto de dados populacional, ou por (xi x) se os dados so amostrais. Ao somar todos os desvios, ou seja, ao somar todas as diferenas de cada valor observado em relao a mdia, o resultado igual a zero (propriedade 5 da mdia). Isto significa que esta medida no mede a variabilidade dos dados. Para resolver este problema, pode-se desconsiderar o sinal da diferena, considerando-as em mdulo e a mdia destas diferenas em mdulo denominada desvio mdio:dm=i=1Nxi-N ou dm=i=1nxi-xn

para dados populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados segundo uma distribuio de freqncia, tem-se:dm=i=1Nxi-fiN ou dm=i=1nxi-xfin PROFESSORA CRISTIANE MERCS

4.3.4 Varincia e desvio padro Enquanto no h nada conceitualmente errado em se considerar o desvio mdio, segundo Pagano (2004), esta medida no tem certas propriedades importantes e no muito utilizada. O mais comum considerar o quadrado dos desvios em relao mdia e ento calcular a mdia. Obtm-se, assim a varincia que definida por:

2=i=1N(xi- )2N ou S2=i=1n(xi-x)2n-1

se os dados so populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados segundo uma distribuio de freqncia, tem-se:

2=i=1N(xi- )2fiN ou S2=i=1n(xi-x)2fin-1

Entretanto, ao calcular a varincia observa-se que o resultado ser dado em unidades quadrticas, o que dificulta a sua interpretao. O problema resolvido extraindo-se a raiz quadrada da varincia, definindo-se, assim, o desvio padro:= i=1N(xi- )2N ou S=i=1n(xi-x)2n-1

se os dados so populacionais ou amostrais e, se estiverem em distribuio de freqncias:= i=1N(xi- )2fiN ou S=i=1n(xi-x)2fin-1

importante destacar que se duas populaes apresentam a mesma mdia, mas os desvios padro no so iguais, isto no significa que as populaes tm o mesmo comportamento. Exemplo 5: Considere trs alunos cujas notas em uma disciplina esto apresentadas na Tabela 4. Observa-se que as mdias das notas dos trs alunos so iguais, porm, seus desvios em torno da mdia so diferentes. Isto quer dizer que seus desempenhos so diferentes. O aluno A constante em seu desempenho, o segundo vai progredindo aosPROFESSORA CRISTIANE MERCS

poucos e o terceiro diminui abruptamente seu desempenho. Em outras palavras, apesar dos trs alunos terem o mesmo desempenho mdio, a variabilidade difere. Tabela 4. Notas, desvios e mdia dos alunos em uma disciplina.

Como demonstrado no exemplo, geralmente, o desvio padro maior ou igual ao desvio mdio, e isto devido ao fato de que para o clculo do desvio-padro cada desvio em torno da mdia elevado ao quadrado, aumentando desproporcionalmente o peso dos valores extremos. 4.3.5 Coeficiente de Variao O coeficiente de variao uma medida de disperso relativa definida como a razo entre o desvio padro e a mdia:CV= 100 ou CV= Sx 100

se os dados so populacionais ou amostrais.

PROFESSORA CRISTIANE MERCS

A partir do coeficiente de variao pode-se avaliar a homogeneidade do conjunto de dados e, conseqentemente, se a mdia uma boa medida para representar estes dados. utilizado, tambm, para comparar conjuntos com unidades de medidas distintas. Uma desvantagem do coeficiente de variao que ele deixa de ser til quando a mdia est prxima de zero. Uma mdia muito prxima de zero pode inflacionar o CV. Um coeficiente de variao superior a 50% sugere alta disperso o que indica heterogeneidade dos dados. Quanto maior for este valor, menos representativa ser a mdia. Neste caso, opta-se pela mediana ou moda, no existindo uma regra prtica para a escolha de uma destas medidas. O pesquisador, com sua experincia, que dever decidir por uma ou outra. Por outro lado, quanto mais prximo de zero, mais homogneo o conjunto de dados e mais representativa ser sua mdia. 4.3.6 Medidas de Assimetria A medida de assimetria um indicador da forma da distribuio dos dados. Ao construir uma distribuio de freqncias e/ou um histograma, est-se buscando, tambm, identificar visualmente, a forma da distribuio dos dados que ou no confirmada pelo coeficiente de assimetria de Pearson (As) definido como:As= - Mo ou As= x- MoS

para dados populacionais e amostrais, respectivamente. Uma distribuio classificada como: simtrica se mdia = mediana = moda ou As = 0; assimtrica negativa se mdia mediana moda ou As < 0. O lado mais longo do polgono de freqncia (cauda da distribuio) est esquerda do centro. assimtrica positiva se moda mediana mdia ou As > 0. O lado mais longo do polgono de freqncia est direita do centro.PROFESSORA CRISTIANE MERCS

Assimtrica negativa Simtrica Figura 10 - Classificao quanto forma da distribuio

Assimtrica positiva

4.3.7 Medidas de Curtose A medida de curtose o grau de achatamento da distribuio, um indicador da forma desta distribuio. definido como:K= (Q3- Q1)2(P90-P10)

A curtose ou achatamento mais uma medida com a finalidade de complementar a caracterizao da disperso em uma distribuio. Esta medida quantifica a concentrao ou disperso dos valores de um conjunto de dados em relao s medidas de tendncia central em uma distribuio de freqncias. Uma distribuio classificada quanto ao grau de achatamento como: Leptocrtica: quando a distribuio apresenta uma curva de freqncia bastante fechada, com os dados fortemente concentrados em torno de seu centro, K < 0,263. Mesocrtica: quando os dados esto razoavelmente concentrados em torno de seu centro, K= 0,263 Platicrtica: quando a distribuio apresenta uma curva de freqncia mais aberta, com os dados fracamente concentrados em torno de seu centro, K > 0,263.

PROFESSORA CRISTIANE MERCS

Figura 10 - Classificao da distribuio quanto curtose. 4.4 BOX PLOT OU DESENHO ESQUEMTICO O grfico Box Plot (ou desenho esquemtico) uma anlise grfica que utiliza cinco medidas estatsticas: valor mnimo, valor mximo, mediana, primeiro e terceiro quartil da varivel quantitativa. Este conjunto de medidas oferece a idia da posio, disperso, assimetria, caudas e dados discrepantes. A posio central dada pela mediana e a disperso pelo desvio interquartlico dq= Q3-

Q2. As posies relativas de Q1 , Q2 e Q3 do uma noo da assimetria da

distribuio. Os comprimentos das caudas so dados pelas linhas que vo do retngulo aos valores atpicos. Um tipo de grfico til para a descrio de dados, visualizao de sua variabilidade, comparao entre diferentes grupos o grfico de caixas, boxplot, em ingls. Foi introduzido pelo estatstico americano John Tukey em 1977. Segundo Triola (2004), um outlier ou ponto discrepante um valor que se localiza distante de quase todos os outros pontos da distribuio. A distncia a partir da qual considera-se um valor como discrepante aquela que supera 1,5dq. De maneira geral, so considerados outliers todos os valores inferiores Li= Q1-1,5dq ou os superiores a Ls=Q3+1,5dq.

PROFESSORA CRISTIANE MERCS

Para a construo do boxplot obtm-se primeiro as seguintes estatsticas: 1 quartil (Q1), 2 quartil ou mediana (Q2), 3 quartil (Q3) e a distncia interquartlica (DQ), definida como DQ=Q3 Q1. O boxplot obtido dos seguintes passos:

Como construir o diagrama de Box-Plot Valores extremos: valores maiores que 3 comprimentos da caixa, a partir do percentil 75%

*

25% dos dados esto acima da caixa O

Outliers: valores maiores que 1,5 comprimentos da caixa, a partir do percentil 75%

Maior valor que no outlier

Percentil 75%PROFESSORA CRISTIANE MERCS

50% dos dados esto dentro da caixa Percentil 25% Mediana

Menor valor que no outlier 25% dos dados esto abaixo da caixa * Valores extremos: valores menores que 3 comprimentos da caixa, a partir do percentil 25% O Outliers: valores menores que 1,5 comprimentos da caixa, a partir do percentil 25%

Comprimento da caixa = distncia interquartlica = Q3 - Q11 2

N O T A

1

01 2

8

6

44 6

2

0N = 4 0 2 3 2 9

1

2

3

E

S

C

O

L

A

Figura 11. Distribuio das notas na prova de Matemtica dos alunos da 5 srie, por escola

PROFESSORA CRISTIANE MERCS

BIBLIOGRAFIABARBETTA, P. A. Estatstica Aplicada s Cincias Sociais. Florianpolis: Editora da UFSC, 1998. BARBETTA, Pedro A.; REIS, Marcelo M. e BORNIA, Antonio C. Estatstica para cursos de Engenharia e informtica. So Paulo: Editora Atlas S.A., 2004. BUSSAB, W. O. e MORETTIN, P. A. Estatstica Bsica. So Paulo: Editora Saraiva, 2003. DAZ, Francisca Rius e LPEZ, Francisco Javier Barn. Bioestatstica. So Paulo: Thomson Learning, 2007. MAGALHES, M. N. e LIMA, A. C. P.de. Noes de Probabilidade e Estatstica. So Paulo: IME-USP, 2000. MEDRONHO, R. A., CARVALHO, D.M.de, BLOCH K.V., LUIZ, R.R. E WERNECK, G.L. Epidemiologia. So Paulo: Editora Atheneu, 2003. MONTGOMERY, D.C. e RUNGER, G.C. Estatstica Aplicada e probabilidade para Engenheiros. Rio de Janeiro: Livros Tcnicos e Cientficos Editora S.A., 2003. PAGANO, Marcello ; GAUVREAU, Kimberlee. Princpios de Bioestatstica. Traduo da 2 edio norte-americana. So Paulo: Pioneira Thomson Learning, 2004. REIS, Elizabeth. Estatstica descritiva. Lisboa: Silabo, ed. 4, 1998. SOARES, Jos F.; Alfredo A. FARIAS e CESAR, Cibele C. Introduo Estatstica. Rio de Janeiro: Livros Tcnicos e Cientficos Editora S.A., 1991. SOARES, Jos Francisco, SIRQUEIRA, Arminda Lucia.. Introduo estatstica mdica. 1ed Belo Horizonte: Departamento de Estatstica UFMG, 1999. TOLEDO, Geraldo Luciano, OVALLE, Ivo Izidoro. Estatstica Bsica. 2.ed. So Paulo: Atlas, 1985.PROFESSORA CRISTIANE MERCS