Especializacao estatistica

of 82/82
CENTRO DE CIÊNCIAS EXATAS – CCE DEPARTAMENTO DE ESTATÍSTICA Curso de Especialização “Lato Sensu” em Estatística ANÁLISE EXPLORATÓRIA DE DADOS Professor: Dr. Waldir Medri [email protected] Londrina/Pr Março de 2011

Embed Size (px)

Transcript of Especializacao estatistica

1. CENTRO DE CINCIAS EXATAS CCE DEPARTAMENTO DE ESTATSTICA Curso de Especializao Lato Sensu em Estatstica ANLISE EXPLORATRIA DE DADOS Professor: Dr. Waldir Medri [email protected] Londrina/Pr Maro de 2011 2. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri ii NDICE ESTATSTICA ......................................................................................................................................................1 1 INTRODUO ..................................................................................................................................................1 2 REAS DA ESTATSTICA..............................................................................................................................2 2.1 ESTATSTICA DESCRITIVA.............................................................................................................................2 2.2 ESTATSTICA INFERENCIAL ...........................................................................................................................3 3 POPULAO E AMOSTRA............................................................................................................................4 3.1 POPULAO ..................................................................................................................................................4 3.2 AMOSTRA ......................................................................................................................................................4 4 VARIVEIS........................................................................................................................................................5 4.1 VARIVEIS QUALITATIVAS.............................................................................................................................5 4.2 VARIVEIS QUANTITATIVAS ..........................................................................................................................5 5 DADOS................................................................................................................................................................9 5.1 DADOS BRUTOS............................................................................................................................................9 5.2 ROL ...............................................................................................................................................................9 5.3 DISPOSITIVO - RAMO E FOLHAS .................................................................................................................10 5.4 REPRESENTAO TABULAR .......................................................................................................................11 5.5 REPRESENTAO GRFICA........................................................................................................................13 5.5.1 Representao Grfica para uma Varivel Qualitativa.......................................................................13 5.5.2 Representao Grfica para uma Varivel Quantitativa.....................................................................16 5.5.3 Sries Conjugadas................................................................................................................................17 5.5.4 Distribuio de Frequncias ................................................................................................................19 5.6 LISTA 1 EXERCCIOS................................................................................................................................27 6 MEDIDAS ESTATSTICAS ...........................................................................................................................30 6.1 MEDIDAS TENDNCIA CENTRAL (POSIO)...............................................................................................30 6.1.1 Mdia....................................................................................................................................................30 6.1.2 Mediana................................................................................................................................................31 Conceito de resistncia de uma medida ........................................................................................................32 6.1.3 Moda.....................................................................................................................................................32 6.2 MEDIDAS DE DISPERSO............................................................................................................................33 6.2.1 Amplitude..............................................................................................................................................33 6.2.2 Desvio Mdio........................................................................................................................................34 6.2.3 Varincia..............................................................................................................................................34 6.2.4 Desvio Padro......................................................................................................................................35 6.2.5 Erro Padro .........................................................................................................................................35 6.2.6 Coeficiente de Variao .......................................................................................................................35 6.3 SEPARATRIZES: QUARTIS, DECIS E PERCENTIS ........................................................................................37 6.4 ASSIMETRIA.................................................................................................................................................39 6.5 CURTOSE ....................................................................................................................................................40 6.6 BOX PLOT ...................................................................................................................................................41 6.7 MEDIDAS DE POSIO E DISPERSO DE UMA DISTRIBUIO DE FREQUNCIA ........................................45 6.7.1 Mdia....................................................................................................................................................46 6.7.2 Mediana................................................................................................................................................46 6.7.3 Moda.....................................................................................................................................................47 6.7.4 Separatrizes: Quartis, Decis e Percentis..............................................................................................47 3. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri iii 6.7.5 Clculo das Separatrizes Utilizando Propores.................................................................................49 6.7.6 Desvio Mdio........................................................................................................................................50 6.7.7 Varincia..............................................................................................................................................50 6.7.8 Desvio Padro......................................................................................................................................50 6.7.9 Erro Padro .........................................................................................................................................50 6.8 LISTA 2 - EXERCCIOS.................................................................................................................................51 7 TRANSFORMAES DE VARIVEIS.......................................................................................................53 7.1 MUDANA DE ORIGEM................................................................................................................................54 7.2 MUDANA DA UNIDADE...............................................................................................................................55 8 ANLISE BIDIMENSIONAL........................................................................................................................56 8.1 INTRODUO...............................................................................................................................................56 8.2 VARIVEIS QUALITATIVAS...........................................................................................................................57 8.3 ASSOCIAO ENTRE VARIVEIS QUALITATIVAS.........................................................................................59 8.4 MEDIDAS DE ASSOCIAO ENTRE VARIVEIS QUALITATIVAS ...................................................................66 8.5 ASSOCIAO ENTRE VARIVEIS QUANTITATIVAS ......................................................................................66 8.5.1 Coeficientes de associao ou correlao............................................................................................67 8.6 ASSOCIAO ENTRE AS VARIVEIS QUALITATIVAS E QUANTITATIVAS......................................................71 8.7 LISTA 3 - EXERCCIOS.................................................................................................................................76 REFERNCIAS BIBLIOGRAFIAS .................................................................................................................78 4. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri iv 5. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 1 ESTATSTICA 1 INTRODUO Desde a Antigidade vrios povos j registravam o nmero de habitantes, de nascimento, de bitos, faziam estimativas das riquezas individual e social, distribuam equitativamente terras ao povo, cobravam impostos e at realizavam inquritos quantitativos por processos que, hoje, se chama de Estatstica. A palavra Estatstica vem de status, que significa em latim Estado. Com essa palavra faziam-se as descries e dados relativos aos Estados, tornando a Estatstica um meio de administrao para os governantes. Mais recentemente se passou a falar em estatstica em vrias cincias de todas as reas do conhecimento humano, onde pode definir a Estatstica como um conjunto de mtodos e processos quantitativos que servem para estudar e medir os fenmenos coletivos. Ao se estudar os fenmenos coletivos, o que interessa so os fatos que envolvem os elementos desses fenmenos, como eles se relacionam e qual o seu comportamento. Para que tal estudo possa acontecer com toda a seriedade que a cincia exige, necessrio que o levantamento seja feito atravs de uma pesquisa cientfica, sendo ela definida como a realizao concreta de uma investigao planejada, desenvolvida e redigida de acordo com as normas de metodologia. A Estatstica muito mais do que a simples construo de grficos e o clculo de mdias. As informaes numricas so obtidas com a finalidade de acumular informao para a tomada de deciso. Ento, a estatstica pode ser vista como um conjunto de tcnicas para planejar experimentos, obter dados e organiz-los, resumi- los, analis-los, interpret-los e deles extrair concluses. A informao de estatstica apresentada constantemente no rdio e na televiso, como por exemplo, a coleta de dados sobre nascimentos e mortes, a avaliao da eficincia de produtos comerciais e a previso do tempo. As tcnicas clssicas da estatstica foram delineadas para serem as melhores possveis sob rigorosas suposies. Entretanto, a experincia tem forado os estudiosos a conhecer que as tcnicas clssicas comportam-se mal quando situaes prticas no apresentam o ideal descrito por tais suposies. O 6. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 2 desenvolvimento recente de mtodos exploratrios robustos est aumentando a eficincia da anlise estatstica. Os bons profissionais de estatstica tm sempre olhado com detalhes os dados antes de levantar suposies estatsticas e testes de hipteses. Mas o uso indiscriminado de pacotes estatsticos computacionais, sem o exame cuidadoso dos dados profissionais da rea, conduz, s vezes, a resultados aberrantes. A anlise exploratria de dados nos fornece um extenso repertrio de mtodos para um estudo detalhado dos dados, antes de adapt-los. Nessa abordagem, a finalidade obter dos dados a maior quantidade possvel de informao, que indique modelos plausveis a serem utilizados numa fase posterior, a anlise confirmatria de dados ou inferncia estatstica. 2 REAS DA ESTATSTICA Se entender Estatstica como a Cincia dos Dados, ser de grande valia o domnio que seu corpo de conhecimento pode oferecer. Primeiramente, como ponto de partida, pode-se dividir a Estatstica em duas reas: Descritiva Inferencial (Indutiva) Obs. Alguns autores, como por exemplo, Marcos Nascimento Magalhes e Antonio Carlos Pedroso de Lima, dizem que a estatstica, grosso modo, pode ser dividida em trs reas: Estatstica descritiva; Probabilidade e Inferncia estatstica. 2.1 ESTATSTICA DESCRITIVA A Estatstica Descritiva se preocupa com a organizao, apresentao e sintetizao de dados. Utilizam grficos, tabelas e medidas descritivas como ferramentas. Utilizada na etapa inicial da anlise, destinada a obter informaes que indicam possveis modelos a serem utilizados numa fase final que seria a chamada inferncia estatstica. 7. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 3 2.2 ESTATSTICA INFERENCIAL A Estatstica Inferencial postula um conjunto de tcnicas que permitem utilizar dados oriundos de uma amostra para generalizaes sobre a populao. Constitui esse conjunto de tcnicas: a determinao do nmero de observaes (tamanho da amostra); o esquema de seleo das unidades observacionais; o clculo das medidas estatsticas; a determinao da confiana nas estimativas; a significncia dos testes estatsticos; a preciso das estimativas; dentre outras. Essa generalizao feita a partir do processo de estimao das medidas estatsticas que podem ser calculadas, porm no sem antes se antecipar um grau de certeza de que a amostra esteja fornecendo os dados que seriam de se esperar caso toda a populao fosse estudada. Nesse caso, o ramo da matemtica que ser utilizado para se avaliar tal grau de certeza a probabilidade. Com ela teremos condies de mensurar a fidedignidade de cada inferncia feita com base na amostra. Antes de comear a estudar os mtodos estatsticos que permitir analisar dados, sejam eles qualitativos ou quantitativos, importante introduzir alguns conceitos preliminares a fim no apenas de dar nomes aos instrumentos, mas tambm adequar e equalizar a terminologia a ser utilizada ao longo do curso. Na terminologia estatstica, o grande conjunto de dados que contm a caracterstica que temos interesse recebe o nome de populao. Esse termo refere- se no somente a uma coleo de indivduos, mas tambm ao alvo sobre o qual reside nosso interesse. Assim, nossa populao pode ser tanto todos os habitantes de Londrina como todas as lmpadas produzidas por uma fbrica em certo perodo de tempo. Algumas vezes podemos acessar toda a populao para estudarmos caractersticas de interesse, mas, em muitas situaes, tal procedimento no pode ser realizado. Em geral, razes econmicas so determinantes dessas situaes. Por exemplo, uma empresa, usualmente, no dispe de verba suficiente para saber o que pensam todos os consumidores de seus produtos. H ainda razes ticas, quando, por exemplo, os experimentos de laboratrio que envolvem o uso de seres vivos. Alm disso, existem casos em que a impossibilidade de se acessar toda a populao de interesse incontornvel. Por exemplo, em um experimento para determinar o tempo de funcionamento das lmpadas produzidas por uma indstria, no podemos observar toda a populao de interesse. 8. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 4 Tendo em vista as dificuldades de vrias naturezas para se observar todos os elementos da populao, tomaremos alguns deles para formar um grupo a ser estudado. Este subconjunto da populao, em geral com dimenso menor, denominado amostra. 3 POPULAO E AMOSTRA 3.1 POPULAO Populao o conjunto constitudo por todos os indivduos que representam pelo menos uma caracterstica comum, cujo comportamento interessa analisar (inferir). Assim sendo, o objetivo das generalizaes estatsticas est em dizer se algo acerca de diversas caractersticas da populao estudada, com base em fatos conhecidos. 3.2 AMOSTRA Amostra pode ser definida como um subconjunto, uma parte selecionada da totalidade de observaes abrangidas pela populao, atravs da qual se faz inferncia sobre as caractersticas da populao. Uma amostra tem que ser representativa, a tomada de uma amostra bem como seu manuseio requer cuidados especiais para que os resultados no sejam distorcidos. Parmetro uma medida numrica que descreve uma caracterstica de uma populao. So valores fixos, geralmente desconhecidos e usualmente representados por caracteres gregos. Por exemplo, (mdia populacional), p (proporo populacional), (desvio-padro populacional), 2 (varincia populacional). Estatstica uma estatstica numrica que descreve uma caracterstica de uma amostra. Representada por caracteres latinos. Por exemplo, x (mdia amostral), p (proporo amostral), s (desvio-padro amostral), s2 (varincia amostral). Unidade Observvel a portadora da(s) caracterstica(s), ou propriedade(s), que se deseja investigar. 9. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 5 A seleo da amostra pode ser feita de vrias maneiras, dependendo, entre outros fatores, do grau de conhecimento que temos da populao, da quantidade de recursos disponveis a assim por diante. Cabe ressaltar que este item ser apresentado mais para frente. 4 VARIVEIS Ao se fazer um estudo estatstico de um determinado fato ou grupo, tem-se que considerar o tipo de varivel. Pode ter variveis qualitativas ou variveis quantitativas. 4.1 VARIVEIS QUALITATIVAS Variveis qualitativas so aquelas em que a varivel assume valores em categorias, classes ou rtulos. So, portanto, por natureza, dados no numricos. Apesar de ser considerada de baixo nvel de mensurao, do ponto de vista da aplicao de instrumental estatstico, a varivel qualitativa oferece um vasto espectro de aplicao nas cincias sociais e do comportamento. Variveis qualitativas denotam caractersticas individuais das unidades sob anlise, tais como sexo, estado civil, naturalidade, raa, grau de instruo, dentre outras, permitindo estratificar as unidades para serem analisadas de acordo com outras variveis. 4.2 VARIVEIS QUANTITATIVAS Variveis quantitativas so aquelas expressas pelas variveis com nveis de mensurao intervalar ou de razo. Ou seja, so aqueles nas quais as variveis assumem valores numa escala mtrica definida por uma origem e uma unidade, por exemplo: idade, salrio, peso, etc. As variveis qualitativas podem ser, tambm, classificadas como nominal e ordinal. Por outro lado, as variveis quantitativas podem ser classificadas como discretas, quando assumem um nmero finito de valores, ou contnuas, quando assume um nmero infinito de valores, geralmente em intervalos, como apresentam na Tabela 1. 10. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 6 Tabela 1: Classificao das variveis qualitativas e quantitativas Variveis Tipos Descrio Exemplos Nominal No existe nenhuma ordenao Cor dos olhos, sexo, estado civil, tipo sangneo.Qualitativas ou Categricas Ordinal Existe uma ordenao I, II, III Nvel de escolaridade, estgio da doena, colocao de concurso. Discretas Valor pertence a um conjunto enumervel Nmero de filhos por casal, quantidade de leitos Quantitativas Contnuas Quando o valor pertence a um intervalo real Medidas de altura e peso, taxa de glicose, nvel de colesterol. Em algumas situaes podem-se atribuir valores numricos s vrias qualidades ou atributos e depois proceder anlise como esta varivel como se fosse quantitativa, desde que o procedimento seja passvel de interpretao. Uma vez obtidos os dados referentes s variveis qualitativas, a tarefa seguinte represent-los atravs de uma tabela e de um grfico. Posteriormente, poder ser til calcular as frequncias, simples, acumuladas e as relativas. Para os dados quantitativos, quando o nmero de observaes cresce e os valores so diferenciados entre si, h que se represent-los de modo resumido. Para isso a melhor forma de representao tabular atravs de distribuies de frequncia por classes de valores. Como exemplo: Suponha que um mdico est interessado em fazer um levantamento sobre algumas caractersticas de pacientes atendidos em sua clnica neurolgica: sexo peso, tipo de tratamento, nmero de convulses e classificao da doena (leve, moderada e severa). Os dados podem ser organizados em uma tabela. Usualmente os indivduos so representados nas linhas e as variveis nas colunas. Este formato utilizado pela maioria do programas computacionais. Note atravs da Tabela 2 que cada indivduo uma unidade de observao na qual so feitas vrias medidas e/ou anotados vrios atributos, referentes s variveis. 11. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 7 Tabela 2: Caractersticas de pacientes atendidos em uma clnica neurolgica Paciente Sexo Peso Tipo de Tratamento No de Convulses Classificao da Doena 1 M 89,8 A 1 Leve 2 F 64,2 A 3 Severa 3 M 91,0 B 2 Moderada 4 F 56,7 A 0 Moderada 5 F 48,5 B 1 Leve . . . 58 M 71,0 B 0 Severa 59 M 78,8 A 2 Leve 60 F 71,0 B 3 Moderada Analise a tabela 2 e classifique as variveis: Variveis qualitativas nominal: Sexo, Tipo de tratamento. Variveis qualitativas ordinal: Classificao da doena. Variveis quantitativas discreta: Nmero de convulses Variveis quantitativas contnua: Peso. Um outro exemplo: Um pesquisador est interessado em fazer um levantamento sobre alguns aspectos socioeconmicos dos empregados da seo de oramentos da Companhia MB. Usando informaes obtidas do departamento pessoal, ele elaborou a Tabela 3. De modo geral, para cada elemento investigado numa pesquisa, tem-se associado um (ou mais de um) resultado correspondendo realizao de uma caracterstica (ou caractersticas). Algumas variveis, como sexo, educao, estado civil, apresentam como possveis realizaes de qualidade (ou atributo) do indivduo pesquisado, ao passo que outras, como nmero de filhos, salrio, idade, apresentam como possveis realizaes nmeros resultantes de uma contagem ou mensurao. As variveis do primeiro tipo so chamadas qualitativas e as do segundo quantitativas. 12. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 8 Tabela 3: Informaes sobre estado civil, grau de instruo, nmero de filhos, salrio mnimo, idade e procedncia de 36 empregados da seo de oramentos da companhia MB. No Estado Civil Grau de Instruo No de Filho s Salrio mnimo Idade Anos Meses Regio de Procedncia 1 Solteiro Ensino fundamental 4,00 26 3 Interior 2 Casado Ensino fundamental 1 4,56 32 10 Capital 3 Casado Ensino fundamental 2 5,25 36 5 Capital 4 Solteiro Ensino mdio 5,73 20 10 Outra 5 Solteiro Ensino fundamental 6,26 40 7 Outra 6 Casado Ensino fundamental 0 6,66 28 0 Interior 7 Solteiro Ensino fundamental 6,86 41 0 Interior 8 Solteiro Ensino fundamental 7,39 43 4 Capital 9 Casado Ensino mdio 1 7,44 34 10 Capital 10 Solteiro Ensino mdio 7,59 23 6 Outra 11 Casado Ensino mdio 2 8,12 33 6 Interior 12 Solteiro Ensino fundamental 8,46 27 11 Capital 13 Solteiro Ensino mdio 8,74 37 5 Outra 14 Casado Ensino fundamental 3 8,95 44 2 Outra 15 Casado Ensino mdio 0 9,13 30 5 Interior 16 Solteiro Ensino mdio 9,35 38 8 Outra 17 Casado Ensino mdio 1 9,77 31 7 Capital 18 Casado Ensino fundamental 2 9,80 39 7 Outra 19 Solteiro Ensino superior 10,35 25 8 Interior 20 Solteiro Ensino mdio 10,76 37 4 Interior 21 Casado Ensino mdio 1 11,06 30 9 Outra 22 Solteiro Ensino mdio 11,59 34 2 Capital 23 Solteiro Ensino fundamental 12,00 41 0 Outra 24 Casado Ensino superior 0 12,79 26 1 Outra 25 Casado Ensino mdio 2 13,23 32 5 Interior 26 Casado Ensino mdio 2 13,60 35 0 Outra 27 Solteiro Ensino fundamental 13,85 46 7 Outra 28 Casado Ensino mdio 0 14,69 29 8 Interior 29 Casado Ensino mdio 5 14,71 40 6 Interior 30 Casado Ensino mdio 2 15,99 35 10 Capital 31 Solteiro Ensino superior 16,22 31 5 Outra 32 Casado Ensino mdio 1 16,61 36 4 Interior 33 Casado Ensino superior 3 17,26 43 7 Capital 34 Solteiro Ensino superior 18,75 33 7 Capital 35 Casado Ensino mdio 2 19,40 48 11 Capital 36 Casado Ensino superior 3 23,30 42 2 Interior Fonte: Dados hipotticos 13. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 9 5 DADOS So as informaes inerentes s variveis que caracterizam os elementos que constituem a populao ou a amostra em estudo. Os dados obtidos em pesquisas devem ser analisados e interpretados com o auxlio de mtodos estatsticos. Na primeira etapa deve-se fazer uma anlise descritiva que consiste na organizao e descrio dos dados, na identificao de valores que representem o elemento tpico e, na quantificao da variabilidade presente nos dados. 5.1 DADOS BRUTOS Qualquer pesquisa baseada em levantamento ou coleta de dados. Os dados so obtidos diretamente da pesquisa, sem terem passados por nenhum processo de sntese ou anlise. Por exemplo, os 50 valores, em decibis, de nvel de rudo de trfego em certo cruzamento esto apresentados a seguir: 58,0 62,5 65,0 67,0 68,3 65,0 66,4 58,0 67,0 67,0 62,5 62,5 66,4 66,4 65,0 65,0 60,2 60,2 60,2 60,2 59,5 59,5 59,5 65,0 66,4 66,4 66,4 60,2 62,5 67,0 67,0 67,0 70,1 70,1 71,9 70,1 67,0 66,4 66,4 68,3 68,3 68,3 65,0 65,0 62,5 62,5 65,0 65,0 68,3 71,9 Apesar de todos estes valores terem sido obtidos em de nvel de rudo de trfego em certo cruzamento, nota-se uma grande variao nos resultados. Assim, os mtodos estatsticos so fundamentais para o estudo de situaes em que a variabilidade inerente. A Estatstica Descritiva ajuda na percepo, avaliao e quantificao da variabilidade em tabelas e grficos obtidos a partir de um conjunto de dados que sintetizem os valores, com o objetivo de se ter uma viso global e clara da variao existente nas variveis. 5.2 ROL A mo, ou com auxlio de computador, pode-se classificar os dados x1, x2,...,xn em ordem crescente. Pode-se, pelo rol, verificar de maneira mais clara e rpida a composio do conjunto, identificando o maior e o menor valor alm de alguns elementos que podem se repetir vrias vezes, mostrando assim o comportamento dos dados. 14. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 10 5.3 DISPOSITIVO - RAMO E FOLHAS A mais comum estrutura de dados um grupo de nmeros. At mesmo esta to simples estrutura de dados pode ter caractersticas no facilmente distinguveis por estudos dos nmeros. O dispositivo ramo e folhas uma tcnica flexvel e eficaz para comearmos a olhar um conjunto ou uma amostra de dados. Os dgitos mais significantes dos valores, por si prprios, fazem muito trabalho de ordenao do grupo. Est tcnica bsica, mas verstil, intensamente usada, principalmente para comparar grupos e examinar cada caracterstica, tais como: quanto o grupo est prxima da assimetria; como esto distribudos os valores; se alguns valores esto distanciados dos demais; se existe concentrao de dados; se existe lacunas nos dados. Aplicao do dispositivo ramo e folhas. No existe uma regra fixa para construir o ramo e folhas, mas a idia bsica dividir cada observao em duas partes: a primeira (o ramo) colocada esquerda de uma linha vertical, a segunda (a folha) colocada direita. A Figura 1 apresenta um dessa aplicao. Figura 1 - Ramos e folhas para os depsitos bancrios Assim, o Rol dos 50 valores do nvel de rudo de trfego em certo cruzamento, faca: 58 59 60 62 65 66 67 68 70 71 0 0 5 5 5 2 2 2 2 2 5 5 5 5 5 5 0 0 0 0 0 0 0 0 0 4 4 4 4 4 4 4 4 0 0 0 0 0 0 0 3 3 3 3 3 1 1 1 9 9 Ramo Folha Frequncia 2 3 5 6 9 8 7 5 3 2 15. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 11 58,0 58,0 59,5 59,5 59,5 60,2 60,2 60,2 60,2 60,2 62,5 62,5 62,5 62,5 62,5 62,5 65,0 65,0 65,0 65,0 65,0 65,0 65,0 65,0 65,0 66,4 66,4 66,4 66,4 66,4 66,4 66,4 66,4 67,0 67,0 67,0 67,0 67,0 67,0 67,0 68,3 68,3 68,3 68,3 68,3 70,1 70,1 70,1 71,9 71,9 A apresentao dos dados pode ser de duas formas: Apresentao Tabular e apresentao Grfica. 5.4 REPRESENTAO TABULAR Apresentao tabular numrica de dados a representao das informaes por intermdio de uma tabela. Uma tabela uma maneira bastante eficiente de mostrar os dados levantados e que facilita a compreenso e interpretao dos dados. Para organizar uma srie estatstica ou uma distribuio de frequncias, existem algumas normas nacionais ditadas pela Associao Brasileira de Normas Tcnicas (ABNT) as quais devem ser respeitadas. Assim, toda tabela estatstica de conter: a) Elementos essenciais Ttulo indica a natureza do fato estudado (o qu?), as variveis escolhidas na anlise do fato (como?), o local (onde?) e a poca (quando?). Corpo o conjunto de linhas e colunas que contm, respectivamente, as sries horizontais e verticais de informaes. Cabealho designa a natureza do contedo de cada coluna. Coluna indicadora mostra a natureza do contedo de cada linha. b) Elementos complementares (se necessrio) Fonte o indicativo, no rodap da tabela, da entidade responsvel pela sua organizao ou fornecedora dos dados primrios. Notas so colocadas no rodap da tabela para esclarecimentos de ordem geral. c) Sinais convencionais (hfen), quando o valor numrico nulo; ... (reticncia), quando no se dispe de dado; 16. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 12 ? (ponto de interrogao), quando h dvidas quanto exatido do valor numrico; 0; 0,0; 0,00 (zero), quando o valor numrico muito pequeno para ser expresso pela unidade utilizada, respeitando o nmero de casas decimais adotado; X (letra x), quando o dado for omitido. d) Numerar as tabelas quando houver mais de uma. e) As tabelas devem ser fechadas acima e abaixo por linha horizontal, no sendo fechadas direita e esquerda por linhas verticais. facultativo o emprego de traos verticais para separao de colunas no corpo da tabela. f) Os totais e subtotais devem ser destacados. g) Manter a uniformidade do nmero de casas decimais. As tabelas podem ser classificadas como unidimensional ou bidimensional. A Tabela 4 uma representao unidimensional, enquanto a Tabela 5 bidimensional. Tabela 4: Nmero e porcentagem de causas de morte de residentes de Londrina, no perodo de 10 de agosto a 31 de dezembro de 2008 CAUSAS DA MORTE NO % Doenas do ap. circulatrio 281 33,5 Neoplasias 115 13,7 Causas externas 92 11,0 Doenas do ap. respiratrio 87 10,4 Doenas das glnd. endc./transt. Imunitrios 56 6,7 Doenas do ap. digestivo 54 6,4 Doenas e infec. e parasitrias 46 5,5 Afeces do per. Perinatal 26 3,1 Demais grupos 82 9,8 TOTAL 839 100,0 FONTE: Ncleo de informao em mortalidade PML 17. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 13 Tabela 5: Percentual de vendas do produto A, da Empresa WD, no ms de maro de 2008 FAIXA ETRIA REGIO < 1 ano 1 a 4 anos 5 a 19 anos 20 a 49 anos 50 anos ou + Centro 4,54 - 2,02 14,65 78,79 Norte 6,45 1,61 2,42 26,61 62,91 Sul 7,27 4,55 5,45 22,73 60,00 Leste 3,36 - 4,03 24,16 68,45 Oeste 4,57 1,14 3,43 18,29 72,57 Rural 15,71 4,29 4,28 14,29 61,43 LONDRINA 5,83 1,42 3,37 20,61 68,77 FONTE: Relatrio do ms de maro do Departamento de vendas. 5.5 REPRESENTAO GRFICA A representao grfica usada para aumentar a legibilidade do resultado de uma pesquisa. Os grficos devem ser auto-explicativos e de fcil compreenso. Devem sempre ter um ttulo, onde se destaca o fato, o local e o tempo. Ser construdos em uma escala que no desfigure os fatos ou as relaes que se deseja destacar. Assim, a altura de um grfico deve compreender entre 60% a 80% da largura. 5.5.1 Representao Grfica para uma Varivel Qualitativa Para esse tipo de varivel os grficos mais utilizados so os de: colunas, barras, linhas e de setores. Tabela 6: Densidade demogrfica, segundo as Grandes Regies - 2008 Brasil e Grandes Regies Densidade demogrfica (hab/km2 ) Brasil Norte Nordeste Sudeste Sul Centro Oeste 22,3 4,0 34,4 86,3 47,8 8,6 Fonte: IBGE, Pesquisa Nacional por Amostra de Domiclio 2008 18. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 14 No Brasil a densidade demogrfica mdia, em 2008, de 22,3 hab/km2 . Regio Norte, que possui 45,2% da rea total do Pas e 8,1% da populao, tem apenas 4,0 hab/km2 Nessa regio, ainda existem grandes vazios espaciais, em funo da vastido territorial e de grandes reas intocadas, como a ocupada pela floresta Amaznica. A Regio Sudeste, a mais evoluda economicamente do Pas, com 42% da populao total, a que tem a maior densidade com 86,3 hab/km2 A Regio Metropolitana de So Paulo, com 19,5 milhes de pessoas, corresponde a 47,9% da populao do estado, enquanto a Regio Metropolitana do Rio de Janeiro, com 11,5 milhes de pessoas, contm 73,4% dos habitantes do Rio de Janeiro (Tabela 6). a) Grfico de Colunas Os grficos de colunas (Figura 2) ou barras (Figura 3) consistem em construir retngulos, em que uma das dimenses proporciona magnitude a ser representada, sendo a outra arbitrria, porm igual para todas as colunas (ou barras). Essas colunas (ou barras) so dispostas paralelamente umas s outras, verticalmente (ou horizontalmente), isto : 22,3 4,0 34,4 86,3 47,8 8,6 0 20 40 60 80 100 Brasil Norte Nordeste Sudeste Sul Centro Oeste Brasil e Grandes Regies Densidadedemogrfica(hab/km2) Figura 2 Densidade demogrfica, Brasil e as Grandes Regies - 2008 19. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 15 b) Grfico de Barras 22,3 4,0 34,4 86,3 47,8 8,6 0 20 40 60 80 100 Brasil Norte Nordeste Sudeste Sul Centro Oeste BrasileGrandesRegies Densidade demogrfica (hab/km2) Figura 3 Densidade demogrfica, Brasil e as Grandes Regies - 2008 c) Grfico de Linhas (Figura 4) 22,3 4,0 34,4 86,3 47,8 8,6 0 20 40 60 80 100 Brasil Norte Nordeste Sudeste Sul Centro Oeste Brasil e Grandes Regies Densidadedemogrfica(hab/km2) Figura 4 Densidade demogrfica, Brasil e as Grandes Regies, 2008 Obs. O grfico de linha acima no adequado para o exemplo d) Grfico de Setores O grfico de setores (Figura 5) destina-se representar a composio, usualmente em porcentagem, de partes de um todo. Consiste num crculo de raio arbitrrio, representando o todo, dividindo em setores, que correspondem s partes de maneira proporcional. 20. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 16 S-47,8 N-4,0 NE-34,4 SU-86,3 B-22,3 CO-8,6 Brasil Norte Nordeste Sudeste Sul Centro Oeste Figura 5 Densidade demogrfica, Brasil e as Grandes Regies - 2008 5.5.2 Representao Grfica para uma Varivel Quantitativa Grficos referentes a variveis quantitativas (discretas ou contnuas) mais utilizados so os de: colunas (Figura 6) e barras (Figura 7). Tabela 7: As taxas mensais, em porcentagem, da Poupana, no perodo de janeiro a dezembro de 2005 Meses Taxa (%) Janeiro Fevereiro Maro Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro 0,715 0,692 0,675 0,734 0,737 0,739 0,774 0,808 0,771 0,733 0,711 0,714 Fonte: Caixa Econmica Federal 21. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 17 a) Grfico de colunas 0,60 0,65 0,70 0,75 0,80 0,85 Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Meses Taxa(%) Figura 6 Taxa de juros em porcentagem da caderneta de Poupana de janeiro a dezembro de 2005 c) Grfico de linhas 0,675 0,692 0,715 0,714 0,711 0,733 0,771 0,808 0,774 0,739 0,737 0,734 0,60 0,65 0,70 0,75 0,80 0,85 Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Meses Taxas(%) Figura 7 Taxa de juros em porcentagem da caderneta de Poupana de janeiro a dezembro de 2005 5.5.3 Sries Conjugadas Muitas vezes tem-se a necessidade de apresentar, em uma nica tabela, a variao de valores de mais de uma varivel, isto , fazer uma conjuno de duas ou mais sries. Conjugando duas sries em uma nica tabela, obtm-se uma tabela de dupla entrada (horizontal e vertical). A Tabela 8 apresenta a mdia de anos de estudo, no Brasil e nas Regies: Sudeste e Nordeste, no perodo de 2002 a 2008 22. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 18 Tabela 8: Mdia de anos de estudo, no Brasil e nas Regies, Sudeste e Nordeste, no perodo de 2002 a 2008 Brasil e Regies Anos 2002 2003 2004 2005 2006 2007 2008 Sudeste Brasil Nordeste 7,2 7,4 7,6 7,7 7,9 7,9 8,1 6,5 6,7 6,8 7,0 7,2 7,3 7,4 5,1 5,3 5,5 5,6 5,8 6,0 6,2 Fonte: IBGE, Pesquisa Nacional por Amostra de Domiclio 2008 A educao bsica no Pas formada por dois ciclos fundamental e mdio que correspondem a 11 anos de estudo completos. Os dados sobre os nveis de escolarizao da populao revelam melhoras, se comparados queles da dcada anterior, porm so ainda insuficientes e no compatveis com o nvel de desenvolvimento econmico do Pas. Basta observar a escolaridade mdia da populao. Em 2008, o brasileiro de 15 anos ou mais de idade tinha, em mdia, 7,4 anos de estudo. Na Regio Sudeste, essa mdia atingiu 8,1 anos, enquanto na Regio Nordeste apenas 6,2 anos. Os com os grficos, de linhas (figura 8) e de colunas mltiplas (figura 9) mostram esta situao. a) Grfico de Linhas (Figura 8) 7,2 7,4 7,6 7,7 7,9 7,9 8,1 6,5 6,7 6,8 7,0 7,2 7,3 7,4 5,1 5,3 5,5 5,6 5,8 6,0 6,2 3 5 7 9 2002 2003 2004 2005 2006 2007 2008 Mdiasdeestudos(anos) Sudeste Brasil Nordeste Figura 8 Mdias de estudo no Brasil e nas Regies: Sudeste e Nordeste, no perodo de 2002 a 2008 23. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 19 b) Grfico de Colunas Mltiplas (Figura 9) SU SUSU SUSU SU SU BBB B BB B NE2 NE NE NENE NE NE 3 5 7 9 2002 2003 2004 2005 2006 2007 2008 Mdiasdeestudos(anos) Sudeste Brasil Nordeste Figura 9 Mdias de estudo no Brasil e nas Regies: Sudeste e Nordeste, no perodo de 2002 a 2008 O grfico de colunas mltiplas til quando se quer fazer estudo comparativo. 5.5.4 Distribuio de Frequncias Quando se estuda uma varivel, o maior interesse do pesquisador conhecer o comportamento dessa varivel, analisando a ocorrncia de suas possveis realizaes. Considerando-se a varivel qualitativa a ser estudada, como por exemplo, grau de instruo (Tabela 3), ser observada e estudada muito mais facilmente quando se dispem os ensinos: Fundamental, Mdio e Superior em uma coluna e coloca-se, ao lado de cada ensino, o nmero de vezes que aparece repetido. Assim, a Tabela 9 apresenta a distribuio de frequncias da varivel grau de instruo. Tabela 9: Frequncias e porcentagens dos 36 empregados da seo de oramentos da Companhia MB segundo o grau de instruo Grau de Instruo Frequncia (ni) Proporo (fi) Porcentagem (%) Fundamental Mdio Superior 12 18 6 0,3333 0,5000 0,1667 33,33 50,00 16,67 Total 36 1,0000 100,00 24. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 20 Fonte: Tabela 3 Atravs da Tabela 9 da segunda coluna, nota-se que dos 36 empregados da Companhia MB, 12 tm o ensino fundamental, 18 o ensino mdio e 6 possui curso superior. Uma medida bastante til na interpretao de tabelas de frequncias a proporo (ou a porcentagem) de cada realizao em relao ao total. Assim 6/36 = 0,1667 (16,67%) dos empregados da Companhia MB (seo de oramento) tm instruo superior. As propores so muito teis quando se quer comparar resultados de duas pesquisas distintas. Por exemplo, suponha-se que se queira comparar a varivel grau de instruo para os empregados da seo de oramentos com a mesma varivel para todos os empregados da Companhia MB. Supondo que a empresa tenha 2.000 empregados e que a distribuio de frequncias seja a Tabela 10. Tabela 10: Frequncias e porcentagens dos 2.000 empregados da Companhia MB segundo o grau de instruo Grau de Instruo Frequncia (ni) Proporo (fi) Porcentagem (%) Fundamental Mdio Superior 650 1.020 330 0,3250 0,5100 0,1650 32,50 51,00 16,50 Total 2.000 1,0000 100,00 Fonte: dados hipotticos Importante: No pode comparar diretamente as colunas das frequncias das Tabelas 9 e 10, pois os totais de empregados so diferentes nos dois casos. Mas as colunas das porcentagens so comparveis, j que as frequncias foram reduzidas a um mesmo total. (no caso 100). Grficos para variveis qualitativas O grfico de colunas mltiplas (Figura 10) segundo a varivel qualitativa, grau de instruo das Tabelas 9 e 10, fica: 25. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 21 0 10 20 30 40 50 60 Fundamental Mdio Superior Grau de instruo porcentagem(%) Oramento Companhia Figura 10 Grau de instruo dos funcionrios da Seo de Oramento e da Companhia MB J o grfico de linhas (Figura 11) referente a varivel, grau de instruo das Tabelas 9 e 10, fica: 0 10 20 30 40 50 60 Fundamental Mdio Superior Grau de instruo porcentagem(%) Oramento Companhia Figura 11 Grau de instruo dos funcionrios da Seo de Oramento e da Companhia MB Grficos para variveis quantitativas Considerando-se, agora, a varivel quantitativa discreta a ser estudada, nmero de filhos dos empregados casados da seo de oramentos da Companhia MB (Tabela 3). A Tabela 11 apresenta a distribuio de frequncias e as porcentagens desta varivel. 26. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 22 Tabela 11: Frequncias e porcentagens dos empregados da seo de oramentos da Companhia MB, segundo o nmero de filhos No de Filhos Frequncia (ni) Porcentagem (%) 0 1 2 3 5 4 5 7 3 1 20 25 35 15 5 Total 20 100 Fonte: Tabela 3 O grfico de colunas (Figura 12) da varivel quantitativa do nmero de filhos dos empregados casados da seo de oramentos da Companhia MB da Tabela 11, representado da seguinte forma: 0 2 4 6 8 0 1 2 3 5 Nmero de filhos Frequncia Figura 12 Nmero de filhos dos empregados dos casados da seo de oramento da Companhia A construo de tabelas de frequncias para variveis contnuas necessita de certo cuidado. Por exemplo, a construo da tabela de frequncias para a varivel salrio (Tabela 3) usando o mesmo procedimento anterior, no resumir as 36 observaes num grupo menor, pois no existem observaes iguais. A soluo empregada agrupar os dados por faixas de salrio. A Tabela 12 d a distribuio de frequncias dos salrios dos 36 empregados da seo de oramentos da Companhia MB por faixa de salrios. 27. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 23 Tabela 12: Frequncias e porcentagens dos 36 empregados da seo de oramentos da Companhia MB por faixa de salrio Classe de Salrios Frequncia (ni) Porcentagem (%) 4,00 |--- 8,00 8,00 |--- 12,00 12,00 |--- 16,00 16,00 |--- 20,00 20,00 |--- 24,00 10 12 8 5 1 27,78 33,33 22,22 13,89 2,78 Total 36 100,00 Fonte: Tabela 3 Procedendo-se desse modo, ao resumir os dados referentes a uma varivel contnua, perde-se alguma informao. Por exemplo, no se sabe quais so os oito salrios da classe de 12 a 16, a no ser que se investiga a tabela original (tabela 3). Sem perda de muita preciso, pode-se supor que todos os oito salrios daquela classe fossem iguais ao ponto mdio da referida classe, isto , 14. A distribuio de frequncias importante quando existe uma grande quantidade de dados. A finalidade em agrupar os dados facilitar a visualizao e tambm os clculos deles, porm, a determinao das medidas de posio e de disperso para uma varivel quantitativa contnua, atravs de sua distribuio de frequncias, exige aproximaes, j que perde a informao dos valores observados. No h um modo nico par se construir uma tabela de frequncia por classe de valores. A escolha dos intervalos arbitrria e a familiaridade do pesquisador com os dados que lhe indicar quantas classes (intervalos) devem ser usadas. Entretanto, deve-se observar que, com um pequeno nmero de classes, perde-se informao, e com um nmero grande de classes, o objetivo de resumir os dados fica prejudicado. Estes dois extremos tm a ver, tambm, com o grau de suavidade da representao grfica dos dados. Normalmente, sugere-se o uso de 5 a 15 classes com a mesma amplitude. As classes no precisam ter amplitude constante, mas por uma questo de simplificao da construo da representao grfica, geralmente so classes com 28. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 24 intervalos constantes. Por outro lado, existem tcnicas para construo de tabelas de distribuio de frequncias para intervalos contnuos (dados agrupados). Etapas para a construo de tabelas de frequncia para dados agrupados: 1) O clculo da amplitude total dos dados a diferena entre o maior e o menor valor da srie, isto : At = no do maior no do menor 2) No existindo um critrio rgido para estabelecer o nmero ideal de intervalos, sugere-se que no se utilize menos de 5 e no mais de 15 intervalos. A experincia tem demonstrado que se pode fixar o nmero de intervalo como: ou 1 3,3.log , para uma amostra de tamanho nK n K n= = + 3) O intervalo das classes (amplitude de classes) pode ser feito dividindo-se a amplitude total pelo nmero de classes, isto : K At aC = Assim, pode construir os intervalos partindo do menor valor do conjunto e somando a amplitude calculada (aC), o que permite determinar os limites dos intervalos. Aplicao: A Tabela 13 apresenta uma distribuio de frequncia usando as tcnicas de construo dos 50 valores, em decibis, de nvel de rudo de trfego em certo cruzamento esto apresentados a seguir: Clculo: At = Xmax X min = 71,9 58,0 = 13,9 50 7k n= = 2 7 9,13 === K At aC 29. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 25 Tabela 13: Nvel de rudo, em decibis, de trfego em certo cruzamento Nvel de rudo (em db) Quantidade ( if ) Ponto mdio )( ix Freq. Acum. ( acF ) ( ii fx . ) ( ii fx .2 ) 58,0 |-- 60,0 5 59 5 295 17.405 60,0 |-- 62,0 5 61 10 305 18.605 62,0 |-- 64,0 6 63 16 378 23.814 64,0 |-- 66,0 9 65 25 585 38.025 66,0 |-- 68,0 15 67 40 1.005 67.335 68,0 |-- 70,0 5 69 45 345 23.805 70,0 |-- 72,0 5 71 50 355 25.205 Total 50 3.268 214.194 Os resultados referentes a variveis contnuas frequentemente so organizados em tabelas de distribuies de frequncias por intervalos. Trs tipos de grficos geralmente so utilizados neste caso: histograma, polgono de frequncia e ogivas. a) Histograma (Figura 13) a representao grfica de uma distribuio de frequncia por meio de retngulos justapostos, contendo as classes de valores na abscissa e as frequncias, absolutas ou relativas, nas ordenadas, centradas nos pontos mdios. 5 5 6 9 15 5 5 0 2 4 6 8 10 12 14 16 58|--60 60|--62 62|--64 64|--66 66|--68 68|--70 70|--72 Nvel de rudo (db) Quantidade Figura 13 Nvel de rudo (db) em certo cruzamento Atravs da figura, pode-se dizer que 10 nveis de rudo foram inferiores a 62 decibis, ou 5 nveis de rudo foram iguais ou superiores a 70 decibis. 30. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 26 b) Polgono de frequncias (Figura 14) a representao grfica de uma distribuio de frequncia, contendo os pontos mdios de cada classe na abscissa e as frequncias, absolutas ou relativas, nas ordenadas. 0 5 5 6 9 15 5 5 00 4 8 12 16 55 57 59 61 63 65 67 69 71 73 75 Nvel de rudo (db) Frequncia Figura 14 Nvel de rudo (db) em certo cruzamento O grfico de uma distribuio cumulativo chamado de ogiva (Figura 15). Os valores dos dados so mostrados no eixo horizontal e as frequncias cumulativas so apresentadas no eixo vertical. 0 5 10 16 25 40 45 50 0 10 20 30 40 50 60 55 57 59 61 63 65 67 69 71 73 Nvel de rudo (db) Frequncia Figura 15 Nvel de rudo (db) acumulado em certo cruzamento As frequncias nesse exemplo foram acumuladas de modo crescente. H casos, no entanto, que a acumulao das frequncias feita de modo decrescente. Este grfico pose ser usado para fornecer informaes adicionais. Por exemplo, para saber qual o nvel de rudo x tal que 30 das quantidades (frequncias) atingem menos do que x, basta procurar o ponto (x, 30) na curva. Observando as linhas pontilhadas no grfico, nota-se que a soluo aproximadamente 67 decibis. x 31. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 27 5.6 LISTA 1 EXERCCIOS 1) Ao nascer, os bebs so pesados e medidos, para se saber se esto dentro das tabelas de peso e altura esperados. Estas duas variveis so: a) qualitativas b) ambas discretas c) ambas contnuas d) contnua e discreta, respectivamente e) discreta e contnua, respectivamente 2) A distribuio abaixo indica o nmero de acidentes ocorridos em uma empresa com 70 funcionrios. (dados fictcios). No de acidentes 0 1 2 3 4 5 6 7 No de funcionrios 20 10 16 9 6 5 3 1 Determine: a) o nmero de funcionrios que no sofreram acidente; b) o nmero de funcionrios que sofreram pelo menos 4 acidentes; c) o nmero de funcionrios que sofreram 1 < acidentes 4; d) o nmero de funcionrios que sofreram no mnimo 3 e no mximo 5 acidentes; e) a porcentagem dos funcionrios que sofreram no mnimo 5 acidentes; f) a porcentagem dos funcionrios que sofreram entre 2 e 4 acidentes; g) grficos de colunas e de barras. 3) Os depsitos bancrios da Empresa AKI-SE-TRABALHA, em milhares de Reais, Fev/Mar, 2005: 3,7 1,6 2,5 3,0 3,9 1,9 3,8 1,5 1,1 1,8 1,4 2,7 2,1 3,3 3,2 2,3 2,3 2,4 0,8 3,1 1,8 1,0 2,0 2,0 2,9 3,2 1,9 1,6 2,9 2,0 1,0 2,7 3,0 1,3 1,5 4,2 2,4 2,1 1,3 2,7 2,1 2,8 1,9 a) Ordenar os dados pelo dispositivo ramo e folhas. (tambm pelo computador). b) Construa a distribuio de frequncias usando as tcnicas de construo. c) Faa o histograma, o polgono de frequncia e a ogiva do item b. 32. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 28 4) Se os salrios dos professores do Estado aumentam em 20% em dado perodo, enquanto o ndice de Preos aumenta em 10%, ento, o aumento real de salrio, durante o perodo, foi: a) de 10% b) maior que 10% c) menor que 10% d) nulo 5) Substituir por uma tabela o trecho do relatrio seguinte retirado do IBGE - Estatsticas de Registro Civil 2004. No Brasil, a porcentagem de bitos violentos para indivduos do sexo masculino entre 2000 e 2003, nas Regies; Norte, Nordeste, Sudeste, Sul e Centro Oeste so: 2000 Norte 17,4%, Nordeste 13,4%, Sudeste 17,3%, Sul 13,6% e Centro-Oeste 19,6%; 2001 Norte 17,6%, Nordeste 13,5%, Sudeste 17,4%, Sul 14,6% e Centro-Oeste 19,4%; 2002 Norte 17,5%, Nordeste 13,4%, Sudeste 17,5%, Sul 13,5% e Centro-Oeste 19,5%; 2003 Norte 15,8%, Nordeste 13,6%, Sudeste 17,0%, Sul 13,3% e Centro-Oeste: 19,7%. Construir tambm o grfico de colunas. 6) Substituir por uma tabela o trecho do relatrio seguinte retirado do IBGE - Estatsticas de Registro Civil 2004. No Brasil, a porcentagem de bitos violentos para indivduos do sexo masculino quase 4 vezes superior do sexo feminino. Baseado em dados existentes entre 2000 e 2003, a situao no Norte, Nordeste, Sudeste, Sul e Centro Oeste a seguinte: 2000 Norte: 17,4% masculino e 5,8% feminino; Nordeste: 13,4% masculino e 3,8% feminino; Sudeste: 17,3% masculino e 4,4% feminino; Sul: 13,6% masculino e 4,4% feminino e Centro- Oeste: 19,6% masculino e 6,5% feminino; 2001 Norte: 17,6% masculino e 5,9% feminino; Nordeste: 13,5% masculino e 3,8% feminino; Sudeste: 17,4% masculino e 4,3% feminino; Sul: 14,6% masculino e 5,1% feminino e Centro- Oeste: 19,4% masculino e 6,4% feminino; 2002 Norte: 17,5% masculino e 5,8% feminino; Nordeste: 13,4% masculino e 3,7% feminino; Sudeste: 17,5% masculino e 4,2% feminino; Sul: 13,5% masculino e 5,7% feminino e Centro- Oeste: 19,5% masculino e 6,3% feminino; 2003 Norte: 15,8% masculino e 4,7% feminino; Nordeste: 13,6% masculino e 3,4% feminino; Sudeste: 17,0% masculino e 4,3% feminino; Sul: 13,3% masculino e 3,6% feminino e Centro- Oeste: 19,7% masculino e 6,0% feminino. 33. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 29 7) Um professor preencheu uma tabela, enviado pelo Departamento de Educao, com os seguintes dados: Total GeralSrie e Turma N o de alunos 30/03 N o de alunos 30/11 Promovidos sem recupe reo Retidos sem Recupe rao Em recupe rao Recupe rados No Recupe rados Promo vidos Reti dos 1o B 1o C 1o E 1o F 49 49 47 47 44 42 35 40 35 42 27 33 03 00 00 06 06 00 08 01 05 00 03 00 01 00 05 01 40 42 30 33 04 00 05 07 Total 192 161 137 09 15 08 07 145 16 Pede-se: a) a taxa de evaso, por classe; b) a taxa de evaso total; c) a taxa de aprovao, por classe; d) a taxa de aprovao geral; e) a taxa de recuperao, por classe; f) a taxa de recuperao geral; g) a taxa de reprovao na recuperao geral; h) a taxa de aprovao, sem a recuperao; i) a taxa de retidos, sem a recuperao. 8) A tabela abaixo apresenta uma distribuio de frequncia das reas de 400 lotes: reas (m2 ) 300 |-- 400 |--500 |-- 600 |-- 700 |--800 |--900 |-- 1.000 |-- 1.100 |-- 1.200 No de Lotes 14 46 58 76 68 62 48 22 6 Determine: a) o limite inferior da quinta classe b) o ponto mdio da stima classe c) a amplitude do intervalo da sexta classe d) a frequncia da quarta classe e) a frequncia relativa da sexta classe f) a freq. acumulada da quinta classe g) o nmero de lotes cuja rea no atinge 700 m2 . h) o nmero de lotes igual ou maior a 800 m2 . i) a porcentagem dos lotes cuja rea no atinge 600 m2 . j) a porcentagem dos lotes cuja rea de 500 m2 , no mnimo, mas inferior a 1.000 m2 . 34. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 30 6 MEDIDAS ESTATSTICAS Alm da construo de tabelas e grficos, a anlise exploratria de dados, consiste tambm de clculos de medidas estatsticas que resumem as informaes obtidas dando uma viso global dos dados. Essas medidas, tambm conhecidas como medidas descritivas, recebem o nome genrico de estatsticas quando calculada com os dados da amostra, e de parmetros quando calculadas com dados populacionais. Dentre as medidas estatsticas as mais utilizadas so as de tendncia central (ou de posio) e as de disperso (ou de variabilidade). Destacam-se, ainda, as separatrizes, as assimetrias e os box plot. 6.1 MEDIDAS TENDNCIA CENTRAL (POSIO) As medidas de tendncia central so aquelas que produzem um valor em torno do qual os dados observados se distribuem, e que visam sintetizar em um nico nmero o conjunto de dados. As medidas de tendncia central so: mdia aritmtica, mediana e moda. 6.1.1 Mdia Uma das medidas estatsticas mais utilizadas na representao de uma distribuio de dados a mdia aritmtica, na sua forma simples, ou ponderada. No primeiro caso divide-se a soma de todos os valores da srie pelo nmero de observaes, enquanto no segundo, mais utilizado em distribuies de frequncias, os valores so ponderados pelas frequncias com que ocorrem e depois dividem-se pelo total das frequncias (este segundo caso ser visto em distribuio de frequncias): Simples: n x n xxx X i n in 121 .... = = +++ = ou simplesmente n x X i= Exemplo: Foram levantados os dimetros de 10 peas (cm) da Empresa AA Ltda. As medidas foram as seguintes: 13,1 13,5 13,9 13,3 13,7 13,1 13,1 13,7 13,2 13,5. Portanto, dimetro mdio 13,41 cm. 35. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 31 A mdia aritmtica possui algumas propriedades desejveis e no desejveis e so as seguintes: i. Unicidade. Para um conjunto de dados existe somente uma mdia aritmtica. ii. Simplicidade. A mdia aritmtica fcil de ser interpretada e de ser calculada. iii. Todos os valores entram para o clculo da mdia aritmtica, porm, os valores extremos afetam no valor calculado, e em alguns casos pode haver uma grande distoro, tornando, neste caso, a mdia aritmtica indesejvel como medida de tendncia central. Como a mdia influenciada por valores extremos da distribuio, ela s deve ser utilizada em distribuies simtricas, ou levemente assimtricas, e em distribuies no heterogneas. Sua aplicao nos dois casos acima precria e de pouca utilidade prtica, pois perde sentido prtico e capacidade de representar a distribuio que a originou. Tambm nos casos de srie em que o fenmeno tem uma evoluo no linear, como as sries de valores financeiros no tempo, de acordo com uma capitalizao composta, a mdia mais recomendada seria a geomtrica. Finalmente, no se recomenda aplicao da mdia aritmtica nas sries cujos valores representem relaes recprocas, como por exemplo, velocidades, expressas atravs da relao entre o espao e o tempo. Neste ltimo caso recomenda-se a utilizao da mdia harmnica. 6.1.2 Mediana A mediana o valor que ocupa a posio central de um conjunto de valores ordenados, ou seja, medida divide a distribuio de valores em duas partes iguais: 50% acima e 50% abaixo do seu valor. Quando o conjunto possui quantidade par de valores, h dois valores centrais, neste caso, a mediana o valor mdio dos dois valores centrais do conjunto de dados ordenados. Exemplo: Com os dados do exemplo anterior, calcular a mediana. 13,1 13,1 13,1 13,2 13,3 13,5 13,5 13,7 13,7 13,8 Nesta srie tem-se nmero par de observaes logo, tm-se dois valores centrais e so 13,3 e 13,5. Logo, a mediana 13,4 cm. 36. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 32 Suponha, neste mesmo exemplo que se acrescente o valor 14,0 tornando um rol de nmero mpar, 13,1 13,1 13,1 13,2 13,3 13,5 13,5 13,7 13,7 13,8 14,0 Neste caso, a srie possui apenas um valor central logo, a mediana igual a 13,5 cm. Propriedades da mediana i. Unicidade. Existe somente uma mediana para um conjunto de dados. ii. Simplicidade. A mediana fcil de ser calculada. iii. A mediana no to afetada pelos valores extremos como a mdia aritmtica, por isso, se diz que a mediana uma medida robusta. Conceito de resistncia de uma medida Diz-se que uma medida de centralidade ou de disperso resistente quando ela pouco afetada pela presena de observaes discrepantes. Entre as medidas de centralidade, a mdia bem menos resistente que a mediana. Por outro lado, entre as medidas de disperso, o desvio padro bem menos resistente do que o desvio inter-quartlico. 6.1.3 Moda Moda de um conjunto de valores o valor que ocorre com maior frequncia, sua aplicao no depende do nvel de mensurao da varivel, sendo aplicada tanto a fenmenos qualitativos quanto quantitativos. Se todos os valores forem diferentes no h moda, por outro lado, um conjunto pode ter mais do que uma moda: bimodal, trimodal ou multimodal. Exemplo: Para os dados dos exemplos anteriores a moda igual a 13,1 cm. A moda pode ser utilizada para descrever dados qualitativos. Por exemplo, suponha que os pacientes vistos em uma clnica de sade mental durante um determinado ano receberam um dos seguintes diagnsticos: retardo mental, psicose, 37. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 33 neurose e mudana de personalidade. O diagnstico que ocorre com maior frequncia no grupo de pacientes pode ser chamado de diagnstico modal. 6.2 MEDIDAS DE DISPERSO A disperso de conjunto de dados a variabilidade que os dados apresentam entre si. Se todos os valores forem iguais, no h disperso; se os dados no so iguais, existe disperso entre os dados. A disperso pequena quando os valores so prximos uns dos outros. Se os valores so muito diferentes entre si, a disperso grande, assim, as medidas de disperso apresentam o grau de agregao dos dados. Veja como exemplo a Tabela 14. Tabela 14: Valores das sries A, B e C Repetio Srie A Srie B Srie C 1 45 41 25 2 45 42 30 3 45 43 35 4 45 44 40 5 45 45 45 6 45 46 50 7 45 47 55 8 45 48 60 9 45 49 65 Mdia 45 45 45 Mediana 45 45 45 Nota-se que a srie A no apresenta disperso, j os valores da srie B apresentam certa disperso em torno da mdia 45, e os valores da srie C apresentam uma disperso em torno da mdia e maior do que a da srie B. As medidas descritivas mais comuns para quantificar a disperso so: amplitude, desvio mdio, varincia, desvio-padro e coeficiente de variao. 6.2.1 Amplitude Uma maneira de medir a variao em um conjunto de valores calcular a amplitude. A amplitude a diferena entre o maior e o menor valor de um conjunto de observaes. At = no maior no menor 38. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 34 Exemplo: Determinar amplitude total da srie: A, B e C. A utilidade da amplitude total como medida de disperso muito limitada, pois depende apenas dos valores extremos. A maior vantagem em us-la a simplicidade do seu clculo. 6.2.2 Desvio Mdio Uma vez que se deseja medir a disperso ou grau de concentrao dos valores em torno da mdia, nada mais interessante do que analisar o comportamento dos desvios de cada valor em relao mdia, isto : )( xxd ii = Porm, para qualquer conjunto de dados, a soma de todos os desvios igual a zero, isto : 0)( == xxd ii Neste caso, considera-se o mdulo de cada desvio xxi , evitando com isso que 0= id . Dessa forma, o desvio de um conjunto de n valores dado por: n xx DM n i i= = 1 Exemplo: Determinar desvio mdio da srie B. 6.2.3 Varincia Embora o desvio mdio seja uma medida melhor do que a Amplitude, ainda no uma medida ideal, pois no discrimina pequenos dos grandes afastamentos em relao mdia. Se para eliminar o problema dos sinais, ao invs de considerarmos os valores absolutos elevarmos os afastamentos ao quadrado, estaremos no apenas eliminando o problema dos sinais como tambm potencializando os afastamentos, enfatizando os grandes desvios em relao s 39. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 35 observaes mais prximas da mdia. Como resultado define a medida de variao, denominada de varincia, como: 1 )( 1 2 2 = = n XX s n i i ou 1 )( 1 1 2 2 2 = = = n n X X s n i n i i i Exemplo: Determinar as varincias das sries A, B e C. Esta estatstica isolada tem difcil interpretao por apresentar unidade de medida igual ao quadrado da unidade de medida dos dados. 6.2.4 Desvio Padro Devido dificuldade de interpretao da varincia, por ter sua unidade de medida ao quadrado, na prtica usa-se o desvio padro que a raiz quadrada da varincia, ou seja: 2 ss = Exemplo: Determinar os desvios-padro das sries A, B e C. 6.2.5 Erro Padro Diferentes amostras retiradas de uma mesma populao podem apresentar mdias diferentes. A variao existente entre este conjunto de mdias estimada atravs do erro padro, que corresponde ao desvio padro das mdias, sendo representado por x s e calculado pela frmula: x s s n = 6.2.6 Coeficiente de Variao Uma pergunta que pode surgir se um desvio-padro grande ou pequeno; questo relevante, por exemplo, na avaliao da preciso de mtodos. Um desvio- padro pode ser considerado grande ou pequeno dependendo da ordem de grandeza da varivel. Por exemplo, um desvio-padro de 10 pode ser insignificante 40. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 36 se a observao tpica for 10.000, mas ser um valor bastante significativo para um conjunto de dados cuja observao tpica 100. O coeficiente de variao uma medida relativa de disperso, utilizada para comparar, em termos relativos, o grau de concentrao em torno da mdia. representada por: X s CV = O CV uma medida adimensional, isto , sem unidade de medida, podendo ser expressa em termos decimais ou percentuais (multiplicando por 100). Dizemos que uma distribuio homognea quando a variabilidade relativa expressa pelo coeficiente de variao, no ultrapassar a 20% . Obviamente a distribuio no deixa de ser homognea para valores maiores do que 20% mas vai perdendo o grau de homogeneidade na medida em que o coeficiente aumenta. Exemplo: Determinar o erro padro e o coeficiente de variao das sries A, B e C. Esta medida pode ser bastante til na comparao de duas variveis ou dois grupos que a princpio no so comparveis (por exemplo, com ordens de grandeza das variveis diferentes). Exemplo: Comparao dos depsitos bancrios de duas Empresas (milhares R$). A Empresa X depositou, em mdia mensal, 2,0 (milhares R$) e um desvio- padro de 0,5 (milhares R$). A Empresa Y depositou mdia mensal, 2,3 (milhares R$) e um desvio-padro de 0,8 (milhares R$). A Empresa Y apresenta no s uma mdia mensal mais alta como tambm maior variabilidade em torno da mdia. O coeficiente de variao capta esta diferena. Neste caso, o coeficiente de variao 25% para a Empresa X e 34,8% para a Empresa Y. Alguns especialistas consideram: Baixa disperso: CV 15% Mdia disperso: 15% < CV < 30% Alta disperso: CV 30%. 41. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 37 6.3 SEPARATRIZES: QUARTIS, DECIS E PERCENTIS Os quartis, decis e percentis so muito similares mediana, uma vez que tambm subdividem a distribuio de medidas de acordo com a proporo das frequncias observadas. Os quartis dividem um conjunto de dados em quatro partes iguais, isto , 25% por parte. 0% 25% 50% 75% 100% Q1 Q2 Q3 onde: Q1 = 10 quartil, deixa 25% dos elementos. Q2 = 20 quartil, deixa 50% dos elementos (coincide com a mediana). Q3 = 30 quartil, deixa 75% dos elementos. Os decis dividem um conjunto de dados em dez partes iguais, isto , 10% por parte. 0 10% 20% . . . 90% 100% D1 D2 . . . D9 onde: D1 = 10 decil, deixa 10% dos elementos. D2 = 20 decil, deixa 20% dos elementos. ............................................................. D9 = 90 decil, deixa 90% dos elementos. J, os percentis permitem dividir o conjunto de dados em 100 partes, sendo e 1% em cada parte. 0% 1% 2% . . . 50% . . . 98% 99% 100% P1 P2 . . . P50 . . . P98 P99 onde: P1 = 10 percentil, deixa 1% dos elementos. P2 = 20 percentil, deixa 2% dos elementos. ............................................................. P99 = 990 percentil, deixa 99% dos elementos. 42. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 38 A mediana o percentil de ordem 50. Pois, a mediana um valor que divide o conjunto de dados em duas partes iguais, ou seja, 50% dos dados ficam abaixo e 50% acima. Os percentis de ordem 25, 50 e 75 so os respectivamente primeiro, segundo e terceiro quartis, porque dividem a distribuio em 1/4, 2/4 = 1/2 e 3/4. Logo o Q2 outra notao para a mediana. Enquanto que os decis D1, D2,,...,D9 so os valores que dividem o conjunto em dez partes iguais, que coincidem com os percentis P10, P20,,...,P90 , que tambm dividem os dados em grupos com 10% em cada um. Portanto, os quartis e os decis esto inseridos nos percentis. Para determinar o valor correspondente a um certo quartil, decil ou percentil, deve seguir a seguinte sequncia: Ordenar os dados do menor para o maior. Localizar a posio (L), dado por: 100 .nk L = onde: k o percentual desejado e n o nmero de valores do conjunto de dados. Se o valor de L for decimal, arredonda o seu valor para o maior inteiro mais prximo, e quando o valor de L for inteiro, deve-se somar o valor correspondente a L ao valor de L+1 e dividir o resultado por 2. Considere os depsitos bancrios da Empresa AKI-SE- TRABALHA, em milhares de Reais, Fev/Mar, 2005, fica: 0,8 1,0 1,0 1,1 1,3 1,3 1,4 1,5 1,5 1,6 1,6 1,8 1,8 1,9 1,9 1,9 2,0 2,0 2,0 2,1 2,1 2,1 2,3 2,3 2,4 2,4 2,5 2,7 2,7 2,7 2,8 2,9 2,9 3,0 3,0 3,1 3,2 3,2 3,3 3,7 3,8 3,9 4,2 Por exemplo: O percentil 25 que corresponde ao primeiro quartil, que deixa 25% dos dados abaixo e 75% dos dados acima dele, usa-se: 43. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 39 O percentil de ordem 25 (P25) que deixa 25% dos dados abaixo : 75,10 100 4325 == x L (11o , aposio que ocupa no conjunto). Ento, P25 = 1,6 (que igual ao primeiro quartil, isto Q1 = 62,5). Isto implica que 25% dos depsitos bancrios da empresa so iguais ou abaixo de 1,6 (milhares de reais). 6.4 ASSIMETRIA Embora as medias de posio e de variao possibilitam descrever estatisticamente um conjunto de dados, necessrio verificar como est se comportando de forma geral essa distribuio, o que possvel atravs da distribuio de frequncia e de histograma. Sendo que as distribuies possam tomar praticamente qualquer forma, a maioria que se encontra na prtica discreta por alguns tipos padro. de suma importncia que a distribuio seja em forma de sino, ou seja, uma distribuio simtrica, pois metade da esquerda do seu histograma aproximadamente a imagem-espelho da metade direita. As distribuies consideradas assimtricas apresentam uma cauda em uma das extremidades, quando est direita, positivamente assimtrica, e se est esquerda, negativamente assimtrica. As distribuies consideradas assimtricas apresentam uma cauda em uma das extremidades, quando est direita, positivamente assimtrica, e se est esquerda, negativamente assimtrica. Para verificar o tipo e o grau da assimetria da distribuio utiliza-se a medida estatstica adimensional denominada de Coeficiente de Assimetria de Pearson, definido como: s Mdx As )(3 = Para uma distribuio perfeitamente simtrica, o valor de As zero, de modo geral, os valores As situam-se entre 3 e 3. Se, 0,15 < As < 1, a assimetria considerada moderada; se As > 1, forte. 44. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 40 Em uma distribuio simtrica, a mdia ( x ), a mediana (Md) e a moda (Mo) so iguais, isto , x = Md = Mo. Em uma distribuio assimtrica positiva ou assimtrica direita, a mdia maior que a mediana, e esta, por sua vez, maior que a moda ( x > Md > Mo), ao passo que, em uma distribuio assimtrica negativa ou assimtrica esquerda, a mdia menor que a mediana, e esta, menor que a moda ( x < Md < Mo). A Figura 16 apresenta um esquema dessas distribuies: Figura 16: grficos simtrico e assimtrico direita e esquerda 6.5 CURTOSE Curtose o grau de achatamento de uma distribuio em relao a uma distribuio padro, denominada de curva normal. A curva normal, que nossa base referencial, recebe o nome de mesocrtica. J, uma distribuio que apresentar uma curva de frequncia mais achatada do que a normal denominada de leptocrtica, e a que apresentar uma curva de frequncia mais aberta, recebe o nome de platicrtica. A Figura 17 apresenta um esquema dessas curvas. Figura 17: Classificao das curvas em relao a uma distribuio padro MoMdx == xMdMo mediana > moda. 6.7.4 Separatrizes: Quartis, Decis e Percentis a1) Quartis Os quartis dividem um conjunto de dados em quatro partes iguais. A frmula para o clculo dos quartis de uma distribuio de frequncia dada por: C i ac ii a fQ F ni lQ 1 4 . += 52. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 48 10 ) Calcula-se 4 . ni , onde i = 1, 2 e 3. 20 ) Identifica-se a classe Qi pela Fac. a2) Decis Os decis dividem um conjunto de dados em dez partes iguais. A frmula para o clculo dos decis de uma distribuio de frequncia dada por: C i ac ii a fD F ni lD 1 10 . += 10 ) Calcula-se 10 . ni , onde i = 1, 2, . . . , 9. 20 ) Identifica-se a classe Di pela Fac. a3) Percentis Os percentis dividem um conjunto de dados em cem partes iguais. A frmula para o clculo dos percentis de uma distribuio de frequncia dada por: C i ac ii a fP F ni lP 1 100 . += 10 ) Calcula-se 100 . ni , onde i = 1, 2, . . . , 99. 20 ) Identifica-se a classe Pi pela Fac. Exemplo: Calcular o percentil de ordem 50 0,662 9 1625 6450 = +== Mdp Como j foi dito, os quartis, decis e percentis so muito similares mediana, uma vez que tambm subdividem a distribuio de medidas de acordo com a proporo das frequncias observadas. A mediana o percentil de ordem 50, j que a mediana um valor que divide o conjunto de dados em duas partes iguais, ou seja, 50% dos dados ficam abaixo e 50% acima. Os percentis de ordem 25, 50 e 75 so chamados, respectivamente primeiro, segundo e terceiro quartis porque dividem a distribuio em 1/4, 2/4 e 3/4. So 53. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 49 representados por Q1, Q2 e Q3 e, evidentemente, Q2 outra notao para a mediana. Enquanto que os decis D1, D2,,...,D9 so os valores que dividem o conjunto em dez partes iguais, que coincidem com os percentis P10, P20,,...,P90 , que tambm dividem os dados em grupos com 10% em cada um. Assim, a frmula do percentil sintetiza as expresses da mediana, dos quartis e dos decis. 6.7.5 Clculo das Separatrizes Utilizando Propores Calcular a mediana utilizando propores com os dados da Tabela 15. Neste caso constri-se o histograma com as frequncias relativas (Figura 20). 10 10 12 18 30 10 10 0 4 8 12 16 20 24 28 32 58|--60 60|--62 62|--64 64|--66 66|--68 68|--70 70|--72 Nvel de rudo (db) Frequncia(%) 5% Q1 Figura 20: O nvel de rudo de certo cruzamento 83,62 12 6264 5 621 ===> = Q Q Exemplo: A Tabela 16 apresenta as frequncias relativas de ocorrncias de faixas de altura (em cm) para uma amostra de 100 crianas de 12 anos de idade. Tabela 16: Altura de 100 crianas Faixas Frequncia relativa 100 | -- 110 110 | -- 120 120 | -- 130 130 | -- 140 140 | -- 150 0,10 0,25 0,30 0,25 0,10 a) Construa o histograma b) Calcule a mediana c) Desejando-se separar as 15 crianas mais altas, qual seria o ponto de corte? 54. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 50 6.7.6 Desvio Mdio O desvio mdio para dados agrupados, isto , de uma distribuio de frequncias calculado da seguinte forma: n fxx DM n i ii= = 1 e n fx x ii= onde: xi so os pontos mdios das classes e os fi as respectivas frequncias. 6.7.7 Varincia A expresso para o clculo da varincia amostral de uma distribuio de frequncias : 1 )( 1 1 2 2 2 = = = n n fx fx s n i n i ii ii Obter a varincia referenta a tabela 20. 2 2 (3268) 214194 50 12,19 50 1 s = = 6.7.8 Desvio Padro O desvio padro obtido extraindo a raiz quadrada da varincia, isto : 49,394,12 ====>= sss 6.7.9 Erro Padro 49,0 50 49,3 === n s sx 55. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 51 6.8 LISTA 2 - EXERCCIOS 1) Considere os seguintes dados amostrais (conjunto de peas, em gramas): 100 105 110 102 103 107 105 90 80 a) Pede-se: a mdia, a mediana, a moda, o desvio mdio, a varincia, o desvio padro, o erro padro, e o coeficiente de variao. b) Os dados possuem pequena disperso? Por qu? c) Somar 100 de cada observao para obter uma amostra com valores transformados e calcule a mdia, a varincia. (Compare essa varincia com os dados originais). 2) Os coeficientes de liquidez obtidos da anlise de balano em 60 indstrias so apresentados em forma ordenada abaixo. 4,44 4,47 4,50 4,54 4,61 4,64 4,67 4,69 4,70 4,75 4,76 4,79 4,81 4,84 4,86 4,87 4,90 4,92 4,95 4,97 4,97 5,00 5,01 5,03 5,05 5,08 5,08 5,09 5,11 5,11 5,12 5,14 5,15 5,17 5,18 5,20 5,22 5,23 5,25 5,26 5,28 5,30 5,32 5,33 5,34 5,36 5,39 5,40 5,41 5,43 5,45 5,47 5,50 5,55 5,59 5,63 5,68 5,72 5,80 5,85 Pede-se: a) a mdia; b) a mediana; c) o primeiro quartil; d) o quinto decil; e) o vigsimo quinto percentil; f) o desvio-padro (usar calculadora); h) o coeficiente de variao; i) uma distribuio simtrica ou assimtrica (positiva ou negativa)? Justifique. j) o coeficiente de curtose. Explicar o tipo da curva. l) explicar os resultados dos quartis, decis e percentis; 3) Em certo ano, alm de outros remdios uma farmcia vendeu quatro tipos relevantes. Vendeu 450 remdios da marca X por R$ 120,00 cada um, 350 da marca Y por R$ 130,00 cada um, 220 da marca Z por R$ 145,00 cada um e 180 da marca W por R$ 95,00 cada um de seus. Qual o valor mdio desses quatro tipos de remdios vendidos? 4) Em um exame de colesterol, o grau mdio de um grupo A de 150 pessoas foi de 214 mg/dl e um desvio-padro de 22 mg/dl. Em um outro grupo B, entretanto, grau mdio de 150 pessoas foi de 201 mg/dl e um desvio-padro de 21 mg/dl. Em que grupo foi maior a disperso? 56. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 52 5) Cronometrando o tempo para vrias provas de uma gincana automobilstica, encontrou- se: Equipe 1: Equipe 2: 8 provas Tempo: 10 15 20 25 Tempo mdio: 15 segundos No de provas: 3 2 3 2 Varincia 22 segundos2 Pede-se: a) Qual o coeficiente de variao relativo equipe 1? b) Qual o tempo mdio e o desvio padro da equipe 2? c) Qual a equipe que apresentou resultados mais disperso? Por qu? 6) Vinte e uma pacientes de uma clnica mdica tiveram seu nvel de potssio no plasma medido. Os resultados foram os seguintes: Nvel Frequncia 2,35 |-- 2,55 2,55 |-- 2,75 2,75 |-- 2,95 2,95 |-- 3,15 3,15 |-- 3,35 3,35 |-- 3,55 1 3 2 4 5 6 a) Determine os quartis: 1o ., 2o . e 3o . pela frmula de dados agrupados. b) Construa o histograma c) Determine os quartis: 1o ., 2o . e 3o . utilizando propores d) Qual a porcentagem de valores que esto acima do nvel 3? 7) As vendas anuais, em milhes de dlares, para 21 empresas farmacuticas so apresentadas a seguir: 8.408 1.374 1.872 8.879 2.459 11.413 608 14.138 6.452 1.850 2.818 1.356 10.498 7.478 4.019 4.341 739 2.127 3.653 5.794 8.305 a) Obter os cinco itens (nmeros) e os limites inferior e superior. b) Parece haver pontos fora da curva? Qual(is)? c) As vendas Johnson & Johnson so as maiores na lista, com US$ 14.138 milhes. Suponha que um erro de lanamento tenha sido cometido e que as vendas tenham sido registradas como US$ 41.138 milhes. Neste caso, este valor um ponto solto (extremo)? Por qu? 57. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 53 7 TRANSFORMAES DE VARIVEIS Antes de qualquer anlise fundamental que se proceda a um exame dos dados relativos a uma varivel, seja ela qualitativa ou quantitativa. Este procedimento importante como um primeiro contato do analista com a distribuio, alm de servir, tambm, para avaliar a existncia de possveis valores atpicos na distribuio. Se a varivel for qualitativa, a concentrao de respostas em torno de umas poucas categorias, a existncia de clulas esparsas, com baixa frequncia, ou at mesmo o aparecimento de respostas no esperadas, pode indicar algum problema no levantamento dos dados (questo mal formulada ou resposta invlida). No caso da varivel ser quantitativa, valores muito afastados da distribuio, ou at mesmo distribuies com assimetria acentuada pode indicar a existncia de outliers ou a necessidade de se proceder a uma transformao na escala da varivel. A escolha e a mudana de escalas so artifcios teis para melhor compreenso de fenmenos. Considere as notas de uma turma de dez alunos em trs exames, conforme a Tabela 17: Tabela 17: Notas de uma turma de 10 alunos em trs exames ALUNOS EXAME 1 2 3 4 5 6 7 8 9 10 Portugus Matemtica Cincias 36 35 45 38 40 42 44 46 34 40 22 23 17 20 21 19 21 17 22 18 10 11 8 9 10 10 11 9 12 10 Fonte: Dados hipotticos Sendo a mdia e a disperso de cada exame: Portugus mdia = 40 e desvio = 4 Matemtica mdia = 20 e desvio = 2 Cincias mdia = 10 e desvio = 1 Em primeiro lugar, note que as notas de cada exame esto expressas em escalas diferentes. Como consequncia, nada se pode comparar o desempenho dos alunos nos trs exames. Tampouco pode comparar os desempenhos entre os alunos, o que impede um ordenamento baseado em suas performances. 58. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 54 7.1 MUDANA DE ORIGEM Por uma questo de convenincia, pode-se proceder a uma transformao que separe os escores observados de uma distribuio a partir do seu valor mdio. Nesses casos, valores acima da mdia sero positivos, enquanto aqueles que estiverem abaixo dela sero negativos. A mdia, como valor central de uma distribuio, passa a ser, desse modo, a origem da nova escala dos escores. No exemplo dos escores nos trs exames, essa transformao permite a avaliao dos alunos com respeito ao desempenho individual tendo a mdia como base. Na prtica, essa transformao est simplesmente movendo toda a distribuio para a direita ou esquerda, dependendo do sinal da mdia, sem alterar a unidade das medidas, expressa pela mesma unidade de medida da varivel. A mudana da origem, de zero para a mdia expressa por: Xi - , para i = 1, 2, ... , n. O valor nulo na nova escala verifica-se para os valores da distribuio, na escala primitiva, iguais mdia. A Tabela 18 apresenta os escores dos alunos (do exemplo acima) na nova escala. Os valores nessa tabela so expressos em afastamentos, em pontos, da mdia. Tabela 18: Valores expressos em relao aos afastamentos, em pontos, da mdia ALUNOS EXAME 1 2 3 4 5 6 7 8 9 10 Portugus Matemtica Cincias -4 -5 5 -2 0 2 4 6 -6 0 2 3 -3 0 1 -1 1 -3 2 -2 0 1 -2 -1 0 0 1 -1 2 0 A tabela 18 permite separar, para cada exame, os alunos que tiveram desempenho superior ou inferior s respectivas mdias. Como afastamentos em torno da mdia, a soma dos novos escores igual a zero. As unidades no foram alteradas, o que no permite, ainda, comparar os desempenhos entre os exames. Por exemplo, no pode avaliar se o aluno 3 teve um desempenho mais fraco em Matemtica ou Cincias. Para isso ser necessrio colocar as trs distribuies numa unidade comum. 59. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 55 7.2 MUDANA DA UNIDADE A transformao acima desloca as distribuies ao longo do eixo das escalas das variveis, centrando as distribuies num ponto comum (zero). No obstante, essa transformao preserva as suas unidades originais. Ao dividir os escores de cada distribuio pelos respectivos desvios padres, esto unificando tambm as novas unidades das variveis. A nova unidade de cada distribuio fica, ento, expressa em termos das unidades de desvios de cada distribuio. Desse modo, um aluno que tenha obtido 44 pontos num exame cuja mdia tenha sido de 40 pontos e desvio padro de 4 pontos, passa a ter 1 unidade de desvio (no mais pontos) acima da mdia na nova escala. A nova transformao pode ser expressa atravs de: = i i X Z . Tanto a mudana da origem como a da unidade pode ser feita separadamente, mas quando feitas simultaneamente unifica as escalas, que tero mdia 0 e desvio padro 1. Por isso, essa transformao denominada padronizao dos escores. Os escores padronizados para as distribuies das notas dos alunos nos trs exames do exemplo acima so apresentados na Tabela 19. Tabela 19: Escores padronizados das notas dos alunos nos trs exames ALUNOS EXAME 1 2 3 4 5 6 7 8 9 10 Portugus Matemtica Cincias -1 -1,25 1,25 -0,5 0 0,5 1 1,5 -1,5 0 1 1,5 -1,5 0 0,5 -0,5 0,5 -1,5 1 -1 0 1 -2 -1 0 0 1 -1 2 0 Agora sim, pode analisar os escores dos alunos em termos comparativos. Note, por exemplo, que embora o aluno 3 tivesse ficado com 3 pontos abaixo da mdia em Matemtica e 2 pontos abaixo da mdia em Cincias, o seu desempenho pior foi no exame de Cincias, em que ficou 2 unidades de desvio abaixo da mdia, tendo sido o aluno de pior performance nessa disciplina, dentre os dez alunos que se submeteram ao exame. Isto significa que anlises comparativas devem considerar parmetros relativos e no absolutos. 60. Anlise Exploratria de Dados - Prof. Dr. Waldir Medri 56 8 ANLISE BIDIMENSIONAL 8.1 INTRODUO At agora foi visto como organizar e resumir informaes pertinentes a uma nica varivel de um conjunto de dados, mas freqentemente est interessado em analisar o comportamento conjunto de duas ou mais variveis aleatrias. Os dados aparecem na forma de uma matriz, usualmente com as colunas indicando as variveis e as linhas os indivduos (ou elementos). A Tabela 3 (dados hipotticos da Companhia MB) apresenta uma matriz com 6 variveis e 36 indivduos. O objetivo principal das anlises nessa situao explorar relaes (similaridades) entre as colunas, ou algumas vezes entre as linhas. A distribuio conjunta das frequncias ser um instrumento poderoso para compreenso do comportamento dos dados. Inicialmente deter-se- no caso de duas variveis ou dois conjuntos de dados e, na sequncia, no caso de trs variveis. Em algumas situaes, pode ter dois ou mais conjuntos de dados provenientes da observao da mesma varivel. Por exemplo, pode-se estar interessado em comparar os salrios dos casados e dos solteiros. Na Tabela 3 tm-se sete variveis: estado civil, grau de instruo, nmero de filhos, salrio, idade e procedncia. Quando considera duas variveis ou dois conjuntos de dados, pode ter trs situaes: as duas variveis so qualitativas; as duas variveis so quantitativas; e uma varivel qualitativa e a outra qualitativa. As tcnicas de anlise de dados nas trs situaes so diferentes. Quando as variveis so qualitativas, os dados so resumidos em tabelas de dupla entrada (ou de contingncia), onde aparecero as frequncias absolutas ou contagens de indivduos que pertencem simultaneamente a categorias de uma e outra varivel; quando as duas variveis so quantitativas, as observaes so provenientes de mensuraes e quando se tem uma varivel qualitativa e outra quantitativa, em geral analisa-se o que acontece com a varivel quantitativa quando os dados so categorizados de acordo com os diversos atributos da varivel qualitativa.