AnáliseExploratóriadeDados

28
Cap´ ıtulo 1 An´ alise Explorat´oria de Dados 1.1 Introdu¸ ao A Estat´ ıstica lida com situa¸c˜ oes nas quais a ocorrˆ encia de algum evento n˜ao pode ser prevista com exatid˜ao. Essas situa¸ c˜oes envolvem fenˆ omenos ou expe- rimentos que, quando repetidos sob as mesmas condi¸c˜ oes, apresentam varia¸c˜ oes em seus resultados. No mundo real, a maioria dos problemas a serem estudados ao desse tipo e, ainda assim, temos interesse em compreender os fatores que os governam e, ` as vezes, criar modelos capazes de descrever seus desenvolvimentos e fazer previs˜ oes para resultados futuros. Uma das maneiras de abordar essas quest˜ oes ´ e coletar dados sobre caracter´ ısticas relevantes ao problema em estudo, dados esses que precisam ser analisados de forma adequada, para que possamos extrair as informa¸c˜ oes que levem a um conhecimento, pelo menos parcial, de tal problema. No passado, tratar um grande n´ umero de dados era uma tarefa custosa e cansativa, que exigia horas de trabalho. Hoje, uma grande quantidade de in- forma¸c˜ oes pode ser analisada rapidamente com o uso de um computador pessoal e programas adequados. Dessa forma, o computador contribui, positivamente, na difus˜ao e uso de m´ etodos estat´ ısticos. Por outro lado, o computador possibi- lita uma automa¸c˜ ao que pode levar um indiv´ ıduo sem preparo espec´ ıfico a utilizar ecnicas inadequadas para resolver um dado problema. Assim ´ e necess´ ario a com- preens˜ ao dos conceitos b´ asicos da Estat´ ıstica, bem como as suposi¸ c˜oesnecess´ arias 1

description

capitulo 1

Transcript of AnáliseExploratóriadeDados

  • Captulo 1

    Analise Exploratoria de Dados

    1.1 Introducao

    A Estatstica lida com situacoes nas quais a ocorrencia de algum evento nao

    pode ser prevista com exatidao. Essas situacoes envolvem fenomenos ou expe-

    rimentos que, quando repetidos sob as mesmas condicoes, apresentam variacoes

    em seus resultados. No mundo real, a maioria dos problemas a serem estudados

    sao desse tipo e, ainda assim, temos interesse em compreender os fatores que os

    governam e, a`s vezes, criar modelos capazes de descrever seus desenvolvimentos

    e fazer previsoes para resultados futuros. Uma das maneiras de abordar essas

    questoes e coletar dados sobre caractersticas relevantes ao problema em estudo,

    dados esses que precisam ser analisados de forma adequada, para que possamos

    extrair as informacoes que levem a um conhecimento, pelo menos parcial, de tal

    problema.

    No passado, tratar um grande numero de dados era uma tarefa custosa

    e cansativa, que exigia horas de trabalho. Hoje, uma grande quantidade de in-

    formacoes pode ser analisada rapidamente com o uso de um computador pessoal

    e programas adequados. Dessa forma, o computador contribui, positivamente,

    na difusao e uso de metodos estatsticos. Por outro lado, o computador possibi-

    lita uma automacao que pode levar um indivduo sem preparo especfico a utilizar

    tecnicas inadequadas para resolver um dado problema. Assim e necessario a com-

    preensao dos conceitos basicos da Estatstica, bem como as suposicoes necessarias

    1

  • para o seu uso de forma criteriosa.

    A Estatstica e muito mais do que a simples construcao de graficos e o

    calculo de medias. As informacoes numericas sao obtidas com a finalidade de acu-

    mular informacao para a tomada de decisao. Entao, a estatstica pode ser vista

    como um conjunto de tecnicas que permite, de forma sistematica, organizar, resu-

    mir, descrever, analisar e interpretar dados oriundos de estudos ou experimentos,

    e deles extrair conclusoes.

    De modo geral podemos dividir a Estatstica em tres areas Estatstica Descri-

    tiva, Probabilidade e Inferencia Estatstica.

    Estatstica Descritiva: e o estudo dos procedimentos que, em geral, cons-tituem a etapa inicial da analise e tem por finalidade resumir a informacao

    embutida nos dados, empregando para isso a elaboracao de graficos e ta-

    belas, a determinacao de medidas estatsticas, entre outros. Em outras

    palavras, a estatstica descritiva pode ser definida como um conjunto de

    tecnicas destinadas a descrever e resumir os dados a fim de que possamos

    tirar conclusoes a respeito de caractersticas de interesse, isto e, obter in-

    formacoes que indiquem possveis modelos a serem utilizados numa fase

    final que seria a chamada inferencia estatstica.

    Probabilidade: compreende o estudo da teoria matematica utilizada paraabordar a incerteza oriunda de fenomenos de carater aleatorio.

    Inferencia Estatstica: e o estudo de tecnicas que permitem a utilizacaode dados oriundos de uma amostra para generalizacoes sobre a populacao.

    Tem como objetivo a coleta, reducao, analise e modelagem dos dados, a

    partir do que, finalmente, faz-se a inferencia para uma populacao da qual

    os dados (a amostra) foram obtidos. Um aspecto importante da modelagem

    dos dados e fazer previsoes, a partir das quais se podem tomar decisoes.

    Deve ser notado que, se tivessemos acesso a todos os elementos que desejamos

    estudar, nao seria necessario uso das tecnicas de inferencia estatstica. Entre-

    tanto, elas sao indispensaveis quando existe a impossibilidade de acesso a todo o

    2

  • conjunto de dados, por razoes de natureza economica, etica ou fsica.

    Na terminologia estatstica, o grande conjunto de dados que contem

    caracterstica de interesse recebe o nome de POPULACAO

    Definicao 1.1 (Populacao(N)), e o conjunto de todos os elementos relativos

    a um determinado fenomeno que possuem pelo menos uma caracterstica em co-

    mum. Por exemplo, a populacao pode estar associada a todos os habitantes da

    cidade de Manaus, a todas as lampadas produzidas por uma fabrica em certo

    perodo de tempo, ou todo o sangue no corpo de uma pessoa, etc...

    Algumas vezes podemos ter acesso a toda a populacao para estudarmos

    caractersticas de interesse, mas em muitas situacoes tal procedimento nao pode

    ser realizado, por razoes economicas, sociais ou fsicas, como por exemplo, na

    analise do sangue de uma pessoa ou em um experimento para determinar o tempo

    de vida (funcionamento) das lampadas produzidas por uma industria, nao pode-

    mos observar toda a populacao de interesse. Tendo em vista as dificuldades de

    varias naturezas para se observar todos os elementos da populacao, tomamos al-

    guns deles para formar um grupo a ser estudado. Este subconjunto da populacao

    e denominado AMOSTRA.

    Definicao 1.2 (Amostra(n)), pode ser definida como um subconjunto da

    populacao e devera ser considerada finita. Deve ser representativa, de modo que

    represente todas as caractersticas da populacao.

    Algumas definicoes:

    Parametro: e uma medida numerica que descreve uma caracterstica deuma populacao. Sao valores fixos, geralmente desconhecidos e usualmente

    representados por caracteres gregos. Por exemplo, (media populacional),

    p (proporcao populacional), (desvio-padrao populacional), 2 (variancia

    populacional).

    3

  • Estatstica: E uma caracterstica numerica determinada na amostra.Representada por . Exemplos de estimadores: x (media amostral), p (pro-

    porcao amostral), S2 (variancia amostral).

    A selecao da amostra pode ser feita de varias maneiras, dependendo, entre ou-

    tros fatores, do grau de conhecimento que temos da populacao, da quantidade de

    recursos disponveis e assim por diante. Em princpio, a selecao da amostra tenta

    fornecer um subconjunto de valores o mais parecido possvel com a populacao

    que lhe da origem. A amostragem mais usada e a Amostragem Aleatoria Simples,

    em que selecionamos ao acaso, com ou sem reposicao, os itens da populacao que

    farao parte da amostra. Na Amostragem Estratificada, classifica-se a populacao

    em, ao menos dois estratos e extrai-se uma amostra de cada um, no caso de exis-

    tir uma relacao numerada dos itens da populacao podemos fazer a Amostragem

    Sistematica, em que selecionamos os indivduos de forma pre-determinada, por

    exemplo de 3 em 3, ou de 10 em 10, entre outros metodos, quanto mais complexa

    for a amostragem, maiores cuidados deverao ser tomados nas analises estatsticas

    utilizadas.

    Toda analise estatstica e antecedida pela necessidade de conhecimento, como

    por exemplo, conhecer se o consumo de cigarro pode causar cancer, e o obje-

    tivo final de uma analise estatstica e colocar uma hipotese a prova, levantando

    evidencias para aceita-la ou rejeita-la.

    Definicao 1.3 Hipoteses sao afirmacoes que necessitam de comprovacao para

    serem consideradas verdadeiras.

    Exemplo 1.1 (Fumo e Cancer) Hoje em dia e natural associar o habito de

    fumar a` cancer de pulmao (e muitos outros males). Mas isso nem sempre foi ver-

    dade. De fato, foram necessarios muitos estudos para chegar a aceitar a hipotese

    (o habito de fumar aumenta o risco de cancer).

    Para testar hipoteses, coletamos dados de um experimento. Por exemplo,

    para conhecer o perfil socioeconomico dos empregados de uma empresa, podemos

    4

  • perguntar seu sexo, salario, idade, se sao casados, se tem filhos, etc. Todas estas

    informacoes obtidas sao dados, que podem levantar evidencias sobre diferentes

    hipoteses.

    Antes de serem observadas, cada uma das informacoes e denominada variavel.

    Voltando ao nosso exemplo acima, as variaveis seriam sexo, salario, idade, estado

    civil, numero de filhos, etc. E convencao utilizar letras maiusculas para represen-

    tar uma variavel. Podemos entao dizer que X e a variavel sexo, Y a variavel idade

    e assim por diante. O dado (ou seja, o valor observado da variavel) e expresso

    pela mesma letra da variavel correspondente, so que minuscula.

    Exemplo 1.2 Suponha que estamos interessados em fazer um levantamento so-

    bre alguns aspectos socioeconomicos dos empregados da secao de orcamentos da

    Companhia MB. Com essa finalidade, usando informacoes obtidas do departa-

    mento pessoal, para cada empregado, foram coletadas as seguintes variaveis: sexo;

    estado civil; grau de instrucao; numero de filhos; salario (em SM); idade; regiao

    de procedencia. Com essas informacoes a Tabela 1.1 foi elaborada

    O conjunto de informacoes disponveis, apos a tabulacao do questionario e

    denominado tabela de dados brutos e contem os dados da maneira que foram

    coletados inicialmente. Cada uma das caractersticas observadas e denominada

    VARIAVEL.

    Definicao 1.4 Se o valor de uma variavel nao pode ser predito com absoluta

    certeza, esta variavel e denominada aleatoria.

    As variaveis tem naturezas diferentes e sao classificadas de acordo com os

    valores que podem assumir. Podem ser consideradoas em dois grandes grupos:

    numericas e nao numericas. As variaveis que assumem valores numericos sao

    denominadas de quantitativas e as nao numericas de qualitativas.

    As variaveis quantitativas podem ser subdivididas em discretas e contnuas.

    As quantitativas discretas sao aquelas cujos valores possveis formam um con-

    junto finito ou enumeravel, em geral, sao oriundas de contagens. Exemplos de

    5

  • Tabela 1.1: Informacoes sobre estado civil, grau de instrucao, numero de filhos, salario, idade

    e procedencia de 36 empregados da secao de orcamentos da Companhia MB.

    N. Estado Grau de N. de Salario Idade Regiao de

    Civil Instrucao filhos Mnimo (Anos) (Meses) Procedencia

    1 Solteiro Ensino fundamental - 4,00 26 03 Interior

    2 Casado Ensino fundamental 1 4,56 32 10 Capital

    3 Casado Ensino fundamental 2 5,25 36 05 Capital

    4 Solteiro Ensino medio - 5,73 20 10 Outra

    5 Solteiro Ensino fundamental - 6,26 40 07 Outra

    6 Casado Ensino fundamental 0 6,66 28 00 Interior

    7 Solteiro Ensino fundamental - 6,86 41 00 Interior

    8 Solteiro Ensino fundamental - 7,39 43 04 Capital

    9 Casado Ensino medio 1 7,59 34 10 Capital

    10 Solteiro Ensino medio - 7,44 23 06 Outra

    11 Casado Ensino medio 2 8,12 33 06 Interior

    12 Solteiro Ensino fundamental - 8,46 27 11 Capital

    13 Solteiro Ensino medio - 8,74 37 05 Outra

    14 Casado Ensino fundamental 3 8,95 44 02 Outra

    15 Casado Ensino medio 0 9,13 30 05 Interior

    16 Solteiro Ensino medio - 9,35 38 08 Outra

    17 Casado Ensino medio 1 9,77 31 07 Capital

    18 Casado Ensino fundamental 2 9,80 39 07 Outra

    19 Solteiro Ensino superior - 10,53 25 08 Interior

    20 Solteiro Ensino medio - 10,76 37 04 Interior

    21 Casado Ensino medio 1 11,06 30 09 Outra

    22 Solteiro Ensino medio - 11,59 34 02 Capital

    23 Solteiro Ensino fundamental - 12,00 41 00 Outra

    24 Casado Ensino superior 0 12,79 26 01 Outra

    25 Casado Ensino medio 2 13,23 32 05 Interior

    26 Casado Ensino medio 2 13,60 35 00 Outra

    27 Solteiro Ensino fundamental - 13,85 46 07 Outra

    28 Casado Ensino medio 0 14,69 29 08 Interior

    29 Casado Ensino medio 5 14,71 40 06 Interior

    30 Casado Ensino medio 2 15,99 35 10 Capital

    31 Solteiro Ensino superior - 16,22 31 05 Outra

    32 Casado Ensino medio 1 16,61 36 04 Interior

    33 Casado Ensino superior 3 17,26 43 07 Capital

    34 Solteiro Ensino superior - 18,75 33 07 Capital

    35 Casado Ensino medio 2 19,40 48 11 Capital

    36 Casado Ensino superior 3 23,30 42 02 Interior

    6

  • tais variaveis sao: numero de filhos em uma famlia; numero de pecas defeituosas

    em uma linha de producao. A variavel e dita quantitativa contnua se assume va-

    lores em um intervalo de numeros reais, em geral, sao resultantes de mensuracoes.

    Como exemplos desse tipo de variavel temos peso de pessoas, alturas de arvores,

    tempo de realizacao de operacoes industriais, diametro de pecas que saem de uma

    linha de producao.

    Para as variaveis qualitativas, que sao de natureza nao numerica, as respos-

    tas sao qualidades (atributos) ou categorias. Essas variaveis sao ditas qualita-

    tivas ordinais se suas possveis respostas apresentam uma ordenacao natural.

    Como exemplos temos: nvel de instrucao (fundamental, medio, superior); grau

    de satisfacao com um dado servico (insatisfeito, pouco satisfeito, muito satis-

    feito); complexidade de um projeto industrial (baixa, media, alta). Quando nao

    e possvel estabelecer uma ordenacao natural das respostas da variavel qualitativa,

    essas sao denominadas qualitativas nominais. Exemplos: sexo do indivduo (fe-

    minino, masculino); estado civil (solteiro, casado, desquitado/divorciado, viuvo);

    situacao trabalhista (registrado, nao registrado).

    O tipo da variavel define quais os procedimentos adequados a serem emprega-

    dos na analise estatstica dos dados obtidos para a mesma.

    Definicao 1.5 Considere uma variavel X que pode assumir qualquer valor no

    conjunto A. Uma colecao X1, . . . , Xn de elementos A e denominada amostra de

    X.

    Definicao 1.6 O numero de elementos de uma amostra e denominado tamanho

    da amostra.

    A tabela de dados brutos pode nao ser adequada para obtermos as informacoes

    de interesse. Devem ser construdas outras tabelas e graficos que apresentem, de

    forma resumida, as informacoes contidas nos dados.

    7

  • 1.2 Distribuicao de Frequencias

    Quando se estuda uma variavel, o maior interesse do pesquisador e conhe-

    cer o comportamento dessa variavel, analisando a ocorrencia de suas possveis

    realizacoes. Uma maneira de dispor um conjunto de realizacoes para se tuma

    ideia global, e atraves de uma tabela de distribuicao de frequencia. Sao

    tabelas resumidas que apresentam os valores da variaveis com as suas respecti-

    vas contagens de ocorrencias, sao ordenadas em grupos de classes ou categorias,

    numericamente ordenadas e podem ser sem perda de informacoes (limita-se a

    juntar valores repetidos e indicar quantas vezes eles ocorrem) a ou com perda de

    informacoes (acumula dados em intervalos especficos).

    Exemplo 1.3 A Tabela 1.2 apresenta a distribuicao de frequencias da variavel

    grau de instrucao, usando os dados da Tabela 1.1

    Tabela 1.2: Frequencias e porcentagens dos 36 empregados da secao de

    orcamentos da Companhia MB segundo o grau de instrucao.

    Grau de Instrucao Freq. absoluta Freq. relativa Porcetagem Freq. acumulada

    (ni) (fi =nin ) 100fi (fac)

    fundamental 12 0,333 33,33 12

    medio 18 0,5 50,00 30

    superior 6 0,166 16,50 3636 1 100,00

    Usamos a notacao ni para indicar a frequencia absoluta de cada classe, ou

    categoria, da variavel, a notacao fi = ni/n para indicar a proporcao (ou frequencia

    relativa) de cada classe, sendo n o numero total de observacoes e a notacao fac

    indicando a frequencia acumulada. As proporcoes sao muito uteis quando se

    quer comparar resultados de duas pesquisas distintas. Suponha que se queira

    comparar a variavel grau de instrucao para empregados da secao de orcamentos

    com a mesma variavel para todos os empregados da companhia MB. Digamos

    que a empresa tenha 2.000 empregados e que a distribuicao de frequencias seja a

    da Tabela1.3.

    8

  • Tabela 1.3: Frequencias e porcentagens dos 2.000 empregados da secao de

    orcamentos da Companhia MB segundo o grau de instrucao.

    Grau de Instrucao Freq. absoluta Porcetagem

    (ni) (100fi)

    fundamental 650 32,50

    medio 1.020 51,00

    superior 330 16,502.000 100,00

    Nao podemos comparar diretamente as colunas das frequencias das Tabelas

    1.2 e1.3, pois os totais de empregados sao diferentes nos dois casos. Mas as

    colunas das porcetagens sao comparaveis, pois reduzimos as frequencias a um

    mesmo total.

    A construcao de tabelas de frequencias para variaveis contnuas necessita de

    certo cuidado. Por exemplo, a construcao da tabela de frequencias para a variavel

    salario, nao resumira as 36 observacoes num grupo menor, pois nao existem ob-

    servacoes iguais. A solucao empregada e agrupar os dados por faixas de salario.

    Tabela 1.4: Frequencias e porcentagens dos 36 empregados da secao de

    orcamentos da Companhia MB por faixa de salario.

    Classe de salarios Freq. absoluta Freq. relativa Freq. acumulada

    (ni) (fi =nin ) (fac)

    4, 00 ` 8, 00 10 0,277 108, 00 ` 12, 00 12 0,333 22

    12, 00 ` 16, 00 8 0,222 3016, 00 ` 20, 00 5 0,1388 3520, 00 ` 24, 00 1 0,0277 36

    36 1

    Observe que desse modo, ao resumir os dados referentes a uma variavel contnua,

    perde-se alguma informacao. Por exemplo, nao sabemos ao certo quais sao os 10

    salarios da classe de 4 a 8, a nao ser que olhemos a tabela original. A notacao

    a ` b indica o intervalo de numeros contendo o extremo a mas nao contendo o

    9

  • extremo b, podemos tambem usar a notacao [a `, b) para designar o mesmo inter-valo a ` b. A escolha dos intervalos e arbitrario e a familiaridade do pesquisadorcom os dados e que lhe indicara quantas e quais classes (intervalos) devem ser

    usadas. E importante observar que com um pequeno numero de classes, perde-se

    informacao, e com um grande numero de classes, o objetivo de resumir os dados

    fica prejudicado.

    1.2.1 Procedimentos para a representacao das distribuicoes

    de frequencias

    1. Dados:

    Sao as informacoes inerentes a`s variaveis que caracterizam os elementos que cons-

    tituem a populacao ou a amostra em estudo. Os dados obtidos em pesquisas

    devem ser analisados e interpretados com o auxlio de metodos estatsticos. Na

    primeira etapa deve-se fazer uma analise descritiva que consiste na organizacao e

    descricao dos dados, na identificacao de valores que representem o elemento tpico

    e, na quantificacao da variabilidade presente nos dados.

    2. DADOS BRUTOS

    Qualquer pesquisa e baseada em levantamento ou coleta de dados. Os dados sao

    obtidos diretamente da pesquisa, sem terem passados por nenhum processo de

    sntese ou analise. Por exemplo, os 50 valores, em decibeis, de nvel de rudo de

    trafego em certo cruzamento estao apresentados a seguir:

    58, 0 62, 5 65, 0 67, 0 68, 3 65, 0 66, 4 58, 0 67, 0 67, 0

    62, 5 62, 5 66, 4 66, 4 65, 0 65, 0 60, 2 60, 2 60, 2 60, 2

    59, 5 59, 5 59, 5 65, 0 66, 4 66, 4 66, 4 60, 2 62, 5 67, 0

    67, 0 67, 0 70, 1 70, 1 71, 9 70, 1 67, 0 66, 4 66, 4 68, 3

    68, 3 68, 3 65, 0 65, 0 62, 5 62, 5 65, 0 65, 0 68, 3 71, 9

    nota-se uma grande variacao nos resultados. Assim, os metodos estatsticos sao

    fundamentais para o estudo de situacoes em que a variabilidade e inerente. A Es-

    tatstica Descritiva ajuda na percepcao, avaliacao e quantificacao da variabilidade

    10

  • em tabelas e graficos obtidos a partir de um conjunto de dados que sintetizem os

    valores, com o objetivo de se ter uma visao global e clara da variacao existente

    nas variaveis.

    3. ROL

    A mao, ou com auxlio de computador, pode-se classificar os dados x1, x2, ..., xn

    em ordem crescente. Pode-se, pelo rol, verificar de maneira mais clara e rapida

    a composicao do conjunto, identificando o maior e o menor valor alem de alguns

    elementos que podem se repetir varias vezes, mostrando assim o comportamento

    dos dados. Assim, o Rol dos 50 valores do nvel de rudo de trafego em certo

    cruzamento, fica:

    58, 0 58, 0 59, 5 59, 5 59, 5 60, 2 60, 2 60, 2 60, 2 60, 2

    62, 5 62, 5 62, 5 62, 5 62, 5 62, 5 65, 0 65, 0 65, 0 65, 0

    65, 0 65, 0 65, 0 65, 0 65, 0 66, 4 66, 4 66, 4 66, 4 66, 4

    66, 4 66, 4 66, 4 67, 0 67, 0 67, 0 67, 0 67, 0 67, 0 67, 0

    68, 3 68, 3 68, 3 68, 3 68, 3 70, 1 70, 1 70, 1 71, 9 71, 9

    4. Amplitude ou Range (At):

    E a diferenca entre o maior e o menor elemento do conjunto de dados.

    At = xmax xmin

    5. Frequencia absoluta (ni):

    E o numero de vezes que o elemento aparece na amostra, ou numero de elementos

    pertencentes a uma classe.

    6.Frequencia relativa (fi):

    Proporcao de cada classe.

    fi =nin

    7. Frequencia acumulada (fac):

    11

  • E a soma das frequencias de uma classe e de todas as classes que a antecedem.

    8. Numero de classes (K):

    Nao ha uma formula exata para o numero de classes, podemos usar a Formula

    de Sturges, k = 1 + 3, 3 log (n), mas deve-se saber que existem outros metodos de

    determinacao do numero de classes em uma tabela de frequencia, ha quem prefira

    k =n. O que se deseja fazer e apenas comprimir um conjunto de dados em uma

    tabela, para facilitar a visualizacao e interpretacao dos mesmos. Entretanto, a

    verdade e que essas formulas nao nos levam a uma decisao final; esta vai depender

    na realidade de um julgamento pessoal, que devera estar ligado a natureza dos

    dados, procurando, sempre que possvel, evitar classes com frequencias nulas ou

    frequencias relativas exageradamente grandes.

    9. Amplitude das classes (Ac):

    Ac = At/k

    10. Limite das classes Os extremos de uma classe sao denominados limite

    inferior e limite superior. ex: a ` b

    11. Ponto medio das classes

    pm = (LI + LS)/2

    A apresentacao dos dados pode ser de duas formas: Apresentacao Tabular e

    apresentacao Grafica.

    REPRESENTACAO TABULAR:

    Apresentacao tabular numerica de dados e a representacao das informacoes por

    intermedio de uma tabela. Uma tabela e uma maneira bastante eficiente de mos-

    12

  • trar os dados levantados e que facilita a compreensao e interpretacao dos dados.

    Para organizar uma serie estatstica ou uma distribuicao de frequencias, existem

    algumas normas nacionais ditadas pela Associacao Brasileira de Normas Tecnicas

    (ABNT) as quais devem ser respeitadas. Assim, toda tabela estatstica de conter:

    Elementos essenciais

    Ttulo: indica a natureza do fato estudado (o que?), as variaveis esco-

    lhidas na analise do fato (como?), o local (onde?) e a epoca (quando?).

    Corpo: e o conjunto de linhas e colunas que contem, respectivamente,

    as series horizontais e verticais de informacoes.

    Cabecalho: designa a natureza do conteudo de cada coluna.

    Coluna indicadora: mostra a natureza do conteudo de cada linha.

    Elementos complementares (se necessario)

    Fonte: e o indicativo, no rodape da tabela, da entidade responsavel

    pela sua organizacao ou fornecedora dos dados primarios.

    Notas: sao colocadas no rodape da tabela para esclarecimentos de

    ordem geral.

    Sinais convencionais

    (hfen), quando o valor numerico e nulo;

    . . . (reticencia), quando nao se dispoe de dado;

    ? (ponto de interrogacao), quando ha duvidas quanto a` exatidao do

    valor numerico;

    0; 0, 0; 0, 00 (zero), quando o valor numerico e muito pequeno para

    ser expresso pela unidade utilizada, respeitando o numero de casas

    decimais adotado;

    X (letra x), quando o dado for omitido.

    Numerar as tabelas quando houver mais de uma.

    13

  • As tabelas devem ser fechadas acima e abaixo por linha horizontal, naosendo fechadas a` direita e a` esquerda por linhas verticais. E facultativo o

    emprego de tracos verticais para separacao de colunas no corpo da tabela.

    Os totais e subtotais devem ser destacados.

    Manter a uniformidade do numero de casas decimais.

    REPRESENTACAO GRAFICA:

    A representacao grafica da distribuicao de uma variavel tem a vantagem de,

    rapida e concisamente, informar sobre sua variabilidade. Os graficos devem ser

    auto-explicativos e de facil compreensao. Devem sempre ter um ttulo, onde se

    destaca o fato, o local e o tempo. Vamos definir, inicialmente, tres tipos basicos

    de graficos: graficos em barras, em setores e histograma. O grafico em barras

    utiliza o plano cartesiano com os valores da variavel no eixo das abcissas e as

    frequencias ou porcetagens no eixo das ordenadas. Note que para cada valor

    da variavel desenha-se uma barra com altura correspondendo sua frequencia

    ou porcetagem. Esse tipo de grafico se adapta melhor a`s variaveis discretas ou

    quantitativas ordinais.

    Fundamental Mdio Superior

    Grau de Instruo dos funcionrios da Companhia MB

    Grau de Instruo

    Freq

    unc

    ia

    05

    1015

    20

    14

  • Ja o grafico de composicao em setores, sendo em forma de pizza o mais

    conhecido, destina-se a representar a composicao, usualmente em porcetagem de

    partes de um todo. Consiste num crculo de raio arbitrario, representando o todo,

    dividido em setores, que correspondem a`s partes de maneira proporcional. O

    33.3%

    50%

    16.7%

    Grau de instruo dos funcionrios da companhia MB

    FundamentalMdioSuperior

    histograma consiste em retangulos contguos de base dada pelas faixas de valores

    da variavel e area igual a` frequencia relativa da respectiva faixa. A altura de cada

    retangulo e denominada densidade de frequencia ou simplesmente densidade e e

    definida pelo quociente da area pela amplitude da faixa. Note que, pelo uso das

    frequencias relativas, a soma das areas de todos os retangulos em um histograma

    e igual a 1.

    Tanto o histograma como os graficos em barras dao uma ideia da forma da

    distribuicao da variavel sob consideracao. Por exemplo, saber que a renda per

    capita de um pas e de tantos dolares pode ser um dado interessante, mas saber

    como esta renda se distribui e mais importante. Um procedimento alternativo

    para resumir um conjunto de valores, com o objetivo de se obter uma ideia da

    forma de sua distribuicao, e o ramo-e-folhas. Uma vantagem deste diagrama

    15

  • Histograma da varivel S: salrio

    Salrio

    Freq

    unc

    ia

    0 5 10 15 20 25 30

    02

    46

    8

    sobre o histograma e que nao perdemos (ou perdemos pouca) informacao sobre

    os dados em si. O diagrama ramo e folhas e uma tecnica flexvel e eficaz

    para comecarmos a olhar um conjunto ou uma amostra de dados. Esta tecnica

    basica, mas versatil, e intensamente usada, principalmente para comparar grupos

    e examinar cada caracterstica, tais como:

    quanto o grupo esta proxima da assimetria;

    como estao distribudos os valores;

    se alguns valores estao distanciados dos demais;

    se existe concentracao de dados;

    se existe lacunas nos dados.

    Nao existe uma regra fixa para construir o ramo e folhas, mas a ideia basica e

    dividir cada observacao em duas partes: a primeira (o ramo) e colocada a` esquerda

    de uma linha vertical, a segunda(a folha) e colocada a` direita.

    Algumas informacoes que se obtem do ramo-e-folhas apresentado na Tabela

    1.2.1 sao:

    Para os salarios 4, 00 e 4, 56 (o 4 e o ramo e 00 e 56 sao as folhas)

    16

  • Ramo Folha Frequencia

    58 0 0 2

    59 5 5 5 3

    60 2 2 2 2 2 5

    62 5 5 5 5 5 5 6

    65 0 0 0 0 0 0 0 0 0 9

    66 4 4 4 4 4 4 4 4 8

    67 0 0 0 0 0 0 0 7

    68 3 3 3 3 3 5

    70 1 1 1 3

    71 9 9 2

    Um ramo com muitas folhas significa maior incidencia daquele ramo (rea-lizacao)

    Ha um destaque grande para o valor 23, 30

    Os demais valores estao razoavelmente concentrados entre 4, 00 e 19, 40.

    Ha uma leve assimetria em direcao aos valores grandes; a suposicao de queestes dados possam ser considerados como amostra de uma populacao com

    distribuicao simetrica (a chamada distribuicao normal), pode ser questio-

    nada.

    17

  • Tabela 1.5: Ramo e folhas dos salarios de 36 empregados da secao de orcamentos

    da Companhia MB.

    4 00 56

    5 25 73

    6 26 66 86

    7 39 44 59

    8 12 46 74 95

    9 13 35 77 80

    10 53 76

    11 06 59

    12 00 79

    13 23 60 85

    14 69 71

    15 99

    16 22 61

    17 26

    18 75

    19 40

    20

    21

    22

    23 30

    1.3 Medidas Resumo

    1.3.1 Medidas de Posicao

    Vimos que o resumo de dados por meio de tabelas de frequencias fornece muito

    mais informacoes sobre o comportamento de uma variavel do que a propria ta-

    bela original dos dados. Podemos resumir ainda mais esses dados em valores que

    sejam representativos da serie toda. Usualmente, emprega-se uma das seguintes

    medidas de posicao (ou localizacao) central: media, mediana e moda.

    A moda e definida como a realizacao mais frequente do conjunto de valores

    observados. Por exemplo, considere a distribuicao da variavel Z, numero de filhos

    18

  • dos empregados casados da secao de orcamentos da companhia MB (Tabela 1.1).

    Na Tabela 1.6 temos as frequencias e porcentagens. A moda e 2, correspondente

    a` realizacao com maior frequencia, 7. Em alguns casos, pode haver mais de uma

    moda.

    Tabela 1.6: Frequencias e porcentagens dos 36 empregados da secao de

    orcamentos da Companhia MB segundo o numero de filhos.

    N. filhos Freq. absoluta Freq. relativa Porcetagem

    zi (ni) (fi =nin ) 100fi

    0 4 0,2 20

    1 5 0,25 25

    2 7 0,35 35

    3 3 0,15 15

    5 1 0,05 520 1 100,00

    A mediana e a realizacao que ocupa a posicao central da serie de observacoes,

    quando estao ordenadas em ordem crescente. Assim, e as cinco observacoes de

    uma variavel forem 3, 4, 7, 8, e 8, a mediana e o valor 7, correspondendo a` ter-

    ceira observacao. Quando o numero de observacoes for par, usa-se como mediana

    a media aritmetica das duas observacoes centrais. Acrescentando-se o valor 9 a`

    serie acima, a mediana sera (7 + 8)/2 = 7, 5

    A media aritmetica e a soma das observacoes dividida pelo numero delas.

    Assim, a media das observacoes acima seria (3+4+7+8+8)/5=6.

    Exemplo 1.4 Usando os dados da Tabela 1.6, ja encontramos que a moda da

    variavel Z e 2. Para a mediana, constatamos que esta tambem e 2, a media

    aritmetica entre a decima e a decima primeira observacoes. A media aritmetica

    sera4 0 + 5 1 + 7 2 + 3 3 + 5 1

    20=

    33

    20= 1, 65

    19

  • As tres medidas no exemplo acima tem valores proximos e qualquer uma delas

    pode ser usada como representantiva da serie toda.

    Formalizando os conceitos temos, se x1, . . . , xn sao os n valores da variavel X,

    a media aritmetica, ou simplesmente media, de X pode ser escrita como

    x =x1 + . . .+ xn

    n=

    1

    n

    ni=1

    xi (1.1)

    Se tivermos n observacoes da variavel X, das quais n1 sao iguais a x1, n2 sao

    iguais a x2 etc., nk iguais a xk, entao a media de X pode ser escrita como

    x =n1x1 + n2x2 + . . .+ nkxk

    n=

    1

    n

    ki=1

    nixi (1.2)

    Se fi = ni/n representar a frequencia relativa da observacao xi, entao (1.2)

    pode ser escrita como x =k

    i=1 fixi.

    Consideremos as observacoes ordenadas em ordem crescente, e denotamos a

    menor observacao por x(1), a segunda por x(2), e assim por diante, obtemos as

    chamadas estatsticas de ordem

    x(1) x(2) . . . x(n1) x(n) (1.3)

    Por exemplo, se x1 = 3, x2 = 2, x3 = 6, x4 = 1, x5 = 3, entao 2 1 3 3 6, de modo que x(1) = 2, x(2) = 1, x(3) = 3, x(4) = 3, x(5) = 6.

    Com esta notacao, a mediana da variavel X pode ser definida como

    md(X) =

    x(n+12 ) , se n mparx(n2 )+x(n2 +1)2

    , se n par(1.4)

    1.3.2 Medidas de Dispersao

    O resumo de um conjunto de dados por uma unica medida representativa de

    posicao central esconde toda a informacao sobre a variabilidade do conjunto de

    observacoes. Por exemplo, suponhamos que cinco grupos de alunos submeteram-

    se a um teste, obtendo-se as seguintes notas:

    Grupo A (Variavel X): 3,4,5,6,7

    20

  • Grupo B (Variavel Y): 1,3,5,7,9

    Grupo C (Variavel Z): 5,5,5,5,5

    Grupo D (Variavel W): 3,5,5,7

    Grupo E (Variavel V): 3,5,5,6,7

    Podemos ver que x = y = z = w = v = 5, 0. A identificacao de cada uma

    destas series por sua media nada informa sobre suas diferentes variabilidades. Da

    a conveniencia de serem usadas medidas que sumarizem a variabilidade de um

    conjunto de observacoes e que permita comparar conjuntos diferentes de valores.

    Um criterio frequentemente usado para tal fim e aquele que mede a dispersao dos

    dados em torno da media, e duas medidas sao as mais usadas: desvio padrao e

    variancia. O princpio basico e analisar os desvios das observacoes em relacao a`

    media dessas observacoes.

    Para o grupo A acima os desvios xi x sao: -2,-1,0,1,2. Podemos observarque para qualquer conjunto de dados, a soma dos desvios e igual a zero. Nestas

    condicoes a soma dos desvios5

    i=1(xi x) nao e uma boa medida de dispersaopara o conjunto A. Duas opcoes sao: (a) considerar o total dos desvios em valor

    absoluto; (b) considerar o total dos quadrados dos desvios. Para o grupo A

    teramos, respectivamente

    5i=1

    |xi x| = 2 + 1 + 0 + 1 + 2 = 6

    5i=1

    (xi x)2 = 4 + 1 + 0 + 1 + 4 = 10

    O uso desses totais pode causar dificuldades quando comparamos conjuntos de

    dados com numeros diferentes de observacoes, como os conjuntos A e D acima.

    Desse modo, e mais conveniente exprimir as medidas como media, isto e, o desvio

    medio e a variancia

    dm(X) =

    ni=1 |xi x|

    n(1.5)

    V ar(X) =

    ni=1(xi x)2

    n(1.6)

    21

  • Respectivamente para o grupo A temos dm(X) = 1, 2; var(X) = 2, 0 en-

    quanto para o grupo D temos dm(W ) = 1, 0; var(W ) = 2, 0

    Podemos dizer, entao, que segundo o desvio medio, o grupo D e mais ho-

    mogeneo que A, enquanto ambos sao igualmente homogeneos, segundo a variancia.

    Sendo a variancia uma medida de dimensao igual ao quadrado da dimensao dos

    dados, pode causar problemas de interpretacao. Costumamos usar entao o desvio

    padrao que e definido como a raiz quadrada positiva da variancia. Para o grupo

    A o desvio padrao e

    dp(X) =V ar(X) =

    2 = 1, 41

    Ambas as medidas de dispersao (dm e dp) indicam em media qual sera o

    erro(desvio) cometido ao tentar substituir cada observacao pela media do con-

    junto de dados.

    Exemplo 1.5 Vamos calcular as medidas de dispersao acima para a variavel

    Z=numero de filhos, resumida na Tabela 1.6. Temos z = 1, 65, os desvio sao

    zi z : 1, 65;0, 65; 0, 35; 1, 35; 3, 35. Segue-se que

    dm(Z) =4 (1, 65) + 5 (0, 65) + 7 (0, 35) + 3 (1, 35) + 1 (3, 35)

    20= 0, 98

    var(z) =4(1, 65)2 + 5(0, 65)2 + 7(0, 35)2 + 3(1, 35)2 + 1(3, 35)2

    20= 1, 528

    O desvio padrao de Z e dp(Z) =

    1, 528 = 1, 24

    Suponha que observemos n1 vezes os valores x1 etc., nk vezes o valor xk da

    variavel X. Entao

    dm(X) =

    ki=1 ni|xi x|

    n=

    ki=1

    fi|xi x| (1.7)

    var(X) =

    ki=1 ni(xi x)2

    n=

    ki=1

    fi(xi x)2 (1.8)

    dp(X) =V ar(X) (1.9)

    A variancia da amostra sera calculada usando-se o denominador n1, em vezde n, a justificativa sera dada mais adiante. Assim como a media, a variancia (ou

    22

  • o desvio padrao) e uma boa medida se a distribuicao dos dados for aproximada-

    mente normal.

    1.3.3 Quantis

    Tanto a media como o desvio padrao podem nao ser medidas adequadas para

    representar um conjunto de dados, pois: (a) sao afetados por valores extremos, (b)

    apenas com estes valores nao temos ideia da simetria ou assimetria da distribuicao

    dos dados. Para contornar esses fatos podemos definir uma medida chamada

    quantil.

    Se um conjunto de dados e organizado em ordem de grandeza, o valor central

    (ou media aritmetica dos dois valores centrais) que divide o conjunto em duas

    partes iguais e a mediana. Por extensao desse conceito, pode-se pensar nos valores

    que dividem o conjunto em quatro partes iguais. Esses valores, representados por

    Q1, Q2 e Q3 denominam-se primeiro, segundo e terceiro quartis, respectivamente,

    sendo o valor Q2 e igual a` mediana.

    Os valores que dividem os dados em dez partes iguais denominam-se decis e

    sao representados por D1, D2, . . . , D9 enquanto os valores que dividem os dados

    em 100 partes iguais chamam-se percentis e sao representados por P1, P2, . . . , P99.

    O quinto decil e o quinquagesimo percentil correspondem a` mediana. O 25o e o

    75o percentis correspondem ao 1o e 3o quartis, respectivamente.

    De maneira geral, os quartis, decis e percentis sao denominados quantis de

    ordem p ou p-quantil, indicada por q(p), onde p e uma proporcao qualquer, O