00 Apostila Estatistica Descritiva 2014 2

download 00 Apostila Estatistica Descritiva 2014 2

of 50

description

Apostila UFCG Probabilidade

Transcript of 00 Apostila Estatistica Descritiva 2014 2

  • Apostila

    1

    de

    Anlise Exploratria

    e

    Descritiva de Dados

    Prof. Gilberto S. Matos

    (http://sites.google.com/site/gilbertosmatos1)

    Campina Grande - PB

    Outubro / 2014

    1

    Esta apostila foi iniciada em 2002 atravs de notas de aula desenvolvidas pelos professores Alex-

    sandro B. Cavalcanti e Gilberto S. Matos sob a assessoria do professor Francisco M. de Souza. Desde

    ento, vrios professores da rea de Estatstica da UAME/CCT/UFCG vm gentilmente contribuindo

    para o seu desenvolvimento.

  • 2

  • Sumrio

    1 Introduo Estatstica 5

    1.1 Conceitos Fundamentais . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    1.1.1 Populao e Amostra . . . . . . . . . . . . . . . . . . . . . . . . 5

    1.1.2 Parmetro e Estatstica . . . . . . . . . . . . . . . . . . . . . . . 6

    1.1.3 A Cincia Estatstica . . . . . . . . . . . . . . . . . . . . . . . . 6

    1.1.4 Estatstica: Uma Viso Sistmica . . . . . . . . . . . . . . . . . 7

    1.2 Varivel e Tipos de Variveis(dados) . . . . . . . . . . . . . . . . . . . 7

    1.2.1 Varivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    1.2.2 Tipos de Variveis(dados) . . . . . . . . . . . . . . . . . . . . . 8

    1.3 Fases do Mtodo Estatstico . . . . . . . . . . . . . . . . . . . . . . . . 9

    2 Organizao de Dados atravs de Tabelas e Grcos 11

    2.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    2.2 Organizao de dados: Tabelas e Grcos . . . . . . . . . . . . . . . . 11

    2.2.1 Distribuio de Frequncias: representao tabular . . . . . . . 11

    2.2.2 Distribuio de Frequncias: representao grca . . . . . . . . 13

    2.2.3 Agrupamento de dados em classes e distribuio de frequncias . 15

    3 Estatsticas Descritivas 19

    3.1 Medidas Resumo para Variveis Quantitativas . . . . . . . . . . . . . . 19

    3.1.1 Medidas de Tendncia Central . . . . . . . . . . . . . . . . . . . 19

    3.1.2 Medidas de Disperso ou de Variabilidade . . . . . . . . . . . . 24

    3.1.3 Medidas Resumo para Dados Agrupados . . . . . . . . . . . . . 27

    3.2 Medidas de Posio: Quartis, Decis e Percentis . . . . . . . . . . . . . . 28

    3.3 Outra Estratgia de Anlise de Dados . . . . . . . . . . . . . . . . . . . 29

    3.3.1 Desenho Esquemtico - Diagrama em Caixa ("Box-Plot") . . . . 30

    3

  • 4 SUMRIO

    3.4 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    4 Anlise Bivariada 35

    4.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    4.2 Variveis Qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    4.3 Associao entre Variveis Qualitativas . . . . . . . . . . . . . . . . . . 39

    4.4 Medidas de Associao entre Variveis Qualitativas . . . . . . . . . . . 40

    4.5 Medidas de Associao entre Variveis Quantitativas . . . . . . . . . . 41

    4.5.1 Diagrama de Disperso . . . . . . . . . . . . . . . . . . . . . . . 41

    4.5.2 Coeciente de Correlao (Linear) . . . . . . . . . . . . . . . . . 42

    4.6 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    5 Provas de Anlise Exploratria e Descritiva de Dados 45

    5.1 1 Estgio de 2010.2 - PE6 - DME/UFCG - Manh . . . . . . . . . . . 45

    5.2 1 Estgio de 2010.2 - PE6 - DME/UFCG - Tarde . . . . . . . . . . . 47

    6 Exerccios do livro do Bussab e Morettin 49

  • Captulo 1

    Introduo Estatstica

    1.1 Conceitos Fundamentais

    Alguns dos principais conceitos utilizados na estatstica o de populao e o de

    amostra.

    1.1.1 Populao e Amostra

    Denio 1.1.1 (Populao). A populao um conjunto de todos os elementos

    (pessoas, objetos, etc) que possuem pelo menos uma caracterstica em comum, a(s)

    qual(is) os relacionam ao problema que est sendo estudado.

    Exemplo 1.1.1. Se o problema a ser pesquisado est relacionado com a qualidade de

    um certo produto produzido numa indstria, a populao pode ser composta por todas as

    peas produzidas numa determinada hora, turno, dia ou ms, dependendo dos objetivos;

    Exemplo 1.1.2. Se o objetivo de um estudo pesquisar o nvel de renda familiar

    de uma certa cidade, a populao seria todas as famlias desta populao. Mas, se o

    objetivo fosse pesquisar apenas a renda mensal do chefe da famlia, a populao a ser

    pesquisada seria composta por todos os chefes de famlia desta cidade.

    A Populao pode ser:

    1. Finita - quando o nmero de unidades de observao pode ser contado e limi-

    tado;

    2. Innita - quando a quantidade de unidades de observao ilimitada;

    Podemos citar como exemplo de populao nita o conjunto formado pelos alu-

    nos que cursam a disciplina de estatstica num determinado semestre da UFCG. Um

    exemplo de populao innita seria o conjunto formado por todos os alunos de esta-

    tstica do Brasil, pois este conjunto composto por um nmero incontvel de elementos.

    5

  • 6 CAPTULO 1. INTRODUO ESTATSTICA

    Denio 1.1.2 (Amostra). A amostra apenas uma parte da populao, ou seja,

    um subconjunto da populao.

    Vrios motivos levam a necessidade de se observar apenas uma parte da populao,

    como, por exemplo: a falta de tempo, recursos nanceiros e/ou humanos. A amostra

    deve ser obtida atravs de tcnicas de amostragem, as quais tem como objetivo

    principal garantir a representatividade da populao, ou seja, fazer com que a amostra

    seja um retrato el da populao.

    Exemplos de amostra podem ser conjuntos formados por apenas uma parte dos

    elementos populacionais descritos nos Exemplos 1.1.1 e 1.1.2.

    1.1.2 Parmetro e Estatstica

    Dois novos conceitos estreitamente relacionados com os de populao e amostra

    so os de Parmetro e Estatstica, tendo em vista que:

    Denio 1.1.3 (Parmetro). uma medida numrica que descreve uma caracte-

    rstica da populao, ou ainda, que obtida a partir de todos os dados populacionais

    (atravs de um censo).

    Denio 1.1.4 (Estatstica). uma medida numrica que descreve uma caracte-

    rstica da amostra, ou ainda, que obtida a partir de dados amostrais (de uma parte

    da populao).

    Exemplos de algumas medidas numricas so: proporo, mdia, moda, ndices,

    etc.

    1.1.3 A Cincia Estatstica

    O conceito de Estatstica pode ser considerado de duas maneiras. O primeiro

    conceito, logo relaciona a Estatstica com tabelas e grcos nos quais os dados obtidos

    so representados, ou melhor, relaciona nmeros especcos. Ouvimos, assim, falar em

    estatsticas do IBGE, estatsticas relacionadas sade e educao, ndices econmicos,

    pesquisas de opinio, etc. Um segundo conceito refere-se ao conjunto de processos ou

    tcnicas empregadas na investigao e anlise de fenmenos. Neste caso, a Estatstica

    a cincia ou mtodo cientco que estuda os fenmenos aleatrios e, procura inferir

    as leis que os mesmos obedecem. Assim, um conceito mais abrangente e absoluto deve

    englobar tanto o primeiro conceito, o qual o mais popular, quanto o segundo, o qual

    normalmente escapa noo corrente.

    Denio 1.1.5 (Estatstica). A Estatstica uma cincia que se preocupa com

    a coleta, organizao, descrio, anlise e interpretao dos dados, a m de extrair

    informaes a respeito de uma populao.

  • 1.2. VARIVEL E TIPOS DE VARIVEIS(DADOS) 7

    Dentro dessa idia, podemos considerar a Cincia Estatstica como dividida basi-

    camente em duas partes:

    1. Estatstica Descritiva - que se preocupa com a organizao e descrio dos

    dados experimentais;

    2. Estatstica Inferencial - que, a partir da observao de alguns dados experi-

    mentais, realiza a anlise e interpretao de dados com o objetivo de generalizar

    e prever resultados, utilizando-se para isto da Teoria das Probabilidades.

    Nesta disciplina, sero abordados tpicos referentes estatstica descritiva, alguns

    modelos probabilsticos mais importantes para o estudo da inferncia estatstica alm

    da prpria inferncia estatstica.

    1.1.4 Estatstica: Uma Viso Sistmica

    Figura 1.1: Estatstica: Uma Viso Sistmica

    1.2 Varivel e Tipos de Variveis(dados)

    1.2.1 Varivel

    Denio 1.2.1 (Varivel). Uma Varivel nada mais que uma caracterstica (ou

    dado) associada a cada elemento da populao ou da amostra. A varivel apresenta

    diferentes valores, quando sujeita a mensuraes sucessivas, e, em geral, denotada

    pelas letras maisculas: X, Y ou Z.

  • 8 CAPTULO 1. INTRODUO ESTATSTICA

    Antes de realizar qualquer tratamento estatstico de um conjunto de dados,

    importante identicar qual o tipo de dado (ou varivel) que ser analisado, pois,

    mediante a este conhecimento que o pesquisador poder ou no adotar determinadas

    tcnicas estatsticas para a resoluo de problemas. Por exemplo, ser que possvel

    calcular o peso mdio de lutadores de boxe, quando os dados so coletados segundo a

    categoria de peso: Leve, Mdio ou Pesado?

    1.2.2 Tipos de Variveis(dados)

    Basicamente, as variveis podem ser classicadas como sendo Qualitativas ou Quan-

    titativas.

    1. Variveis Qualitativas - quando os valores que elas podem receber so referen-

    tes qualidade, atributo ou categoria. Exemplos so:

    Raa: podendo assumir os valores Branco ou Negro; Sexo: Masculino ou Feminino; Escolaridade: 1 grau completo, 2 grau completo, superior, ps-graduado; Conceito de qualidade: pssima qualidade, regular ou boa qualidade.

    As variveis qualitativas podem, ainda, ser classicadas como: Nominais ou

    Ordinais.

    (a) As variveis qualitativas nominais - so caracterizadas por dados que se

    apresentam apenas sob o aspecto qualitativo. Por exemplo: raa e sexo.

    (b) As variveis qualitativas ordinais - so caracterizadas por categorias que

    aprentam uma ordenao natural. Por exemplo: escolaridade e conceito de

    qualidade.

    2. Variveis Quantitativas - quando os valores que ela pode assumir so num-

    ricos, os quais podem ser obtidos atravs de uma contagem ou mensurao.

    As variveis quantitativas podem ser classicadas de acordo com o processo de

    obteno; podendo ser: Discreta ou Contnua.

    (a) Variveis quantitativas discretas - so variveis numricas obtidas a

    partir de procedimento de contagem. Por exemplo: Quantidade de pessoas

    numa famlia, quantidade de acidentes numa indstria, etc.

    (b) Variveis quantitativas contnuas - so variveis numricas cujos valores

    so obtidos por um procedimento de mensurao, podendo assumir quais-

    quer valores num intervalo dos nmeros reais. Por exemplo: temperatura,

    altura, salrio, etc..

  • 1.3. FASES DO MTODO ESTATSTICO 9

    Observao 1. O fato de uma varivel poder ser expressa por nmeros no signica

    que ela seja necessariamente quantitativa, por que a classicao da varivel depende

    de como foi medida. Por exemplo, para a varivel peso de um lutador de boxe, se

    for anotado o peso marcado na balana, a varivel quantitativa contnua; por outro

    lado, se esse peso for classicado segundo as categorias do boxe, a varivel qualitativa

    ordinal.

    1.3 Fases do Mtodo Estatstico

    Assim como qualquer cincia, a estatstica utiliza o mtodo cientco, que consiste

    das cinco etapas bsicas seguintes:

    1. Denir cuidadosamente o problema.

    Nesta etapa o pesquisador deve certicar-se de que clara a nalidade de um

    estudo ou anlise. Ao denir o que se quer estudar, ou seja, o problema,

    necessrio que se faa um levantamento sobre quais estudos j realizados no

    campo de pesquisa abordado. Deve-se tambm especicar quem ou o qu ser

    observado no estudo, ou seja, a populao a ser pesquisada.

    2. Formular um plano para a coleta dos dados adequados.

    Nesta fase, o pesquisador dever listar as variveis (caractersticas ou dados)

    que sejam relevantes para se atingir os objetivos propostos pela pesquisa. Alm

    disso, deve-se decidir se a coleta dos dados ser realizada atravs de um censo ou

    amostragem, ou seja, se todos os elementos da populao sero observados ou se

    apenas uma parte da populao que ser observada e neste ltimo caso deve-se

    decidir por alguma tcnica de amostragem que gere uma amostra mais el

    possvel (s) caracterstica(s) da populao, podendo ser probabilstica ou no.

    Os dados podem ser classicados quanto forma de coleta, como:

    a. Dados primrios - quando o prprio pesquisador quem elabora e aplica

    os instrumentos necessrios para a coleta dos dados, ou seja, quando a Coleta

    Direta;

    b. Dados secundrios - quando o pesquisador utiliza informaes j colhidas

    por outrem, retirando-as de livros, revistas, mapas anurios, etc.

    3. Coligir ou apurar os dados.

    Esta fase consiste em resumir os dados, atravs de sua contagem e agrupamento.

    possvel que nesta fase seja identicado a presena de dados absurdos fazendo-se

    necessrio a eliminao ou correo destes tipos de dados.

    4. Analisar e interpretar os dados.

    5. Relatar as concluses de maneira que sejam facilmente entendidas por quem as

    for usar na tomada de decises.

  • 10 CAPTULO 1. INTRODUO ESTATSTICA

  • Captulo 2

    Organizao de Dados atravs de

    Tabelas e Grcos

    2.1 Introduo

    A estatstica pode ser considerada como um instrumento ou um conjunto de m-

    todos matemticos que devem ser utilizados quando se pretende transformar dados em

    informao. Para ilustrar este processo, veja a Figura 1:

    12 15 18

    15 12 18

    18 15 18

    17 19 20

    Conjunto de dados

    Mdia

    Moda

    Mediana

    Proporo

    Quantis

    Conjunto de informaes

    Figura 1:

    No primeiro retngulo, tem-se um conjunto de observaes da varivel idade de um

    grupo de 12 pessoas e, no segundo retngulo, as estatsticas (informaes) que podem

    representar esses nmeros.

    2.2 Organizao de dados: Tabelas e Grcos

    2.2.1 Distribuio de Frequncias: representao tabular

    O primeiro passo para se resumir um conjunto de dados orden-los em ordem

    crescente ou decrescente e proceder a contagem do nmero de ocorrncia (freqncia)

    de cada dado. ordenao dos dados denominamos de Rol. Assim, o rol para o

    conjunto de dados da Figura 1 ca:

    Rol de dados: (Organize!)

    11

  • 12CAPTULO 2. ORGANIZAODEDADOS ATRAVS DE TABELAS E GRFICOS

    Desta maneira, ca fcil vericar a freqncia com que cada um dos dados foi

    observado, por exemplo: o valor 12 ocorreu 2 vezes; o valor 15 ocorreu 3 vezes, e assim

    por diante.

    Uma maneira adequada de apresentar os dados e suas respectivas freqncias

    atravs de uma Tabela de Freqncias, a qual constituda por uma coluna refe-

    rente aos dados e outra referente s freqncias associadas a cada valor observado

    (ni). Veja como ca para o conjunto de dados da Figua 1:

    Tabela 2.1: Distribuio de freqncias da varivel idade.

    Idade Frequncia (ni)12 2

    15 3

    17 1

    18 4

    19 1

    20 1

    Total de observaes (n) 12

    Fonte: ctcia.

    Uma medida bastante til na interpretao de tabelas de freqncias a freqn-

    cia relativa (fi), a qual dada pela razo entre a freqncia do i-simo valor observado,ni e o total de dados observados, n. Pode-se, ainda, representar a freqncia relativaem termos de porcentagem, bastando para isso multiplicar a freqncia relativa fi por100.

    Para alguns tipos de variveis, tais como a qualitativa ordinal e as quantitativas

    (discreta ou contnua), pode ser til tambm, a informao de quantas observaes

    apresentam valores menores ou iguais a um certo valor xado. Este tipo de informao

    denominado de freqncia acumulada, Fi, a qual tambm pode ser expressa emtermos relativos ou por porcentagens.

    Vejamos, agora, como ca a tabela de freqncias anterior com estas informaes

    adicionadas:

    Tabela 2.2: Distribuio de freqncias da varivel idade com frequncias relativas e

    acumuladas.

    Idade ni fi fi 100 (%) Fi (%)12 2 0,1667 16,67 16,67

    15 3 41,67

    17 1 0,0833 8,33 50,00

    18 4 33,33

    19 1 8,33 91,67

    20 1 0,0833 8,33 100,00

    Total (n) 12 1,0000 100,00

    Fonte: ctcia.

  • 2.2. ORGANIZAO DE DADOS: TABELAS E GRFICOS 13

    Observao: Ao conjunto de todos os pares de valores, referentes a cada dado

    observado e sua respectiva freqncia, denominamos de Distribuio de Freqn-

    cias. Desta forma, os pares (12, 2), (15, 3), (17, 1), (18, 4), (19, 1) e (20, 1) representama distribuio de freqncias da varivel idade para esse grupo de pessoas.

    2.2.2 Distribuio de Frequncias: representao grca

    Uma representao grca da distribuio de freqncias tem a vantagem de, maneira

    rpida e concisa, informar tanto sobre as frequncias quanto sobre a variabilidade dos

    dados.

    Grco de Colunas

    O grco de colunas mais adequado para representar a distribuio de frequncias

    de variveis discretas mas tambm pode ser utilizado para variveis qualitativas nomi-

    nais cujos nomes das categorias so pequenos ou variveis qualitativas ordinais. Neste

    grco, cada valor observado representado por retngulos de mesma base e alturas

    proporcionais s freqncias. Para ilustrar, veja como ca este grco para a distri-

    buio de freqncias da varivel idade, utilizando a freqncia absoluta e relativa em

    termos de porcentagem:

    Figura 2.1:

    Distribuio de freqncias da varivel idade

    2

    3

    1

    4

    1 1

    00.5

    11.5

    22.5

    33.5

    44.5

    12 15 17 18 19 20Idade (anos)

    Freq

    ncia (

    n_i)

    Figura 2.2:

    Distribuio de freqncias da varivel idade

    16.7%

    25.0%

    8.3%

    33.3%

    8.3% 8.3%

    0.0%5.0%

    10.0%15.0%20.0%25.0%30.0%35.0%40.0%45.0%50.0%

    12 15 17 18 19 20Idade (anos)

    Freq

    ncia (%

    )

  • 14CAPTULO 2. ORGANIZAODEDADOS ATRAVS DE TABELAS E GRFICOS

    Observao: existe um grco denominado Grco de Pareto que bastante

    conhecido na rea deControle de Qualidade. Este grco nada mais que um grco

    de colunas ordenadas de acordo com as frequncias da maior para a menor, usado; por

    exemplo; para identicar defeitos que ocorrem com maior frequncia e, provavelmente;

    dependendo dos custos; o de maior prioridade para se tomar providncias.

    Grco de Pizza ou de Setores

    O Grco de Pizza ou de Setores tambm adequado para representar variveis dis-

    cretas desde que no assumam uma quantidade muito grande de valores. adequado

    tambm para variveis qualitativas nominais. Este grco caracterizado por um

    crculo de raio arbitrrio representando a frequncia absoluta ou percentual total de

    dados. O crculo por sua vez dividido em setores(fatias) que correspondem, propor-

    cionalmente, s frequncias com que as categorias da varivel em estudo ocorrem.

    Para calcular o ngulo, 0, correspondente a uma fatia do grco de pizza, possvel, a partir de uma simples regra de trs chegar seguinte frmula:

    0 = fi 3600

    Exerccios de Fixao

    1 - Construa uma Tabela de Frequncias para a varivel TOLERNCIA AO CI-

    GARRO, referente vocs, alunos matriculados na disciplina Probabilidade e

    Estatstica (6 crditos). Represente, tambm, esta distribuio de frequncias

    atravs de um ou mais grco(s) que considere adequado(s).

    2 - O seguinte conjunto de dados referente ao nmero de acidentes por dia em certo

    trecho de rodovia no ms de setembro de certo ano:

    2 0 1 2 3 1 6 1 0 0

    1 2 2 1 2 0 1 4 2 3

    0 1 0 2 1 2 4 1 1 1

    Responda as seguintes questes:

    a) Qual o nmero mnimo de acidentes, num certo dia? E o nmero mximo?

    b) Freqntemente, ocorreram quantos acidentes por dia? E o que isso repre-

    senta em termos de percentuais?

    c) Represente gracamente a distribuio de frequncia da varivel nmero de

    acidentes por dia, no ms de setembro.

    d) Faa um grco de colunas para o percentual acumulado.

  • 2.2. ORGANIZAO DE DADOS: TABELAS E GRFICOS 15

    2.2.3 Agrupamento de dados em classes e distribuio de frequn-

    cias

    Introduo

    Em algumas situaes, necessrio o agrupamento de dados em categorias ou

    classes para se proceder a construo de uma tabela de freqncias. Por exemplo, em

    um conjunto de dados contnuos, um mesmo valor no ocorrer com grande freqncia,

    ou at mesmo, no se repetir por mais de uma vez. Uma vantagem em agrupar os

    dados em classes consiste na organizao de grandes conjuntos de dados de forma mais

    clara e objetiva. Por outro lado, uma desvantagem, consiste na perda de informaes

    por no se saber exatamente quais os valores ocorridos dentro de cada classe.

    Para ilustrar como proceder a construo de uma tabela de freqncias em classes,

    considere o seguinte conjunto de dados:

    Tabela 2.3: Notas do 1o estgio de 20 estudantes de estatstica.

    Cdigo do aluno 1 2 3 4 5 6 7 8 9 10

    Nota 7,5 8,0 9,0 7,3 6,0 5,8 10,0 3,5 4,0 6,0

    Cdigo do aluno 11 12 13 14 15 16 17 18 19 20

    Nota 7,5 7,0 8,5 6,8 9,5 9,8 10,0 4,8 5,5 7,0

    Fonte: ctcia.

    Note que, no haver vantagem alguma se organizarmos estes dados numa tabela

    de freqncias, uma vez que os dados pouco se repetem. Assim, torna-se til o agru-

    pamento dos dados, que, de um modo geral, pode ser feito de acordo com os seguintes

    passos:

    1. Organizar os dados num Rol.

    2. Estabelecer o Nmero de Intervalos (categorias ou classes) para se dividir o

    conjunto de dados.

    A escolha do nmero de classes arbitrria, a qual pode ser estabelecida de acordo

    com o bom senso do pesquisador ou obtido por alguma frmula matemtica

    construda para este m. Uma sugesto prtica a escolha entre 5 e 15 classes

    com a mesma amplitude e duas frmulas matemticas que podem orientar na

    escolha do nmero de classes, so:

    (a) k =n

    (b) k = 1 + 3, 3 log(n)Onde k o nmero de classes e n o nmero total de observaes.

    3. Calcular a Amplitude Total:

    ATot = xmax xminOnde xmax e xmin o valor mximo e mnimo observado no conjunto de dados.

  • 16CAPTULO 2. ORGANIZAODEDADOS ATRAVS DE TABELAS E GRFICOS

    4. Determinar a Amplitude de Classe:

    h =ATotk

    5. A partir do menor valor observado no conjunto de dados, ou de algum valor

    imediatamente inferior e adequadamente escolhido, delimitar as classes, ou seja,

    determinar os limites inferiores e superiores de cada classe.

    Neste momento, os seguintes smbolos so teis:

    (a) li | Li - para indicar que o valor extremo inferior (li) no pertence i-sima classe, enquanto que o valor extremo superior (Li) pertence.

    (b) li | Li - para indicar que o valor extremo inferior (li) pertence i-sima classe, enquanto que o valor extremo superior (Li) no pertence.

    6. Aps todos estes passos, s resta proceder a contagem do nmero de observaes

    pertencentes cada uma das classes e organizar estas informaes numa tabela

    de freqncias para dados agrupados.

    De acordo com estes passos, o conjunto de dados anterior pode ser organizado

    como:

    (Construir a Tabela de freqncias para os dados agrupados em classes)

    Representao Grca: Histograma

    Para a representao grca de variveis quantitativas contnuas necessrio alguma

    adaptao do grco de colunas, uma vez que, em geral, necessrio agrupar os dados

    em classes e, consequentemente, h perda de informaes.

    Histograma - um grco indicado para representar dados agrupados em classes.

    Este grco uma adaptao do grco de colunas, onde as bases correspondem aos

    intervalos de classe e as alturas so proporcionais s freqncias de classe.

    Agora, veja como ca o histograma para a distribuio das Notas:

  • 2.2. ORGANIZAO DE DADOS: TABELAS E GRFICOS 17

    (Construir o histograma para a distribuio de freqncias em classes)

    Exerccios de Fixao

    1 - Segue abaixo os dados da varivel taxa de mortalidade infantil de 34 municpios:

    32,3 62,2 10,3 22,0 13,1 9,9 11,9 20,0 36,4 23,5

    18,0 22,6 20,3 38,3 19,6 27,2 28,9 18,4 27,3 21,7

    23,7 13,9 36,3 32,9 29,7 25,4 23,8 15,7 17,0 39,2

    22,7 29,9 18,3 33,0

    Obtenha uma distribuio de frequncias com 7 classes, comeando do valor 0(incluso) e com amplitudes de classe iguais a 10. Apresente alguns comentrios

    sobre a taxa de mortalidade infantil dos 34 municpios.

    2 - Em uma pesquisa foram anotados os tempos decorridos entre a incidncia de

    uma certa doena e sua cura, em 50 pacientes. Estes tempos so os seguintes,

    em horas:

    21 44 27 323 99 90 20 66 39 16

    47 96 127 74 82 92 69 43 33 12

    41 84 02 61 35 74 02 83 03 13

    41 10 24 24 80 87 40 14 82 58

    16 35 114 120 67 37 126 31 56 04

    Construa um histograma e comente sobre alguns aspectos relevantes desta dis-

    tribuio.

    Resolues:

  • 18CAPTULO 2. ORGANIZAODEDADOS ATRAVS DE TABELAS E GRFICOS

    Distribuio de frequncias com amplitude de classes desiguais

    Em algum momento o prezado leitor poder ter a necessidade de construir uma dis-

    tribuio de frequncias em classe com amplitudes desiguais. Em tal situao re-

    comendvel substituir as frequncias absolutas ou relativas pelo que chamamos de

    densidades de frequncias di calculadas da seguinte forma:

    di =nihi,

    para toda classe i.

    Exemplo 2.2.1. Dada a seguinte distribuio de freqncias:

    Tabela 2.4: Distribuio de frequncias de uma certa varivel.

    Varivel ni

    10 ` 20 1320 ` 30 1730 ` 50 2050 ` 100 25Total

    Fonte: ctcia.

    Construa um histograma para representar tal distribuio.

  • Captulo 3

    Estatsticas Descritivas

    3.1 Medidas Resumo para Variveis Quantitativas

    Nesta seo veremos algumas medidas que tem como objetivo resumir um conjunto

    de dados em um nico valor o qual possa fornecer informaes sobre o comportamento

    dos dados, ou seja, sobre a distribuio de freqncias da varivel.

    3.1.1 Medidas de Tendncia Central

    As medidas de tendncia central so bastante utilizadas e representam o centro ou

    o meio de um conjunto de dados. As principais so: a mediana, a moda, e a mdia

    aritmtica.

    A seguir estas medidas so denidas e obtidas para os dois seguintes conjuntos

    de dados que representam o nmero de gols registrados em cada partida de futebol,

    durante 5 e 6 jogos, respectivamente:

    Conjunto de dados 1: Nmero de gols por partida de futebol, em 5 jogos.

    3 2 1 2 5

    Conjunto de dados 2: Nmero de gols por partida de futebol, em 6 jogos.

    5 3 2 1 2 5

    Mediana

    AMediana o valor que divide o conjunto de dados ordenados em duas partes

    iguais, ou seja, 50% das unidades observadas possuem valores menores ou iguais ao

    valor mediano e as demais 50% possuem valores acima da mediana.

    Notao: Md ou Md(X).

    19

  • 20 CAPTULO 3. ESTATSTICAS DESCRITIVAS

    Para se obter o valor da mediana necessrio seguir os seguintes passos:

    1) Ordenar o conjunto de dados em ordem crescente (ou descrescente);

    2) Identicar a posio central do conjunto de dados, ou seja, a posio ondese encontra o valor da mediana. Esta(s) posio(es) pode(m) ser vericada(s)

    utilizando-se as seguintes frmulas:

    1. PMd =n+1

    2, se o total de observaes, n, mpar. Assim, a mediana, Md,ser o valor observado na posio PMd;

    2. P1Md =n2e P2Md =

    n2

    + 1, se o total de observaes, n, par. Pois, nestecaso, existem duas posies centrais e a mediana, Md, ser a mdia aritmticados valores observados nestas duas posies.

    Exemplo 3.1.1. A partir do conjunto de dados 1, pode-se obter o seguinte rol de

    dados:

    1 2 2mediana

    3 5

    Note que, o nmero de observaes, n = 5, mpar, logo o valor da mediana (valorcentral) est na posio PMd =

    n+12

    = 5+12

    = 3, que igual a Md = 2.

    Exemplo 3.1.2. Ordenando em ordem crescente o conjunto de dados 2, teremos o

    seguinte rol de dados:

    1 2 2 3dois valores centrais

    5 5

    Agora, neste caso, o nmero de observaes, n = 6, par, e, portanto, existem doisvalores centrais localizados nas posies P1Md =

    n2

    = 62

    = 3 e P2Md =n2+1 = 3+1 = 4.Assim, a mediana ser a mdia aritmtica dos valores que se encontram nestas duas

    posies, dada por:

    Md =xP1Md + xP2Md

    2=

    2 + 3

    2= 2, 5.

    Observao:

    Uma forma alternativa de se obter a posio da mediana dada por:

    1) Obter o valor que representa a metade do total de observaes: PMd = n2 ;

    2) Utilizar a seguinte regra:

    1. Se PMd for um nmero no inteiro, ento, arredonda-se o valor de PMd parao maior inteiro mais prximo, e, assim, o valor da mediana estar nesta nova

    posio obtida.

    2. Se PMd for um nmero inteiro, ento o valor da mediana ser a mdia aritmticados valores que esto nas posies PMd e PMd + 1.

  • 3.1. MEDIDAS RESUMO PARA VARIVEIS QUANTITATIVAS 21

    Exemplo 3.1.3. Utilizando-se os procedimentos descritos na observao acima, temos

    que, para o conjunto de dados 1, PMd =n2

    = 52

    = 2, 5 (no inteiro), logo o valor damediana estar na posio PMd = 3 (maior inteiro mais prximo), que dado porMd = 2.

    Exemplo 3.1.4. No conjunto de dados 2, temos PMd =n2

    = 62

    = 3 (inteiro), assim,de acordo com o procedimento descrito na observao acima, temos que a mediana

    dada pela mdia aritmtica dos valores observados nas posies PMd = 3 e PMd + 1 =3 + 1 = 4:

    Md =xP1Md + xP2Md

    2=

    2 + 3

    2= 2, 5.

    Moda

    A Moda o valor (ou os valores) no conjunto de dados que ocorre(m) com maior

    freqncia.

    Notao: Mo ou Mo(X).

    Exemplo 3.1.5. O primeiro conjunto de dados, 1 2 2 3 5, dito ser unimodal,tendo em vista que um nico valor ocorre com maior frequncia. Assim, a moda

    Mo = 2.

    Exemplo 3.1.6. O segundo conjunto de dados, 1 2 2 3 5 5, dito ser bimo-dal, tendo em vista que, neste caso, dois valores ocorrem com maior frequncia, assim,

    os valores modais so: Mo = 2 e Mo = 5.

    Exemplo 3.1.7. Classique os conjuntos de dados a seguir de acordo com a quantidade

    de valor(es) modal(is):

    a) 2 4 7 9 11 17

    b) 2 4 4 7 7 7 9 11 17 17

    c) 2 2 2 4 4 4 7 7 7

    d) 2 2 2 4 4 4 7 7 7 9

    e) -1 0 0 1 1 2 3 3 4 4 5 6 6

  • 22 CAPTULO 3. ESTATSTICAS DESCRITIVAS

    Mdia Aritmtica (Mdia)

    A Mdia Aritmtica (Mdia) obtida a partir da razo entre a soma dos valores

    observados e o total de observaes:

    Mdia =soma dos valores

    total de observaes (n)

    Notao: Me, Me(X) ou x.

    Exemplo 3.1.8. A partir do conjunto de dados 1, a mdia obtida por:

    Me(X) = x =soma dos valores

    total de observaes (n)=

    1 + 2 + 2 + 3 + 5

    5= 2, 6.

    Observao:

    1) A mdia aritmtica pode ser expressa atravs do uso do smbolo de somatrio

    (sigma). Por exemplo, se x1, x2, . . . , xk so k valores distintos da varivel X, podemosescrever:

    Me(X) = x =x1 + x2 + . . .+ xk

    k=

    1

    k

    ki=1

    xi

    Agora, se, de um total de n valores observados (ou observaes), x1 ocorreu n1vezes, x2 ocorreu n2 vezes, etc., xk ocorreu nk vezes, ento a mdia de X pode serreescrita como:

    Me(X) = x =x1.n1 + x2.n2 + . . .+ xk.nk

    n=

    1

    n

    ki=1

    xi.ni (3.1)

    =ki=1

    xi.nin(3.2)

    =ki=1

    xi.fi. (3.3)

    Onde:

    ni freqncia absoluta do valor observado xi,

    n = ki=1 ni o total de observaes, e, fi freqncia relativa do valor observado xi.

  • 3.1. MEDIDAS RESUMO PARA VARIVEIS QUANTITATIVAS 23

    Exemplo 3.1.9. A partir do segundo conjunto de dados,

    1 2 2 3 5 5,

    temos:

    Me(X) = x =1

    n

    ki=1

    xi.ni =1

    6(1 1 + 2 2 + 3 1 + 5 2) = 18

    6= 3.

    Exerccios de Fixao

    1 - Dado o seguinte conjunto de dados:

    12 12 15 15 15 17 18 18 18 18 19 20

    Determine a mdia, moda e mediana.

    Soluo:

  • 24 CAPTULO 3. ESTATSTICAS DESCRITIVAS

    3.1.2 Medidas de Disperso ou de Variabilidade

    Na sumarizao de um conjunto de dados, uma nica medida representativa da

    posio central, esconde toda a informao sobre a variabilidade dos dados. Veja, por

    exemplo, os seguintes dados:

    Varivel X : 3 4 5 6 7

    Varivel Y : 4 5 5 6

    Varivel Z : 5 5 5 5

    Note que a mdia Me(X) = Me(Y ) = Me(Z) = 5, a qual nada informa sobre avariao dos valores nos dois grupos. Assim, torna-se importante o conhecimento de

    uma medida que fornea este tipo de informao.

    Na prtica, existem vrias medidas que expessam a variabilidade de um conjunto

    de dados, sendo que as mais utilizadas baseam-se na idia que consiste em vericar a

    distncia de cada valor observado em relao mdia. Estas distncias so denomina-

    das de desvios em relao mdia.

    Denio 3.1.1 (Varincia). - uma medida que representa a variabilidade de um

    conjunto de dados e, obtida pelo clculo da mdia dos quadrados dos desvios em

    relao mdia:

    V ar(X) = s2

    =1

    n

    ki=1

    (xi x)2 ni

    =ki=1

    (xi x)2 nin

    =ki=1

    (xi x)2 fi

    Exerccio

    Mostre que:

    1 -

    ki=1

    (xi x) ni = 0

  • 3.1. MEDIDAS RESUMO PARA VARIVEIS QUANTITATIVAS 25

    2 -

    ki=1

    (xi x)2 ni =ki=1

    x2ini nx2

    E, por isso, a varincia tambm pode ser obtida pela seguinte frmula:

    V ar(X) = s2 =1

    n

    ki=1

    x2ini x2

    3 - (ni=1

    xi

    )2=

    ni=1

    x2i + 2i

  • 26 CAPTULO 3. ESTATSTICAS DESCRITIVAS

    A utilidade imediata do coeciente de variao a possibilidade de avaliar o grau

    de representatividade da mdia. Esta medida tambm bastante til na comparao

    entre conjunto de dados, em relao variabilidade; ainda que as unidades de medida

    nos conjuntos de dados sejam distintas. Por exemplo, comparar a variabilidade das

    distribuies da varivel peso expressa em quilogramas (Kg) e altura expressa emmetros (m).

    Um critrio de deciso sobre a representatividade ou no da mdia, pode ser dada

    pela seguinte linha de corte:

    Se CV 50%, a mdia no representativa.Se CV < 50%, a mdia representativa.

    Exemplos:

    a) Obtenha o desvio padro das variveis X, Y e Z alm dos coecientes de variaoCV (X), CV (Y ) e CV (Z).

    b) Considere os quilmetros rodados por 3 carros: 30Km, 40Km e 50Km. Calculea mdia, a varincia, o desvio padro e o CV. Interprete essas medidas.

    Exerccio de Fixao

    1 - Dado o seguinte conjunto de dados:

    12 12 15 15 15 17 18 18 18 18 19 20

    Determine o desvio padro e o CV.

    Soluo:

  • 3.1. MEDIDAS RESUMO PARA VARIVEIS QUANTITATIVAS 27

    3.1.3 Medidas Resumo para Dados Agrupados

    Sabemos que ao agrupar um conjunto de dados em classes, perdemos a informao

    sobre o valor exato que ocorreu no conjunto de dados e, no caso em que seja impossvel

    recuperar esta informao, podemos supor que todos os dados dentro de uma classe

    tenham seus valores ocorridos prximos ao ponto mdio da classe que denotaremos

    por si. Assim, podemos, por exemplo, utilizar os pontos mdios das classes si e suasrespectivas freqncias ni para calcular a mdia aritmtica de maneira anloga aoexposto anteriormente. Da mesma forma, podemos adotar como valor modal, o ponto

    mdio da classe modal e como mediana, o ponto mdio da classe mediana.

    Exemplo 3.1.10. Dada a seguinte distribuio de freqncias da varivel S=salrio(dados agrupados em classes):

    Tabela 3.1: Distribuio de frequncias da varivel Salrio.

    Salrio ni

    4,00 ` 8,00 108,00 ` 12,00 1212,00 ` 16,00 816,00 ` 20,00 820,00 ` 24,00 2

    Fonte: ctcia.

    Determine o valor (aproximado) da mdia, moda e mediana. Determine tambm

    o desvio padro e o CV.

    Soluo:

  • 28 CAPTULO 3. ESTATSTICAS DESCRITIVAS

    3.2 Medidas de Posio: Quartis, Decis e Percentis

    Assim como a mediana divide os dados em duas partes iguais, os trs quartis,

    denotados por Q1, Q2 e Q3, dividem as observaes ordenadas (em ordem crescente)em quatro partes iguais. A grosso modo:

    - Q1 separa os 25% inferiores dos 75% superiores dos valores ordenados;

    - Q2 separa os 50% inferiores dos 50% superiores, ou seja, a mediana; e

    - Q3 separa os 75% inferiores dos 25% superiores dos dados;

    Analogamente, h nove decis, denotados porD1, D2, . . . , D9, que dividem os dadosem 10 grupos com cerca de 10% deles em cada grupo. Finalmente, h 99 percentis

    que dividem os dados em 100 grupos com cerca de 1% de dados em cada grupo.

    Basicamente, dois passos so necessrios para se encontrar as medidas em questo.

    Primeiro deve-se identicar a sua posio, e, em seguida, determinar o seu valor.

    Veja a seguir, como obter os valores referentes aos percentis, quando se est traba-

    lhando com dados brutos ou em distribuio de freqncias para dados no agrupados:

    1) Identicar a posio do percentil que se deseja encontrar, atravs da seguinteexpresso:

    L =

    (k

    100

    ) n

    Onde:

    - L o valor que indica a posio do percentil de interesse;

    - k o k esimo percentil; e- n o total de dados observados.

    2) Utilizar a seguinte regra:

    1. Se L for um nmero no inteiro, ento, arredonda-se o valor de L para o maiorinteiro mais prximo, e, assim, o valor do k esimo percentil, Pk, dado pelovalor que ocupa esta nova posio obtida.

    2. Se L for um nmero inteiro, ento o valor do k esimo percentil, Pk, ser amdia aritmtica dos valores que esto nas posies L e L+ 1.

    Uma vez dominados os clculos para os percentis, pode-se seguir o mesmo processo

    para calcular os quartis e decis, tendo-se o cuidado de calcular o valor de L, pelasfrmulas L =

    (k4

    ) n, k = 1, 2, 3 e L = ( k10

    ) n, k = 1, 2, . . . , 9, respectivamente.Pode-se, ainda, obter os quartis e decis pelas seguintes relaes existentes entre estas

    medidas e os percentis:

  • 3.3. OUTRA ESTRATGIA DE ANLISE DE DADOS 29

    Quartis Decis

    Q1 = P25 D1 = P10Q2 = P50 D2 = P20

    Q3 = P75.

    .

    .

    D9 = P90

    Exerccio de Fixao

    1 - Dado o seguinte conjunto de dados:

    12 12 15 15 15 17 18 18 18 18 19 20

    Determine os Quartis.

    Soluo:

    3.3 Outra Estratgia de Anlise de Dados

    Em algumas situaes a mdia e o desvio padro podem no ser adequados para

    representar um conjunto de dados, pois:

    i - So afetadas, de forma exagerada, por valores extremos;

    ii - Apenas com estes dois valores no temos a idia da assimetria dos valores, ou seja,

    sobre o quanto os dados se distribuem em torno dos valores inferiores, medianos

    e superiores.

    Para contornar estes problemas, 5 medidas foram sugeridas por Tukey (1977):

    1) A mediana (Md);

    2) Os extremos: o menor e o maior valor observado no conjunto de

    dados (xmin e xmax, respectivamente);

    3) O primeiro e o terceiro quartil (ou junta).

  • 30 CAPTULO 3. ESTATSTICAS DESCRITIVAS

    3.3.1 Desenho Esquemtico - Diagrama em Caixa ("Box-Plot")

    As informaes obtidas pelas 5 medidas podem ser representadas por um grco

    conhecido por "Box-Plot" ou diagrama em caixa. Para construir este diagrama, con-

    sideremos um retngulo onde esto representados a mediana e os quartis. A partir

    do retngulo, para cima, segue uma linha at o ponto mais remoto que no exceda

    LS = Q3 + (1, 5)dq, chamado limite superior, onde dq representa a distncia entre oprimeiro e o terceiro quartil (dq = Q3 Q1). De modo similar, da parte inferior doretngulo, para baixo, segue uma linha at o ponto mais remoto que no seja menor

    do que LI = Q1 (1, 5)dq, chamado limite inferior. Os valores compreendidos entreesses dois limites so chamados valores adjacentes. As observaes que estiverem

    acima do limite superior ou abaixo do limite inferior estabelecidos sero chamadas

    pontos exteriores e representadas por asteriscos. Essas so observaes destoantes

    das demais e podem ou no ser o que chamamos de outliers ou valores atpicos.

    O box plot d uma idia da posio, disperso, assimetria, caudas e dados dis-

    crepantes. A posio central dada pela mediana e a disperso por dq. As posiesrelativas de Q1, Q2, Q3 do uma noo da assimetria da distribuio.

    Veja, como ca o box-plot da varivel Peso apresentado na Figura 3.3.1.

    Grcos tipo box-plot tambm so teis para detectar, descritivamente, diferenas

    nos comportamentos de grupos de variveis. Por exemplo, podemos considerar grcos

    da varivel Peso para cada sexo. O resultado apresentado na Figura 3.3.1, em que

    podemos notar que os homens apresentam peso mediano superior ao das mulheres,

    alm de uma maior variabilidade.

  • 3.3. OUTRA ESTRATGIA DE ANLISE DE DADOS 31

    Figura 3.1: Box-plot para a varivel Peso.

  • 32 CAPTULO 3. ESTATSTICAS DESCRITIVAS

    Figura 3.2: Box-plot da varivel Peso segundo o sexo.

  • 3.4. EXERCCIOS 33

    3.4 Exerccios

    1 - Considere os dados da Tabela 2.3 (Pgina 15), referente varivel X: Notas do1o estgio de 20 estudantes de estatstica:

    a) Usando os dados brutos(originais), calcule a mdia, a moda, a mediana, o

    desvio padro e os quartis.

    b) Usando a Tabela de distribuio de frequncias em classes construda na

    pgina 16, calcule: a mdia, a moda, a mediana, o desvio padro e os

    quartis.

    c) Compare os resultados obtidos em a) e b).

    2 - Construa o box-plot para representar os dados referentes varivel Taxa de Mor-

    talidade Infantil cujos dados se encontram no Exerccio 1 da pgina 17.

    3 - Obtenha a mdia e a mediana para o seguinte conjunto de dados:

    20 30 40

    a) Se substitumos o valor 40 por 70, os valores da mdia e da mediana seroos mesmos? Nesta situao a mdia seria uma boa medida de tendncia

    central? Por que?

    b) Analisando os resultados acima, ressalte uma caracterstica vantajosa da

    mediana em relao mdia.

    4 - Na turma A do curso normal da Escola X, esto matriculados 50 alunos no cor-

    rente ano. O levantamento das chas biomtricas revelou as seguintes estaturas

    em centmetros:

    165 164 151 160 155 169 153 156 165 160

    170 157 162 162 155 154 151 155 162 150

    168 160 154 151 168 155 156 158 166 155

    154 152 163 156 170 158 171 159 175 154

    159 158 153 158 156 162 165 156 161 157

    a) Elabore uma distribuio de freqncias, fazendo o limite inferior da primeira

    classe igual a 150 (inclusive) e amplitudes dos intervalos de classe igual a 5 cm.

    b) Baseado na distribuio de freqncia calcule: a mdia, a mediana e a moda.

    c) Construa um histograma e um box-plot para representar este conjunto de

    dados.

  • 34 CAPTULO 3. ESTATSTICAS DESCRITIVAS

    5 - As taxas de juros recebidas por 10 aes durante certo perodo foram (medidas

    em porcentagem): 2.59; 2.64; 2.60; 2.62; 2.57; 2.55; 2.61; 2.50; 2.63; 2.64. Calcule

    a mdia e a mediana.

    6 - Dados os conjuntos de nmeros:

    A = {1000; 1001; 1002; 1003; 1004; 1005} eB = {0, 1, 2, 3, 4, 5},podemos armar que:

    a) o desvio-padro de A igual a 100 vezes o desvio-padro de B.

    b) o desvio-padro de A igual ao desvio-padro de B.

    c) o desvio-padro de A igual ao desvio-padro de B multiplicado pelo quadrado

    de 1000.

    d) o desvio-padro de A igual ao desvio-padro de B dividido por 1000.

    e) o desvio-padro de A igual ao quadrado do desvio-padro de B.

  • Captulo 4

    Anlise Bivariada

    4.1 Introduo

    Em algumas anlises de dados pode surgir a necessidade de se fazer um estudo

    sobre o comportamento conjunto de duas ou mais variveis e para isso a distribuio

    conjunta de freqncias de grande utilidade.

    Na presente nota de aula estudaremos apenas o caso de duas variveis e, sendo

    assim, possvel observar a ocorrncia de trs situaes distintas que requerem tcnicas

    estatsticas tambm distintas. As trs situaes distintas que podem ocorrer so:

    As duas variveis so Qualitativas; As duas variveis so Quantitativas; Uma varivel Qualitativa e a outra Quantitativa.

    Na presente nota de aula, estudaremos apenas os dois primeiros casos.

    4.2 Variveis Qualitativas

    Para ilustrar como podemos realizar uma anlise exploratria inicial sobre duas va-

    riveis qualitativas, veremos, por exemplo, como se comportam as variveis: regio

    de procedncia (X) e grau de instruo (Y ) em que alguns valores hipotticos foramregistradados numa tabela da seguinte forma:

    35

  • 36 CAPTULO 4. ANLISE BIVARIADA

    Tabela 4.1: Parte de uma base de dados com 36 observaes de duas variveis qualita-

    tivas.

    ID X Y

    1 Capital 10 Grau2 Interior Superior

    3 Capital 10 Grau4 Capital 20 Grau5 Capital 10 Grau6 Outra 10 Grau. . . . . . . . .

    36 Capital 10 Grau

    Esta base de dados pode ser resumida numa tabela que chamamos Distribuio

    de Frequncias Conjunta das variveis X e Y , dada por:

    Tabela 4.2: Distribuio de frequncias conjunta das variveis X e Y .X Y freq. conj. (nij)

    Capital 10 GrauCapital 20 GrauCapital Superior

    Interior 10 GrauInterior 20 GrauInterior Superior

    Outra 10 GrauOutra 20 GrauOutra Superior

    Tal distribuio de frequncias melhor representada por uma Tabela de Dupla

    Entrada onde, alm das frequncias conjunta, tambm podem ser apresentadas as

    frequncias ditas marginais ou unidimensionais de X e Y . Para o nosso exemplo, estatabela dada por:

    Tabela 4.3: Distribuio de freqncias conjunta das variveis X e Y .

    Y 1 Grau 2 Grau Superior Total marginal de XXCapital n11 = 4 n12 = 5 n13 = 2 n1. =Interior n21 = 3 n21 = 7 n21 = 2 n2. =Outra n31 = 5 n32 = 6 n32 = 2 n3. =Total marginal de Y n.1 = n.2 = n.3 = n.. =

    Observaes:

    1. Cada clula do corpo da tabela apresenta o nmero de ocorrncia simultnea

    (nij i, j) dos valores (x, y) de X e Y , constituindo a distribuio conjunta;

  • 4.2. VARIVEIS QUALITATIVAS 37

    2. A coluna dos totais, freqncias marginais de X, ni., i = 1, 2, 3, constitui a dis-tribuio marginal de X;

    3. A linha dos totais, freqncias marginais de Y , n.j, j = 1, 2, 3, constitui a distri-buio marginal de Y ;

    4. Assim como no caso de uma nica varivel, as freqncias absolutas podem ser

    expressas em termos de freqncias relativas e/ou porcentagens, sendo que, estas

    medidas podem ser obtidas em relao ao total geral, em relao ao total de

    cada linha ou em relao ao total de cada coluna, de acordo com os objetivos

    da pesquisa;

    Exerccios de Fixao

    A partir dos dados apresentados na Tabela 4.3, determine:

    a) O percentual de pessoas que possuem o 2 grau e que so do interior. R: 19,4%

    b) Dentre os que possuem o 2 grau, qual o percentual de pessoas provenientes dointerior? R: 38,9%

    c) Sabendo-se que uma pessoa veio do interior, qual a probabilidade, em termos

    percentuais, de ter o 2 grau? R: 58,3%

    Para responder estas e outras questes, torna-se til a construo de tabelas de

    dupla entrada contendo as freqncias relativas em termos de porcentagem, tendo como

    referncia o total geral, os totais de cada linha ou coluna, de acordo com a questo a

    ser respondida. Vejamos como cam estas tabelas:

  • 38 CAPTULO 4. ANLISE BIVARIADA

    Tabela 4.4: Freqncias percentuais da distribuio conjunta das variveis X e Y , emrelao ao total de dados observados.

    Y 1 Grau 2 Grau Superior Total marginal de XXCapital

    Interior

    Outra

    Total marginal de Y 100%

    Tabela 4.5: Freqncias percentuais da distribuio conjunta das variveis X e Y , emrelao ao total de linha (freqncia marginal de X).

    Y 1 Grau 2 Grau Superior Total marginal de XXCapital 100%

    Interior 100%

    Outra 100%

    Total marginal de Y 100%

    Tabela 4.6: Freqncias percentuais da distribuio conjunta das variveis X e Y , emrelao ao total de coluna (freqncia marginal de Y ).

    Y 1 Grau 2 Grau Superior Total marginal de XXCapital

    Interior

    Outra

    Total marginal de Y 100% 100% 100% 100%

    Para nalizar esta etapa do nosso estudo, importante ressaltar que a comparao

    entre duas variveis qualitativas tambm pode ser feita utilizando-se representaes

    grcas (Pesquise!).

  • 4.3. ASSOCIAO ENTRE VARIVEIS QUALITATIVAS 39

    4.3 Associao entre Variveis Qualitativas

    Ocorre com bastante freqncia em anlises de distribuio conjunta o questio-

    namento sobre a existncia de dependncia/associao ou no entre as va-

    riveis, alm da necessidade de se saber o grau de dependncia entre elas, caso

    exista.

    De modo geral, o grau de dependncia entre duas variveis quanticado pelos

    coecientes de associao ou correlao. Usualmente, esses coecientes variam de zero

    at um, sendo que, s vezes, variam de -1 a 1. Desta maneira, valores prximos de

    zero do indcios de independncia entre as variveis e, valores prximos de 1 (ou -1)

    indicam um alto grau de dependncia positiva (ou negativa).

    Uma maneira pouco rigorosa mas bastante prtica para se ter uma idia sobre a

    existncia ou no de associao/dependncia entre duas variveis qualitativas obtida

    quando observamos se a proporo em cada categoria de uma varivel (xada o total

    em linha ou coluna) igual ou prxima proporo marginal (de X ou de Y ). Pois casoestas propores sejam razoavelmente prximas, temos um indcio de no dependncia

    entre as variveis; caso contrrio; a evidncia de que as variveis sejam dependentes.

    Exemplo 4.3.1. Para cada uma das tabelas abaixo (Tabelas 4.7 e 4.8), verique se h

    alguma indicao de dependncia entre as variveis.

    Tabela 4.7: Distribuio conjunta das freqncias e propores de alunos, segundo sexo

    (X) e curso escolhido (Y).

    X Masculino Feminino Total marginal de YYEconomia 85 (61%) 35 (58%) 120 (60%)

    Administrao 55 (39%) 25 (42%) 80 (40%)

    Total marginal de X 140 (100%) 60 (100%) 200 (100%)

    Comentrio:

    Tabela 4.8: Distribuio conjunta das freqncias e propores de alunos, segundo sexo

    (X) e curso escolhido (Y).

    X Masculino Feminino Total marginal de YYFsica 100 (71%) 20 (33%) 120 (60%)

    Cincias Sociais 40 (29%) 40 (67%) 80 (40%)

    Total marginal de X 140 (100%) 60 (100%) 200 (100%)

    Comentrio:

  • 40 CAPTULO 4. ANLISE BIVARIADA

    4.4 Medidas de Associao entre Variveis Qualitati-

    vas

    Uma medida de dependncia bastante utilizada para variveis qualitativas o coe-

    ciente de contingncia, o qual dado por

    C =

    2

    2 + n,

    onde n o nmero de observaes e 2 uma medida conhecida por qui-quadrado dePearson, a qual obtida a partir da seguinte soma

    2 =ri=1

    sj=1

    (nij eij)2eij

    ,

    onde o somatrio estendido a todas as caselas de frequncias conjunta em uma tabela

    r s de dupla entrada (r categorias de X e s de Y ), e

    nij a freqncia observada na ij-sima casela; eij a freqncia esperada na ij-sima casela, caso houvesse independncia entreas variveis, ou seja, quando a proporo em cada categoria de uma varivel

    (xada o total em linha ou coluna) igual ou prxima proporo marginal.

    Deste modo, a frequncia esperada dada, por exemplo, por:

    eij = fi. n.j = ni.n.. n.j = ni. n.j

    n..

    Observaes:

    Se a hiptese de no-associao for verdadeira, o valor do qui-quadrado, 2, deveestar prximo de zero; caso contrrio; o valor deve ser grande.

    Um inconveniente do coeciente de contigncia C que seu valor mximo dependede r e s e, para evitar esse inconveniente, costuma-se denir um outro coeciente,que tambm apresenta uma vantagem adicional de variar entre 0 e 1. Este novo

    coeciente de contigncia dado por

    T =

    2/n

    (r 1)(s 1) .

    Neste caso, quanto mais prximo de 1 o valor de T for, maior o grau de associ-ao/dependncia entre as duas variveis qualitativas e, por outro lado, quanto

    mais prximo de 0, menor o grau de associao/dependncia.

    Exemplo 4.4.1. Para cada uma das Tabelas 4.7 e 4.8, calcule e interprete o valor do

    coeciente de contigncia T .

  • 4.5. MEDIDAS DE ASSOCIAO ENTRE VARIVEIS QUANTITATIVAS 41

    4.5 Medidas de Associao entre Variveis Quantita-

    tivas

    No caso em que as variveis so ambas do tipo quantitativa, pode-se aplicar um proce-

    dimento anlogo ao realizado para a anlise de variveis qualitativas. E, por se tratar de

    variveis quantitativas, antes de construir uma tabela de dupla entrada, os dados mar-

    ginais podem ser agrupados em intervalos de classe, assim como no caso de uma nica

    varivel. Apesar de ser possvel analisar as variveis quantitativas de modo anlogo ao

    caso de variveis qualitativas, nas anlises de associao entre variveis quantitativas

    so possveis realizar procedimentos analticos e grcos mais renados, como veremos

    a seguir.

    4.5.1 Diagrama de Disperso

    O diagrama (ou grco) de disperso nada mais que a representao de pares dos

    valores observados (x1, y1), (x2, y2), . . . , (xn, yn) num sistema cartesiano. Vejamos ailustrao de alguns grcos que podem surgir na prtica:

  • 42 CAPTULO 4. ANLISE BIVARIADA

    4.5.2 Coeciente de Correlao (Linear)

    Ao ser observada uma associao entre variveis quantitativas, seria muito til saber-

    mos sobre a intensidade desta associao. Aqui, veremos apenas uma medida referente

    ao tipo de associao linear, ou seja, ao tipo de relao em que os pontos do grco de

    disperso aproximam-se de uma reta.

    Denio 4.5.1 (Coeciente de Correlao Linear). Dados n pares de valores

    (x1, y1), (x2, y2), ..., (xn, yn), chama-se coeciente de correlao entre as variveis X eY o valor obtido por

    corr(X, Y ) =1

    n

    ni=1

    (xi x)(yi y)dp(X)dp(Y )

    ou seja, a mdia dos produtos dos valores reduzidos (ou padronizados) das variveis.

    Enquanto o coeciente de contigncia T para variveis qualitativas s assume va-lores ente 0 e 1, o coeciente de correlao pode assumir qualquer valor entre -1 e 1.

    Uma frmula alternativa (Prove!) e mais operacional para o coeciente de correlao

    dada por

    corr(X, Y ) =SXY

    SXXSY Y

    , (4.1)

    onde:

    SXY =ni=1

    (xi x)(yi y) =ni=1

    xiyi n x y,

    SXX =ni=1

    (xi x)2 =ni=1

    x2i nx2, e

    SY Y =ni=1

    (yi y)2 =ni=1

    y2i ny2.

    O numerador da expresso acima, que mede o total de concentrao dos pontos

    pelos quatro quadrantes, d origem covarincia que uma medida bastante usada.

    Denio 4.5.2 (Covarincia). Dados n pares de valores (x1, y1), (x2, y2), ..., (xn, yn),

    chamamos de covarincia entre as variveis X e Y medida dada por

    cov(X, Y ) =ni=1

    (xi x)(yi y)n

    .

    Ou seja, a mdia dos produtos dos valores centrados das variveis.

  • 4.5. MEDIDAS DE ASSOCIAO ENTRE VARIVEIS QUANTITATIVAS 43

    Alternativamente o coeciente de correlao tambm pode ser escrito como

    corr(X, Y ) =cov(X, Y )

    dp(X)dp(Y ).

    Exerccio de Aplicao

    Numa amostra de cinco operrios de uma dada empresa foram observadas duas

    variveis:

    X: anos de experincia num dado cargo, e

    Y: tempo, em minutos, gasto na execuo de uma tarefa relacionada com esse

    cargo.

    As observaes so apresentadas na tabela abaixo:

    X 1 2 4 4 5

    Y 7 8 3 2 2

    Obs.:

    x = 16,

    x2 = 62,

    y = 22,

    y2 = 130,

    xy = 53.

    Usando um grco de disperso e calculando o coeciente de correlao linear,

    voc diria que a varivel X pode ser usada para explicar a variao de Y? Justique.

  • 44 CAPTULO 4. ANLISE BIVARIADA

    4.6 Exerccios

    1 - Realizou-se um estudo com 456 pessoas machucadas em acidentes de motocicleta,

    e os resultados amostrais, selecionados aleatoriamente, esto resumidos na tabela

    a seguir.

    Com capacete Sem capacete

    Com ferimentos faciais 30 182

    Todos os ferimentos no faciais 8 236

    Com base nestes resultados, o capacete parece ser ecaz para evitar ferimentos

    faciais em um acidente? Justique.

    2 - Uma teoria plausvel a de que as pessoas que fumam so menos preocupadas

    com sua sade e segurana e so, portanto, menos inclinadas a usar o cinto de

    segurana. Um estudo de usurios e no usurios de cintos de segurana forneceu

    os seguintes dados amostrais, selecionados aleatoriamente, resumidos na tabela a

    seguir. Verique se a quantidade de fumo (dada em nmero de cigarros fumados

    por dia) independente do uso do cinto de segurana. Essa teoria apoiada

    pelos dados amostrais? Justique.

    Uso do cinto \ No de cigarros 0 1 - 14 15 - 34 35 ou maisUsa cinto de segurana 175 20 42 6

    No usa cinto de segurana 149 17 41 9

    3 - Um pesquisador coleta os dados dispostos na tabela e suspeita que h uma relao

    signicante entre o tempo de propaganda na TV (emminutos por ms) e as vendas

    mensais de um produto (em centenas de dlares). Os dados amostrais conrmam

    a suspeita do pesquisador? Justique sua resposta com base em uma medida de

    associao linear.

    Tempo de propaganda 15 20 20 30 40 45 50 60

    Vendas 104 128 152 224 216 312 320 352

    4 - Um levantamento obtido, junto aos funcionrios de um pequeno escritrio, busca

    relacionar as variveis: anos de estudo (X) e nmero de diferentes empregos nosltimos cinco anos (Y ).

    X 8 9 10 11 12Y 4 2 1 2 1

    a) Construa o diagrama de disperso.

    b) Calcule o coeciente de correlao e interprete o resultado encontrado.

  • Captulo 5

    Provas de Anlise Exploratria e

    Descritiva de Dados

    5.1 1 Estgio de 2010.2 - PE6 - DME/UFCG - Ma-nh

    1 - Um questionrio foi aplicado a dez (10) funcionrios de uma empresa, seleciona-

    dos aleatoriamente, fornecendo o seguinte conjunto de dados:

    Funcionrio Escolaridade Anos de empresa Estado civil Salrio

    1 Superior 5 Solteiro 1100,50

    2 Superior 8 Casado 1450,00

    3 Mdio 6 Solteiro 960,00

    4 Mdio 8 Divorciado 960,00

    5 Mdio 3 Solteiro 600,00

    6 Mdio 2 Solteiro 600,00

    7 Mdio 5 Casado 600,00

    8 Mdio 2 Casado 450,00

    9 Fundamental 3 Divorciado 450,00

    10 Fundamental 3 Solteiro 450,00

    a) Os funcionrios que responderam o questionrio constituem uma populao

    ou uma amostra? Justique.

    b) Classique as variveis observadas nesta pesquisa.

    c) Verique qual o percentual de funcionrios que tm o ensino mdio.

    2 - Uma amostra de 30 estudantes apontou a seguinte distribuio de frequncias

    das notas de Estatstica (avaliao de 0 a 100 pontos):

    45

  • 46CAPTULO 5. PROVAS DE ANLISE EXPLORATRIA E DESCRITIVA DE DADOS

    Nota ni40 3

    50 5

    65 7

    70 8

    80 2

    95 4

    100 1

    a) Construa um grco adequado para representar os dados.

    b) Calcule a nota mdia, mediana e a modal.

    c) Calcule o 85 percentil e interprete o resultado encontrado.

    d) Calcule o desvio padro.

    e) Obtenha o valor do coeciente de variao. A mdia uma medida repre-

    sentativa para esta varivel? Justique.

    3 - O conjunto de dados amostrais a seguir fornece uma lista do tempo (em minutos)

    que 30 assinantes da Internet gastaram durante sua conexo mais recente.

    15 17 19 20 22 23 29 29 30 30

    33 34 36 37 39 40 41 46 50 53

    54 59 62 67 69 73 77 78 80 88

    a) Construa uma distribuio de freqncias agrupando os dados em classes de

    amplitude 15, a partir do menor valor (Use a notao `).b) Represente os dados atravs de um histograma.

    c) Calcule o valor (aproximado) da mdia e da moda.

    4 - O nmero de gols marcados no ltimo campeonato da Federao Paulista de

    Futebol pelos 20 clubes participantes, nos seus 38 jogos variou entre 25 e 79.

    Sabendo que 50% dos clubes marcaram abaixo de 47 gols, 25% marcaram abaixo

    de 35 gols, 25% marcaram acima de 68 gols, represente a varivel nmero de gols

    atravs de um box-plot.

    5 - A tabela a seguir contem dados sobre o nmero de anos de servio (X) e o nmerode clientes (Y ) de agentes de uma companhia de seguros.

    Agente A B C D E F G H I J

    Anos de Servio (X) 2 3 4 5 4 6 7 8 8 10Nmero de Clientes (Y ) 48 50 56 52 43 60 62 58 64 72

  • 5.2. 1 ESTGIO DE 2010.2 - PE6 - DME/UFCG - TARDE 47

    Tomando como base este conjunto de dados construa o grco de disperso,

    calcule o coeciente de correlao e apresente uma descrio sobre os resultados

    obtidos.

    Obs.:

    x = 57,

    x2 = 383,

    y = 565,

    y2 = 32581 e

    xy = 3392.

    Formulrio

    Me(X) = x = 1n

    ki=1 xi.ni dq = Q3 Q1 2 =

    ri=1

    sj=1

    (oijeij)2eij

    V ar(X) = s2 = 1n

    ki=1 x

    2ini x2 LI = Q1 (1, 5)dq T =

    2/n

    (r1)(s1)CV (X) = s

    x 100 LS = Q3 + (1, 5)dq Corr(X, Y ) =

    xiyinx y

    (x2inx2)(

    y2iny2)

    5.2 1 Estgio de 2010.2 - PE6 - DME/UFCG - Tarde

    1 - Um questionrio foi aplicado a dez (10) alunos da UFCG, selecionados aleatori-

    amente, fornecendo o seguinte conjunto de dados:

    Aluno Idade (em anos) Estado civil Escolaridade do Pai Renda do Pai

    1 20 Casado Superior 1100,50

    2 18 Solteiro Superior 1450,00

    3 21 Solteiro Mdio 960,00

    4 23 Casado Mdio 960,00

    5 20 Solteiro Mdio 600,00

    6 22 Solteiro Mdio 600,00

    7 25 Casado Mdio 600,00

    8 22 Solteiro Mdio 450,00

    9 23 Casado Fundamental 450,00

    10 23 Solteiro Fundamental 450,00

    a) Os alunos que responderam o questionrio constituem uma populao ou

    uma amostra? Justique.

    b) Classique as variveis observadas nesta pesquisa.

    c) Verique qual o percentual de pais que tm o ensino mdio.

    2 - O setor pessoal da empresa Mercantil: Preo Bom Aqui, Ltda. registrou o

    seguinte nmero de faltas de funcionrios no ltimo trimestre:

    Faltas ni2 6

    3 8

    4 12

    5 10

    6 4

  • 48CAPTULO 5. PROVAS DE ANLISE EXPLORATRIA E DESCRITIVA DE DADOS

    a) Construa um grco adequado para representar os dados.

    b) Calcule o nmero mdio de faltas, mediano e o valor modal.

    c) Calcule o 27 percentil e interprete o resultado encontrado.

    d) Calcule o desvio padro.

    e) Obtenha o valor do coeciente de variao. A mdia uma medida repre-

    sentativa para esta varivel? Justique.

    3 - Um exame vestibular para uma faculdade tem, em sua prova de Matemtica, 40

    questes. Para os 20 melhores classicados, apresentamos o nmero de acertos.

    13 20 20 20 21 21 23 23 25 25

    26 27 28 28 28 29 30 30 31 32

    a) Construa uma distribuio de freqncias agrupando os dados em classes de

    amplitude 4, a partir do menor valor (Use a notao `).b) Represente os dados atravs de um histograma.

    c) Calcule o valor (aproximado) da mdia e da moda.

    4 - Com o objetivo de vericar a altura das crianas com dois anos de idade em certo

    bairro da periferia de Campina Grande, foram medidas as alturas de 30 delas, e as

    medidas variaram entre 80 cm e 94 cm. Sabendo que 50% das crianas possuam

    abaixo de 83 cm de altura, 25% possuam abaixo de 80,5 cm de altura, 25%

    possuam acima de 86 cm de altura, represente os dados atravs de um box-plot.

    5 - Queremos vericar se a criao de determinado tipo de cooperativa est associada

    com algum fator regional. Coletados os dados relevantes, obtemos a tabela a

    seguir.

    Tipo de Cooperativa

    Estado Consumidor Produtor Total

    So Paulo 210 230 440

    Paran 60 100 160

    Total 270 330 600

    Com base nestes dados voc armaria que o tipo de cooperativa independe do

    Estado? Justique sua resposta utilizando um coeciente de associao.

  • Captulo 6

    Exerccios do livro do Bussab e

    Morettin

    Livro: "Estatstica Bsica". Wilton O. Bussab e Pedro A. Morettin. 6a. Edio

    Captulo 2 (Resumo de Dados)

    Problema Pgina

    1 14

    2 15

    4 e 5 22

    9 26

    10 27

    11 e 12 28

    15 30

    16 e 17 31

    18 33

    Captulo 3 (Medidas Resumo)

    Problema Pgina

    Do 1 ao 3 40

    4, 5 e 6 41

    7 e 9 47

    11 e 12 50

    16 56

    19, 20 e 21 60

    22, 23 e 24 61

    26, 27 e 28 62

    29, 30, 31 e 32 63

    37, 38, 39 e 40 65

    49

  • 50 CAPTULO 6. EXERCCIOS DO LIVRO DO BUSSAB E MORETTIN

    Captulo 4 (Anlise Bivariada)

    Problema Pgina

    1, 2, 3 72

    4, 5 e 6 75

    7, 8 e 9 79

    11 e 12 89

    14 e 15 90

    18 a 21 95

    22, 24, 25 e 26 95

    28 e 29 96

    Introduo EstatsticaConceitos FundamentaisPopulao e AmostraParmetro e EstatsticaA Cincia EstatsticaEstatstica: Uma Viso Sistmica

    Varivel e Tipos de Variveis(dados)VarivelTipos de Variveis(dados)

    Fases do Mtodo Estatstico

    Organizao de Dados atravs de Tabelas e GrficosIntroduoOrganizao de dados: Tabelas e GrficosDistribuio de Frequncias: representao tabularDistribuio de Frequncias: representao grficaAgrupamento de dados em classes e distribuio de frequncias

    Estatsticas DescritivasMedidas Resumo para Variveis QuantitativasMedidas de Tendncia CentralMedidas de Disperso ou de VariabilidadeMedidas Resumo para Dados Agrupados

    Medidas de Posio: Quartis, Decis e PercentisOutra Estratgia de Anlise de DadosDesenho Esquemtico - Diagrama em Caixa ("Box-Plot")

    Exerccios

    Anlise BivariadaIntroduoVariveis QualitativasAssociao entre Variveis QualitativasMedidas de Associao entre Variveis QualitativasMedidas de Associao entre Variveis QuantitativasDiagrama de DispersoCoeficiente de Correlao (Linear)

    Exerccios

    Provas de Anlise Exploratria e Descritiva de Dados1 Estgio de 2010.2 - PE6 - DME/UFCG - Manh1 Estgio de 2010.2 - PE6 - DME/UFCG - Tarde

    Exerccios do livro do Bussab e Morettin