Estatistica Basica 1

31
UNIVERSIDADE ESTADUAL PAULISTA "JÚLIO DE MESQUITA FILHO" Campus de Presidente Prudente ESTATÍSTICA BÁSICA Relatório das atividades desenvolvidas no período da Bolsa de Apoio Acadêmico e Extensão I (PAE) de 26/04/2007 á 28/02/2008. Bolsista: Fabiano José dos Santos Orientadora: Vilma Mayumi Tachibana Presidente Prudente 2008

Transcript of Estatistica Basica 1

Page 1: Estatistica Basica 1

UNIVERSIDADE ESTADUAL PAULISTA "JÚLIO DE MESQUITA FILHO" Campus de Presidente Prudente

ESTATÍSTICA BÁSICA

Relatório das atividades desenvolvidas no período da Bolsa de Apoio Acadêmico e Extensão I (PAE) de 26/04/2007 á 28/02/2008. Bolsista: Fabiano José dos Santos Orientadora: Vilma Mayumi Tachibana

Presidente Prudente 2008

Page 2: Estatistica Basica 1

1

Índice

1.0 Introdução..........................................................................................................

2

1.1 O que é Estatística.............................................................................................. 3 Análise exploratório de dados

4

2.0 Resumo de Dados............................................................................................. 4 2.1 Classificação de variáveis..................................................................................

4

2.2 Distribuição de Freqüência................................................................................ 6 2.3 Gráficos.............................................................................................................. 2.3.1 Gráficos para Variáveis Qualitativas................................................... 2.3.2 Gráficos para as Variáveis Quantitativas............................................

7 7 8

2.4 Ramo-e-Folhas................................................................................................... 13 2.5 Exercícios........................................................................................................... 13 3.0 Medidas-resumo...............................................................................................

17

3.1 Medida de Posição.............................................................................................

17

3.2 Medida de Dispersão.......................................................................................... 17 3.3 Quantis............................................................................................................... 18 3.4 Intervalo – interquartil....................................................................................... 19 3.5 Exercícios........................................................................................................... 19

4.0 Análise Bidimensional......................................................................................

20

4.1 Introdução..........................................................................................................

20

4.2 Associação entre variáveis Qualitativas............................................................. 21 4.3 Medidas de Associação...................................................................................... 22 4.4 Associação entre Variáveis Quantitativas.......................................................... 22 4.5 Associação entre Variáveis Qualitativas e Quantitativas................................... 24 4.6 Exercícios........................................................................................................... 25 5.0 Probabilidade...................................................................................................

26

5.1 Introdução..........................................................................................................

26

5.2 Probabilidade condicional e independência....................................................... 27 5.3 Exercícios........................................................................................................... 28 Dados da Companhia MB..................................................................................

29

Bibliografia ............................................................................................................

30

Page 3: Estatistica Basica 1

2

1.0 Introdução

O projeto inicialmente proposto tem como objetivo o aprendizado, desenvolvimento

da análise e o entendimento do conjunto de dados do objeto de estudo do pesquisador.

A transformação dos dados em informações, para compará-los com outros

resultados para um melhor entendimento da análise em que esta sendo feita ou ainda

julgar sua=adequação a alguma teoria. A Estatística Descritiva é a ciência que apresenta

processos próprios para coletar, apresentar adequadamente conjuntos de dados sejam eles

numéricos ou não. Pode-se dizer que o seu objetivo é o de apresentar informações sobre

dados em análise para que se tenha maior compreensão dos fatos em que os mesmo

representam.

A essência da ciência é a observação e que seu objetivo básico é a Inferência. Ela

tem com finalidade a coleta, redução, análise e modelagem dos dados, e em procedimento

a amostra.

O estudo a ser estudado no projeto terá com base alguns desses procedimentos que

foram abordados, para uma melhor aplicação nos trabalhos em que o pesquisador

precisará observar a análise e o conjunto de dados.

Page 4: Estatistica Basica 1

3

1.1 O Que é Estatística

Ao longo do século XX, os métodos estatísticos foram desenvolvidos como uma

mistura de ciência, tecnologia e lógica para a solução e investigação de problemas em

várias áreas do conhecimento humano (Stigler, 1986). Ela foi reconhecida como um

campo da ciência neste período, mas sua história tem início bem anterior a 1900.

A estatística não é uma caixa-preta, nem bola de cristal, nem mágica. Tampouco é

um conjunto de técnicas úteis para algumas áreas isoladas ou restritas da ciência. Por

exemplo, ao contrário do que alguns imaginam, a estatística não é um ramo da

matemática onde se investigam os processos de obtenção, organização e análise de

dados sobre uma determinada população. A estatística também não se limita a um

conjunto de elementos numéricos relativos a um fato social, nem a números, tabelas e

gráficos usados para o resumo, à organização e apresentação dos dados de uma

pesquisa, embora este seja um aspecto da estatística que pode ser facilmente percebido

no cotidiano (basta abrir os jornais e revistas para ver o "bombardeio" de estatísticas).

Ela é uma ciência multidisciplinar: um mesmo programa de computador que permite a

análise estatística de dados de um físico poderia também ser usado por um economista,

agrônomo, químico, geólogo, matemático, biólogo, sociólogo psicólogo e cientista

político. Mesmo que as interpretações dessas análises sejam diferentes por causa das

diferenças entre as áreas do conhecimento, os conceitos empregados, as limitações das

técnicas e as conseqüências dessas interpretações são essencialmente as mesmas.

Segundo Rao (1999), a estatística é uma ciência que estuda e pesquisa sobre: o

levantamento de dados com a máxima quantidade de informação possível para um dado

custo; o processamento de dados para a quantificação da quantidade de incerteza

existente na resposta para um determinado problema; a tomada de decisões sob

condições de incerteza, sob o menor risco possível. Finalmente, a estatística tem sido

utilizada na pesquisa científica, para a otimização de recursos econômicos, para o

aumento da qualidade e produtividade, na otimização em análise de decisões, em

questões judiciais, previsões e em muitas outras áreas.

Page 5: Estatistica Basica 1

4

2.0 Resumo de Dados 2.1 Classificação de variáveis Variável é a característica de interesse que é medida em cada elemento da

amostra ou população. Como o nome diz, seus valores variam de elemento para elemento. As variáveis podem ter valores numéricos ou não numéricos.

Variáveis podem ser classificadas da seguinte forma: Variáveis Quantitativas: são as características que podem ser medidas em uma

escala quantitativa, ou seja, apresentam valores numéricos. Podem ser contínuas ou discretas. Variáveis discretas: características mensuráveis que podem assumir apenas um

número finito ou infinito contável de valores e, assim, somente valores inteiros. Geralmente são o resultado de contagens. Exemplos: número de filhos, número de bactérias por litro de leite, número de cigarros fumados por dia.

Variáveis contínuas: características mensuráveis que assumem valores em uma

escala contínua (na reta real), para as quais valores fracionais. Usualmente devem ser medidas através de algum instrumento. Exemplos: peso (balança), altura (régua), tempo (relógio), pressão arterial, idade.

Variáveis Qualitativas (ou categóricas): são as características que não possuem valores quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja, representam uma classificação dos indivíduos. Podem ser nominais ou ordinais.

Variáveis nominais: não existe ordenação dentre as categorias. Exemplos: sexo,

cor dos olhos, fumante/não fumante, doente/sadio. Variáveis ordinais: existe uma ordenação entre as categorias. Exemplos:

escolaridade (1º, 2º, 3º graus), estágio da doença (inicial, intermediário, terminal), mês de observação (janeiro, fevereiro,..., dezembro).

Exemplo 1.0

Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos

sócio econômico dos empregados da seção de orçamentos de uma companhia. Usando informações obtidas do departamento pessoal, ele elaborou a Tabela 1.0.

Page 6: Estatistica Basica 1

5

Tabela 1.0 Informações sobre estado civil, grau de instrução, número de filhos, salário (expresso como fração do salário mínimo), idade (medida em anos e meses) e

procedência de 36 empregados da seção de orçamentos da Companhia.

Fonte: Bussab e Morettin (2002) Observações sobre a Tabela 1.0.

De modo geral, para cada elemento investigado numa pesquisa, tem-se associado

um (ou mais de um) resultado correspondendo à realização de uma característica (ou características). Por exemplo, considerando a variável estado civil, para cada empregado pode-se associar um dos resultados, solteiro ou casado (note que poderia haver outras possibilidades, como separado, divorciado, mas somente as duas mencionadas foram consideradas no estudo).

Resumindo Como as variáveis são classificadas e outros exemplos:

Nominal Sexo, Cor dos Olhos. Qualitativa

Ordinal Classe social, grau de instrução.

Discreta Número de filhos, números de carros. Quantitativa

Contínua Peso, altura.

Para cada tipo de variável existem técnicas apropriadas para resumir as

informações dos dados obtidos da amostra. Por exemplo, a utilização de uma tabela é uma forma de escrever os dados de uma forma resumida.

Em algumas situações podem-se atribuir valores numéricos às várias qualidades ou atributos de uma variável qualitativa e depois se proceder à análise como se esta fosse quantitativa, desde que o procedimento seja passível de interpretação.

Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil: a chamada variável dicotômica. Para essa variável podem ocorrer somente duas realizações, usualmente chamadas de sucesso e fracasso. Exemplo 1.1: A variável Civil, Sexo, Hábito de Fumar, etc.

Como as Variáveis são classificadas e outros exemplos;

Idade Nº Estado Civil

Grau de Instrução

Nº de Filhos

Salário Anos Meses

Região de Procedência

1 Solteiro Fundamental ... 4,00 26 3 Interior 2 Casado Fundamental 1 4,56 32 10 Capital 3 Casado Fundamental 2 5,25 36 5 Capital ... ... ... ... ... ... ... ... 35 Casado Médio 2 19,40 48 11 Capital 36 Casado Superior 3 23,30 42 2 Interior

Page 7: Estatistica Basica 1

6

Uma variável originalmente quantitativa pode ser coletada de forma qualitativa. Por exemplo, a variável idade, medida em anos completos, é quantitativa (contínua); mas, se for informada apenas a faixa etária (0 a 5 anos, 6 a 10 anos, etc...), é qualitativa (ordinal). Outro exemplo é o peso dos lutadores de boxe, uma variável quantitativa (contínua) se trabalha com o valor obtido na balança, mas á qualitativa (ordinal) se o classificarmos nas categorias do boxe (peso-pena, peso-leve, peso-pesado, etc.).

Outro ponto importante é que nem sempre uma variável representada por números é quantitativa. O número do telefone de uma pessoa, o número da casa, o número de sua identidade. Às vezes o sexo do indivíduo é registrado na planilha de dados como 1 se macho e 2 se fêmea, por exemplo. Isto não significa que a variável sexo passou a ser quantitativa! 2.2 Distribuição de Freqüência

Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o

comportamento dessa variável, analisando a ocorrência de suas possíveis realizações. Veremos uma maneira de dispor uns conjuntos de realizações, para se ter uma idéia global sobre elas, ou seja, de sua distribuição. Exemplo 1.2

A tabela apresenta a distribuição de freqüência da variável grau de instrução, usando os dados da tabela 1.0.

Tabela 1.1. Freqüência e porcentagem dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de instrução. Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem 100x (fi) Fundamental 12 0,3333 33,33% Médio 18 0,5000 50,00% Superior 6 0,1667 16,67% Total 36 1,0000 100,00% Fonte: Bussab e Morettin (2002)

Observando os resultados da segunda coluna, vê-se que dos 36 empregados da Companhia, 12 têm o ensino fundamental, 18 o ensino médio e 6 possuem curso superior.

Uma medida bastante útil na interpretação de tabelas de freqüências é proporção de cada realização em relação ao total. Assim 6/36-0,1667 dos empregados da companhia MB tem instrução superior.

Page 8: Estatistica Basica 1

7

2.3 Gráficos

A representação gráfica da distribuição de uma variável tem vantagem de rápida e concisamente, informar sobre sua variabilidade. Existem vários gráficos que podem ser utilizados e abordaremos aqui os mais simples para as variáveis quantitativas.

2.3.1 Gráficos para as Variáveis Qualitativas A representação gráfica da distribuição de uma variável tem a vantagem de, rápida

e concisamente, informar sobre sua variabilidade. Existem vários tipos de gráficos para as variáveis Qualitativas. Aqui serão

ilustrados dois deles: Gráficos em Barras e de Composição em Setores (“Pizza”). (i) Gráfico em Barras

O gráfico em Barras consiste em construírem retângulos ou barras, em que uma das dimensões é proporcional à magnitude a ser representada (ni), sendo a outra arbitrária, porém igual para todas as barras. Essas barras são dispostas paralelamente uma às outras, horizontalmente ou verticalmente. No exemplo a seguir temos o gráfico em barras (verticais) para a variável Grau de Instrução. Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de instrução. Tabela 1.3. Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) Fundamental 12 0,3333 33,33% Médio 18 0,5000 50,00% Superior 6 0,1667 16,67% Total n = 36 1,0000 100,00%

Fonte: Bussab e Morettin (2002)

Page 9: Estatistica Basica 1

8

Figura 1.0 Gráfico em Barras para a variável Grau de Instrução

12

18

6

0

2

4

6

8

10

12

14

16

18

Fre

qüên

cia

(ni)

Fundamental Médio SuperiorGrau de Instrução

(ii) Gráfico de Composição em Setores (“Pizza”)

O gráfico de composição em setores (“pizza”), destina-se a representar a composição, usualmente em porcentagem, de partes de um todo. Consiste num círculo de raio arbitrário, representando o todo, dividido em setores, que correspondem às partes de maneira proporcional. Para o exemplo anterior temos o seguinte gráfico: Figura 1.1

Gráfico em Setores para a variável Grau de Instrução

50%

17%

33%

Fundamental

Médio

Superior

2.3.2 Gráficos para as Variáveis Quantitativas

Para variáveis Quantitativas podemos considerar uma variedade maior de representações gráficas.

Page 10: Estatistica Basica 1

9

(i) Gráfico em Barras O gráfico em Barras para as variáveis Quantitativas é construído da mesma forma

ao das variáveis Qualitativas. Como ilustração, considere a variável “Número de Filhos” dos empregados

casados da seção de orçamentos da Companhia MB. A Tabela 7.2 apresenta os dados. Tabela 1.4

Freqüências e Porcentagens dos empregados da seção de orçamentos da Companhia MB, segundo o número de filhos.

Números de Filhos (xi) Freqüência (ni) Porcentagem (100 x fi) 0 4 20 1 5 25 2 7 35 3 3 15 4 0 0 5 1 5 Total n = 20 100

Fonte: Bussab e Morettin (2002) Figura 1.2 Gráfico de Barra para a variável Números de Filhos

20

25

35

15

0 5

0

5

10

15

20

25

30

35

Por

cent

agem

0 1 2 3 4 5

Números de Filhos

(ii) Gráfico de Pontos (Dot-Plot)

Quando os dados consistem em um pequeno conjunto de números, estes podem

ser representados traçando-se uma reta com uma escala que abranja todas as mensurações observadas e grafando-se as respectivas freqüências como pontos acima da reta. Por esse motivo, é também conhecido como gráfico de pontos.

Page 11: Estatistica Basica 1

10

Exemplo1.3: Considere a variável tempo, em segundos, entre carros que passam

por um cruzamento, viajando na mesma direção. 6, 3, 5, 6, 4, 3, 5, 4, 6, 3, 4, 5, 2, 10.

Figura 1.3

Gráfico de Dispersão – Dot Plot

(iii) Histograma

O Histograma é utilizado para representar a distribuição de freqüência. É um

gráfico de barras contíguas, com bases proporcionais aos intervalos de classes e a área de cada retângulo proporcional à respectiva freqüência relativa. Indicaremos a amplitude do i-ésimo intervalo por ai. Para que a área do retângulo respectivo seja proporcional a fi, a sua altura deve ser proporcional a fi/ai, que é chamada de densidade de freqüência da i-ésima classe. Quanto mais dados tivermos em cada classe, mais alto deve ser o retângulo. Com essa convenção, a área total do histograma será 1 (um).

Exemplo: Considerando a variável Salário dos empregados da seção de orçamentos da Companhia MB, temos os seguintes dados: Tabela 1.5

Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da companhia MB, por faixas de salário.

Classe de Salário

Freqüência (ni)

Proporção (f i)

Porcentagem (100 x fi)

Densidade de Freqüência (f i/ai)

04 |-- 08 10 0,2778 27,78 0,0695 08 |-- 12 12 0,3333 33,33 0,0833 12 |-- 16 8 0,2222 22,22 0,0556 16 |-- 20 5 0,1389 13,89 0,0347 20 |-- 24 1 0,0278 2,78 0,0070 Total n = 36 1,0000 100,00 Fonte: Bussab e Morettin (2002)

1098765432

Page 12: Estatistica Basica 1

11

Figura 1.4 Histograma da variável Salário

0,0695

0,0833

0,0556

0,0347

0,007

0

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

Den

sida

de d

e F

reqü

ênci

a

04 |-- 08 08 |-- 12 12 |-- 16 16 |-- 20 20 |-- 24

Classes de Salários

(iv) Gráfico em Linhas

É um gráfico muito importante utilizado para representar observações feitas ao

longo do tempo, em intervalos iguais ou não. Tais conjuntos de dados constituem as chamadas séries históricas, ou séries temporais. Traduzem o comportamento de um fenômeno em certo intervalo de tempo.

Page 13: Estatistica Basica 1

12

Tabela 1.6 Dívida Externa do Brasil de 1956 a 2006, em Milhões de Dólares.

Ano Dívida Ano Dívida Ano Dívida

1956 2736 1973 14857 1990 123439 1957 2491 1974 20032 1991 123910 1958 2870 1975 25115 1992 135949 1959 3160 1976 32145 1993 145726 1960 3738 1977 37951 1994 148295 1961 3291 1978 52187 1995 159256 1962 3533 1979 55803 1996 179935 1963 3612 1980 64259 1997 199998 1964 3294 1981 73963 1998 241644 1965 3823 1982 85487 1999 241468 1966 3771 1983 93745 2000 236156 1967 3440 1984 102127 2001 226067 1968 4092 1985 105171 2002 227689 1969 4635 1986 111203 2003 235414 1970 6240 1987 121188 2004 220182 1971 8284 1988 113511 2005 187987 1972 11464 1989 115506 2006 191999

Fonte: IPEADATA Figura 1.5 Gráfico de Linhas para a variável Dívida Externa do Brasil no período 1956 a 2006

0

50000

100000

150000

200000

250000

1956

1958

1960

1962

1964

1966

1968

1970

1972

1974

1976

1978

1980

1982

1984

1986

1988

1990

1992

1994

1996

1998

2000

2002

2004

2006

Ano

Dív

ida

em M

ilhõ

es d

e D

ólar

es

Page 14: Estatistica Basica 1

13

2.4 Ramo-e-Folhas

Tanto o histograma como os gráficos em barras dão uma idéia de forma da distribuição da variável sobre consideração. Por exemplo, saber que a renda per capita de um país é de tantos dólares pode ser um dado interessante, mas saber como esta renda se distribui é mais importante.

Um procedimento alternativo para resumir um conjunto de valores, com o objetivo de se obter uma idéia da forma de sua distribuição, é o Ramo-e-Folhas. Uma vantagem desde diagrama sabre o histograma é que não perdermos (ou perdemos pouca) informação sobre os dados em si.

Exemplo 1.4 Os dados abaixo referem-se á dureza de 30 peças de alumínio (Hoaglin, Mosteller

e Tukey, 1983) 53 70 84 69 77 87 53 82 67 54 70 71 95 51 74 55 63 85 53 64 82 78 55 69 72 59 55 73 52 50 Na figura 1.6: Temos o Ramo-e-Folhas correspondente. Figura 1.6: Ramo-e-folhas para os dados de dureza de peças de alumínio. 0 1 2 3 3 3 4 5 5 5 9 3 4 7 9 9 0 0 1 2 3 4 7 8 2 2 4 5 7 5 2.5 Exercícios 1) Um questionário foi aplicado aos alunos do primeiro ano de uma escola fornecendo as seguintes informações: ID: Identificação do aluno; Turma: Turma a que o aluno foi alocado (A ou B); Sexo: Feminino (F) ou Masculino (M); Idade: Idade; Alt: Altura; Peso: Peso; Filh: Número de filhos na família; Fuma: Hábito de fumar (sim ou não);

5 6 7 8 9

Page 15: Estatistica Basica 1

14

Toler: Tolerância ao cigarro: (I) Indiferente, (P) Incomoda Pouco e (M) Incomoda Muito; Exer: Horas de atividade física, por semana; Cine: Número de vezes que vai ao cinema por semana; OpCine: Opinião a respeito das salas de cinema na cidade: (B) regular a boa e (M) muito boa TV: Horas gastas assistindo TV, por semana OpTV: Opinião da programação na TV: (R) Ruim, (M) Média, (B) Boa e (N) não sabe. Tabela A Informações do questionário estudantil. Dados brutos. ID Turma Sexo Idade Alt Peso Filh Fuma Toler Exer Cine Opcine Tv OpTV 1 A F 17 1,60 60,5 2 Não P 0 1 B 16,5 R 2 A F 18 1,69 55,0 1 Não M 0 1 B 7 R 3 A M 18 1,85 72,8 2 Não P 5 2 M 15 R ... ... ... ... ... ... ... ... ... ... ... ... ... ... 49 B M 17 1,80 71,0 1 Não P 7 0 M 14 R 50 B M 18 1,83 86,0 1 Não P 7 7 M 20 B Fonte: Magalhães e Pedroso de Lima (2004). Classifique as variáveis da Tabela A como: Variável Qualitativa Nominal: Resolução α ID, Turma, Sexo e Fuma. Variável Qualitativa Ordinal: Resolução α Toler, Opcione e Optv. Variável Quantitativa Discreta: Resoluçãoα Filho, Exer e Cine Variável Quantitativa Contínua: Resolução α Idade, Alt, Peso e Tv 2) Classifique as seguintes variáveis: (a) Conceitos obtidos na Disciplina Estatística (R:Ruim, M:Médio, B:Bom e O:Ótimo); Resolução α Variável Qualitativa Ordinal (b) Bacias Hidrográficas (A: Amazônica, P:Platina, SF:São Francisco, N:do Nordeste, L:do Leste, S:do Sul); Resolução α Variável Qualitativa Nominal

Page 16: Estatistica Basica 1

15

(c) Número de sementes germinadas (0, 1, 2, 3, 4, 5); Resoluçãoα Variável Quantitativa Discreta Tabela B: Informações sobre estado civil, grau de instrução, numero de filhos, salário (expresso como fração do salário mínimo) e procedência de 36 empregados da seção de orçamento da Companhia MB. Tabela B Nº Estado civil Grau de

Instruçaõ Nº de Filhos

Idade Região de procedência

1 Solteiro Ens.fundamental 0 26 Interior 2 Casado Ens.Fundamental 1 32 Capital 3 Casado Ens.Fundamental 2 36 Capital 4 Solteiro Ens.Medio 0 40 Outra 5 Solteiro Ens.Fundamental 0 28 Outra 6 Casado Ens.Fundamental 0 41 Interior 7 Solteiro Ens.Fundamental 0 40 Interior Fonte: Bussab e Morettin (2002) 3)Usando os dados da tabela B, Construa a distribuição de freqüência das variáveis. (a)Estado Civil Resolução Estado Civil Freqüência ni

Porcentagem 100xfi

Solteiro 4 57,14 Casado 3 42,85 Total 7 100,00 (b) Região de procedência Resolução Região de Procedência Freqüência ni

Porcentagem fi

Capital 2 28,57 Interior 3 42,85 Outro 2 28,07 Total 7 100,00

Page 17: Estatistica Basica 1

16

c) Idade Resolução Idade Freqüência ni

Porcentagem fi

26 32α 2 28,27 32 38α 2 28,57 38 42α 3 42,85 Total 7 100,00 4) Contou-se o número de erros de impressão da primeira página de um jornal durante 50 dias, obtendo os resultados abaixo. 8 11 8 12 14 13 11 14 14 15 6 10 14 19 6 12 7 5 8 8 10 16 10 12 12 8 11 6 7 12 7 10 14 5 12 7 9 12 11 9 14 8 14 8 12 10 12 22 7 15 a) Represente os dados graficamente Resolução

2

3

5

7

2

5

4

9

1

7

2

1 1 1

0

1

2

3

4

5

6

7

8

9

10

Fre

qüên

cia

5 6 7 8 9 10 11 12 13 14 15 16 19 22Número de Erros

Freqüência do Número de Erros na Primeira página de um Jornal

Page 18: Estatistica Basica 1

17

3.0 Medidas - Resumo 3.1 Medida de Posição

Vimos que o resumo de dados por meio de tabelas de freqüências e Ramo-e-Folhas fornecem muito mais informações sobre o comportamento de uma variável do que a própria tabela original de dados. Muitas vezes, queremos resumir ainda mais estes dados apresentando um ou alguns valores que sejam representativos da série toda> Quando usamos um só valor, obtemos uma redução drástica dos dados usualmente, emprega-se uma das seguintes medidas e posição (ou localização) central: médio, mediana, máximo e mínimo.

Média

A média é a medida mais popular e representada por _

x , ela representa o ponto de equilíbrio da distribuição de seus valores.

Considere uma variável x com observações representadas, por x1 ,x 2 ,.....xn . A

média desse conjunto é a soma dos valores divididos pelo número total de observações. Isto é

n

x

n

xxxxx

n

ii

n∑

==++++

= 1321 Λ

Mediana A mediana representada por mdobs é o valor que ocupa a posição central dos

dados ordenados. É o valor que divide os dados, isto é, metade dos dados será maior que a mediana e metade será menor.

Considere a seguinte série de valores: 5, 2, 6, 13, 9, 15, 10. De acordo com a definição de mediana, o primeiro passo a ser dado é ordenar o

conjunto de valores: 2, 5, 6, 9, 10, 13, 15. O valor que divide a série em duas partes iguais é 9. Logo, a mediana é 9.

Moda A moda é dada pelo valor mais freqüente do conjunto de dados. Máximo e Mínimo O máximo é o valor maior da observação do conjunto de dados, enquanto que o

mínimo é a menor observação.

3.2 Medidas de Dispersão

Apesar das medidas de tendência central fornecem uma idéia do comportamento das variáveis, elas podem esconder valiosas informações. Essas medidas podem não ser suficientes para descrever e discriminar diferentes conjuntos de dados. Vamos definir algumas medidas de dispersão.

Page 19: Estatistica Basica 1

18

Definição 1.0: Amplitude de uma variável em um conjunto de dados

A amplitude, referente, a uma variável, é definida como a diferença entre o maior e o menor valor do conjunto de dados. Será denotada por A.

A amplitude só leva em conta dois valores de todo o conjunto e, assim, seria mais conveniente considerarmos uma medida que utilizasse todas as observações. Uma idéia inicial é considerar o desvio de cada observação em relação a um ponto de referência e então tomar sua média. Caso a observação seja menor do que a referência, o desvio seria negativo, caso seja maior seria positivo.

A soma de tais desvios fará com que termos de sinais diferentes se compensem podendo ocultar o efeito da variabilidade. Definição 1.1 : variância e desvio – padrão em conjuntos de dados. A variância, referente á variável x de um conjunto de dados é definido por

1

)(

1

)()()()( 1

222

32

22

12

−=

−−++−+−+−

=∑

=

n

xx

n

xxxxxxxxs

n

ii

É conveniente definirmos o desvio padrão como sendo

2ss =

A expressão apresenta da definição Nº auxilia o leitor na interpretação da variância como uma medida de variabilidade.

Entretanto, é possível obter uma expressão alternativa que facilita os cálculos:

−= ∑

=

2

1

22 )(1

1xnx

ns

n

ii

Essa expressão evita a operação de subtração, que em muitos casos envolvem

decimais e torna-se trabalhosa. 3.3 Quantis

Tanto a média como o desvio padrão podem não ser medidas adequadas para

representar um conjunto de dados, pois: São afetadas, de forma exagerada, pois valores extremos: Apenas com estes dois valores não temos idéia da simetria ou assimetria da

distribuição dos dados. Para contornar esses fatos, outras medidas têm de ser consideradas. Vimos que a medida é um valor que deixa metade dos dados abaixo dela e metade

acima. De modo geral, podemos definir uma medida, chamada quantil de ordem p p-quantil, indicada por q(p), onde é uma proporção qualquer 0<p<1, tal que 100% das observações sejam menores do que q(p).

Indicamos, abaixo , alguns quantis e seus nomes particulares.

Page 20: Estatistica Basica 1

19

q(0,25):1° Quartil=25º Percentil q(0,50):2ºQuartil=Mediana=50ºPercentil q(0,75):3ºQuartil=75ºPercentil Exemplo 1.3

Suponha que tenhamos os seguintes valores de uma variável x: 15,5,3,8,10,2,7,11,12 Ordenando os valores, obtemos as estatísticas de ordem x1=2, x2 =3,...,x9 =15, ou

seja, teremos 2<3 <5<7<8<10<11<12<15 Usando a definição de mediana dada, teremos que md=q(0,5)=x5=8 e o 1º Quartil

q(0,25)=3 3.4 Intervalo Interquartil

O intervalo interquartil é a diferencia entre o terceiro quartil (Q3 ) e o primeiro

quartil (Q1), ou seja,

IQ=Q3 -Q1

Essa medida nos dá a informação de amplitude dos 50% centrais do conjunto de dados.

3.5 Exercícios

1) Quer se estudar o número de erros de impressão de um livro. Para isso escolheu –se uma amostra de páginas, encontrando – se o numero de erros por páginas da tabela abaixo. a) Qual o número médio de erros por pagina? Resolução

x−

= 66,050

413123120025 =++++ xxxxx

b) Calcule a variância?

Var=50

)66,04(1)66,03(1)66,02(3)66,01(20)66,00(25 22222 −+−+−+−+−=0,704

c) Qual o desvio padrão?

Dp= 704,0 =0,8392

d) Se o livro tem 500 páginas, qual o número total de erros esperado no livro? (Página)x(Média de erros por página) =500 x 0,66=330 erros

Page 21: Estatistica Basica 1

20

2) Medidas da pulsação de 15 índios nativos dos Alpes Peruanos estão apresentadas a seguir: 64 64 68 68 76 60 72 88 60 68 80 60 72 88 60 (a) Calcule: Média, Mediana. ; Resolução

Média= 86,6915

801882722722604761683642 =+++++++ xxxxxxxx

Colocando em ordem α 60,60,60,60,64,64,68,68,68,72,72,72,76,76,80,88,88 Mediana=68 (b) Calcule: Mínimo, Q1, Q2, Q3 e Máximo; Resolução Maximo=60 Mínimo=60 q(0,25) = Q1 = 60 q(0,50) = Q2 = 68 q(0,75) = Q3 =76 4.0 Variáveis Bidimensionais 4.1 Introdução

Nos últimos capítulos estudamos o comportamento de apenas uma variável, neste capitulo estudaremos o comportamento do conjunto de dados de duas ou mais variáveis.

Para trabalharmos com variáveis bidimensionais é muito simples, basta usarmos as tabelas de cada variável e construir um conjunto juntando cada xi com seu respectivo

y i e construir a tabela x/y.

O principal objetivo das analises nessa situação é explorar relações (similaridades) entre as colunas, ou algumas vezes entre as linhas. Como no caso de apenas uma variável que estudamos, a distribuição conjunta das freqüências será uma instrumento poderoso para a compreensão do comportamento dos dados.

Quando consideremos duas variáveis (ou dois conjunto de dados), podemos ter três situações.

i) as duas variáveis são qualitativas: ii) as duas variáveis são quantitativas: e iii) uma variável é qualitativa e a outra quantitativa. As técnicas de analises dos conjuntos de dados nas três são diferentes.

Page 22: Estatistica Basica 1

21

4.2 Associação entre Variáveis Qualitativas

Um das principais objetivos de se construir uma distribuição conjunta de duas variáveis qualitativas é descrever a associação entre elas, isto é, queremos conhecer o grau de dependência entre elas de modo, que possamos prever melhor o resultado de uma delas quando conhecemos a realização da outra.

Por exemplo, suponhamos que uma pessoa, seja sorteada ao acaso numa indústria siderúrgica, teríamos uma respostas mais provável que a pessoa sorteada é do sexo masculino por ter maior proporção.Ou seja há um grau de dependência grande entre sexo e ramo de atividade. Exemplo 1.4

Queremos verificar se existe ou não associação entre o sexo e a carreira escolhida por 200 alunos de Economia e Administração. Distribuição conjunta das freqüências e proporções (em porcentagem), segundo o sexo (x) e o curso escolhido (y). Fonte: Bussab e Morettin (2002)

A partir dessa tabela podemos observar que independentemente do sexo, 60% das pessoas preferem Economia a 40% preferem Administração ( observe na coluna de total)

Não havendo dependência entre as variáveis esperaríamos essas mesmas proporções para cada sexo. Observando a tabela, vemos que as proporções do sexo masculino (61% e 39%) e do sexo feminino (60% e 40%). Esses resultados parecem indicar não haver dependência entre que, neste caso, as variáveis sexo e escolha do curso parece ser não associados.

x y

Masculino Feminino Total

Economia 85(61%) 35(58%) 120(60%)

Administração 55(39%) 25(42%) 80(40%)

Total

140(100%) 60(100%) 200(100%)

Page 23: Estatistica Basica 1

22

4.3 Medidas de Associação

Person definiu uma medida de associação chamada coeficiente de contingência, dada por

C = ,2

2

nX

X

+

Que se interpreta de forma analógica ao coeficiente de correlação, a ser definido

mais adiante. Contudo o coeficiente acima não varia entre 0 e 1. O valor máximo de C depende de r e s.

Para evitar esse inconveniente, costuma-se definir um outro coeficiente, dado por

T = )1)(1(

2

−− srn

X

Que atinge o máximo igual a 1 se r = s. 4.4 Associação entre Variáveis Quantitativas

Quando as variáveis envolvidas são ambos do tipo quantitativas, pode usar o mesmo tipo de análise apresentado nas seções anteriores e exemplificado com variáveis qualitativas.

Um dispositivo bastante útil para se verificar a associação entre duas variáveis quantitativas, ou entre dois conjuntos de dados, é o gráfico de dispersão, que vamos introduzir por meio exemplo. Exemplo 1.5

Neste tipo de gráfico temos os possíveis pares de valores (x ,y), na ordem que

aparecem. Para o exemplo, vemos que parece haver uma associação entre as variáveis,

porque no conjunto a medida que aumenta o tempo de serviço, aumenta o numero de clientes.

Page 24: Estatistica Basica 1

23

Tabela1.5: Numero de anos de serviço (x) por numero de clientes (y) de agentes de uma Companhia de Seguros. Tabela 1.5 Agente Anos de Serviços(x) Números de clientes (y) A 2 48 B 3 50 C 4 56 D 5 52 E 4 43 F 6 60 G 7 62 Fonte: Bussab e Morettin (2002) Figura1.7 Gráficos de dispersão para as variáveis (x) anos de serviços e (y): numero de clientes.

Gráfico de Dispersão

2 34

5

4

6 7

0

10

20

30

40

50

60

70

0 2 4 6 8

Anos de Serviços

Num

eros

de

clie

ntes

Gráfico deDispersão

Page 25: Estatistica Basica 1

24

Se por acaso os pontos dos gráficos estivessem disperso e sem ordem de crescimento ou de diminuição havendo acumulação entres eles, não haverá associação entre as variáveis. 4.5 Associação entre variáveis Qualitativas e Quantitativas.

È comum nessas situações analisar o que acontece com a variável quantitativa, entro de cada categoria da variável qualitativa.

Exemplo1.6

Na tabela 1.6 e temos os resultados as análises dos salários em função da região de procedência(v), que mostram a inexistência de uma relação melhor definida entre essas duas variáveis ou, ainda os salários estão mais relacionados com o grau de instrução do que com a região de procedência. Tabela 1.6: Medida-resumo para a variável salário segundo a região de procedência, na Companhia MB. Região de Procedência

−S

Dp(s) Var(s) S(1) q(1) q(1) q(1) S(n)

Capital 11 11,46 5,22 27,27 4,56 7,41 9,77 16,63 19,40 Interior 12 11,55 5,07 25,71 4,00 7,81 10,64 14,70 23,30 Outra 13 10,45 3,02 9,13 5,73 8,74 9,80 12,79 16,22 Todos 36 11,12 4,52 20,46 4,00 7,05 10,17 14,66 23,30 Fonte: Bussab e Morettin (2002)

È conveniente poder contar com uma medida que quantifique o grau de dependência entre as variáveis. Com esse intuito, convém observar que as variâncias podem ser usada como insumo para construir essa medida sem usar a informação da variável categorizada, a variância calculada para a variável quantitativa para todos os dados mede a dispersão dos dados globalmente. Se a variância dentro de cada categoria for pequena e menor do que a global, significa que a variável qualitativa cada categoria for pequena e menor do que a global significa que a variável qualitativa melhora a capacidade de previsão da quantitativa e por tanto existe uma relação entre as duas variáveis.

Dados n pares de valores (x1 ,y1),..., (xn ,y n ), chamaremos de covariância entre as

duas variáveis x e y a

Cov (x,y) = ,))((

1

__

∑ =

−−n

i

ii

n

yyxx

Page 26: Estatistica Basica 1

25

Ou seja, a média dos produtos dos valores centrados das variáveis. Com essa definição, o coeficiente de correlação pode ser escrito como,

Corr (x, y) = )().(

),(

ydpxdp

yxCov

4.6 Exercícios

Com base na tabela abaixo, você concluiria que o tipo de atividade está relacionada ao fato de as embarcações serem de propriedades estatal ou particular ? Encontre uma medida de dependência entre as variáveis.

Atividades

Propriedades

Costeira Fluvial Internacional

Total

Estatal 5 141 51 197 Particular 92 231 48 371 Total 97 372 99 658 Resolução Tabela de desvio

Atividades

Propriedades

Costeira Fluvial Internacional

Total

Estatal 5(33,64) 141(129,02) 51(34,34) 197 Particular 92(63,64) 231(242,98) 48(64,66) 371

Como X2 = 51,09 pelo resultado existe associação entre o tipo de atividade e a

propriedade das embarcações.

Page 27: Estatistica Basica 1

26

5.0 Probabilidade 5.1 Introdução

Denominamos fenômeno aleatório á situação ou acontecimento cujos resultados não podem ser previstos com certeza.

Chamamos de espaço amostral ao conjunto de todos os resultados possíveis de certo fenômeno aleatório. Ele será representado pela letra grega Ω (Omega). Os subconjuntos de Ω são denominados eventos e são representados pelas letras latinas A,B,......O conjunto vazio , como já é tradicional, será denominado por Ø.

A união de dois eventos A e B, denotada por AUB, representa a ocorrência de pelo menos um dos eventos A ou B.

Dois eventos A e B são adjuntos ou mutuamente exclusivos quando não tem elementos em comum. Isto é A =∩ B Ø.

Dizemos que A e B são complementares se sua união é o espaço amostral e sua intersecção é vazia. O complemento de A será representado por A c e temos A∪ A c =Ω

e A∩ A c = Ø. Considera-se probabilidade como sendo uma função P(.) que atribui valores

numéricos aos eventos do espaço amostral.

Definição: Probabilidade Uma função P(.) é denominada probabilidade se satisfaz as condições: i)0 P(A) 1,∀ A ⊂ Ω ii)P(Ω)=1

iii)P

n

jAj

1

= ( )∑=

n

jAjp

1

, com os sAj ' distintos

Pode-se atribuir probabilidade aos elementos do espaço amostral de duas

maneiras, uma delas consiste na atribuição de probabilidade baseando=se em características teóricas da realização do fenômeno.

Uma outra maneira de obter probabilidade é através das freqüências de ocorrências.

Observando as diversas repetições do fenômeno em que ocorre a variável de interesse. Para um número grande de realizações, a freqüência relativa poderia ser usada como probabilidade.

Por ora ,assumimos que á medida que o numero de repetições vai aumentando, as freqüências relativas se estabilizam em um numero que chamarmos de probabilidade.

A probabilidade da união de eventos é calculada através da regra de adição de probabilidade.

Page 28: Estatistica Basica 1

27

Sejam A e B eventos de Ω. Então P(A∪ B) =P(A) +P(B)-P(A∩ B)

5.2 Probabilidade Condicional e Independência Definição: Probabilidade Condicional Dado dois eventos A e B, a probabilidade condicional de A dado que ocorre b é

representada por P(AB) e dada por P(A B) =)(

)(

BP

BAP ∩, P(B) >0.

Caso P(B)=0,P(AB) pode ser definido arbitrariamente, neste texto usaremos

P(A )B =P(A).

Da definição de probabilidade condicional, deduzirmos a regra do produto de

probabilidades.

Sejam A e B eventos de Ω. Então,

P(A ),()() BPBAPB =∩

Com P(B)>0. Definição: Independência de eventos

Dois eventos A e B são independentes se a afirmação da ocorrência ou não de B não altere a probabilidade de A. Isto é,

P(A ,0)(),() >= BPAPB

Ou ainda a seguinte forma equivalente:

P(A ).(() BBPAPB =∩

Teorema de Bayes: Suponha os eventos c1, c2

,c ,3...., ck

Formem uma partipação de Ω

e que suas probabilidades sejam conhecidas. Suponha ainda que para um evento A, se conheçam

as probabilidades P(A ci) para todo i =1,2,....,k. Então, para qualquer j,

P(C j A) = .,......,3,2,1,)()(

)()(

1

kjCPCAP

CPCAPk

iii

jj =∑

=

Page 29: Estatistica Basica 1

28

5.3 Exercícios

As Preferências de homens e mulheres por cada gênero de filme alugado em uma locadora de vídeos estão apresentadas na próxima tabela.

FilmeSexo Comédia Romance Policial

Homens 136 92 248 Mulheres 102 195 62 Sorteando-se ao caso uma dessas locações de vídeos, pergunta-se a probabilidade de: Uma mulher ter alugado um filme de policial? Resolução

835

62

O filme alugado ser uma comédia? Resolução

P(C) = P (M) * P(C )M + P (H) * P(C )H = P(C )H∩ + P(C )H∩

P(C) = 835

238

835

136

835

102 =+

Um homem ter alugado ou o filme ser um romance? Resolução P(H )()()() RHPRPHPR ∩−+=∪

P(H 803,0835

92

835

287

835

476) =−+=∪ R

d)O filme ser policial dado que foi alugado por um homem? Resolução

P(P )H = )(

)(

HP

HPP ∩

P(P )H = PP(835

476

476

248 = 91,0) =H

Page 30: Estatistica Basica 1

29

Companhia MB

Os dados abaixo correspondem a uma pesquisa realizada na Cia MB. Foram selecionados 36 funcionários e observadas as seguintes variáveis: estado civil, grau de instrução, número de filhos, salário(em nº de salários mínimos), idade (em anos) e região de procedência. Dados da Tabela 2.1. Pag 11 do livro. No Estado Instrução Número de Salário Idade Procedência Civil Filhos 1 Solteiro ensino fundamental 4,00 26 Interior 2 Casado ensino fundamental 1 4,56 32 Capital 3 Casado ensino fundamental 2 5,25 36 Capital 4 Solteiro ensino médio 5,73 21 Outro 5 Solteiro ensino fundamental 6,26 41 Outro 6 Casado ensino fundamental 0 6,66 28 Interior 7 Solteiro ensino fundamental 6,86 41 Interior 8 Solteiro ensino fundamental 7,39 43 Capital 9 Casado ensino médio 1 7,59 34 Capital 10 Solteiro ensino médio 7,44 24 Outro 11 Casado ensino médio 2 8,12 34 Interior 12 Solteiro ensino fundamental 8,46 28 Capital 13 Solteiro ensino médio 8,74 37 Outro 14 Casado ensino fundamental 3 8,95 44 Outro 15 Casado ensino médio 0 9,13 30 Interior 16 Solteiro ensino médio 9,35 39 Outro 17 Casado ensino médio 1 9,77 32 Capital 18 Casado ensino fundamental 2 9,80 40 Outro 19 Solteiro superior 10,53 26 Interior 20 Solteiro ensino médio 10,76 37 Interior 21 Casado ensino médio 1 11,06 31 Outro 22 Solteiro ensino médio 11,59 34 Capital 23 Solteiro ensino fundamental 12,00 41 Outro 24 Casado superior 0 12,79 26 Outro 25 Casado ensino médio 2 13,23 32 Interior 26 Casado ensino fundamental 2 13,60 35 Outro 27 Solteiro ensino médio 13,85 47 Outro 28 Casado ensino médio 0 14,69 30 Interior 29 Casado ensino médio 5 14,71 41 Interior 30 Casado ensino médio 2 15,99 36 Capital 31 Solteiro superior 16,22 31 Outro 32 Casado ensino médio 1 16,61 36 Interior 33 Casado superior 3 17,26 44 Capital 34 Solteiro superior 18,75 34 Capital 35 Casado 2º grau 2 19,40 49 Capital 36 Casado superior 3 23,30 42 Interior

Page 31: Estatistica Basica 1

30

Bibliografia Wilton de O. Bussab, Pedro A. Morettin- Estatística Básica- São Paulo : Saraiva. 5º edição, 2005.