CURSO DE ESTATÍSTICA BÁSICA APLICADA E...

1

CURSO DE ESTATÍSTICA BÁSICA APLICADA E CEP

Prof. Cezar Augusto Cerqueira

2

SUMÁRIO

1 - ESTATÍSTICA: NOÇÕES GERAIS ..................................................................................................................................... 3

2 – APRESENTAÇÃO DE DADOS........................................................................................................................................... 9

2.1 DISTRIBUIÇÃO DE FREQUÊNCIAS ..............................................................................................................10

2.2 REPRESENTAÇÃO GRÁFICA ..........................................................................................................................11

3–MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS .............................................................................................. 18

3.1 MEDIDAS DE TENDÊNCIA CENTRAL (locação): média aritmética,.................................................................18

3.2 MEDIDAS DE VARIABILIDADE ....................................................................................................................... 20

3.3 ASSIMETRIA .................................................................................................................................................... 24

3.4 - O ESQUEMA DOS CINCO NÚMEROS E O GRÁFICO BOX PLOT...............................................................26

4 NOÇÕES DE PROBABILIDADE ......................................................................................................................................... 28

5. VARIÁVEIS ALEATÓRIAS ................................................................................................................................................. 31

5.1CASO DISCRETO ............................................................................................................................................. 31

5.2 CASO CONTÍNUO ........................................................................................................................................... 32

6. MODELOS DISCRETOS .................................................................................................................................................... 34

6.1 .DISTRIBUIÇÃO DE BERNOULLI .................................................................................................................... 34

6.2 DISTRIBUIÇÃO BINOMIAL ............................................................................................................................. 34

6.3 MODELO DE POISSON ................................................................................................................................... 35

6.4 MODELO HIPERGEOMÉTRICO ...................................................................................................................... 35

7. MODELOS CONTÍNUOS ................................................................................................................................................... 37

7.1 DISTRIBUIÇÃO NORMAL ............................................................................................... .............................. 37

8- DISTRIBUIÇÕES AMOSTRAIS .......................................................................................................................................... 41

8.1 DISTRIBUIÇÃO AMOSTRAL DE MÉDIAS ....................................................................................................... 41

8.2-DISTRIBUIÇÕES AMOSTRAL DE PROPORÇÕES .........................................................................................45

9 ESTIMAÇÃO: NOÇÕES GERAIS ........................................................................................................................................ 46

10. TESTES DE HIPÓTESES ................................................................................................................................................. 50

11. CORRELAÇÃO ................................................................................................................................................................ 58

11.1 DIAGRAMA DE DISPERSÃO ......................................................................................................................... 58

11.2 COEFICIENTE DE CORRELAÇÃO LINEAR .................................................................................................. 60

12 – REGRESSÃO ..................................................................................................................................................................61

13 – NOÇÕES DE CONTROLE ESTATÍSTICO DE PROCESSOS ........................................................................................63

14 NOÇÕES DE ESTATÍSTICA NO EXCEL ...........................................................................................................................70

BIBLIOGRAFIA ........................................................................................................................................................................88

3

1 - ESTATÍSTICA: NOÇÕES GERAIS A ESTATÍSTICA é a ciência que trata da coleta, processamento e análise de dados, sendo uma ferramenta fundamental no processo de resolução de problemas e tomada de decisões. O uso da estatística é de fundamental importância na identificação de problemas, na determinação do tipo de dados pertinentes à análise destes, sua coleta, tratamento e posterior tomada de decisões, a partir das conclusões estabelecidas, contribuindo na elaboração de um plano de ação para a resolução do problema em questão.

• A estatística, portanto reúne métodos para:

- Coleta - Processamento - Análise e interpretação de dados

• Informações numéricas analisadas servem de base para tomada de

decisões; • As estatísticas nos auxiliam a entender melhor os fenômenos em geral;

EM GERAL, CONHECEMOS ESTATÍSTICAS:

- Demográficas - Econômicas - De saúde - Educacionais - Empresariais, etc.

• A obtenção das estatísticas é apenas uma das faces do problema; • É preciso aprofundar a análise • Números não foram feitos apenas para serem exibidos ou armazenados

ALGUMAS RAZÕES PARA SE CONHECER ESTATÍSTICA :

• Para saber como apresentar e descrever informações de forma apropriada • Para saber como tirar conclusões a partir de grandes populações, com

base somente na informação obtida em amostras. • Para saber como melhorar processos • Para saber como obter previsões confiáveis.

4

UMA PALAVRA SOBRE FONTES DE DADOS LEVINE ET AL (2005) destacam quatro fontes-chave no processo de coleta de dados:

1. Obter dados já publicados por fontes governamentais, industriais ou individuais.

2. Planejar e executar um experimento para obter os dados necessários. 3. Planejar e executar uma pesquisa ou levantamento de campo. 4. Realizar uma análise através de um estudo observacional.

No Brasil o governo é o principal produtor de dados sócio-econômicos e

demográficos e o IBGE seu órgão oficial de estatística, que planeja e executa uma ampla gama de pesquisas, tendo como carro-chefe o Censo Demográfico, realizado a cada dez anos e que produz informações populacionais, que possibilitam uma investigação sobre os componentes da dinâmica demográfica brasileira, com destaque para dados sobre a composição da população por estrutura etária, sexo, educação, trabalho e rendimento, além de aspectos ligados à mortalidade, fecundidade e migração, entre outros.

O IBGE produz ainda, em suas diversas pesquisas, dados sobre a evolução da produção industrial, comercial do setor de serviços; sobre emprego e desemprego, registro civil, taxas de inflação; além de dados sobre a realidade dos municípios do país, sobre o setor de saúde, entre outros. Os governos estaduais e municipais também produzem uma ampla série de informações de nível de agregação mais localizado, complementando o chamado sistema estatístico nacional.

A segunda fonte de dados mencionada é a experimentação, técnica na qual um controle rigoroso é exercido no tratamento dado aos participantes. Nesse tipo de levantamento geralmente são utilizados procedimentos estatísticos mais sofisticados, como testes de hipóteses e análise de variância, entre outros.

A terceira fonte de obtenção de dados é a realização de pesquisas, procedimento no qual nenhum controle é exercido sobre os participantes, no que tange ao seu comportamento. A população é indagada sobre questões relativas a crenças, valores, atitudes, características pessoais, entre outras. As respostas obtidas são devidamente tratadas para posterior análise.

Na análise observacional o pesquisador observa diretamente o comportamento de seu objeto de estudo, geralmente em seu ambiente natural. Este tipo de levantamento, em geral, se aplica a situações onde pesquisas são impraticáveis ou de difícil execução. Tais estudos coletam informações, na forma de grupo, para auxiliar em processos de tomadas de decisão. Uma técnica bastante utilizada é o grupo focal, empregada para estruturar questões em aberto. Outros tipos de levantamentos observacionais são ainda utilizados, em diversas situações, entre os quais destacamos dinâmicas de grupo, “brainstorming”, etc.

5

GRANDES ÁREAS EM ESTATÍSTICA: A trabalho com dados estatísticos pode ser visualizada em três grandes áreas: |

• Estatística Descritiva • Probabilidades • Inferência estatística

ESTATÍSTICA DESCRITIVA

• Utilizada na etapa inicial de análise

• Conjunto de técnicas destinadas a descrever e resumir os dados.

Algumas estatísticas descritivas:

- Taxas de inflação - Taxas de desemprego - Taxas de mortalidade infantil - Renda per capta - Taxa de alfabetização - Índice de leitos por habitantes, etc.

• As estatísticas descritivas tornam o dado mais compreensível

Descrição

Organização

Resumo

Tabelas

Gráficos

Medidas

Técnicas Visuais

6

PROBABILIDADE

• Teoria matemática utilizada para se estudar a incerteza, oriunda de fenômenos de caráter aleatório.

INFERÊNCIA ESTATÍSTICA:

• Trata da análise e interpretação de dados amostrais • O principio básico é tirar conclusões sobre a população a partir de uma

amostra de dados obtida da mesma. APLICAÇÃO

a) Uma montadora de automóveis compra amortecedores de outra indústria,

em lotes de 100 peças. De cada lote é retirada uma amostra, com base na proporção de defeituosos contidos nessa amostra é tomada uma decisão quanto à aceitação ou não do lote.

b) Um jornal investigou 900 pessoas residentes na capital sobre qual o fato de terem ou não um plano de saúde; cerca de 400 disseram que o possuem.

O processo de coleta/ interpretação dos dados pode ser resumido no esquema abaixo:

População Amostra Descrição Análise/da amostra inferência

Decisão

7

NOÇÕES DE AMOSTRAGEM

Os dados representam a base para a tomada de decisões confiáveis. Na área de qualidade, por exemplo, quando coletamos dados, nosso propósito primordial é obter informações sobre lotes de produtos, sobre a estabilidade de processos, sobre a capacidade de um processo atender às especificações e sobre resultados obtidos sob alterações que visem melhorar a qualidade do processo. Nesse sentido cabe destacar os conceitos de:

• POPULAÇÃO – Conjunto de elementos de um universo, com pelo menos uma

característica em comum, sobre o qual desejamos estabelecer conclusões ou implementar ações.

• AMOSTRA – Parte ou subconjunto da população a ser estudada. POR QUE USAR AMOSTRAGEM?

• Estudo de grandes populações. • Redução de custos. • Resultados mais precisos em menor espaço de tempo.

Aleatória simples

Estratificada

PROBABILÍSTICA Sistemática

Grupos (cluster)

Multifásica

AMOSTRAGEM

(Tipos)

NÃO PROBABILÍSTICA

8

Amostra Aleatória Simples – cada sujeito ou item tem a mesma chance de seleção. Denota-se por “n” o tamanho da amostra e “N” o tamanho da população. Cada item da população é numerado de 1 a N. A chance de seleção de cada elemento é dada por 1/N. As amostras podem ser escolhidas com ou sem reposição. O sorteio geralmente é feito com o auxílio de tabelas de números aleatórios. Amostra Sistemática – Os N elementos da população são divididos em “k” grupos, onde k=N/n. O primeiro elemento é sorteado por um número aleatório entre 1 e k, sendo o restante da amostra obtido pela seleção de cada k-ésimo elemento respectivo na população. Amostra Estratificada – a estratificação consiste na divisão de um grupo original em diversos subgrupos, com base em determinados fatores. Na área de qualidade os fatores geralmente são equipamentos, fabricante, operadores, métodos de produção, determinadas condições ambientais de produção, entre outros. Amostras de grupos ou clusters – nesse caso, os N elementos são divididos em grupos ou clusters. Uma amostra aleatória de grupos é obtida e todos os elementos do grupo são investigados. Em algumas situações uma sub-amostra dentre de cada gruo inicialmente sorteado pode também ser adotada. Os grupos podem ser tomados como municípios, bairros, quarteirões, setores censitários, condomínios, etc.

9

2 – APRESENTAÇÃO DE DADOS

No processo de análise de dados, o pesquisador tem à sua mão uma série de informações relativas a uma população ou uma amostra, e necessita resumir tais dados para torna-los informativos, para compará-los com outros resultados ou verificar sua adequação a um modelo teórico. Portanto, antes de passar a análise descritiva propriamente dita, que antecede a etapa de inferência, é conveniente observar alguns procedimentos de resumo de dados e sua apresentação na forma tabular ou gráfica.

• Dados brutos desorganizados, não trazem informação! • Ë importante organizar e resumir os dados • Obter dos dados a maior quantidade de informação

TIPOS DE VARIÁVEIS

Os dados coletados no trabalho de pesquisa, gerenciamento de processos, controle de qualidade de produtos e serviços, em geral podem ser de natureza qualitativa ou quantitativa. Variáveis como sexo, educação, estado civil, nível de qualidade de uma peça (perfeita ou defeituosa), são de natureza qualitativa. Tais variáveis ainda podem ser classificadas como nominais, quando não existe nenhuma ordenação nas categorias (p/ex: sexo, estado civil), ou ordinais, quando apresentam alguma ordenação (p/ex: grau de instrução). As variáveis quantitativas podem ser classificadas como discretas ou contínuas. As discretas resultam geralmente de contagens do número de ocorrências de determinada característica de interesse. As variáveis contínuas são aquelas cujos valores possíveis formam um intervalo de números reais e resultam normalmente de mensurações. São apresentados a seguir alguns exemplos de variáveis discretas e contínuas: Discretas -número de filhos de um casal -número de defeitos em uma chapa de aço -número de acidentes de trabalho em uma semana em certa fábrica. Contínuas -Peso ou altura de um indivíduo -Espessura de uma peça -Tempo de vida de uma lâmpada, etc IMPORTANTE!: A técnica estatística a ser utilizada na análise dos dados depende do tipo de variável com que se trabalha.

10

2.1 DISTRIBUIÇÃO DE FREQUÊNCIAS

• Após coletar, deve-se organizar os dados. • Para conhecer melhor a distribuição das variáveis de interesse procura-se

dispor os dados em tabelas e gráficos. • Objetiva-se obter uma melhor visualização do fenômeno.

CASO DE VARIÁVEIS NOMINAIS OU ORDINAIS Exemplo: A Tabela 2.1 apresenta a distribuição dos empregados do setor de produção de certa empresa segundo o seu grau de instrução.

Tabela 2.1 Empregados do setor de produção, segundo o grau de instrução, 2005.

GRAU DE INSTRUÇÃO Freqüência (fi) Primeiro Grau 15 Segundo Grau 25 Superior 10 TOTAL 50 FONTE: Pesquisa direta

11

2.2 REPRESENTAÇAO GRÁFICA : GRÁFICO DE SETORES: Útil na representação de variáveis de natureza qualitativa.

Empregados do Setor de Produção, segundo grau de instrução - 2000

30%

50%

20%

Primeiro Grau

Segundo Grau

Superior

CASO DE VARIÁVEIS DISCRETAS Para ilustrar, considere os dados abaixo representando a distribuição da variável número de filhos dos empregados do setor de produção.

Tabela 2.2 Distribuição do número de filhos dos empregados do setor de produção

NÚMERO DE FILHOS Freqüência ( fi) 0 5 1 10 2 20 3 9 4 6

12

REPRESENTAÇÃO GRÁFICA: Gráfico de Colunas

0

2

4

6

8

10

12

14

16

18

20

freq.

0 1 2 3 4

filhos

Número de filhos

13

CASO DE VARIÁVEIS CONTÍNUAS Foram obtidas as rendas mensais, em salários mínimos, dos empregados do setor de produção.

Tabela 2.3 Distribuição de freqüências das rendas dos empregados

do setor de produção

CLASSE DE RENDA(sal.min.)

Freq. simples(fi)

Freq. Relativa Freq. Acumulada (Fi)

4 |----- 8 7 14,0 78 |----- 12 8 16,0 1512 |----- 16 20 40,0 3516 |----- 20 10 20,0 4520 |----- 24 5 10,0 50TOTAL 50 100,0 -

REPRESENTAÇÃO GRÁFICA (Histograma):

Distribuição dos salários dos empregados do setor de produção

0

5

10

15

20

25

6 10 14 18 22

sal.min.

freq

. sim

ples

14

A DISPOSIÇÃO RAMO-E-FOLHA

Consiste de uma outra ferramenta valiosa para organizar um conjunto de dados e ao mesmo tempo, compreender a maneira com os valores se distribuem e se agrupam ao longo da amplitude de observação no conjunto de dados.

• Cada observação é dividida em: ramo (dígitos iniciais) e folha (dígitos restantes).

• Devemos escolher poucos ramos em relação ao total de observações (entre 5 e 20).

Exemplo: Considere os dados abaixo representando a resistência à compressão de uma amostra de 80 corpos de prova de liga de alumínio:

105 221 183 186 121 181 180 14397 154 153 174 120 168 167 141

245 228 174 199 181 158 176 110163 131 154 115 160 208 158 133207 180 190 193 194 133 156 123134 178 76 167 184 135 229 146218 157 101 171 165 172 158 169199 151 142 163 145 171 148 158160 175 149 87 160 237 150 135196 201 200 176 150 170 118 149

Como ramos consideraremos os valores 7,8,9,...24, o gráfico encontra-se a seguir:

15

Gráfico Ramo-e-Folha – Resistência à compressão de 80 corpos de prova. Ramo Folha Frequencia

7 6 18 7 19 7 1

10 51 211 580 312 103 313 413535 614 29583169 815 471340886808 1216 3073050879 1017 8544162106 1018 361410 719 960934 620 7108 421 8 122 189 323 7 124 5 1

O GRÁFICO DE PARETO

Consiste de um gráfico de barras verticais que dispõem a informação, de forma a tornar evidente e visual a priorização de temas.

O princípio de Pareto estabelece que os problemas relacionados à qualidade se traduzem na forma de perdas e podem ser classificados em duas categorias: “ os poucos vitais” e os “muitos triviais”. Exemplo: Uma indústria fabricante de lentes iniciou o ciclo de melhoria da qualidade, com o objetivo de resolver o seguinte problema: aumento no número de lentes defeituosas produzidas pela empresa, a partir de fevereiro de 2004. Em uma etapa de observação, a empresa classificou uma amostra de lentes produzidas, de acordo com os tipos de defeitos encontrados, tendo obtido os resultados da Tabela 2.4, a seguir.

16

Tabela 2.4 – Defeitos encontrados em uma amostra de lentes fabricadas pela indústria

Tipo de Defeito

Freqüência de

defeitos

Total

Acumulado

Freqüência

relativa (%)

Percentual

Acumulado

Revest. Inadequado 55 55 43,3 43,3

Trinca 41 96 32,3 75,6

Arranhão 12 108 9,4 85,0

Espessura inadequada 11 119 8,7 93,7

Mal-acabada 5 124 3,9 97,6

outros 3 127 2,4 100,0

Total 127 - 100,0 -

FONTE: Indústria de lentes

Gráfico de Pareto para os defeitos das lentes

0

10

20

30

40

50

60R

evest.Inadequado

Trinca

Arranhão

Espessura

inadequada

Mal-acabada

outros

0,0

20,0

40,0

60,0

80,0

100,0

defeitos

% Acum

17

O Gráfico de Pareto pode ter ainda grandes aplicações na área de qualidade, destacando-se:

• Gráfico de Pareto para causas, envolvendo, geralmente, as seguintes categorias: equipamentos, insumos, informação do processo ou medidas, condições ambientais, pessoas, métodos ou procedimentos.

• Gráfico de Pareto para efeitos, envolvendo, geralmente, as categorias: qualidade, custo, entrega, segurança, etc.

• Gráfico de Pareto expresso em unidades monetárias • Gráfico de Pareto estratificado (por operador, etc) • Comparações tipo antes e depois • Desdobramento de gráficos de Pareto (causas e sub-causas)

18

3–MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS O resumo dos dados na forma de tabelas, bem como a visualização da sua distribuição, na forma de gráficos, são importantes elementos na análise dos mesmos. Entretanto, é fundamental que se disponha de um sumário dos dados na forma numérica.

São apresentadas a seguir as principais medidas utilizadas para se quantificar os valores centrais da distribuição dos dados (locação), bem como o grau de dispersão dos dados em torno dos valores centrais (variabilidade). 3.1 MEDIDAS DE TENDÊNCIA CENTRAL (locação): média a ritmética, mediana CÁLCULO DE MEDIDAS DE LOCAÇÃO A média aritmética é a medida mais comumente utilizada para representar um conjunto de dados. No caso de dados brutos, seu cálculo pode ser feito através da fórmula:

A mediana corresponde ao valor central de uma distribuição. No caso de dados brutos, sendo o tamanho da amostra (n) ímpar, basta tomar, a partir dos dados dispostos em ordem crescente, o elemento de ordem X([n+1/2]) . No caso de n ser par, a mediana é obtida como a média aritmética dos dois valores centrais da distribuição dos dados em ordem crescente, ou seja:

Caso os dados estejam dispostos em uma tabela de freqüências os cálculos são efetuados através das expressões a seguir. No caso da média aritmética:

n

XiX

n

i∑

== 1

2)1]2/([)2/( ++

= nn

e

XXM

n

fXX

k

iii∑

== 1

19

No caso da mediana, tem-se:

Onde: Li = limite inferior da classe mediana; Fant = freqüência acumulada até a classe anterior fMe = freqüência simples na classe mediana c = amplitude da classe mediana. OUTRAS MEDIDAS DE LOCAÇÃO A distribuição dos dados pode ser divida em mais de duas partes. No caso de dividi-la em quatro partes iguais, os pontos de corte correspondentes são chamados de Quartis e representam medidas estratégicas na distribuição. O primeiro quartil (Q1) é um valor que tem aproximadamente um quarto (25%) das observações abaixo de si. O segundo quartil tem aproximadamente 50% das observações abaixo de seu valor e corresponde à mediana, medida anteriormente estudada. Já o terceiro quartil (Q3) reúne abaixo de si cerca de 75% das observações. Para dados não agrupados o primeiro quartil é calculado como a [(n+1)/4]ª observação ordenada e o terceiro como a [3(n+1)/4]ª observação ordenada. As regras a seguir são úteis para o cálculo dos quartis (LEVINE ET AL., 2005):

1) Se o ponto de posicionamento resultante for um numero inteiro, a observação numérica correspondente àquele ordinal será o valor do quartil.

2) Se o ponto de posicionamento estiver entre dois números inteiros, a média de seus respectivos valores será tomada como o quartil.

3) Se o ponto de posicionamento resultante não se tratar de um número inteiro, nem correspondente á metade do intervalo entre dois inteiros, uma regra a ser aplicada pode ser a de arredondar para o inteiro mais próximo e selecionar o valor numérico relativo à observação correspondente.

4) Uma outra regra a ser adotada na situação 3 pode ser interpolar entre os valores correspondentes.

cf

FnLiMe

Me

ant .])5,0[( −

+=

20

Como exemplo, vamos calcular os quartis para a série de dados abaixo: 9,8 11,3 12,5 13,5 16,5 17,5 18 18,1 18,7 19 20 21,5 25 38,9 Q1 = (n+1)/4 = (14+1)/4 = 3,75 Assim, pela regra 3 o primeiro quartil corresponde à quarta observação ordenada, ou seja, Q1 = 13,5. Por outro lado, Q3 = 3(n+1)/4 = 11,25, logo o valor de Q3 é aproximado pela décima primeira observação ordenada, ou seja, Q3 = 20.

3.2 MEDIDAS DE VARIABILIDADE

A variabilidade está presente em todo e qualquer processo produtivo de bens ou serviços. De modo geral, pode-se dizer que a variabilidade é resultado de uma série de alterações nas condições sob as quais as observações são tomadas. Segundo WERKEMA (1995), tais alterações podem refletir diferenças entre matérias-primas, condições de equipamentos, métodos de trabalho, condições ambientais e operadores envolvidos no processo. A redução da variabilidade de processos permite que a produção de itens cuja característica de interesse esteja próxima de um valor alvo desejado e dentro de limites especificados.

CÁLCULO DE MEDIDAS DE VARIABILIDADE

A discrição dos dados através de medidas de locação pode esconder importantes informações com respeito variabilidade dos dados. Como exemplo ilustrativo, suponha que 3 grupos de alunos submeteram-se a um teste, obtendo-se os valores abaixo: GRUPO A 3 4 5 6 7 GRUPO B 1 3 5 7 9 GRUPO C 5 5 5 5 5 Observa-se que a média dos 3 grupos é igual a 5, portanto, estes não apresentam diferenças quanto ao aspecto de locação; entretanto a variabilidade dos resultados difere bastante entre os 3 grupos, sendo necessária uma medida que sumarize esse aspecto.

Uma medida, de caráter preliminar, de abordagem da dispersão é a chamada amplitude do conjunto de dados, correspondente à diferença entre o valor máximo e o valor mínimo. No caso dos dados acima, a amplitude do grupo A

21

seria: Xmax-Xmin= 7-3 = 4. Para o grupo B seria de 8 (9-1) e para o gruo C seria igual a 0 (zero).

Embora a amplitude seja uma medida simples da variação total nos dados, ela não leva em consideração o modo como os dados estão distribuídos entre os valores extremos.

O grau de dispersão ou variabilidade dos dados em torno da média pode ser avaliado através de medidas como a variância, o desvio padrão e o coeficiente de variação. O princípio básico é medir o desvio das observações (di), em relação à média do grupo. No caso dos dados do grupo A acima, teríamos os seguintes valores para os di: -2, -1, 0, 2, 2. A variabilidade poderia ser pensada como a soma desses desvios, porém essa não é uma boa alternativa porque tal soma é igual a zero para qualquer conjunto de dados. Uma alternativa, portanto é trabalhar com a soma dos quadrados desses desvios e em seguida obter um desvio médio. Desse modo a fórmula para o cálculo da variância populacional de um conjunto de dados pode ser expressa como:

Alternativamente, pode-se mostrar que tal expressão pode ser escrita como:

Ao se trabalhar com amostras, pode-se utilizar a fórmula abaixo, que apresenta algumas propriedades interessantes, como representante da variância de uma população, lembrando que a diferença entre as duas fórmulas diminui à medida que o tamanho da amostra aumenta.

Considerando os dados relativos às notas dos alunos do grupo A, temos que:

n

XXn

ii∑

=

−= 1

2

2

)(σ

])(

[1

222

n

XX

ni

i∑

∑ −=σ

])(

[1

12

22

n

XX

ns

i

i

∑∑ −

−=

1352 =∑ iX

22

Desse modo, aplicando-se a expressão acima, pode-se ver que a variância das notas será dada por: S2 = ¼(135 – 125) = 2,5. No caso de tabelas de freqüência, o cálculo da variância pode ser feito através da expressão:

Para ilustrar considere o cálculo da variância dos salários dos empregados, a partir da Tabela 4: Cálculo da variância dos dados da Tabela 4 (salários dos empregados)

CLASSE DE RENDA(sal.min.)

Freq. simples(fi)

Freq. Relativa

Freq. Acumulada (Fi)

Ponto

médio(Xi)

Xifi

Xi2fi

4 |----- 8 7 14,0 7 6 42 2528 |----- 12 8 16,0 15 10 80 80012 |----- 16 20 40,0 35 14 280 392016 |----- 20 10 20,0 45 18 180 324020 |----- 24 5 10,0 50 22 110 2420TOTAL 50 100,0 - 692 10632 Desse modo, tem-se que:

Imagine agora que nosso objetivo fosse avaliar, dentro de um mesmo grupo, por exemplo, se há maior grau de dispersão com relação ao peso dos

])(

[1

12

22

n

fXfX

ns ii

ii∑∑ −

−=

525,21]50

692632.10[

49

1 22 =−=s

25=∑ iX

23

indivíduos ou com relação à sua altura, ou, em outro caso, se desejássemos comparar o grau de dispersão de grupos com médias bastante distintas. Em tais casos não seria aconselhável utilizar o desvio padrão, sendo necessário o uso de uma medida de dispersão relativa, adimensional, que é o caso do COEFICIENTE DE VARIAÇÃO, cuja expressão corresponde à relação entre o desvio padrão e a média aritmética dos dados, sendo portanto escrito como:

Uma outra medida de dispersão que pode ser empregada é a chamada amplitude interqualtil, representada pela diferença entre o terceiro e o primeiro quartis, ou seja:

J = Amplitude Interquartil = Q3-Q1. Esta medida considera a dispersão nos dados que estão entre os

50% de observações centrais, não sendo, portanto, influenciada pelas observações extremas.

X

s=γ

24

3.3 ASSIMETRIA Um outro aspecto de interesse na análise de um conjunto de dados refere-se ao seu formato, ou o grau de assimetria, que está associado com a forma com que se distribuem os dados em torno dos valores centrais. Desse modo, pode-se encontrar distribuições com os seguintes aspectos:

No caso da Companhia A tem-se uma distribuição SIMÉTRICA dos salários, ou com grau de assimetria zero. Nesse caso a média coincide com a mediana.

Distribuição dos salários dos empregados do setor de produção da Companhia A

0

5

10

15

20

25

30

6 10 14 18 22

sal.min.

freq

. sim

ples

25

A Companhia B apresenta uma distribuição com uma ASSIMETRIA POSITIVA, ou seja, uma cauda mais acentuada no lado direito da distribuição e uma maior concentração em valores mais baixos. Nesse caso, a média é aumentada em função de alguns valores elevados incomuns, sendo maior que a mediana.

A distribuição dos salários da Companhia C apresente uma ASSIMETRIA NEGATIVA, ou seja, uma concentração mais acentuada nos valores mais

Distribuição dos salários dos empregados do setor de produção da Companhia B

0

2

4

6

8

10

12

14

16

6 10 14 18 22

sal.min.

freq

. sim

ples

Distribuição dos salários dos empregados do setor de produção da Companhia C

0

2

4

6

8

10

12

14

16

6 10 14 18 22

sal.min.

freq

. sim

ples

26

elevados da distribuição. No caso a média é reduzida em função de alguns valores mais baixos, sendo inferior à mediana. E agora se você gostaria de trabalhar em qual das companhias? 3.4 - O ESQUEMA DOS CINCO NÚMEROS E O GRÁFICO BOX P LOT Tanto a média como o desvio-padrão podem ser bastante afetados por observações extremas e não fornecem informação sobre o grau de assimetria da distribuição. Para tentar contornar tais dificuldades, TUCKEY (1977) propôs o uso de cinco medidas, conhecido como o esquema dos cinco números, que são: a Mediana, o primeiro e terceiro Quartis e os valores Extremos do conjunto de dados. O esquema pode ser visualizado na figura abaixo: Me Q1 Q3 Min Max O Box Plot é uma representação gráfica que procura descrever, de forma simultânea, diversas características importantes de um conjunto de dados, tais como tendência central, variabilidade, assimetria e valores extremos ou “outliers”. Seu desenho tem como base o esquema dos 5 números, tomando os valores extremos como um múltiplo da amplitude interquartil, geralmente considera-se o valor de 1,5 vezes a amplitude interquartil. Uma observação a mais de 3 amplitudes interquartis é considerada um “outlier" “extremo”. O Box Plot é representado pela figura abaixo, onde a linha central da caixa corresponde à mediana dos dados, com o canto esquerdo (ou inferior) no primeiro quartil e o canto direito (ou superior) no terceiro quartil. Os valores de E1 e E2 podem ser os valores mínimo e máximo do conjunto de dados ou, alternativamente, obtidos como: E1 = Q1 – 1,5 J e E2 = Q3 +1,5 J. E1 Q1 Me Q3 E2

27

EXEMPLO: Os dados a seguir representam os retornos anuais para três anos de uma amostra de 14 fundos de baixo risco.

Tabela 3.1 – Retorno em 3 anos de fundos mútuos de baixo risco

Fundo Retorno 3AnosBRINSON Global equity 9,77Phoenix-Zweig Managed asset C 11,35AIM Global Gr In A 12,46MFS Global Tot Ret A 13,8Fremont Global 15,47Scudder Global 17,48Van Kampen Global eq All B 18,37Fidelity Global balanced 18,47Tweedy Browne Global Value 18,61MERRILL LYNCH Gbl Value D 20,72MORG STAN DW European Growth 21,49DREYFUS PREMIER Worldwide Gr A 22,47ACORN Int 31,5JANUS Worldwide 38,16

FONTE: LEVINE ET AL. 2005 A mediana dos dados corresponde à média aritmética entre a 7ª e a 8ª observações, ou seja, 18,37 e 18,47, logo, Me = (18,37+18,47)/2 = 18,42. O primeiro quartil corresponde à observação (n+1)/4 = 3,75, aproximada pela 4ª observação, logo Q1 = 13,8. O terceiro quartil é aproximado pela observação (3n+1)/4 = 3(14+1)/4 = 11,25, ou 11ª observação, ou seja, Q3 = 21,49. A amplitude interquartil é dada por: J=Q3-Q1=21,49-13,8=7,69. Desse modo, os valores extremos podem ser obtidos como: E1= 13,8 - 1,5(7,69) = 2,26 e E3 = 21,49 + 1,5(7,69) = 33,02.

28

4 NOÇÕES DE PROBABILIDADE

O primeiros estudos começaram com problemas formulados pelo Barão de Méré e discutidos por matemáticos como Pascal e Fermat (1654), geralmente envolvendo jogos de azar. A teoria de probabilidades se aplica a experimentos aleatórios, que são aqueles cujo resultado não podem ser previstos com certeza. A despeito do caráter casual que envolve o resultado de um experimento aleatório, é possível construir um modelo que o reproduza, sem que seja necessária a sua observação. Como exemplo ilustrativo, poderíamos considerar um experimento simples como o lançamento sucessivo de um dado. Os resultados possíveis e respectivas probabilidades podem ser escritos como: Resultado 1 2 3 4 5 6 Probabilidade 1/6 1/6 1/6 1/6 1/6 1/6

Ainda como ilustração, considere um lote contendo 50 peças, das quais 10 são defeituosas e que seja retirada ao acaso uma peça deste lote. Os resultados possíveis e respectivas probabilidades podem ser escritos como: Resultado Perfeita(P) Defeituosa(D) Probabilidade 4/5 1/5 Um modelo probabilístico associado a um experimento aleatório, conforme observado acima, pode ser especificado por um espaço amostral (S), que consiste no conjunto dos resultados possíveis e por uma probabilidade. Os subconjuntos do espaço amostral são denominados de eventos, geralmente denotados por letras latinas maiúsculas A,B,C, ou A1, A2, etc. DEFINIÇÕES DE PROBABILIDADE

Uma probabilidade pode ser atribuída com base nas características teóricas da realização do experimento, como é o caso do exemplo do lançamento do dado, visto anteriormente. No caso, a probabilidade clássica a priori é baseada no conhecimento prévio sobre o experimento. No caso mais simples, em que cada resultado é igualmente provável (equiprovável), a probabilidade de ocorrência do evento é dada pela expressão:

veiscasospossí

favoráveiscasosP =

Uma probabilidade também pode ser obtida de forma empírica, através da

freqüência relativa. Pode-se verificar que à medida que o número de realizações do experimento aumenta, a freqüência relativa de um evento de interesse tende a

29

se estabilizar em um valor que representa a sua verdadeira probabilidade. Os resultados são baseados em dados observados e não no conhecimento prévio sobre o fenômeno investigado. Tal definição de probabilidade pode ser aplicada para calcular, por exemplo, a percentagem de indivíduos fumantes em uma escola, a proporção de votos de um candidato político ou ainda o percentual de analfabetos em uma comunidade.

Uma probabilidade pode ser definida como uma função que satisfaz os seguintes axiomas: 1) P(A) ≥ 0 2) P(S) = 1

Onde os Aj , j= 1,2,...n são disjuntos ou excludentes, ou seja, ( Ai ∩ Aj) = ∅ ALGUMAS PROPRIEDADES 1) Seja A um evento qualquer, então 0 ≤ P(A) ≤ 1. 2) Seja Ac o chamado evento complementar de A, então P(Ac) = 1 – P(A). 3) P(A ∪ B) = P(A) + P(B) – P(A ∩ B), sendo A e B eventos quaisquer. PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA Em muitas situações, o cálculo da probabilidade de um evento pode ser feito com base em alguma informação adicional fornecida, sendo o espaço amostral atualizado. Essa nova probabilidade recalculada pode ser chamada probabilidade condicional. Definição: dados dois eventos A e B, diz-se que a probabilidade condicional de B ocorrer, dado que o evento A ocorreu é dada por:

onde P(A) ≥ 0. Definição: dois eventos A e B são independentes se a informação da ocorrência de A não altera a chance da ocorrência de B, ou seja: P(B|A) = P(B)

)()()311∑

==

=n

jj

n

jj APAP U

)(

)()|(

AP

BAPABP

∩=

30

Ou seja, P(A ∩ B) = P(A).P(B) APLICAÇÃO A tabela abaixo apresenta o número de alunos matriculados no Departamento de Matemática de certa universidade: CURSO MASC. (M) FEM (F) Matemática (A) 60 30 Física (F) 15 10 Informática (C) 10 15 Estatística (D) 15 5 Uma pessoa é escolhida ao acaso, calcule as probabilidades seguintes:

a) P(A) b) P(D) c) P(H) d) P(A ∪ M) e) P(B ∩ F) f) P(M | C).

31

5. VARIÁVEIS ALEATÓRIAS

Variáveis aleatórias são variáveis numéricas cujos resultados podem variar de uma realização para outra do experimento. Podem ser classificadas de acordo com o esquema abaixo:

DISCRETA Surgem através de um processo de contagem

Ex: Número de filhos de um casal, Número de defeitos em uma chapa metálica, etc

VARIÁVEL ALEATÓRIA

CONTÍNUA Resulta de um processo de medição, assumindo valores num conjunto infinito não enumerável

Ex: Peso, Altura, Renda, etc.

5.1. CASO DISCRETO:

• A variável aleatória assume valores X1, X2, ...... Xn • A cada valor se associa uma probabilidade respectiva: p1, p2, ...... pn • Pode–se definir uma função de probabilidades, f (x), tal que:

e

Em resumo tem-se:

0)( ≥xf

∑ === 1)()( xXPxf

32

X X1 X2 X3 ...... XN P ( X = x ) P1 P2 P3 ...... PN MÉDIA E VARIÂNCIA DE UMA VARIÁVEL DISCRETA: Média: E ( X ) = ∑Xi . P ( X = xi )

Variância: V ( X ) = E (X2 ) – E2 ( X ) Onde: E ( X2 ) = ∑ 2X . P ( X = x )

5.2. CASO CONTÍNUO:

• A Variável assume valores em intervalos • Pode–se definir a função de densidade de Probabilidades, )(xf , tal que:

1. 0)( ≥xf

2. ∫+∞

∞−

=1)( dxxf

3. ∫=<<b

a

dxxfbXaP )()(

Distribuição de Probabilidades

33

APLICAÇÃO: 1) Um lote contém 10 peças, sendo 3 defeituosas. Duas peças são retiradas ao

acaso, sem reposição.

Seja X V.A representando o número de defeituosas.

a) Determinar o espaço amostral do experimento e suas respectivas

probabilidades.

b) Obtenha a distribuição de probabilidades da variável X.

c) Calcule E ( X ) e V ( X ).

2) Repetir o exercício acima usando amostragem com reposição.

34

6. MODELOS DISCRETOS: 6.1. DISTRIBUIÇÃO DE BERNOULLI

Seja um experimento com apenas dois resultados possíveis: Sucesso e Fracasso. Define-se a Variável: X = 1 se ocorre sucesso, com probabilidade p e X = 0, caso contrário. Tem-se então a seguinte distribuição de probabilidades para tal variável: X 0 1 P ( X = x ) ( 1 – P ) P É fácil ver que E( X ) = p e V ( X ) = p (1 – p) = pq 6.2. DISTRIBUIÇÃO BINOMIAL

• Tem-se n realizações independentes de um experimento tipo Bernoulli. • A Probabilidade de sucesso “p” é constante. • Deseja-se obter a chance de ocorrerem k sucessos nas n realizações. Seja X Variável aleatória definida como o número de sucessos nas n realizações. Então: P (X = K ) = )( N

K . pk. ( 1- p)n-k Verifica-se que, no caso da Distribuição Binomial, temos: Média = np e VARIÂNCIA = npq

PARÂMETROS

Função de Probabilidades Binomial

35

6.3. MODELO DE POISSON:

Distribuição de probabilidades discreta com importantes aplicações, em casos que envolvem contagem de eventos que ocorrem em intervalos de tempo, volume, superfície. APLICAÇÕES: • Chegada de clientes numa fila • Ocorrência de falhas por metro quadrado de tecido produzido • Número de chamadas telefônicas que chegam numa central • Limite da Distribuição Binomial

Formula: P )( kX = = !

)(

k

te Kt λλ−

Onde:

λ = taxa de ocorrências.

t = n.º de unidades de tempo ou espaço. 6.4. MODELO HIPERGEOMÉTRICO Considere uma população de N elementos, dos quais r têm uma certa

característica. Retira-se dessa população uma amostra de n elementos. Define-se X como o nº de sucessos ( nº de elementos com a característica citada ) na amostra. Deseja-se calcular P(X=k), que é dado por:

)(

))(()(

Nn

rNkn

rkkXP

−−==

36

APLICAÇÃO: 1. Cerca de 10% das peças produzidas por certa indústria, são defeituosas.

Numa amostra de 10 peças obtidas ao acaso, determinar a probabilidade de se ter:

a) Exatamente 2 defeituosas b) No máximo, uma perfeita

2. Na fila de certa Agência Bancária, chegam, em média, 5 clientes por minuto.

a) Nenhum cliente em intervalo de 01 minuto. b) Exatamente 06 clientes em 02 minutos.

3. Pequenos motores são guardados em caixas com 50 unidades. Um inspetor de

qualidade examina cada caixa testando 5 motores. Se nenhum deles for defeituoso a caixa é aceita. Se houver ao menos um defeituoso toda a caixa é testada. Sabendo que há 6 motores com defeito numa caixa, calcule a probabilidade desta ser examinada por completo.

37

7. MODELOS CONTÍNUOS

7.1. DISTRIBUIÇÃO NORMAL • O exame dos gráficos de freqüência sugere a curva representativa da

distribuição da variável. • As curvas de distribuição permitem o cálculo de probabilidades sobre a

Variável estudada. • A curva normal é uma das mais importantes e utilizadas na Estatística. • Muitas variáveis, na prática, seguem o modelo normal. • O Modelo Normal possui dois parâmetros: a média (µ) e o desvio padrão

(σ). • Notação X~N( µ,σ )

GRÁFICO DA CURVA NORMAL: Do gráfico acima, observa-se algumas importantes propriedades da curva normal: 1) A área sob a curva é igual a 1. 2) A curva é simétrica em relação à sua média. 3) A curva possui dois pontos de inflexão em (µ + σ) e (µ - σ). 4) A curva possui um ponto máximo em x = µ.

µ µ + σ µ - σ

68%

38

USO DA TABELA NORMAL

Para se calcular probabilidades associadas à curva normal, deve ser utilizar

p chamado escore padrão, definido como: Z = σ

µ−X.

A tabela normal aqui utilizada apresenta a área entre 0 (zero) e o escorre de interesse: Como exemplo, vamos obter as seguintes áreas: 1) P ( 0 < Z < 1 ) = 0,3413 2) P ( Z > 1 ) = 0,50 – 0,3413

0 z

0 1

1

39

3) P ( Z > -1 ) = 0,50 + 0,3413 = 0,8413

• A Tabela Normal também pode ser usada no sentido inverso, ou seja:

Dada uma determinada área, qual o escorre corresponde? Considere a situação abaixo:

-1 0

z=1,64 0 z

5%

=5%

z = 1,96,

z 0 - z

2,5%

40

APLICAÇÃO:

Diâmetro de parafusos produzidos por certa indústria, segue o modelo normal, com média de 172mm e desvio padrão de 5mm.

a) Qual a proporção de parafusos com diâmetro inferior a 177mm? b) Qual a proporção de parafusos com diâmetro entre 167 e 177mm? c) Qual o valor acima do qual estão 2,5% dos diâmetros?

41

8. DISTRIBUIÇÕES AMOSTRAIS

As características de uma população podem ser descritas através de estatísticas populacionais, conhecidas como parâmetros, que podem então ser definidos como medidas numéricas que descrevem características de uma população. Os parâmetros são quantidades desconhecidas que precisam ser estimadas com o uso de uma amostra extraída da população.

Uma importante etapa no trabalho de análise de dados é a inferência estatística, onde estatísticas amostrais tais como a média aritmética, o desvio padrão ou a proporção, são utilizadas para estimar os parâmetros populacionais correspondentes.

As distribuições amostrais podem ser vistas como: • Distribuição de probabilidades de uma estatística amostral • Indicam como variam as estatísticas devido a variações no processo de

amostragem.

Onde está a Variabilidade?

• Na própria estatística • Na distribuição da população em estudo • Tem relação inversa com o tamanho da amostra

8.1 DISTRIBUIÇÃO AMOSTRAL DE MÉDIAS

Para introduzir a idéias da distribuição amostral de médias, considere o exemplo a seguir.

EXEMPLO 8.1: Suponha que nossa população de estudo é formada

pelo número de defeitos encontrados em quatro chapas metálicas produzidas por certa indústria, cujos valores são: 3, 4 e 5. A média populacional é dada por:

µ = (3+4+5)/4 = 4 defeitos por chapa. A variância populacional do número de defeitos é dado por:

6666,03

)45()44()43( 2222 =−+−+−=σ

Vamos agora selecionas amostras de tamanho 2 dessa população

que, no total são 32 = 9 amostras possíveis, cujos resultados encontram-se na tabela abaixo:

42

Tabela 8.1 - Possíveis amostras de tamanho 2 que podem ser

extraídas da população do exemplo 8.1 Amostra Média

Amostral (3,3) 3 (3,4) 3,5 (3,5) 4 (4,3) 3,5 (4,4) 4 (4,5) 4,5 (5,3) 4 (5,4) 4,5 (5,5) 5

Como cada uma das 9 amostras tem a mesma chance de ocorrência, a distribuição de probabilidades da média amostral é dada por: Tabela 8.2 – Distribuição da média amostral para o exemplo 8.1

Valor da média Probabilidade 3 1/9 3,5 2/9 4 3/9 4,5 2/9 5 1/9

A média da distribuição amostral de médias pode ser obtida como:

49

1.5

9

2.5,4

9

3.4

9

2.5,3

9

1.3 =++++=

xµ

Portanto a média da distribuição amostral de médias é igual à média populacional, anteriormente calculada. Por outro lado, a variância da distribuição amostral de médias pode ser calculada por:

)()( 222 XEXEx

−=σ , onde

333,169

15

9

2.5,4

9

3.4

9

2.5,3

9

1.3)( 222222 =++++=XE , portanto:

333,04333,16)()( 2222 =−=−= XEXEx

σ

43

Portanto, a variância da distribuição amostral de médias poderia ser obtida como:

3333,02

6666,022 ===

nx

σσ .

Em resumo, a média da distribuição amostral de médias coincide com a média populacional, µµ =

x, enquanto a variância da distribuição amostral de

médias equivale a

nx

22 σσ = , cujo desvio-padrão é dado por

nx

σσ = .

AMOSTRAGEM A PARTIR DE POPULAÇÕES COM DISTRIBUIÇÃO NORMAL No caso de populações normalmente distribuídas, com média aritmética µ e desvio padrão σ, pode-se mostrar que a distribuição amostral de médias também

será normalmente distribuída com média µ e desvio padrão n

σ . A estatística:

σµ

σµ nxx

zx

)()( −=−= ,

tem distribuição Normal com media 0 (zero) e desvio padrão 1 (hum).

44

Em resumo, podemos afirmar sobre a distribuição amostral de médias que:

• É obtida a partir da média aritmética de uma série de amostras de tamanho n, extraída de uma população que tem média µ e desvio padrão σ.

• A média da distribuição amostral de médias é igual à média populacional • A variância da distribuição amostral de médias é dada por:

n

2σ

• O desvio padrão da distribuição amostral de médias (erro-padrão da

média) é dado por:

n

σ

• Para um tamanho de amostra suficientemente grande, a distribuição

amostral de médias é aproximadamente normal.

• A estatística correspondente à equação abaixo é aproximadamente N(0,1).

σµ nx

Z)( −=

APLICAÇÃO: 1. Uma indústria de lâmpadas afirma que o tempo de vida de seu produto é de

100 dias com desvio padrão de 8 dias. Tomando-se uma amostra de 36 lâmpadas ao acaso, pergunta-se;

a) Qual média e desvio padrão da distribuição amostral de médias? b) Que percentual de lâmpadas terá vida média superior a 99 dias? c) Que percentual de lâmpadas terá vida média entre 99 e 101 dias?

nZ

zσ(

=

45

8.2 DISTRIBUIÇÕES AMOSTRAL DE PROPORÇÕES

Em muitas situações trabalhamos com variáveis de natureza categórica, onde cada elemento é classificado como possuidor ou não de certa característica, ou variáveis tipo zero-um. Uma determinada peça pode ser classificada como defeituosa ou perfeita; um indivíduo pode ser classificado como a favor ou contra a pena de morte, etc. Nesses casos é importante estimar a proporção de sucessos em uma amostra, obtida como:

P= X/n, onde X é o número de ocorrências (sucessos) na amostra e n é o tamanho da amostra. De forma semelhante ao que foi tratado na distribuição amostral de médias podemos resumir, no caso de proporções, que:

• A média da distribuição amostral de proporções é igual à proporção

populacional • O desvio padrão da distribuição amostral de proporções é dado por:

N

ppp

)1( −=σ

• Para amostras suficientemente grandes a distribuição amostral de proporções segue o modelo normal.

• A estatística da equação abaixo é aproximadamente N(0,1).

APLICAÇÃO: 1. Cerca de 5% das peças produzidas por certa indústria apresentam defeito de

fabricação. Num lote de 100 peças, qual a probabilidade de se ter 10% ou mais de defeituosas?

σ p

Ppz

−=

46

9. ESTIMAÇÃO: NOÇÕES GERAIS

Vimos que a inferência estatística é o campo da estatística no qual são tomadas decisões sobre populações, com base na informação extraída de uma amostra. Nesse processo são produzidas estimativas sobre os parâmetros populacionais de interesse ou formuladas testes de hipóteses sobre os mesmos. Tais estimativas podem ser obtidas de forma pontual ou por intervalos. Um gerente de uma empresa de produtos automotivos pode, por exemplo, estar interessado em verificar como se comporta a resistência à tração de determinado componente, produzido sob diferentes variações na tensão elétrica. Inicialmente ele pode estar interessado em estimar a resistência média à tração, sob determinada tensão. Nesse caso ele poderá obter uma estimativa pontual ou um intervalo de confiança para a resistência média populacional, com base em uma amostra obtida. Em uma outra situação ele poderia estar interessado em verificar como se comporta a resistência média à tração, sob duas diferentes tensões elétricas no momento da produção, para testar se há diferenças estatisticamente significativas nesse parâmetro, sob as diferentes condições de produção. Nesse caso, ele estaria diante de um problema de decisão, que pode ser resolvido via testes de hipóteses estatísticas. A hipótese seria de que a resistência média à tração sobre a tensão t1 seria, por exemplo, superior à resistência média à tração em peças produzidas sob a tensão t2. Em resumo, podemos afirmar que:

• Resultados extraídos de uma amostra podem ser usados para produzir

inferências sobre a população. • Parâmetro: medida numérica que descreve alguma característica da

população. • Estatísticas: funções de valores amostrais. • A estimação pode ser pontual ou por intervalos • Tomadas de decisões sobre parâmetros podem, ser obtidas através do uso de

testes de hipóteses estatísticas.

O processo de inferência sobre dados estatísticos pode ser sumarizado no esquema a seguir:

47

Pontual – a partir de

observações calcula-se uma

estimativa.

ESTIMAÇÃO

Por intervalo - fixação de

dois valores com

probabilidade (1-∝) de conter

o verdadeiro valor do

parâmetro.

AMOSTRAGEM

TESTES DE HIPÓTESES – permite decidir por um valor do parâmetro ou por sua modificação, com um risco conhecido.

A média amostral é um estimador pontual natural da média populacional.

Com o uso de resultados do chamado Teorema do Limite Central, podemos encontrar e expressão para a construção de um intervalo de confiança para a verdadeira média populacional. Tal intervalo pode ser obtido pela expressão:

nZx

σα2

± , onde:

x Corresponde à média amostral,

Zα/2 corresponde ao valor tabelado, obtido na tabela da distribuição normal, α Corresponde ao nível de significância adotado e

48

n

σ Corresponde ao desvio-padrão da distribuição amostral da média.

Para uma probabilidade de 95% de confiança, tal intervalo fica:

nx

σ96,1±

O que significa que, construídos dessa forma, cerca de 95% dos intervalos

conterão o verdadeiro valor do parâmetro µ (média populacional). Quando o desvio padrão populacional é desconhecido, o mesmo deve ser

substituído pela sua estimativa amostral, utilizando-se nesse caso a distribuição t de Student em lugar da distribuição Normal. No caso de uma amostra como temos que estimar o desvio padrão e o mesmo necessita da estimação prévia da média, perde-se um grau de liberdade. Portanto a valor t corresponde a (n-1) graus de liberdade. No caso de duas amostras (diferença de médias) tal valor corresponde a (n1+n2-2) graus de liberdade.

Estimadores pontuais e por intervalos de alguns parâmetros populacionais

mais freqüentemente usados, tais como médias, proporções e diferenças de médias são resumidos no quadro abaixo:

Quadro 9.1 – Estimador pontual e por intervalo para alguns parâmetros populacionais

PARÂMETRO

ESTIMADOR

PONTUAL

ESTIMADOR POR INTERVALO

Média (com variância conhecida)

___

X N

ZXσ

α 2/

___

/−+

Média (com variância desconhecida)

___

X n

StX 2/

___

/ α−+

Proporção

^

P

n

PPZP

)1(/ 2/

^ −−+ α

Diferenças de Médias (variâncias conhecidas)

2

__

1

__

XX −

2

22

1

21

2/2

__

1

__

/)(nn

ZXXσσ

α +−+−

Diferenças de Médias (variâncias desconhecidas)

2

__

1

__

XX −

212/2

__

1

__ 11/)(

nnStXX c +−+− α

49

APLICAÇÃO: Uma empresa, que enche latas de tinta, tenta manter o peso especificado para o produto. Foi selecionada uma amostra de 25 latas que produziu um peso médio de 5,0Kg e desvio padrão de 1,5Kg, construir um intervalo de confiança para média populacional. Uma amostra de 50 componentes eletrônicos, extraída de um grande lote, apresenta 5 componentes defeituosos. Construir um intervalo de confiança para a proporção de defeituosos no lote.

50

10. TESTES DE HIPÓTESES 10.1 – CONSIDERAÇÕES GERAIS

Testes de hipóteses constituem uma outra face do trabalho de inferência estatística e, a exemplo da estimação por intervalos, também fazem uso da informação contida em uma amostra.

Uma hipótese estatística geralmente é uma afirmação sobre parâmetros populacionais e o teste de hipóteses um processo de decisão relativo a uma hipótese particular.

A informação de uma amostra aleatória é utilizada para avaliar a plausibilidade da hipótese formulada. Se tal informação for consistente com a hipótese tenderemos a concluir que não há evidências que favoreçam sua rejeição, pois o fato de utilizar apenas uma amostra não nos permite concluir com certeza sobre a veracidade ou não de uma hipótese formulada.

Exemplo 10.1 - Para ilustrar, suponha que uma empresa produtora de detergente deseja avaliar se a máquina que enche as garrafas plásticas está adequadamente regulada, para o valor especificado de 5 litros, por garrafa e que o desvio padrão do processo seja da ordem de 0,5 litros. Caso a máquina esteja devidamente regulada, espera-se que o valor médio de uma amostra de garrafas concorde com um valor médio de 5 litros. Formula-se então a chamada hipótese nula (H0) como sendo:

H0: µ = 5. Observe que a formulação de tal hipótese leva em conta o parâmetro

populacional µ, uma vez que o interesse não reside apenas na amostra a ser investigada, mas sim na população de todas as garrafas submetidas ao processo de enchimento.

Para contrastar com a hipótese nula, uma outra hipótese deve ser enunciada, estabelecendo ou não um sentido para a diferença entre ambas. A chamada hipótese alternativa, geralmente é denotada por H1. No caso, suponha que tal hipótese seja definida como:

H1: µ ≠ 5. Caso a hipótese nula seja verdadeira, naturalmente espera-se que a mostra

investigada forneça um valor médio próximo do especificado pela mesma. Porém, devido às variações decorrentes do processo amostral, mesmo que a hipótese nula seja verdadeira, é possível que valores diferentes da mesma sejam obtidos. Se a média da amostra fornecer um valor muito distante do valor estabelecido na hipótese nula, ou seja, 5, seremos levados a concluir que a mesma teria muito pouca chance de ser verdadeira e, conseqüentemente, pela irregularidade na máquina de enchimento. A metodologia dos testes de hipóteses nos vai fornecer

51

elementos claros para melhor aquilatar essas diferenças e conseqüentemente tomar uma decisão, com base em critérios probabilísticos.

Após a formulação das hipóteses, deve ser estabelecida uma estatística do teste e investigada sua distribuição amostral, que deve ser conhecida. Em seguida, a distribuição amostral da estatística do teste é dividida em duas regiões: uma região de aceitação da hipótese nula e uma região de rejeição, também conhecida como região crítica, que consiste em valores improváveis de ocorrer para a estatística do teste, caso a hipótese nula seja verdadeira.

Em qualquer processo decisório estamos sujeitos a cometer erros e no caso de testes de hipóteses não é diferente. Dois tipos de erros são então observados:

O erro do tipo I que consiste em rejeitar a hipótese nula quando a mesma é verdadeira.

O erro do tipo II que consiste em não rejeitar a hipótese nula quando a mesma é falsa.

A probabilidade de ocorrência do erro do tipo I, denotada por α, é chamada de nível de significância do teste. A fixação de um nível de significância determina uma região de rejeição de um teste, estabelecendo uma regra de decisão para o processo. Usualmente, estes valores são fixados em 1%, 5% ou 10%.

De forma resumida, o processo de decisão, baseado em um teste de hipóteses, pode ser visualizado no seguinte esquema:

• Formula-se uma hipótese sobre a Média populacional desconhecida • Com base numa amostra de tamanho n procura-se decidir sobre essa

hipótese Rejeitar a hipótese formulada

• Toma-se, então, uma decisão Não rejeitar a hipótese formulada São definidas as Hipóteses: H0: 0µµ = (hipótese nula) H1: 0µµ ≠ (hipótese alternativa)

EVIDÊNCIAS DA

AMOSTRA

52

• Supondo que H0 seja verdade: Qual a probabilidade de se obter, para uma

amostra n observações, um valor amostral tão ou mais discrepante que a média observada?

• Se tal probabilidade for muito pequena, a média amostral observada não é compatível com a hipótese H0. Logo a hipótese formulada tende a ser rejeitada.

• Um teste de hipóteses procura responder a questão: • Em geral a regra de decisão para um teste envolve:

- Uma amostra aleatória

- Uma estatística amostral

- Uma distribuição amostral da estatística

- Definição de erros na forma de probabilidades de significância

A diferença entre o valor amostral e o parâmetro é devido apenas ao acaso? (variação amostral)

Resultado amostral

Significativo Rejeição de H0

Variação não casual

Variação casual

Não significativo

Não rejeita H0

53

Erros envolvidos num teste de hipóteses: CONCLUSÃO DO TESTE

SITUAÇÃO REAL

H0 VERDADE

H0 FALSA

Não Rejeitar H0

Certo

Erro tipo II ( β )

Rejeitar H0

Erro tipo I (α )

Certo

CUIDADO! • Resultado não significante não prova que, H0 é verdade mas, sim, que os

dados não forneceram evidência suficiente para rejeita-la. • Procurar afastar, na medida do possível, fatores externos que perturbem as

conclusões.

54

10.2 – TESTE DE HIPÓTESE PARA A MÉDIA COM DESVIO PA DRÃO CONHECIDO

Considere o exemplo 10.1, relativo à máquina de enchimento de detergente. O gerente precisa decidir se a máquina está devidamente regulada, para um valor médio de 5 litros. Suponha que foi tomada uma amostra de 25 garrafas, sendo obtido um valor médio de 4,75 litros.

Foram formuladas as seguintes hipóteses:

H0: µ = 5. H1: µ ≠ 5. No caso o desvio padrão populacional (σ) é conhecido, sendo σ = 0,5. A distribuição amostral da média segue o modelo Normal, com média igual

à média populacional, ou seja, µ, e desvio padrão igual a n

σ. Desse modo, a

estatística do teste é dada por: σµ nx

Z)( −= . (Quadro 10.1).

Fixando um nível de significância de 5%, o tamanho da região crítica é de 0,05 e os valores críticos da distribuição normal podem ser determinados, uma vez que o desvio-padrão é conhecido. Tais valores críticos podem ser colocados na forma de unidades de desvio-padrão, chamadas de valor Zcal. Levado em conta que o teste aqui exemplificado é bi-lateral, a região crítica é divida em duas partes iguais a α/2, no caso 0,05/2 = 0,025. De acordo com a tabela da distribuição normal os valores críticos correspondestes a tal área são –1,96 e 1,96, conforme ilustrado na figura abaixo:

Uma etapa fundamental nessa abordagem de testes de hipóteses é a fixação de uma regra de decisão, que no caso pode ser formulado como rejeitar a hipótese nula (H0) se:

Zcal > 1,96 ou se Zcal < -1,96.

=5%

z = 1,96,

z 0 - z

2,5%

55

Portanto, no exemplo em questão, tivemos Zcal= -2,5, portanto <-1,96, valor na área de rejeição, o que nos permite concluir pela rejeição de H0, indicando que há evidências de que a máquina estaria realmente mal regulada.

5,205,0

25)575,4()( 0 −=−=−

=σµ nx

Zcal

O NÍVEL DESCRITIVO (valor-p) DE UM TESTE DE HIPÓTESES Na abordagem anterior de um teste de hipóteses, partíamos de um valor α pré-fixado, entretanto, com a profusão de pacotes estatísticos computacionais, o chamado método de valor-p (nível observado de significância) tem assumido crucial importância. Tal método consiste na verdade em uma alternativa, que deixa a critério do pesquisador que realiza o teste de hipóteses, a possibilidade de calcular o nível observado de significância, que representa o menor nível a partir do qual a hipótese nula pode ser rejeitada (valor-p). A regra de decisão do nível descritivo fica a seguinte:

• Rejeitar H0 se o valor-p for menor que o nível pré-fixado (α), ou • Não rejeitar H0 se o valor-p for maior ou igual a α.

Consideremos o exemplo 10.1, abordado agora por este método. Como o

teste é bi-lateral, teremos que encontrar a probabilidade de que a probabilidade da estatística Z do teste seja tão extrema quanto a que foi observada, ou seja, precisamos encontrar a probabilidade de que tal estatística seja inferior a –2,50 ou superior a 2,50. Consultando a tabela da distribuição normal, chegamos à conclusão de que a probabilidade de que o valor de Z ser inferior a –2,5 é de 0,0062, que pela propriedade de simetria, é igual à probabilidade de que tal estatística ser superior a 2,5, logo, o valor-p, ou probabilidade de significância observada deste teste é da ordem de 0,0062+0,0062= 0,0124 (1,24%), conforme ilustrado na figura abaixo.

=1,24%

z = -2,5

z 0 - z

0,62%

56

Como o valor-p obtido, αp = 1,24% é inferior ao anteriormente fixado (5%), chega-se à mesma conclusão da abordagem anterior,ou seja, conclui-se pela rejeição da hipótese H0. Convém ressaltar que a hipótese alternativa (H1) ode ser definida em termos de valores unilaterais, ou seja: H1: µ < µ0 ou ainda H1: µ > µ0.

O quadro abaixo apresenta um resumo das estatísticas e distribuições utilizadas nos principais testes de hipótese:

Quadro 10.1 – Estatísticas associadas a alguns testes de hipóteses TESTE

DISTRIBUIÇÃO

ESTATÍSTICA

Média com desvio padrão conhecido

Normal

NX

Z d σµ )( 0

__

−=

Média com desvio padrão desconhecido

t com (N-1)G.L.

S

NXt d

)( 0

__

µ−=

Diferença de médias: amostras pareadas

t com (N-1)G.L.

Std

d

ND 0

__

=

Diferença de médias: amostras independentes Desvio padrão conhecido

Normal

2

22

1

21

2

__

1

__

NN

XXZd σσ

+

−=

Diferença de médias: amostras independentes Desvio padrão desconhecidos e iguais

t com (N+N-2)G.L.

)11(21

2

2

__

1

__

NN

XX

St

c

d+

−=

Proporção

Normal

nPPPPZ d /1( 00

0

−−

=

OBS: 2

)1()1(

21

2

22

2

112

−+−+−

=NN

SNSNSc

VARIÂNCIA COMBINADA

57

APLICAÇÃO: 1. Um fabricante de lajotas de cerâmica sabe que a resistência de seu produto

segue o modelo Normal com media de 206kg e desvio padrão de 12kg. Retira-se uma amostra de 30 lajotas obtendo uma resistência média (x ) de 210kg. Ao nível de 10% pode-se aceitar que a resistência média tenha aumentado?

2. Certa indústria automobilística afirma que seu carro consome em média 12Km/l

de gasolina. Um teste com 5 automóveis revelou os seguintes valores: 10,0 11,5 12,0 11,8 11,6. Com base nesses resultados o que se pode concluir quanto à afirmação do fabricante?

3. Uma grande rede de supermercados deseja saber se o gasto médio por

cliente, na filial de Boa Viagem, é estatisticamente superior à filial de Encruzilhada. Para isto tomou amostras de clientes em ambas as lojas, obtendo os seguintes resultados:

BAIRRO

N.º DE ELEMENTOS

MÉDIA

DESVIO PADRÃO

Boa Viagem

15

80

6

Encruzilhada

10

72

9

Qual a sua conclusão sobre o experimento?

58

11. CORRELAÇÃO

Coeficientes de correlação têm como objetivo principal avaliar o tipo de intensidade da relação entre duas variáveis. 11.1. DIAGRAMA DE DISPERSÃO

• Gráfico que representa no plano cartesiano duas variáveis quantitativas • Ferramenta simples que permite aprofundar o estudo da associação entre 2

variáveis.

Exemplo:

Na tabela abaixo, estão representadas o tempo de serviço e o volume de vendas semanais de uma amostra de 5 vendedores de determinado produto:

VENDEDOR TEMPO DE

SERVIÇO VENDAS

(Anos) ( Unidades) A 1 35 B 3 40 C 4 42 D 6 50 E 8 55

Diagrama de dispersão correspondente:

0 1 2 3 4 5 6 7 8 9

3 5

4 0

4 5

5 0

5 5

Y v

enda

s

X te m p o

59

INTERPRETAÇÃO DO DIAGRAMA DE DISPERSÃO: De acordo com o exame do diagrama de dispersão, podemos ter as seguintes situações:

Correlação Forte Positiva rxy → 1

x

y

Correlação Forte Negativa rxy→ -1

y

x

Correlação Perfeita Positiva rxy= 1

x

y

Correlação Perfeita Negativa rxy= - 1

y

x

Ausência de Correlação rxy→ 0

x

y

Correlação Não Linear

y

x

60

• Quando as variáveis crescem no mesmo sentido temos o caso de correlação

positiva. • Quando as variáveis crescem em sentidos opostos temos uma correlação

negativa. • Se os dados estão perfeitamente alinhados sobre uma reta temos uma

correlação perfeita. • Quando o crescimento de uma variável é acompanhado de variações casuais

da outra variável a correlação é nula. 11.2. COEFICIENTE DE CORRELAÇÃO LINEAR

Para medir o grau da associação linear entre duas variáveis quantitativas usamos o coeficiente de correlação linear cuja fórmula é:

YYXX

XYXY SS

Sr = , onde

∑ ∑ ∑−=n

YXXYSXY

∑∑−=

n

XXSXX

22

)(

∑∑−=

n

YYSYY

22

)(

CUIDADO!

• Correlação não implica em relação de causa efeito. • Podemos, por exemplo, encontrar uma alta correlação entre o n. º de

internações por desidratação e a venda de sorvetes, e a verdadeira causa pode ser o aumento da temperatura.

61

O coeficiente de correlação linear rxy varia entre -1 e 1. Quanto mais próximo de 1 maior o grau de associação linear positiva entre as variáveis e quanto mais próximo de –1 maior o grau de associação negativa.

12 - REGRESSÃO LINEAR SIMPLES

O diagrama de dispersão pode revelar importantes informações acerca da

relação entre duas variáveis X e Y, que pode assumir a forma de funções matemáticas simples ou mais complicadas. Quando os pontos traçados no diagrama de dispersão se agrupam em torno de uma reta, podemos obter a equação dessa reta e assim determinar um modelo matemático para a relação entre as variáveis. Tal modelo tem a seguinte forma:

Yi = A + BXi + ei, onde:

Yi = variável dependente ou variável resposta. Xi = variável explicativa A = coeficiente linear da reta ou ponto de interseção de Y B = coeficiente angular da reta ou inclinação.

O coeficiente linear da reta corresponde ao ponto onde a mesma corta o

eixo-Y, ou seja, o ponto onde o valor da variável explicativa X é zero. A inclinação indica o quanto varia a média da variável Y para o aumento de uma unidade na variável X.

Este modelo tem uma série de hipóteses que permitem estimar seus parâmetros e proceder a inferências sobre os mesmos (BUSSAB, 1986). A reta que melhor se aproxima dos dados, chamada reta de mínimos quadrados, representada pela expressão:

ii bXaY +=)

, que pode ser obtida a partir da minimização da soma dos quadrados dos desvios, que representam as diferenças entre valores observados e estimados para a variável dependente Y, ou seja, minimizando a expressão:

∑∑ +−=−= 22 )]([)( iiii bXaYYYF)

Os valores dos coeficientes linear e angular resultantes desse processo de

minimização podem ser escritos como:

xbyaeS

Sb

XX

XY −==

62

Quando os desvios ou resíduos são valores pequenos é sinal de que o modelo está produzindo resultados compensadores. Para uma avaliação da capacidade preditiva da variável explicativa no contexto do modelo linear ajustado, diversas alternativas podem ser utilizadas. Inicialmente podemos obter uma medida, chamada soma de quadrados total, que corresponde à variação quadrática os valores de Y em torno de sua média aritmética, ou seja: ∑ −= 2)( YYSQTOTAL i

Tal soma de quadrados pode ser desmembrada um duas outras somas: uma que corresponde à soma dos quadrados dos desvios da regressão e a outra que corresponde à variação explicada pelo modelo ou soma dos quadrados da regressão, ou seja: ∑∑ −+−= 22 )ˆ()ˆ( YYYYSQTOTAL iii , ou seja,

SQTOTAL = SQRESIDUAL + SQREGRESSÃO. A relação entre a variação explicada pelo modelo ajustado (SQREGRESSÂO) e a variação total (SQTOTAL) mede o potencial explicativo do modelo ajustado, ou o percentual de variação explicada. Tal relação é conhecida como coeficiente de variação R2, ou seja:

SQTOTAL

OSQREGRESSAR =2

O valor de R2 varia no intervalo de zero a 1, ou de zero a 100% e naturalmente quanto mais próximo de 100% maior o poder explicativo do modelo ajustado. Pode-se mostrar que o cálculo da SQREGRESSAO pode ser feito com o uso de: SQREGRESSAO = bSxy. APLICAÇÃO: Com os dados da tabela, sobre o tempo de serviço e vendas, obtenha: a) Coeficiente de correlação entre as variáveis b) A reta de regressão c) Qual o valor das vendas semanais para um empregado com 7 anos de

experiência?

63

NOÇÕES DE CONTROLE ESTATÍSTICO DE PROCESSOS (CEP) A qualidade de produtos e serviços tem se tornado um fator crucial no mundo dos negócios, independente se o consumidor seja um sujeito ou empresa. O nível de exigência e a competitividade tem acentuado ainda mais a busca por produtos de melhor qualidade, considerando que este termo está diretamente associado ao que se denomina pela “adequação ao uso” Os métodos estatísticos desempenham um papel fundamental nos processos de melhoria da qualidade de produtos e de serviços e estão diretamente associados a fatores tais como: aumento na competitividade; eliminação de desperdícios; redução na necessidade de inspeção, além do aumento no grau de satisfação dos clientes. O Controle Estatístico de Processos (CEP) consiste em um conjunto de ferramentas cuja função primordial é buscar a estabilidade de um processo e melhorar a sua capacidade, sendo crucial a redução da variabilidade e monitoramento do processo como um todo. As ferramentas mais importantes do CEP são: Estratificação, Folha de Verificação, Gráfico de Pareto, Diagrama de Causa e Efeito, Histograma, Diagrama de Dispersão e Gráfico de Controle. Como a maioria destas ferramentas já foram abordadas, daremos ênfase nesse capítulo aos Gráficos de Controle, naturalmente em uma visão introdutória. Noções de Gráficos de Controle Todo processo está sujeito a variações devido a causas que são chamadas de inerentes, que representam a junção de diversas pequenas causas de caráter essencialmente inevitáveis. Um processo que esteja operando apenas com a presença de tais causas inerentes é dito sob controle estatístico. Todavia podem estar presentes em um processo um outro tipo de variabilidade de maior intensidade que a inerente e motivada causas que supostamente pode ser adequadamente monitoradas e controladas. Geralmente tais causas estão associadas, primordialmente a fatores tais como equipamentos desajustados, erro de operadores ou problemas com matérias primas e insumos, entre outros. O gráfico de controle é uma ferramenta de monitoramento em tempo real largamente utilizada e eficaz. Na construção de um gráfico de controle, as amostras são, geralmente, selecionadas em uma sequencia de pontos no tempo. De acordo com a finalidade ou interesse, uma medida estatística é calculada. Tal medida pode ser a média de uma característica de interesse, a proporção de itens defeituosos, ou o total de defeitos por unidade. O valor dessa estatística é, então, calculado para cada amostra. Um gráfico de controle usual exibe a marcação destes valores, obtidos ao longo do tempo em um gráfico no qual constam uma linha central, um limite de controle inferior e um limite de controle superior. Se todos os pontos ficarem situados dentro dos limites de controle, então o processo estaria sob controle, ou com a presença apenas de causas inerentes, ou seja, a variação observada seria apenas casual.

64

Gráfico para a média, baseado em valores de parâmetros conhecidos. Seja X uma característica de interesse, com média populacional µ e desvio padrão σ e X1, X2, ... Xn uma amostra de tamanho n. Vimos que a distribuição da média, de acordo com o Teorema do Limite Central é Normal, com média Os limites de controle inferior e superior são obtidos, respectivamente, pelas expressões: Os valores de z são obtidos da Curva Normal, de acordo com o nível de confiança adotado, sendo geralmente, utilizados os valores z=2 ou z=3. Uma opção bastante utilizada na construção de gráficos de controle é trabalhar com amostras ou subgrupos de menor tamanho chamados de subgrupos racionais, tomados a intervalos regulares de tempo.

amostralmédian

Xx i →= ∑

),(~n

Normalxσµ

nzLSC

σµ α 2+=n

zLICσµ α 2−=

65

Gráfico da média )(x e amplitude (R). Quando os parâmetros µ e σ são desconhecidos devem ser estimados a partir de estatísticas amostrais. É possível estimar o desvio padrão, com amostras de tamanho mínimo de 25 unidades. Quando amostras de tamanho pequeno são utilizadas são recomendados os procedimentos baseados em subgrupos racionais, estimando-se a variabilidade a partir da amplitude amostral (R ). Suponha que dispomos de “m” amostras de tamanho “n”, a média global é obtida a partir das médias de cada amostra ou subgrupo racional: Onde: Cálculo da amplitude média e estimação do desvio padrão. É possível estimar o desvio padrão pela expressão:

globalmédiam

xxxx m →+++= ....21

amostraésimaidamédian

xxxx inii

i −→+++= ....21

globalmédiaamplitudem

RRRR m →+++= ....21

2

ˆd

R=σ

66

Gráfico da Média Os limites de controle para o gráfico da média ficam: Onde: Os valores de A2 são consultados em tabelas. Gráfico da Amplitude – R Os limites de controle para o gráfico da amplitude são:

RAxd

RxLIC 2

2

3 −=−=

RAxd

RxLSC 2

2

3 +=+=

nd

A2

2

3=

RDRd

dRLIC 3

2

33 =−=

RDRd

dRLSC 4

2

33 =+=

D3 e D

4 são Valores

Tabelados

67

Gráfico de controle para a proporção de defeituosos – p Os valores da estimativa da proporção de itens defeituosos em uma amostra de tamanho n, bem como a distribuição da média e desvio padrão da proporção são dados, respectivamente, pelas expressões:

Os limites de controle para o gráfico de proporção de defeituosos são dados por: No caso de trabalhar com subgrupos racionais, são calculados limites baseados na média aritmética dos subgrupos, ficando as expressões dos limites de controle dadas por:

n

pp

p

n

Xp

p

p

)1(

ˆ

ˆ

ˆ

−=

=

=

σ

µ

n

pppLIC

pLM

n

pppLSC

)1(3

)1(3

−−=

=

−+=

68

n

Xpe

m

pponde

n

pppLIC

pLM

n

pppLSC

ii

m

ii

==

−−=

=

−+=

∑=1:

)1(3

)1(3

69

CAPACIDADE DE PROCESSOS Em algumas situações é importante que, além dos gráficos de controle, tenhamos alguma medida sobre a capacidade do processo, ou seja, o seu desempenho, quando estivar operando sobre controle. O Histograma pode ser uma ferramente de abordagem inicial deste problema, uma vez que exibe importantes informações acerca de locação, variabilidade e distribuição dos valores obtidos para a medida de interesse. Uma outra alternativa é a utilização de medidas de capacidade do processo. Uma primeira medida é o chamado Índice de Capacidade do Processo ou índice Cp, cuja expressão é dada por:

σ6

LIELSECp

−=

O numerador da fórmula corresponde à amplitude das especificações, enquanto o denominador corresponde à amplitude do processo. O desvio padrão do processo pode ser estimado por:

2

ˆd

r=σ

O inverso deste índice corresponde à fração de amplitude das especificações usadas pelo processo. Considerando que os dados seguem, aproximadamente, o modelo Normal, um índice que excede a unidade indica que muito poucas unidades não conformes estão sendo produzidas. Um índice inferior a unidade sugere um processo muito sensível e com um elevado número de unidades não conformes. Um índice igual a 1 indica que cerca de 0,27% das unidades produzidas são não conformes. A definição de capacidade do processo dada anteriormente supõe que o processo esteja devidamente distribuído em torno do valor central especificado. Caso o processo não esteja distribuído em torno de sua média especificada, evidentemente sua capacidade será menor que a indicada pelo índice Cp. Desse modo, uma medida mais calibrada, que será útil caso o processo não esteja centralizado na média, é o chamado Cpk, cuja expressão é dada por:

−−=σ

µσ

µ3

;3

minLIELSE

Cpk

70

NOÇÕES DE ESTATÍSTICA NO EXCEL

Construção de uma Distribuição de Frequências e His tograma usando Excel

Considere os dados a seguir representando o Tempo de Vida de uma amostra de 36 lâmpadas:

697 720 773 821 831 835 848 852 852

860 868 870 876 893 899 905 909 911

924 926 926 938 939 943 946 954 971

977 984 1005 1014 1016 1041 1052 1080 1093

Passo 1 – Determinação do Número de Classes (k):

Fórmula: nk =

No Excel:

Logo k=6 classes.

71

2)Calculo da amplitude das classes (c)

Fórmula: 70666

6971093minmax ↑≅−=−==kclassesdenum

totalamplitudec

É conveniente marjorar este valor de “c”, por isso trabalhamos com c=70.

3) O Valor inicial é arbitrário, podendo-se começar do míimo, ou de um valor ligeiramente abaixo deste. No caso iniciaremos

do valor 690.

Uma outra decisão é quanto ao tipo de intervalos de classe a serem adotados. No caso optamos por classes abertas à

direita e fechadas à esquerda, tipo [a,b) ou a|------ b.

A função do Excel que pode ser utilizada é a “frequência”, que necessita que sejam informados o endereço dos dados e os

limites superiores de cada intervalo. Como optamos por intervalos semiabertos à direita, subtraímos 0,1 de cada valor.

Desse modo os limites ficam:

Primeiro intervalo, contndo valores de 690 a 690+70=760, subtraindo 0,1 fica 759,9.

Para obter os valore das classes subsequentes, basta somar 70 a esse valor. Tais valores constituem que o Excel chama

de Matriz Bin (matriz binária).

Uso da função “frequência”

72

Para conclusão da tabela, usa-se alguns recursos adicionais de “embelezamento” para lhe dar um melhor formato e

aparência, de acordo com as Normas de Apresentação Tabular.

73

4) Construção do Histograma

Na Página Inicial vamos à opção “inserir” “colunas”, selecionando a opção “2D”, preferencialmente.

Em seguida, vem o gráfico.

74

0

2

4

6

8

10

12

.

USO DE TABELA DINÂMICA NA CONSTRUÇÃO DE TABELAS

Um recursos muito útil na construção de tabelas e gráficos a partir de bancos de dados é a Tabela Dinâmica, que permite a

construção de tabelas simples e cruzadas, para variáveis em escala nominal ou ordinal.

1)Inicialmente seleciona-se as opções: “inserir”, seguida de “tabela dinâmica”.

75

2)Informamos, em seguida, o endereço dos dados e onde queremos a saída, se em nova planilha ou na própria planilha em

uso, nesse caso informando o endereço da saída.

76

3)Após essa etapa temos uma tela na qual informamos que variável ou variáveis serão utilizadas na construção da(s)

tabela(s). No caso de uma tabela simples arrasta-se a variável de interesse até o campo de linha ou coluna e também ao

campo de valor. Verificar se esta está selecionada a formatação de campo de “contagem de valores”.

78

Vamos agora construir uma tabela de dupla entrada, com as variáveis sexo e área.

Arrastamos uma das variáveis, por exemplo “sexo” para a linha e a outra variável , por exemplo “área” para a coluna e

qualquer uma delas para o campo de valores e está pronta a tabela cruzada.

Contagem de Sexo Area

Sexo E H S Total Geral

F 16 14 7 37

M 9 2 2 13

Total Geral 25 16 9 50

.

ANÁLISE DESCRITIVA NO EXCEL

O Excel dispõe de diversas funções para o cálculo de estatísticas descritivas, com medidas de centralidade (média, moda e

mediana); dispersão (desvio padrão e variância); assimetria, além do cálculo dos quartis.

No caso da média, mediana e desvio padrão, a sintaxe é bastante semelhante, bastando informar a sintaxe e endereço dos

dados, por exemplo:

Considerando os dados referentes ao tempo de vida de 36 lâmpadas:

No caso da méda: =média(endereço dados)

Mediana: =med(endereço dados)

Desvio padrão amostral: =desvpada(endereço dados)

79

No caso dos quartis 1 e 3 o comando, além de informar o endereço dos dados, informa o numero correspondente ao quartil

desejado (1 ou 3) e o tipo de quartil, optando-se, neste trabalho, pela sintaxe quartil.exc, que coincide com a metodologia de

cálculo mais indicada deste curso.

80

Uma opção mais avançada é utilizar a aba “dados”, seguida de “análise de dados”, “estatística descritiva”, que fornece um

quadro resumido das principais estatísticas descritivas para cada coluna da planilha, o que permite a análise simultânea de

diversas variáveis simultaneamente.

Seleciona-se a opção “resumo estatístico” e rótulos na primeira linha (caso os nomes das variáveis estejam na primeira

linha de cada coluna). Informa-se, ainda, o endereço onde se deseja a saída dos dados.

81

A saída informa os resultados das estatísticas descritivas para cada variável (coluna) do banco de dados.

Id Idade Alt Peso

Média 17 Média 19 Média 1,666667 Média 59,17879Erro padrão 1,683251 Erro padrão 0,356222 Erro padrão 0,014471 Erro padrão 1,61014Mediana 17 Mediana 18 Mediana 1,65 Mediana 58Modo #N/D Modo 18 Modo 1,65 Modo 58Desvio padrão 9,66954 Desvio padrão 2,046338 Desvio padrão 0,083129 Desvio padrão 9,249553Variância da amostra 93,5 Variância da amostra 4,1875 Variância da amostra 0,00691 Variância da amostra 85,55422Curtose -1,2 Curtose 3,099649 Curtose -0,03117 Curtose 1,157595Assimetria -3E-17 Assimetria 1,793544 Assimetria 0,772712 Assimetria 1,125462Intervalo 32 Intervalo 8 Intervalo 0,31 Intervalo 38,2Mínimo 1 Mínimo 17 Mínimo 1,54 Mínimo 47Máximo 33 Máximo 25 Máximo 1,85 Máximo 85,2Soma 561 Soma 627 Soma 55 Soma 1952,9Contagem 33 Contagem 33 Contagem 33 Contagem 33

82

ANÁLISE BIDIMENSIONAL: CONSTRUÇÃO DE DIAGRAMA DE DI SPERSÃO COM AJUSTE LINEAR

O diagrama de dispersão é uma importante ferramenta na análise da associação entre duas variáveis quantitativas. O Excel

permite a construção do diagrama, com opção de exibição da reta ajustada e do coeficiente de determinação, uma medida

preliminar de qualidade do ajuste. Além do ajuste linear, são oferecidas outras opções como o ajuste exponencial,

logarítmica e potência.

Inicialmente, selecionamos os dados correspondentes às duas variáveis de interesse e o menu “inserir”, seguido de

“dispersão.

83

O resultado inicial do gráfico:

Como os pontos do eixo-Y estão muito concentrados na faixa de 50 a 90, convém alterar o valor mínimo desta escala vertical.

Clicamos duas vezes nos valores da escala vertical e, em seguida, alteramos o mínimo para 40.

84

O gráfico alterado fica:

40,0

45,0

50,0

55,0

60,0

65,0

70,0

75,0

80,0

85,0

1,55 1,60 1,65 1,70 1,75 1,80 1,85 1,90

85

Em seguida, após clicar no gráfico, selecionamos a opção “layout”, seguida de linhas de tendência” e “mais opções de linha de tendência”, “exibir equação e

R2 no gráfico”

O resultado final fica:

86

Uma outra opção, que fornece um resultado mais completo é selecionar na aba “dados” “análise de dados”,

E, em seguida, “regressão”.

Informamos o endereço de cada variável: X (explicativa) e Y (dependente), assinalando a plotagem de linha e endereço da saída.

87

Alguns resultados disponibilizados, com esta opção foram: a tabela de análise de variância, modelo ajustado,

Além de testes de hipóteses e intervalos de confiança para os parâmetros ajustados.

Estatística de regressão

R múltiplo 0,96114122

R-Quadrado 0,923792445

R-quadrado ajustado 0,919558692

Erro padrão 1,832479796

Observações 20

ANOVA

gl SQ MQ F F de significação

Regressão 1 732,7018204 732,7018 218,1971 1,66608E-11

Resíduo 18 60,44367963 3,357982

Total 19 793,1455

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Inferior 95,0% Superior 95,0%

Interseção -54,56842716 8,119439166 -6,72071 2,67E-06 -71,62673586 -37,51011846 -71,62673586 -37,51011846

Alt 70,73128265 4,788363298 14,77149 1,67E-11 60,67130466 80,79126064 60,67130466 80,79126064

88

13 - BIBLIOGRAFIA BERQUÓ, ELZA et al. Bioestatística, São Paulo, EPU, 1986. BUSSAB, W. O e MORETTIN, P. A . Estatística básica, Atual Editora, São Paulo, 1986. BUSSAB, W. O. Análise de Variância e de Regressão, São Paulo, Atual, 1986. CALEGARE, ALVARO J. A. Técnicas de Garantia da Qualidade, Rio de Janeiro, Ao Livro Técnico, 1985. DRAPER, N. e H. SMITH. Applied Regression Analysis, New York, John Willey, 1966. FONSECA, JAIRO S. e MARTINS, G. A ., Curso de Estatística, São Paulo, Atlas, 1987. GATTAS, R. R. Elementos de Probabilidade e Inferência, São Paulo, Atlas, 1978. GUEDES, M. e GUEDES, J. S., Bioestatística para profissionais de Saúde, Brasília, Ao livro Técnico, 1988. HOFFMAN, RODOLFO e VIEIRA, S., Análise de Regressão, São Paulo, Hucitec, 1982 HUFF, D. Como Mentir com Estatística, São Paulo, Ediouro, 1992. JURAN, J. M. Planejamento para a Qualidade, São Paulo, Pioneira, 1986. JURAN, J. M. e GRYNA F. M., Controle para a Qualidade, VOL. 6, São Paulo, Makron Books, 1993. LEVINE D. N. ET AL, Estatística – Teoria e Aplicações, Rio de Janeiro, LTC Editora, 2005. MAGALHÂES, M. N. e PEDROSO DE LIMA, A. C. Noções de Probabilidade e Estatística, IME-USP, São Paulo, 2000. MONTGOMERY, D. C., RUNGER, G.C. e HUBELE, N. F., Estatística Aplicada à Engenharia, 2ª Edição, Rio de Janeiro, LTC, 2005. MORETTIN, L.G., Estatística Básica – Inferência, São Paulo, Makron Books, 2000.

89

MORETTIN, L. G. Estatística Básica – Probabilidade, São Paulo, Makron Books, 1998. MORETTIN, P. A . Introdução à Estatística para Ciências Exatas, São Paulo, 1991. PARATHAMAN, D. Controle da Qualidade, São Paulo, Mc. Graw Hill, 1990. VIEIRA, S. e WADA, R., Estatística – Uma Introdução Ilustrada, São Paulo, Atlas, 1986. VIEIRA, S. , O que é Estatística, São Paulo, Brasiliense, 1987. STEVESON, W. J. Estatística Aplicada à Administração, São Paulo, Harbra, 1986. SHAMBLIN, J. E. Pesquisa Operacional, São Paulo, Atlas, 1979.

ERROR: syntaxerrorOFFENDING COMMAND: --nostringval--

STACK:

/Title ()/Subject (D:20150805143912-03’00’)/ModDate ()/Keywords (PDFCreator Version 0.9.5)/Creator (D:20150805143912-03’00’)/CreationDate (cezar)/Author -mark-

CURSO DE ESTATÍSTICA BÁSICA APLICADA E...

Documents

Transcript of CURSO DE ESTATÍSTICA BÁSICA APLICADA E...