Conceitos Básicos de Estatística II

Post on 14-Apr-2017

305 views 0 download

Transcript of Conceitos Básicos de Estatística II

Inferência Estatística: Conceitos Básicos IIDistribuição Amostral e Teorema do Limite CentralAnálise Exploratória de dados no SPSS

Vitor Vieira Vasconcelos

BH1350 – Métodos e Técnicas de Análise da Informação para o Planejamento

Junho de 2016

O Que Revisamos Na Aula Passada

Populações e Amostras

Medidas de Tendência Central: Média, Moda, Mediana

Medidas de Variabilidade: Variância e Desvio Padrão

Curva Normal

Distribuições de Frequência e Probabilidade

Escores padrão (valor padronizado z)

Cálculo da probabilidade sob a curva normal

Ambiente SPSS

Aula de Hoje

Conceitos Básicos de Inferência Estatística

(Continuação)

Distribuição Amostral e Teorema do Limite Central

Minha Amostra é Representativa da

População?

DISTRIBUIÇÃO AMOSTRAL

Convenções: μ = média populaçãoX = média amostra

σ = DP populaçãos =DP amostra

Usamos amostras para estimar o comportamento/características de umapopulação. Por exemplo, usamos a média da amostra (X), para estimar a média da população (μ).

Se pegarmos muitas amostras de umamesma população, cada amostra terásua própria média e em várias dessasamostras as médias serão diferentes.

Minha Amostra é Representativa da

População?

Podemos construir uma distribuição de frequência com as médias destasamostras!

DISTRIBUIÇÃO AMOSTRAL

Distribuição de frequências das médiasde todas as amostras de uma mesmapopulação. Está centrada no mesmovalor que a média da população

DISTRIBUIÇÃO AMOSTRAL

Convenções: μ = média populaçãoX = média amostra

σ = DP populaçãos =DP amostra

Características de uma distribuição amostral

DISTRIBUIÇÃO AMOSTRAL

1. Se aproxima de uma curva normal

(desde que o tamanho da amostra sejarazoavelmente grande – N > 30)

2. A média de uma distribuição amostral(a média das médias) é igual àverdadeira média populacional (μ).

3. O desvio padrão de uma distribuiçãoamostral (σX ) é menor do que o da população (σ). A média amostral é maisestável do que os escores que a compõe.

Erro Padrão da Média

DISTRIBUIÇÃO AMOSTRAL

ERRO PADRÃOMede variabilidadeentre as médias de

diferentes amostras.

Na verdade, deveria ser o desvio padrão da população divididopela raiz quadrada do tamanho da amostra; no entanto, para

amostras grandes, essa aproximação é razoável.

ERRO PADRÃO DA MÉDIA (σX )

Desvio padrão das médias das amostras. Medida de quão representativa a amostra poderá ser da população

Na realidade não podemos selecionarcentenas de amostras para construiruma distribuição amostral.

Técnica para estimar o erro padrão a partir do desvio padrão da amostra (s): Dividir s pela raiz quadrada do tamanhoda amostra (N)

Erro Padrão da MédiaRECAPITULANDO:

Normalmente estamos interessados em utilizar a média da amostra como uma estimativa do valor da média da população.

No entanto, amostras diferentes fornecerão valoresdiferentes da média.

O Erro Padrão pode ser usado para se ter uma ideia da diferença entre a média da amostra e a média da população.

O Erro padrão pode ser estimado maior quando o desviopadrão da população é maior (na falta do desvio padrão da população, usamos o da amostra); menor quando o númeroda amostra é maior.

Erro Padrão da Média

Além de nos fornecer uma ideia da diferença entre a média da amostra (X) e a média da população (μ)…

Com ajuda do Erro Padrão da Média podemos estimar a probabilidade de nossa média populacional situar-se realmente dentro de um intervalo de valores médios Conceito de INTERVALO DE CONFIANÇA

Intervalos de Confiança

Uma abordagem para determinar a precisão da

média da amostra:

Calcular os limites entre os quais acreditamos que o valor da média verdadeira estará

INTERVALO DE CONFIANÇA

Gama de valores (limites) entre os quais achamos queo valor da população (parâmetro) estará

(no caso, o valor da média verdadeira).

Intervalos de Confiança

Um intervalo de confiança (IC) de 95%.

Como interpreto???

Se selecionarmos 100 amostras, calcularmos a média e, depois de determinarmos o intervalo de confiança para aquela média, 95% dos intervalosde confiança conterão o valor real da média da

população

OK! Agora vamos ver comose calcula o IC…

DISTRIBUIÇÃO AMOSTRAL DE

MÉDIAS

A MÉDIA DA NOSSA AMOSTRA ESTÁ EM ALGUM PONTO DA DISTRIBUIÇÃO

Intervalos de Confiança

Lembram por que o valor 1,96

é um valor de z importante???

Lembrem também comopodemos converter escores em escores-z:

escores-z

E 2,58?E 3,29?

Porque 95% dos escores de z estão

entre -1,96 e 1,96!!!

Intervalos de Confiança

Se soubermos que nossos limites serão -1,96 e 1,96, em escores-z, quais são os escores correspondentes

em valores dos nossos dados?

[É o inverso do que fizemos na última aula]

Para encontrar isso, vamos recolocar z na equação

escores-z

escores-z

--

escores-z

Usamos o Erro Padrão e não o DesvioPadrão porque estamos interessados

na variabilidade das médias das amostras e não na variabilidade das

observações dentro da amostra

Intervalos de Confiança

Exemplo – IC 95%

Digamos que tenhamos coletados dados sobre o preço do m2 dos imóveis em um determinado bairro. Temos uma amostra de 100 imóveis (N=100), com média = 3800 e desvio padrão (s) de 1500.

Cálculo do Erro Padrão (EP):

Exemplo – IC 95%

Digamos que tenhamos coletados dados sobre o preço do m2 dos imóveis em um determinado bairro. Temos uma amostra de 100 imóveis (N=100), com média = 3800 e desvio padrão (s) = 1500.

Limite inferior do intervalo de confiança = 3800 – (1,96*150) = 3506

Limite superior do intervalo de confiança = 3800 + (1,96*150) = 4094

Exemplo – IC 95%

Digamos que tenhamos coletados dados sobre o preço do m2 dos imóveis no Bairro W. Temos uma amostra de 100 imóveis (N=100), com média = 3800 e desvio padrão (s) = 1500.

Limite inferior do intervalo de confiança = 3800 – (1,96*150) = 3506

Limite superior do intervalo de confiança = 3800 + (1,96*150) = 4094

Considerando que 95% dos intervalos de confiança contém a médiada população, podemos dizer que este intervalo entre 3506 e 4094 tem 95% de chance de conter a média real do preço do m2 nosimóveis no Bairro W.

Intervalos de Confiança mais ExatosPara amostras pequenas, onde s é uma estimativa menos confiável de σdevemos construir nosso intervalo de confiança de maneira um poucodiferente.

Ao invés de usar 1.96 (escore-z), usamos um valor ligeiramente maiorpara refletir nossa redução na confiança. Este valor é baseado nadistribuição t.

Relembrando a aula passada:Variância e Graus de Liberdade

VARIÂNCIA – “média do quadrado dos desvios”

No entanto, como geralmentequeremos usar o erro na amostra para estimar o erro na população, dividiremos o SS pelonr. de observações menos 1 (graus de liberdade).

Assim, aumentamos ligeramente a variância amostral para produzirestimativas não tendenciosas (maisprecisas) da variância populacional

Estimativa da variância da população usando n amostrasaleatórias xi onde i = 1, 2, ..., n.

Intervalos de Confiança mais Exatos

Neste caso, o escore z é substituído pela razão t.

A razão t usa uma estimativa de erro padrão baseada em dados amostrais. Àmedida que o tamanho da amostra aumenta, o valor de ambas se tornamuito parecido

(…)

t(i;0,05)

gl = N-1

P = 1 – nível de confiança

(área nas extremidades da distribuição t)

Comparação entre Intervalos de Confiança

Suponha que tenhamos dois ou mais grupos separados, porexemplo, os municípios do ABC. Podemos construir umintervalo de confiança de 95% para a média para cada umdos grupos, e então construir um gráfico com essesintervalos contra um eixo comum para verificar se existeuma interseção (i.e. se existem alguns valores em comum).Se os intervalos não se sobrepõem, então temos (pelomenos) 95% de confiança de que as verdadeiras médias nãosão iguais.

Intervalos de Confiança no SPSS

1. Abra o arquivo “AguaSNIS2010.sav”

2. No SPSS, vá em Analisar> Estatísticas Descritivas > Explorar…

3. Selecione a variável “Consumo de água per capita – poptotal” e, em “Estatísticas”, selecione “Descritivas” e 95%

Intervalos de Confiança no SPSS

Limite inferior= 24.77 – (1,96*0.25) = 24.28

Limite superior= 24.77 + (1,96*0.25) = 25.25

Intervalos de Confiança - Grupos1. No SPSS, vá em Analisar> Estatísticas Descritivas > Explorar…

2. Selecione a variável “Consumo de água per capita – poptotal” na lista de variáveis dependents e a variável “REGIAO”em lista de fatores.

3. Em “Estatísticas…”, selecione “Descritivas” e 95%

Intervalos de Confiança - Grupos

Intervalos de Confiança - Grupos

Atividade

1. Qual a diferença entre desvio padrão e erro padrão?

2. O que é um intervalo de confiança?

3. Como interpretar um intervalo de confiança de 95%?