Conceitos Básicos de Estatística I

Post on 12-Apr-2017

104 views 1 download

Transcript of Conceitos Básicos de Estatística I

Inferência Estatística: Conceitos Básicos IIntrodução, Medidas de Tendência Central, Medidas de Variabilidade, Distribuições de Frequência e Probabilidade

Vitor Vieira Vasconcelos

BH1350 – Métodos e Técnicas de Análise da Informação para o Planejamento

Junho de 2016

O Que Estudaremos na Aula de Hoje

• Populações e Amostras

• Medidas de Tendência Central: Média, Moda, Mediana

• Medidas de Variabilidade: Variância e Desvio Padrão

• Curva Normal

• Distribuições de Frequência e Probabilidade

• Escores padrão

• Cálculo da probabilidade sob a curva normal

Como pesquisadores, estamos interessados eminvestigar questões que se apliquem a toda uma

população de pessoas ou coisas.

A população pode ser geral (todos os sereshumanos) ou pequena (todos os edifícios de São Caetano com mais de 15 andares)

Raramente temos acesso aos dados de toda a população, mas apenas de um subconjunto uma

amostra, que utilizamos para inferir coisas sobre

toda a população

Populações & Amostras

Quanto maior a amostra maior a probabilidade de ela refletir a população inteira

Amostras aleatórias da mesma população podemfornecer resultados ligeiramente diferentes

Em media, resultados de grandes amostras deverãoser bastantes similares

Populações & Amostras

Método científico para tirar conclusões sobre osparâmetros da população a partir da coleta,

tratamento e análise dos dados de uma amostrarecolhida dessa população.

Inferência Estatística

Média como um modelo estatístico

Média do número de habitantes por domicílio

Nos ajuda a representar simplificadamente (modelar) esteaspecto particular da realidade

Digamos que eu tenha uma amostra de 5 domicílios, cadaqual com os seguintes números de habitantes:

Em média temos 2,6 habitantes por domicílio

1 2 3 3 4

Média como um modelo estatístico

Média do número de habitantes por domicílio

Em média temos 2,6 habitantes por domicílio(considerando nossa amostra)

Mas é impossível ter 2,6 habitantes em um domicílio!!!

A média é um valor hipotético, um MODELOcriado para resumir nossos dados

Média como um modelo estatístico

Uma maneira útil de descrever um grupo comoum todo:

• Qual é a renda média das famílias residentes naMooca?

• Qual é a altura média dos edifícios em São Caetano?

• Qual é o PIB médio dos municípios localizadosno arco do desmatamento?

Inferência Estatística se resumindo a uma equação…

Saídai = (Modeloi) + erroi

Ou seja, os dados que observamos podem serprevistos pelo modelo que escolhemos para

ajustar os dados mais um erro

Este modelo é preciso? O quão diferente nossos dados reais são do

modelo criado?

Média (2,6)

Desvios(erro do modelo)

Nr.

de

hab

itan

tes

Domicílio

Erro total = soma dos desvios

Nr.

de

hab

itan

tes

Domicílio

Zero???

Para evitar o problema do errodirecionado (ou seja, positivoou negativo), elevamos cada

erro ao quadrado

Usando os desvios para estimar a precisão do modelo

Usando os desvios para estimar a precisão do modelo

Soma dos erros ao quadrado(SS)

Nr.

de

hab

itan

tes

Domicílio

Boa medida de acurácia do nosso modelo!

Só que… quanto mais dados, maior a SS.

VariânciaUma opção: Dividir SS pelo número de observações (N) médiado quadrado do erro para a amostra

Essa medida é conhecida como VARIÂNCIA – “média do quadradodos desvios”

No entanto, como geralmentequeremos usar o erro na amostra paraestimar o erro na população, dividiremos o SS pelo nr. de observações menos 1 (graus de liberdade).

Assim, aumentamos ligeramente a variância amostral para produzirestimativas não tendenciosas (maisprecisas) da variância populacional

Estimativa da variância da população usando n amostrasaleatórias xi onde i = 1, 2, ..., n.

Um problema com o uso da variância como medida de erro: Ela éexpressa em unidades quadradas (colocamos cada erro aoquadrado no cálculo)

No caso do exemplo, diríamosque o quadrado da média do erro do nosso modelo foi de 1,3 habitantes.

[Alteramos nossa unidade de medida!]

Estimativa da variância da população usando n amostrasaleatórias xi onde i = 1, 2, ..., n.

Variância

Uma alternativa:

Tirar a raiz quadrada da variância

DESVIO PADRÃO

É simplesmente a raiz quadrada da variância!

O desvio padrão (s) é uma medida de quão bem a médiarepresenta os dados! Média dos desvios a contar da média

Desvio Padrão

Que todos os escores são os mesmos!

Revela a dispersão dos dados emrelação à média.

s pequeno: observações estão próximasda média

s grande: observações estão distantes da média

s = 0 : O que significa?

Média com boa aderência aos dados

Médias iguais, mas desvios padrão diferentes

Média com pobre aderência aos dados

Nr.

de

hab

itan

tes

Domicílio

Nr.

de

hab

itan

tes

Domicílio

Distribuições de Frequências

HISTOGRAMA: Gráfico com os valores observados no eixohorizontal, com barras mostrando quantas vezes cada valorocorreu no conjunto de dados

Útil para avaliar as propriedades de um conjunto de valores

ModaEscore que ocorre maisfrequentemente no conjunto de dados

Curva NormalMaioria dos escores está em torno do centro da distribuição. A medida que nos distanciamos do centro (média), a frequênciados escores diminui.

Propriedades das Distribuições de Frequências

Uma distribuição pode se desviar de uma normal de 2 maneiras principais:

(1) Falta de simetria

ASSIMETRIA

(2) Achatamento

CURTOSE

Leptocúrtica Platicúrtica

Positivamente Assimétrica Negativamente Assimétrica

DESVIO PADRÃO MAIOR

DESVIO PADRÃO MENOR

Medidas de Tendência Central

MODA (Mo): Valor mais frequente em uma distribuição

MEDIANA (Me): Medida que separa a distribuição em duas partesiguais

MÉDIA (X): Soma de um conjunto de escores dividida pelo númerototal de escores no conjunto

Medidas utilizadas para representar um conjunto de valores

Curva NormalSimétrica. Média, mediana e moda coincidem!

Nem leptocúrtica, nem platicúrticaMesocúrtica

Do pico central, a curva cai gradualmente em ambas as extremidades, chegando cada vez mais perto da reta básica, sem nunca tocá-la

É um modelo teórico ou ideal que foi obtido por meio de umaequação matemática e não de pesquisa e coleta de dados

Entretanto, é útil para situaçãoreais de pesquisa pois a distribuição de muitosfenômenos de interesse de pesquisa assume a forma da curva normal

Distribuições de ProbabilidadeDistribuições de frequência podem ser usadas para obter umaideia aproximada da probabilidade de um escore ocorrer (ou

intervalo).

Exemplo da Aula Anterior: Considerando que a distribuição do número de residentes por domicílio possui a forma de uma

distribuição normal, qual seria a probabilidade de termos, nosdados, um domicílio com 4 habitantes ou menos?

PROBABILIDADE: NOÇÃO IMPORTANTE PARA A TOMADA DE DECISÃO!!!

Distribuições de ProbabilidadeDistribuições de frequência podem ser usadas para obter umaideia aproximada da probabilidade de um escore ocorrer (ou

intervalo).

Exemplo da Aula Anterior: Considerando que a distribuição do número de residentes por domicílio possui a forma de uma

distribuição normal, qual seria a probabilidade de termos, nosdados, um domicílio com 4 habitantes ou menos?

Para facilitar nosso trabalho, estatísticos elaboraram umaforma matemática que especifica versões idealizadas das distribuições: DISTRIBUIÇÕES DE PROBABILIDADE

Distribuições de Probabilidade

A distribuição de probabilidades associa umaprobabilidade a cada resultado numérico de um

experimento, ou seja, dá a probabilidade de cadavalor (ou de intervalo de valores) de uma variável

aleatória.

É análoga a uma distribuição de frequência, exceto por serbaseada em teoria ao invés de dados empíricos(observações do mundo real)

As probabilidades representam a chance de cada escoreocorrer, diretamente análoga às porcentagens em umadistribuição de frequência.

A curva normal como uma distribuição de probabilidade

A curva normal é um ideal teórico.

No entanto, existem muitas distribuições de dados reais quese aproximam da forma da curva normal

É sempre importante checar!!!!

Construir um histograma é um bom começo!

Algumas variáveis nas ciências sociais, não se enquadram (renda e distribuiçãoetária, por exemplo)

A curva normal como uma distribuição de probabilidade

A curva normal como uma distribuição de probabilidade

Exemplo Aula Anterior:Residentes por Domicílio

Média = 2,6; s = 1,14

1,46 3,742,6

Voltando a nossa pergunta:

Considerando que a distribuição do número de residentes pordomicílio possui a forma de uma distribuição normal, qual seria a

probabilidade de termos, nos dados, um domicílio com 4 habitantes ou menos?

1,46 3,742,6

4

Residentes por DomicílioMédia = 2,6; s = 1,14

Distribuição Normal Padrão

Já calcularam a probabilidade de certos escores ocorreremnuma distribuição normal com Média = 0 & Desvio padrão = 1

DISTRIBUIÇÃO NORMAL PADRÃO

Distribuição Normal PadrãoMAS… a distribuição dos meus dados não apresenta

média = zero e desvio padrão = 1!

E aí????

QUALQUER CONJUNTO DE DADOS PODE SER CONVERTIDO EM UM CONJUNTO QUE TENHA MÉDIA

ZERO E DESVIO PADRÃO 1 !

OBA!!!!

Como fazer:

(1) Para centrar dados em zero, pegamos cada escore e subtraímos dele a média de todos os escores.

(2) Dividimos o escore resultante pelo desvio padrãopara assegurar os os resultados terão DP = 1

escores-z

Distribuição Normal PadrãoVoltando a nossa pergunta:

Considerando que a distribuição do número de residentes pordomicílio possui a forma de uma distribuição normal, qual seria a

probabilidade de termos, nos dados, um domicílio com 4 habitantes ou menos?

Considerando que a distribuição dos dados possa ser descrita como umadistribuição normal, com média = 2,6 e desvio padrão = 1,14

escores-z Primeiro Passo: Converter o valor 4 em

um escore-z (4 - 2,6)/1,14 = 1,23

Distribuição Normal Padrão

1,23

Distribuição Normal PadrãoVoltando a nossa pergunta:

Considerando que a distribuição do número de residentes pordomicílio possui a forma de uma distribuição normal, qual seria a

probabilidade de termos, nos dados, um domicílio com 4 habitantes ou menos?

Considerando que a distribuição dos dados possa ser descrita como umadistribuição normal, com média = 2,6 e desvio padrão = 1,14

escores-z Primeiro Passo: Converter o valor 4 em

um escore-z (4 - 2,6)/1,14 = 1,23

Segundo Passo: Verificar tabela

z = 1,23

A probabilidadede termos um domicílio com até 4 habitantesé de 0,8907 (89,07%)

Complementarmente, a probabilidade de termos um domicíliocom mais de 4 habitantes é de 0,1093

z = 1,96

z = -1,96

Separa os 2,5% do topo/cauda inferior da distribuição.

Ou seja, 95% dos escores estão entre -1,96 e 1,96

Alguns z-escoressão pontos de corte quedestacam pontosimportantes da distribuição.

z = 1,96

z = -1,96

Separa os 2,5% do topo/cauda inferior da distribuição.

Ou seja, 95% dos escores estão entre -1,96 e 1,96

Alguns z-escoressão pontos de corte quedestacam pontosimportantes da distribuição.

z = -2,58

z = +2,58

99% dos escores estãoentre -2,58 e 2,58

z = -3,29

z = +3,29

99,9% dos escores estãoentre -3,29 e 3,29

Alguns z-escoressão pontos de corte quedestacam pontosimportantes da distribuição.

PráticaO Ambiente SPSS