Estatística para Ciências Sociais

38
Estatística para Ciências Sociais Epistemologia e Metodologia da Pesquisa Vinicius Barreiro Funicelli PUC-SP TIDD 02/05/2016

Transcript of Estatística para Ciências Sociais

Page 1: Estatística para Ciências Sociais

Estatística para Ciências SociaisEpistemologia e Metodologia da Pesquisa

Vinicius Barreiro Funicelli

PUC-SP TIDD 02/05/2016

Page 2: Estatística para Ciências Sociais

Sumário

• O que será abordado

• Por que estudar Estatística?

• O que é Estatística?

• Introdução

• Medindo e Amostrando

• Estatística Descritiva

• Distribuições Probabilísticas

• Inferência Estatística: Estimação

• Inferência Estatística: Teste de Significância

• Mais Estatística

• Referências

Page 3: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 3

O que será abordado

Definições Conceitos

Exemplos e Aplicações

Cálculos Matemáticos

Page 4: Estatística para Ciências Sociais

Por que estudar Estatística?

Epistemologia e Metodologia da Pesquisa25/04/2016 4

Fazer uma análise quantitativa sobre os dados coletados para sua pesquisa

Lidamos com informações estatísticas a todo momento em nossa vida

Conhecer alguns conceitos estatísticos pode nos ajudar a interpretar estas informações para uma melhor tomada de decisão

Page 5: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 5

O que é Estatística?

Definição: estatística consiste em um conjunto de métodos para obter e analisar dados

Design

Planejar como obter os dados para estudos de

pesquisas

Ex.: facilita a identificação de quais as melhores

pessoas a serem entrevistadas, e quais as

melhores perguntas a serem feitas, etc.

Descrição

Sumarizar os dados

Ex.: pode ser construído um gráfico ou uma tabela que melhor representa a

informação a ser apresentada, além de

poder apresentar números médios, porcentagens, etc.

Inferência

Fazer predições baseadas nos dados

Ex.: é possível extrapolar as informações obtidas pelas amostras para toda uma

população através de cálculos estatísticos e

probabilísticos.

Page 6: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 6

Introdução

População

é o conjunto total dos dados de interesse a serem

estudados

Amostra

é um subconjunto da população no qual o estudo

irá coletar os dados

Parâmetro

é uma representação numérica da população

Estatística

é uma representação numérica da amostra

Page 7: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 7

Introdução

Fonte: Barbetta (2006)

Page 8: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 8

Introdução

Por que fazer amostragem?

Restrições financeiras

Menor tempo necessário para a pesquisa

Maior qualidade nos dados levantados

População infinita

Mais fácil e com resultados satisfatórios

Page 9: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 9

Medindo e Amostrando

Variável: uma característica que pode mudar de valor em uma amostra ou população

Variável Quantitativa

Quando sua escala de medida é numérica

Ex.: dias, meses, anos, faturamento de uma empresa, quantidade

de filhos, etc.

Variável Categórica

Quando sua escala de medida é uma seleção

de categorias

Ex.: estado civil, cidade natal, tipo de

música, etc.

Variável Discreta

Valores de um conjunto finito de

números

Ex.: valores em uma lista, tabela, etc.

Variável Contínua

Um infinito contínuo de valores de números reais

Ex.: quantidade de estrelas, etc.

Page 10: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 10

Medindo e Amostrando

Amostra Randômica Simples: de n possibilidades em uma população, é aquela na qual cada possível amostra tenha a mesma chance/probabilidade de ser selecionada

Números Randômicos: são números gerados por computador em acordo a um esquema onde cada digito é igualmente parecido com qualquer inteiro de 0 a 9 e não depende de gerador de dígitos

Erro Amostral: é o erro que ocorre quando usamos uma estatística baseada em uma amostra para predizer o valor de um parâmetro da população

Viés de Amostragem

Ocorre quando é utilizado amostras não probabilísticas

Viés Responsivo

Ocorre quando o sujeito dá uma resposta incorreta, ou

o questionário ou o entrevistador confunde as

perguntas

Viés Não Responsivo

ocorre quando alguma amostra não pode ser

encontrada ou se recusa a participar, ou se falha em

responder alguma questão

Page 11: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 11

Medindo e Amostrando

Amostra Randômica Sistemática: identifica o tamanho de amostragem como n e da população como N

Então, k = N/n (k é chamado de número de salto)

1. Seleciona randomicamente um sujeito a partir do primeiro valor k de um quadro amostral

2. Sequencialmente seleciona a cada k° um novo sujeito listado após o anterior

Exemplo:

População com 10 parâmetros (N = 10)

Tamanho de amostragem de 2 sujeitos (n = 2)

Portanto k = 10/2 = 5

População 1 2 3 4 5 6 7 8 9 10

Valores a b c d e f g h i j

1° Seleção randômica

2° Seleção com k = 5

Page 12: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 12

Medindo e Amostrando

Amostra Randômica Estratificada: divide a população em grupos separados, chamados de estrato, e então seleciona através da amostra randômica simples em cada estrato

Proporcional: caso a proporção do estrato amostrado segue a mesma proporção da população

Desproporcional: caso a proporção do estrato amostrado seja diferente da proporção da população

População 1 2 3 4 5 6 7 8 9 10

Valores a b c d e f g h i j

Estrato 1 Estrato 2

População 1 2 3 4 5 6 7 8 9 10

Valores a b c d e f g h i j

Estrato 1 Estrato 2

Page 13: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 13

Medindo e Amostrando

Amostra Randômica de Grupo (ou Conglomerado): divide a população em vários grupos, e seleciona em cada grupo através da amostra randômica simples

Ex.: Bairros de uma Cidade, Gênero em um grupo de pessoas, etc.

Amostra Estágio Múltiplo: é uma combinação da Simples, Estratificada e de Grupo

Ex.: Separa inicialmente os Estratos, e dentro dos Estratos cria Grupos específicos para serem amostrados.

Page 14: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 14

Estatística Descritiva

Centro do dado: é a observação típica

Variação do dado: o que está ao redor do centro

Frequência Relativa: é a proporção ou percentual das observações que caem na categoria

Distribuição de Frequência: é uma lista de possíveis valores para uma variável, junto com o número de observações de cada valor

Histograma: um gráfico de uma distribuição de frequência relativa para uma variável quantitativa

Page 15: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 15

Estatística Descritiva

Fonte: Barbetta (2006)

Page 16: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 16

Estatística Descritiva

Formato de uma Distribuição

Formato em U Formato em Sino

Polarização nos extremos onde há a maior concentração das

frequências

Tendência das frequências estarem mais perto do centro

Fonte: Barbetta (2006)

Page 17: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 17

Estatística Descritiva

Média

Soma das observações dividida pelo número de

observações

Pode ser altamente influenciada por

observações muito acima ou abaixo do padrão dos

dados, chamados de outliers

Mediana

Simples medida do centro, ela divide as amostras em duas partes com número

de observações iguais

Quando o número de amostras é par, uma única

observação ocorre no meioQuando o número de

amostras é ímpar, ocorrem duas observações no meio e a

mediana está entre elasPara distribuições simétricas a

Média e a Mediana são idênticas

Moda

É o valor que ocorre mais frequentemente

Uma distribuição com dois distintos valores de moda é

chamada de bimodal, normalmente quando a população é polarizada

A Média, Mediana e Moda são iguais em uma

distribuição simétrica tal como uma com formato de

sino

Page 18: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 18

Estatística Descritiva

Alcance

é a diferença entre a maior e a menor observação

Desvio

é a diferença entre uma observação e a média

Variância

é o desvio padrão ao quadrado

Outlier

uma observação que cai em uma posição maior que 1,5 vez o alcance interquartil

acima do quartil superior ou abaixo do quartil inferior

Desvio Padrão

é a raiz quadrada da soma dos desvios ao quadrado divididos

pelo número de amostras menos um

Ponto Z

é o número de desvios padrão que a observação cai a partir

da média

Page 19: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 19

Estatística Descritiva

Regra Empírica

Cerca de 68% das observações estão ente a média menos um desvio padrão e a média mais

um desvio padrão

Cerca de 95% das observações estão ente a média menos dois desvios padrão e a média mais

dois desvios padrão

Percentil

é o percentual das observações que caem

abaixo ou até este ponto e acima de cem menos

este percentual

Quartil Inferior

É o percentil 25, ou seja um quarto dos dados

caem abaixo deste ponto

Quartil Superior

É o percentil 75, ou seja um quarto dos dados

caem acima deste ponto

Alcance Interquartil

A diferença entre o quartil superior e o quartil inferior. Esta medida descreve a

metade das observações

Page 20: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 20

Estatística Descritiva

Fonte: Barbetta (2006)

Page 21: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 21

Estatística Descritiva

Gráfico Caixa: normalmente utilizado para apresentar as cinco medidas média, os quartis inferior e superior, e o menor e maior valor observados

Fonte: Barbetta (2006)

Page 22: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 22

Distribuições Probabilísticas

Probabilidade: é a proporção de vezes que um particular resultado observado irá ocorrer em uma sequência de observações muito longa

Distribuição Probabilística: lista os possíveis resultados e suas probabilidades

Distribuição Probabilística de uma Variável Discreta: determina a probabilidade de cada possível valor (um número entre 0 e 1) para a variável, e a soma de todas as probabilidades possíveis é igual a 1

Distribuição Probabilística de uma Variável Contínua: determina a probabilidade de um intervalo de números. A probabilidade que a variável cai em qualquer particular intervalo é entre 0 e 1, e a probabilidade do intervalo

contêm todos os possíveis valores iguais a 1

Média de uma Distribuição Probabilística (Valor Esperado ou Esperança): é a soma de todas as probabilidades de uma variável discreta ocorrer

Page 23: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 23

Distribuições Probabilísticas

Fonte: Barbetta (2006)

Variável Discreta Variável Contínua

Page 24: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 24

Distribuições ProbabilísticasDistribuição Probabilística Normal: ela é importante pois aproxima bem as distribuições de variáveis do mundo real, e também porque é utilizada na inferência estatística

Principais características:

• Simétrica, formato de sino, e caracterizada pela sua média e desvio padrão• A probabilidade de qualquer número particular do desvio padrão frente a média é o mesmo

para toda a distribuição normal• 1 desvio padrão possui a probabilidade igual a 0,683, 2 desvios padrão igual a 0,954, e 3 desvios

padrão igual 0,997

Distribuição Normal Padrão: é a distribuição normal com média igual a 0 e desvio padrão igual a 1

Probabilidades de Cauda Normal Tabeladas: mostra em uma tabela os valores de probabilidade de cada número z de uma distribuição normal em função de desvios padrão da média, dependendo somente do valor de z

Page 25: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 25

Distribuições ProbabilísticasDistribuição Normal

Fonte: Barbetta (2006)

Page 26: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 26

Distribuições Probabilísticas

Distribuição Amostral

é a distribuição probabilística que

especifica as probabilidades que

possíveis valores podem ter

Erro Padrão

é o desvio padrão de uma distribuição

amostral comparado à média amostral

O erro amostral tende a diminuir quando

aumenta o tamanho de amostragem

Teorema do Limite Central

para uma amostra randômica com um grande tamanho de

amostragem, a distribuição amostral da

média amostral é aproximadamente a distribuição normal

Page 27: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 27

Inferência Estatística: Estimação

Fonte: Barbetta (2006)

Page 28: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 28

Inferência Estatística: Estimação

Estimativa Pontual

é um único número que é a melhor aproximação para um

parâmetro

Estimativa de Intervalo

é um intervalo de números ao redor da estimativa pontual, no qual é acreditado cair o

valor do parâmetro

Estimador Tendencioso

se subestima ou superestima o parâmetro a ser amostrado

Estimativa de Probabilidade Máxima

é o valor do parâmetro mais consistente com os dados

observados, sendo que deverá ter a maior chance de ocorrer

Estimador Imparcial

se sua distribuição amostral está centrada ao redor do

parâmetro

Intervalo de Confiança

é um intervalo de números com o qual o parâmetro tem

maior chance de cair. A probabilidade que este

método produz é chamado de nível de confiança

Page 29: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 29

Inferência Estatística: Estimação

Margem de Erro: na pratica, normalmente a distribuição amostral é aproximadamente a normal. Então, para construir o intervalo de confiança, adicionamos e subtraímos da estimativa pontual alguns múltiplos (pontos z) de seu desvio padrão. Está é a margem de erro

Intervalo de Confiança é a Estimativa Pontual +/- a Margem de Erro

Largura do intervalo de confiança possui as seguintes características:

• Aumenta com o aumento do nível de confiança• Diminui com o aumento do tamanho de amostragem

Probabilidade de Erro: é a probabilidade que um método de estimativa de intervalo produz em um intervalo de confiança que não contém o parâmetro observado

Page 30: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 30

Inferência Estatística: Estimação

Ponto t: é um ponto um pouco maior que o z e possui um intervalo de confiança também um pouco maior

Distribuição t: é baseado nos pontos t e assim é muito parecida com a distribuição normal, porém um pouco mais espalhada

Principais características:

• Simétrica, formato de sino, e com média 0• Desvio padrão um pouco maior que 1, o valor preciso vai depender do grau de liberdade• O ponto t multiplicado pelo erro padrão estimado dá a margem de erro para o intervalo de

confiança da média

Page 31: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 31

Inferência Estatística: Estimação

Fonte: Barbetta (2006)

Distribuição t

Page 32: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 32

Inferência Estatística: EstimaçãoEscolha do tamanho de amostragem: a margem de erro para um intervalo de confiança depende do erro padrão da estimativa pontual. Desde que a amostra seja feita corretamente, bons resultados estimados vêm de relativamente pequenas amostras, independentemente do tamanho da população

• A margem de erro depende diretamente do erro padrão da distribuição amostral do estimador pontual• O erro padrão depende do tamanho de amostragem

Outras considerações sobre como determinar o tamanho de amostragem

• Depende da precisão desejada, ou seja da margem de erro• Depende da confiança desejada, ou seja da probabilidade que aquele intervalo de confiança irá conter o

parâmetro• Depende da variabilidade da população, para médias estimadas o tamanho de amostragem requerido

aumenta com o aumento do desvio padrão• A complexidade da análise planejada, pois quanto mais variáveis a analisar simultaneamente maior o número

de amostras deve ser considerado• Tempo, dinheiro e recursos também precisam ser levados em consideração, amostras maiores consomem mais

tempo e recursos

Page 33: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 33

Inferência Estatística: Estimação

Considerações sobre Pequeno tamanho de amostragem

• As vezes por diversos fatores (financeiro, ético ou outros), simplesmente não é possível ter uma larga amostragem

• Seja cauteloso com os outliers pois eles podem influenciar muito seu estudo• Uma recomendação é ter ao menos 15 observações

Page 34: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 34

Inferência Estatística: Testes de Significância

Hipótese: é uma declaração sobre a população, normalmente uma predição que um parâmetro descreve a característica de uma variável com um valor numérico particular dentro de um intervalo de valores

Teste de Significância: usa os dados para resumir as evidências sobre a hipótese. Compara as estimativas pontuais dos parâmetros com os valores preditos pela hipótese, abaixo estão as 5 etapas do teste:

Premissas

Tipo de dados

Randomização

Distribuição da população

Tamanho de amostragem

Hipótese

Hipótese nula: é uma declaração que o

parâmetro assume um valor particular

Hipótese alternativa: declara que o

parâmetro cai em alguma alternativa do intervalo de valores

Teste Estatístico

O parâmetro que a hipótese refere é a uma

estimativa pontual, normalmente

apresentado em termos de desvio padrão e

resume quão longe a estimativa está do

parâmetro com valor da hipótese nula

Valor P

Para interpretar o valor estatístico do teste, é

um resumo probabilístico da

evidência

Conclusão

Interpreta o valor psobre a questão

motivada pelo teste, as vezes é necessário

tomar uma decisão se o valor é válido ou não

Page 35: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 35

Inferência Estatística: Testes de Significância

Tipos de Erros para Decisões

• Erro Tipo I: se a hipótese nula é verdadeira e ela é rejeitada (Nível Alfa é a probabilidade deste erro)• Erro Tipo II: se a hipótese nula é falsa e ela não é rejeitada (Nível Beta é a probabilidade deste erro)

Fonte: Barbetta (2006)

Page 36: Estatística para Ciências Sociais

25/04/2016 Epistemologia e Metodologia da Pesquisa 36

Inferência Estatística: Testes de Significância

Nível alfa: é um número o qual é rejeitado a hipótese nula para determinado valor p, também chamado de nível de significância. Na prática fica em torno de 0,05 e 0,01

Conforme o valor P do Erro Tipo I diminui, o valor P do Erro Tipo II aumenta

Limitação do Teste de Significância: o teste de significância faz inferências sobre se o parâmetro difere do valor da hipótese nula e sobre sua direção daquele valor. Na prática também queremos saber se o parâmetro é suficientemente diferente do valor da hipótese nula, o que este teste não nos mostra

Page 37: Estatística para Ciências Sociais

• Comparação entre duas Amostras

• Correlação entre Variáveis

• Relacionamento entre Variáveis

• Regressão

25/04/2016 Epistemologia e Metodologia da Pesquisa 37

Mais Estatística

Page 38: Estatística para Ciências Sociais

AGRESTI, Alan; FINLAY, Barbara. Statistical Methods for the Social Sciences. 4. ed. New Jersey: Pearson Prentice Hall, 2009. 609 p.

BARBETTA, Pedro Alberto. Estatística Aplicada às Ciências Sociais. 6. ed. Florianópolis: Ufsc, 2006. Disponível em: <http://www.inf.ufsc.br/~barbetta/livro1.htm>. Acesso em: 10 abr. 2016.

25/04/2016 Epistemologia e Metodologia da Pesquisa 38

Referências