Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por...

47
Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini

Transcript of Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por...

Page 1: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Aula 4 – Estatística- Conceitos básicosMaterial Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini

Page 2: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Estatística – Conceitos Básicos

Aprender conceitos básicos de estatística a serem utilizados na avaliação de impacto.

Page 3: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Plano de Aula Amostra x população Definição de um experimento aleatório e de uma variável

aleatória Distribuição de probabilidade Medida de tendência central: média, moda, mediana Medida de dispersão/variabilidade: variância e desvio-

padrão A distribuição normal e suas propriedades Intervalo de confiança Teste de Hipótese: Formulação de Hipóteses, Tipos de

Erros, Nível de Significância, Regra Prática “2 – t” Teste de diferença de médias

Page 4: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Amostra x População

O grupo completo de observações de pessoas, objetos ou coisas é denominado população.

Um subconjunto de observações selecionados numa população é denominado amostra.Na maior parte das análises, trabalha-se com amostras. Por essa razão é preciso garantir que a amostra seja representativa, ou seja, que a amostra descreva de maneira adequada a população que desejamos estudar.

Page 5: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Experimento Aleatório e Variável Aleatória

Um experimento é denominado experimento aleatório se não for possível antecipar o seu resultado, apesar de conhecermos os resultados possíveis.

Por exemplo: lançar um dado é um experimento aleatório.

Variável Aleatória = resultado numérico do experimento.

No caso do dado, a variável aleatória é a face que resultará de seu lançamento.

Há seis possíveis resultados, cada um com uma probabilidade de ocorrência de 1/6 .

Page 6: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

‘Encontrar um emprego dentro de um determinado período de tempo’ é um experimento aleatório, pois só saberemos se um indivíduo conseguirá encontrar um emprego em tal período de tempo após sua observação.

E seu ‘resultado’ é uma variável aleatória. Neste caso, há dois possíveis resultados: encontrar ou não encontrar o emprego. A probabilidade de ocorrência de cada resultado vai depender das características do indivíduo e da economia.

Outro exemplo de experimento aleatório e variável aleatória

Page 7: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Distribuição de ProbabilidadeQuando listamos os valores possíveis de uma

variável aleatória com suas possibilidades de ocorrência, o resultado é uma função de probabilidade.

0 1 2 3 4 5 6

Ex: vr. aleatória = face resultante do lançamento do dado

Probabilidade de ocorrência

evento

1/6

Page 8: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Outro experimento = jogar dois dados e ter como resultado a soma dos valores observados em cada um deles:

Dado A

Dado B  

"1"+ dado

B

"2"+

dado B

"3"+

dado B

"4"+

dado B

"5"+ dado B

"6"+ dado B

1 1   2 3 4 5 6 72 2   3 4 5 6 7 83 3   4 5 6 7 8 94 4   5 6 7 8 9 105 5   6 7 8 9 10 116 6   7 8 9 10 11 12

Page 9: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

36 possíveis combinações e 11 possíveis resultados: 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 e 12

Evento 2 3 4 5 6 7 8 9 10 11 12

n° de ocorrências 1 2 3 4 5 6 5 4 3 2 1

prob. de ocorrência

=1/36

=2/36

=3/36

=4/36

=5/36

=6/36

=5/36

=4/36

=3/36

=2/36

=1/36

Page 10: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Distribuição de probabilidade

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

prob. de ocorrência

Page 11: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Média

Média = o ‘valor esperado’ de uma variável aleatória.

É um dos parâmetros que descreve nossa amostra.Exemplo:

Imagine que temos as notas obtidas pelos alunos de uma sala de aula.

A média das notas da sala pode nos dar uma idéia do desempenho da sala.

Page 12: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Média - cálculoMédia = soma de todos os valores observados da variável aleatória dividido pelo número de observações:

n

xx

n

ii

1

Onde:• xi = é a nota do i-ésimo aluno.• n é o número de alunos na sala.

Page 13: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Exemplo: Ex: imagine que todos os alunos do colégio

tenham feito uma avaliação e que nós estejamos interessados em saber qual foi o desempenho médio do colégio.

Para isso podemos selecionar uma amostra de alunos e calcular a média.Notas obtidas

8 2 9 78 5 10 64 5 10 65 5 2 41 4 7 4

?20

)446...488(

x

Page 14: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Mediana valor que ocupa a posição central dos dados

ordenados; é o valor que deixa metade dos dados abaixo e metade acima dele. Se o número de observações for par, a mediana será a média aritmética dos dois valores centrais.

Ex.: mediana de 3, 4, 7, 8 e 8? Md=7

Page 15: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Moda é o valor mais frequente no conjunto de

dados

Ex.: moda de 3, 4, 7, 8 e 8? Moda = 8

Page 16: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Variância / Desvio-padrão

Para toda variável há diferença entre o valor esperado (isto é, a média) e o valor observado.

A variância mede a dispersão dos valores observados da variável aleatória em torno de seu valor esperado.

Desvio-padrão é a raiz quadrada da variância. Esta será uma medida bastante importante nos nossos cálculos mais à frente.

Page 17: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Variância / desvio-padrão - cálculo

Onde: xi = nota do i-ésimo aluno = nota média n = número de alunos

x

)1(

2

12

n

xxs

n

ii

2

2

1

)1(s

n

xxs

n

ii

variância desvio-padrão

Page 18: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Variância / Desvio-padrão

Podem ser interpretados como medidas da precisão da média.

Quanto menor a variância/desvio-padrão, maior é a confiança de que o valor a ser observado será próximo da média.

Page 19: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Qual a variância e o desvio-padrão das notas dos alunos ?

Notas obtidas8 2 9 78 5 10 64 5 10 65 5 2 41 4 7 4

?

?120

)4(...)8()8(

2

2222

ss

xxxs

Page 20: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Distribuição Normal

É uma das mais importantes distribuições de probabilidade.

Em geral, trabalhamos com variáveis aleatórias para as quais não conhecemos sua distribuição.

Comumente, assumimos que nossas variáveis aleatórias têm distribuição de probabilidade que se comporta como uma normal.

Page 21: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Distribuição Normal É simétrica; Média = Mediana = Moda

Quando “conhecemos” a distribuição de probabilidade de uma variável aleatória podemos fazer inferências.

Page 22: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

variável aleatória X distribuição normal?Grande parte dos fenômenos sociais seguem a

distribuição normal. Por exemplo, vários estudos mostram que:

A maioria dos QI se situam entre 90 e 100; há uma descida gradual para a calda com algumas pessoas com QI superior a 140 e pouquíssimas com QI abaixo de 60.

Page 23: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Será que toda variável aleatória segue distribuição normal?

Algumas variáveis aleatórias não seguem a distribuição normal:

É conhecido que a distribuição de riqueza é extremamente assimétrica (uma pequena parcela da população recebe grande parte da renda.

Page 24: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Formulando as hipóteses nula e alternativa Pode-se contar com expectativas teóricas ou

com trabalhos empíricos anteriores – ou com ambos – para formular hipóteses.

Obs.: independentemente de como são formuladas, é extremamente importante que o pesquisador estabeleça estas hipóteses antes de realizar a investigação empírica.

Page 25: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Tipos de Erros Tipo I: probabilidade de rejeitar a hipótese

nula sendo ela verdadeira.

Via de regra é estabelecido pelo pesquisador, e equivale ao nível de significância.

Tipo II: probabilidade de aceitar a hipótese nula sendo ela falsa.

Page 26: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

O Significado de “aceitar” ou “rejeitar” uma hipótese

Com base em um teste de significância (por ex., teste t), decide-se “aceitar” a hipótese nula, então com base na evidencia da amostra, não se tem nenhuma razão para rejeitá-la.

Lembre-se que, ao “aceitar” uma hipótese nula, deve-se sempre estar ciente de que uma outra hipótese nula pode ser igualmente compatível com os dados. Daí, é preferível dizer que podemos aceitar H0 ao afirmar que a aceitamos.

Page 27: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

InferênciaPor trabalharmos com amostras, o que fazemos é:

Com base nos resultados da amostra fazemos inferência sobre a população.

Por exemplo: Se encontramos que 60% da amostra é composta por mulheres, dizemos que 60% da população também são mulheres.Se 51% da nossa amostra vota no candidato X , então dizemos que o candidato X terá 51 % dos votos da nossa população.

A inferência pode conter um erro devido ao erro de amostragem. Ou seja, esta inferência pode estar errada simplesmente porque a amostra contem um erro de representação.

Page 28: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Se a variável segue a distribuição normal, então podemos calcular qual a probabilidade de obter qualquer média amostral. Para isto retomemos a curva normal

Inferência X distribuição normal

Ex: Com 68% de probabilidade a média populacional pode estar entre um desvio padrão (para mais e para menos) da média amostral.

Page 29: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Intervalo de confiançaEm geral, não conhecemos a média e o desvio padrão da variável na população. O que conhecemos é a média e o desvio padrão amostral. Assim não temos como calcular o verdadeiro valor da média populacional, na qual estamos interessados ao fazer a pesquisa amostral?

A resposta é não. Entretanto, com base nos resultados da amostra podemos construir o intervalo de valores dentro do qual a verdadeira média populacional pode estar. Isto considerando uma probabilidade de que a média populacional realmente cairá neste intervalo., chamado de Intervalo de Confiança.

Page 30: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Calculo do Intervalo de confiançaSe a variável segue uma distribuição normal, uma estimativa do desvio padrão populacional pode ser estimado por meio de:

Ns

Onde: é o desvio padrão da população s é o erro padrão da amostra N é o tamanho da amostra

Page 31: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Intervalo de confiança e a distribuição normal para amostra

xNs

68%95%

Ns*96,1 N

s*96,1Ns

Page 32: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Intervalo de confiança de 95% para a média amostral

nsx

nsx *96,1;*96,1

Page 33: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

ExemploSuponha uma amostra de 99 escolas. Nesta amostra obtemos um gasto médio mensal de 23.800,00 reais e desvio padrão de 43978,44. Qual o intervalo de confiança a 95% ?

]20,463.32;80,136.15[

20,663.899

44,43978*96,1*96,1

ns

nsx

nsx *96,1;*96,1

Page 34: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Graficamente

00,800.23

95%

80,136.15 20,463.32

Page 35: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Probabilidade de um valorSe em vez de querer saber qual o intervalo de confiança da média populacional utilizando uma amostra, estejamos interessados em saber qual a probabilidade de um determinado valor ocorrer, como fazer?

Utilizamos uma tabela de escores da curva normal. Esta tabela foi construída com base em quantos desvios padrões o valor que queremos se distancia da média. Assim, para utilizá-la calculamos:

nsXXZ i

Page 36: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

ExemploSuponha que um Estado divulgou que gasta, em média, 34.000,00 reais por mês com merenda nas escolas. Duvidando da informação fizemos uma amostra de 99 escolas. Nesta amostra obtemos um gasto médio mensal menor de 23.800,00 reais e desvio padrão de 43978,44. Qual a probabilidade de 34.000,00 ser realmente a média das escolas?

Montamos o seguinte teste: H0: μ=34.000,00Contra H1: μ<34.000,00

31,2

9944,43978

800.23000.34

Z

Page 37: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Exemplo

31,2

9944,43978

800.23000.34

Z

Olhando na tabela encontramos um valor de 48,96. Ou seja, 48,96% das médias amostrais se situam entre 23.800,00 e 34.000,00 reais, estão abaixo deste valor. Quase toda a amostra. Fazendo 50%- *48,96% = 1,04%. Portanto, somente 1,04% da amostra está acima deste valor. Ou seja, vamos se rejeitar H0 a chance de estar errando é 1,04%, logo rejeito H0

Page 38: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

O nível exato de significância: o valor p Definido como o mais baixo nível de

significância com o qual a hipótese nula pode ser rejeitada.

Também conhecido como nível de significância observado ou exato, ou a probabilidade exata de cometer um erro Tipo I.

Page 39: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Escolhendo o nível de significância Se o erro de rejeitar a hipótese nula que de fato é

verdadeira (Erro Tipo I) for dispendioso relativamente ao erro de não rejeitar a H0 que de fato é falsa (Erro tipo II), será racional estabelecer uma pequena probabilidade de cometer o primeiro tipo de erro. Se, por outro lado, o custo de cometer um Erro Tipo I for baixo relativamente ao custo de cometer um Erro Tipo II, vale a pena estabelecer como grande a probabilidade do primeiro tipo de erro (tornando assim pequena a probabilidade do segundo tipo de erro).

Page 40: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Teste de diferença de médias

Suponha agora que estamos interessados em comparar a média de uma variável aleatório com base em duas amostras diferentes.

Para isto podemos fazer o teste de diferenças entre médias

Como as médias são calculadas a partir de uma amostra da população, a diferença matemática observada entre elas pode ser apenas devido a um erro amostral.

Portanto, uma diferença entre duas médias amostrais não representa uma verdadeira diferença entre as médias populacionais.

Page 41: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Teste de diferenças entre médiasHipótese Nula: Não há diferença entre as Médias

PopulacionaisH0: μ 1= μ 2

μ 1= média na população 1μ 2= média na população 2

Hipótese experimental: há diferença entre as Médias Populacionais

H1: μ 1≠ μ 2

Page 42: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Para testarmos esta hipótese com uma probabilidade conhecida de acerto, precisamos calcular os chamados escores Z, supondo que a distribuição da variável é normal.

2

22

1

21

21

Ns

Ns

XXZ

dif

dif

Onde: é a média amostral é a diferença do erro padrão de cada média s é a variancia da amostra N é o tamanho da amostra

difX

Page 43: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Z de teste

Uma vez encontrado o Z de teste calculado pela fórmula do slide anterior, utilizamos uma tabela de Porcentagem da Área sob a Curva Normal - Z, para obtermos a probabilidade de não rejeitarmos H0.

Fazendo 100- 2 vezes a probabilidade calculada na tabela, temos a estatística conhecida como P-valor, que nos fornece a probabilidade de erro ao rejeitarmos H0.

Page 44: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Z de teste- ExemploEx: Considere o teste de diferença de média entre

duas amostras com o Z=0,68. Olhando na tabela encontramos a probabilidade

25,17, multiplicando por 2 temos 50,34% de acerto.

O P-valor é de 49,66% (100-50,34) Isto significa que se rejeitarmos H0 estariamos

errando a uma probabilidade de 49,66%. Assim, não rejeitamos H0 e dizemos que a diferença entre as médias amostrais não é significativa.

Obs: estas médias podem ser matematicamente diferentes, mas esta diferença é devida a erro amostral.

Page 45: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Passos para o teste de diferença de médias

1o passo: Obter as médias amostrais2o passo: achar o desvio padrão de cada amostra3o passo: Calcular o erro padrão de cada média4o passo:Achar a diferença do erro padrão das

médias5o passo: Achar a estatística Z6o passo: Usando a tabela obter a probabilidade de

acerto 7o passo: subtrair de 100% a probabilidade de

acerto para achar o P-valor.

Page 46: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Regra prática “2-t” Se o número de graus de liberdade for 20 ou

mais, e se o nível de significância, for estabelecido em 0,05, então a hipótese nula pode ser rejeitada se o valor

for maior que 2 em valor absoluto.

02

)](/[^

2

^

2 ept

Page 47: Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini.

Comentários Finais

Aula de hoje: trabalhamos conceitos de estatística que serão utilizados na avaliação econômica.

Próxima aula: apresentaremos os procedimentos para realizar a avaliação de impacto quando o grupo de controle foi aleatoriamente selecionado.