1 O que é Estatística, afinal de contas? Estatística é o ramo da Matemática que estuda...
Transcript of 1 O que é Estatística, afinal de contas? Estatística é o ramo da Matemática que estuda...
1
O que é Estatística, afinal de contas?
Estatística é o ramo da Matemática que estuda métodos para:
Coletar, Organizar, Apresentar e Analisar dados.
Com o objetivo de desenvolver ferramentas que auxiliem a tomada de decisões.
2
Os dados podem ter duas formas:
1. Categorias
Ordinais ou Nominais
2. Numéricos
Discretos ou Contínuos
3
Dados Bruto Rol Amplitude Total Base de Dados é uma coleção de observações Observações é um conjunto de valores de um mesmo
indivíduo ou objeto. Variável é uma seqüência de medidas de uma mesma
característica. Dados é o valor assumido da variável de uma
observação.
Conceitos
4
População é o conjunto formado por indivíduos ou objetos que tem pelo menos uma variável comum e observável.
Amostra é qualquer subconjunto de uma população
Conceitos
5
Formas de Representação de Dados
Os dados coletados em uma pesquisa podem ser representados por meio de:
Tabelas (normalmente banco de dados)
Gráficos
Ex.: Gráficos de Barras, Pizza, Diagrama de Pareto, etc...
6
Tabelas
7
Portifólio de Investimentos
0 10 20 30 40 50 60
Poupança
CDB
Títulos
Ações
Gráficos de Barras
8
Poupança; 45
CDB; 35
Títulos; 50
Ações; 20
Poupança
CDB
Títulos
Ações
Gráficos de Setores
9
Organização de Dados Numéricos
Dados Numéricos
Diagramas de folhas
Ordenados
Distribuições
Polígonos
Tabelas
Histogramas
10
Distribuição de Frequências
Forma de representar dados ou categorias a partir das quantidades de cada uma das suas classes
Tabelas de distribuição acumulada
Histogramas
11
Distribuição de Frequências
12
Distribuição de Frequências
13
Frequência Cumulativa
14
Medidas de Posição
As medidas de Posição (ou de Tendência Central) são medidas que procuram representar, quando organizados em ordem crescente (ou decrescente) os termos centrais de uma amostra.
As principais medidas de posição são: Média Aritmética Mediana Moda
15
Média Aritmética
Considere um conjunto de dados (x1, x2, x3, ..., xi, ..., xn) a média aritmética entre esses números é dada por)x(
n
x...x...xxx ni21
16
Mediana
Considere um conjunto com n números organizado em ordem crescente (ou decrescente) a mediana desse conjunto é
Se n é ímpar então a mediana éSe n é par então a mediana é
2
1nx
2
xx1
2
n
2
n
17
Moda
Considere um conjunto com n números, dizemos que a moda é o número mais frequente.
Observações: (1) Podemos ter mais de uma moda.(2) Podemos não ter moda.
18
Medidas de Dispersão
Medidas de dispersão objetivam mensurar a regularidade de um conjunto de números.
Algumas Medidas de Dispersão
• Amplitude
• Desvio Médio Absoluto
• Variância
• Desvio Padrão
19
Amplitude
É a diferença entre o maior número e o menor número do conjunto.
Vantagens X Desvantagens
20
Desvio Absoluto
Considere um conjunto de dados (x1, x2, x3, ..., xi, ..., xn) com média o desvio médio absoluto será dado porx
n
xx...xx...xxxxd ni21
21
Variância
Considere um conjunto de dados (x1, x2, x3, ..., xi, ..., xn) com média a variância será dado porx
n
)xx(...)xx(...)xx()xx( 2n
2i
22
212
22
Desvio Padrão
Considere um conjunto de dados (x1, x2, x3, ..., xi, ..., xn) com média o desvio padrão será dado porx
n
)xx(...)xx(...)xx()xx( 2n
2i
22
21
23
Distribuições Discretas
São exemplos de distribuições discretas
Distribuição Uniforme
Distribuição Binomial
24
Distribuições Contínuas
São exemplos de distribuições discretas
Distribuição Uniforme
Distribuição Normal
Distribuição Exponencial
25
Valor Esperado e Variância de uma Distribuição
Valor esperado de uma distribuição
Variância de uma distribuição
)x(xp)x(E
)x(p)]X(EX[)x(V 2
22 )]x(p)X(E[)x(pX)x(V22 )]X(E[)X(E)x(V
26
Distribuição Binomial
Se p é a probabilidade de um evento acontecer em uma únicatentativa ( sucesso ) e q = 1 – p é a de que o evento não ocorra( insucesso ), então a probabilidade do evento ocorrer exatamenteX vezes, em N tentativas é dado por:
Média = µ = npVariância = σ2 =npqDesvio padrão = σ =
knkqpk
n)kX(P
n...,,3,2,1,0k
Npq
27
Distribuição Normal
Distribuição de probabilidade contínua cuja função é
Com média µ e desvio padrão σ.
2
2
2
)x(
e2
1)x(f
28
Gráfico da Distribuição Normal
29
Conceito
Amostragem é o processo de seleção de um conjunto de indivíduos pertencente a uma população, de modo que as características dessa população possa ser estudada através dessa seleção.Uma amostra pode ser selecionada com reposição ou sem reposição.
30
Conceito
População e Amostra
Qualquer conjunto de elementos ou indivíduos apresentando uma característica comum, toma o nome de população.
Fixada uma população, qualquer conjunto constituído unicamente por elementos dessa população é denominada amostra dessa população.
31
Conceito
Sendo
• N número de elementos na população• n número de elementos na amostra.
O número de amostras, com reposição, de tamanho n que podemos obter de uma população de N n elementos é Nn.
O número de amostras, sem reposição, de tamanho n que podemos obter de uma população de elementos é
)!nN(!n
!N
n
N
32
Vantagens de Censos
Estudo de populações muito pequenas
Informações requeridas para pequenas áreas geográficas ou classificações muito detalhadas
Permite construção de cadastros
33
Vantagens da Amostragem
Custo menor
Velocidade maior
Tempo menor
Precisão controlada
Redução da carga de coleta sobre unidades da população
Necessidades especializadas
34
Obtenção de uma Amostra
Os passos principais para a obtenção de uma amostra são
• Definição de OBJETIVOS e RECURSOS
• Obtenção do CADASTRO
• Planejamento e SELEÇÃO da amostra
• ESTIMAÇÃO das quantidades de interesse
• AVALIAÇÃO da qualidade das estimativas
35
Tipos de Amostras
As amostras podem ser probabilísticas ou não probabilísticas
Dentre as amostras probabilísticas podemos ter
Aleatórias
Sistemáticas
Estratificadas
Conglomeradas (Clusters)
36
Amostra Aleatória simples
Uma amostra de uma população é denominada aleatória simples quando é escolhida ao acaso (sem a adoção de nenhum critério prévio) dentro da população.
Essa seleção pode ocorrer com ou sem reposição do elemento.
37
Amostras Sistemáticas
Uma amostra de uma população é denominada sistemática quando dividimos a população em subconjuntos e dentro de cada subconjunto os elementos são escolhidos ao acaso.
Note que essa forma de obter amostras é similar à aleatória simples.
38
Amostras Extratificadas
Uma amostra de uma população é denominada estratificada quando dividimos a população em subconjuntos, porém agora seguindo algum critério e, dentro de cada subconjunto os elementos são escolhidos ao acaso.
Note que essa forma de obter amostras difere da sistemática por existir um critério para a divisão da população.
39
Amostras Cluster
Uma amostra de uma população é denominada estratificada quando dividimos a população em subconjuntos, porém agora seguindo diversos critérios e, dentro de cada subconjunto os elementos são escolhidos ao acaso.
Note que essa forma de obter amostras difere da estratificada por existirem diversos critérios para a mesma divisão da população.
40
Inferência Estatística
Consiste no estudo do comportamento da população e suas características, através de amostras extraídas dessa população.
Tais amostras devem ser relacionadas de modo a preservar as mesmas características e comportamento da população.
41
Estimação
Processo de generalizar a informação da amostra para a população da qual foi tirada
Estimador é a expressão matemática do processo de cálculo das estimativas
Estimativa é o valor de um estimador calculado com a amostra observada para estimar a quantidade populacional de interesse
42
Distribuição por Amostragem
Considere-se uma amostra aleatória simples de tamanho n: X1, X2, ..., Xn proveniente de uma população definida pela variável aleatória X, com função de distribuição F(X).
Chama-se estatística dessa amostra a qualquer funçãog(X1, X2, ..., Xn ), dos seus valores X1, X2, ..., Xn.
Quando se consideram todas as realizações da amostra, os valores das estatísticas mencionadas definem uma distribuição de probabilidade que coincide com aquela da variável aleatória g(X1, X2, ..., Xn), que se denomina distribuição por amostragem da característica g(X1, X2, ..., Xn).
43
Distribuição por Amostragem
Seja uma amostra de um universo X com média µ e variância σ2.
Seja a média amostral de uma amostra aleatória detamanho n, então:
X
)n
;(NX2
44
Teste de Hipótese
Teste de Hipótese é um conjuntos de procedimentos que permitemverificar a validade ou não de uma suposição sobre uma população.
A base para essa verificação são as informações fornecidas por uma amostra aleatória.
Formulada uma hipótese sobre a população são obtidas as informações através de uma amostra aleatória.
45
Hipóteses
Hipótese Básica ou hipótese nula é a hipótese aser validada pelo teste – H0
Hipótese alternativa é a hipótese contraria ahipótese nula – H1
Erro do primeiro tipo : Rejeitar a hipótese nulaquando ela for verdadeira.
Erro do segundo tipo : Aceita a hipótese nulaquando ela for falsa.
46
Hipóteses
O nível de significância: é a probabilidade do erro do primeiro tipoP(aceita H1/H0 verdadeiro ) = α
Grau de confiança do teste: é a probabilidade de aceitar a hipótese nula, quando ela for verdadeira P(H0/H0)= 1 α
Probabilidade de ocorrência do erro do segundo tipo: é a probabilidade de aceitar a hipótese nula quando ela for falsa P(H0/H1) = β
47
Avaliações
Decisão H0:verdadeira H0:falsa
Aceitar H0 Decisão correta
P(H0/H0)=1α
Erro tipo IIP(H0/H0)=β
Rejeitar H0 Erro tipo IP(H0/H0)=α
Decisão corretaP(H0/H0)=1 β
48
Testes paramétricos
Teste de média.
H0) µ = µ0
H1) µ µ0
O estimador ótimo do parâmetro θ da população, no caso µ, permitirá medir a divergência entre as informações da amostra e o verdadeiro valor do parâmetro do universo.O estimador ótimo de µ é
)n
;(NX
49
Critérios de Decisão
Realizada a amostra de tamanho n, calculamos que é o valor observado de
Se L1 < < L2 Aceita-se H⇒ 0, com um nível designificância α.Se [ L1 ; L2 ] Rejeita-se H0⇒
xX
x
x
50
Testes Paramétricos
Teste de média.
H0) µ = µ0
H1) µ < µ0
Se > L Aceita-se H⇒ 0 , com um nível de significância α.Se < L Rejeita-se H0⇒
xx
51
Testes Paramétricos
Teste de média.
H0) µ = µ0
H1) µ > µ0
Se < L Aceita-se H⇒ 0 , com um nível de significância α.Se > L Rejeita-se H0⇒
xx
52
Coeficiente de Correlação
Mede o Grau de relação linear entre variáveis
, em que e
Com
22 yx
xyr XXx
YYy
1r1
2222 )y(yn)x(xn
)y)(x(xynr
53
Análise de Regressão
Estuda a relação entre duas ou mais variáveis.É sempre interessante conhecer os efeitos que algumas variáveis exercem, ou parecem exercer, sobre outras.
Genericamente, tais relações podem ser representadas por Y = f(X1, X2, ..., Xn)
Y representa a variável dependente ou respostaXi representam as variáveis independentes ou explicativas
54
Modelo Matemático
Sejam duas variáveis X e Y relacionadas por uma função matemática Y = f (X).
Dado um conjunto de valores X e os correspondentes Xi valores de Yi = f(Xi).
Se colocarmos os pontos Pi(Xi, Yi) em um gráfico, verificamos que eles pertencem à curva que relaciona as duas variáveis.
A isto chamamos de Modelo Matemático
55
Modelo Estatístico
Dado um conjunto de pares de valores (Xi, Yi).
Quando marcamos os pontos em um gráfico, obtemos não uma curva, mas uma “Nuvem”de pontos
Chamamos a isto de Modelo Estatístico
Representamos por Yi= f(Xi) + ei
ei é denominado erro estocástico
Erros de mensuração da variável dependente
Influência de outros fatores além dos considerados no modelo adotado.
56
Regressão Linear
Se admitirmos que Y é função linear de X, então
Yi = a + bXi + ei
a: coeficiente linear da retab: coeficiente angular da reta
ii XbaY
57
Estimativa dos Parâmetros
Para cada par de valores o desvio é dado por
)Xba(YYYd iiiii
MMQ para estimar parâmetros. Queremos minimizar a soma dos quadrados dos desvios, isto é,
n
1i
2ii
n
1i
2i )]Xba(Y[dZ
58
Calculando as derivadas parciais de Z com relação a X e Y e igualando-as a zeros obtemos o sistema
2XbXaXY
XbanY
Resolvendo esse sistema obteremos as estimativas dos parâmetros.