Probabilidade e Estatística -Aula 4 -Revisão de Conceitos
-
Upload
juci-eh-nando -
Category
Documents
-
view
35 -
download
0
Transcript of Probabilidade e Estatística -Aula 4 -Revisão de Conceitos
Probabilidade e Estatística AULA -04
Bolsa de Nova York 10/06/2011
2
O que é ESTATÍSTICA • Segundo Velleman “Estatística é a Ciência de obter
conclusões a partir de dados”.
• Paul F. Velleman é um professor de estatística na Universidade de Cornell. Professor Paul Velleman tem uma reputação internacional para a educação estatísticas através de técnicas inovadoras.
A Estatística envolve técnicas para coletar, organizar,
descrever, analisar e interpretar dados, ou provenientes de
experimentos, ou vindos de estudos observacionais. Dados
=> Informações => Decisões
3
O que é ESTATÍSTICA
• Parte de perguntas/desafios do mundo REAL: – Estatísticas financeiras; econômicas aplicadas a econometria
– um político quer saber qual é o percentual de eleitores que pretende votar nele nas próximas eleições.
– a Ford quer verificar a qualidade de um lote inteiro de peças fornecidas através de uma pequena amostra.
– Um produto lançado no mercado esta tendo aceitação?
• Mudança de enfoque:
– Atividade de estado para aplicação em pesquisa
científica em geral.
4
Por que usar Estatística?
• Por que a natureza apresenta VARIABILIDADE: – Variações de indivíduo
para indivíduo;
– Variações no mesmo indivíduo;
“A Estatística estuda como controlar, minimizar e observar a variabilidade INEVITÁVEL de todas as medidas e observações”.Sem Métodos Estatísticos, sem validade científica!
5
Por que usar Estatística
Governos Mundiais Empresas
Tomada de decisões
Pesquisas de opinião, pesquisas de mercado
Previsões de curto, médio e longo prazo
Duas disciplinas de Estatística
6
Medidas de localização central: Média
• Média: Numa amostra de n observações, x1, x2, …, xn
Se os dados estiverem agrupados (k valores distintos)
onde fi designa a frequência absoluta de xi* (ou a frequência absoluta da
classe com marca xi* no caso de dados agrupados em classes)
n
x
n
x
n
xxxx
i
n
i
i
n
121 ...
n
fx
n
fx
n
fxfxfxx
ii
k
i
ii
nn
*
1
*
*
2
*
21
*
1 ...
7
Medidas de localização central: Média
• A média pode ser pensada como o centro de massa dos valores das observações, ie, o ponto de equilibrio após
dispormos as observações sobre uma régua.
Pontos afastados ou erros nas observações podem
afastar a média do grosso das observações.
Tendência Central: Média Aritmética
Cálculo da média Aritmética
9
Medidas de localização central: Moda
• A moda é o valor mais frequente de uma amostra.
• Ao contrário do que acontece com a mediana e a média, uma amostra pode possuir mais do que uma moda.
Moda
10
Conceito de População e Amostra
• População: conjunto de indivíduos com pelo menos uma característica observável
• Se todos podem ser pesquisados: CENSO
• Se não, pesquisa-se uma Amostra: subconjunto finito da população.
X1 X2 X3 ...
11
Medidas amostrais mais utilizadas • Localização relativa:
– Mínimo é o valor minimo da amostra
– Máximo é o valor maximo da amostra
No caso seguinte temos
Conceitos de Estatística Descritiva • Na estatística descritiva , um quartil é qualquer um dos três
valores que divide o conjunto ordenado de dados em quatro partes iguais, e assim cada parte representa 1/4 da amostra ou população.
• Assim, no caso duma amostra ordenada, • primeiro quartil (designado por Q1/4) = quartil inferior = é o
valor aos 25% da amostra ordenada = 25º percentil • segundo quartil (designado por Q2/4) = mediana = é o valor
até ao qual se encontra 50% da amostra ordenada = 50º percentil , ou 5º decil .
• terceiro quartil (designado por Q3/4) = quartil superior = valor a partir do qual se encontram 25% dos valores mais elevados = valor aos 75% da amostra ordenada = 75º percentil
• à diferença entre os quartis superior e inferior chama-se amplitude inter-quartil.
Análise do Coeficiente de Variação
O coeficiente de variação é geralmente expresso em percentagem. O C.V. é independente das unidades adotadas. Por essa razão, é vantajosa para a comparação de distribuições cujas unidades podem ser diferentes. Uma desvantagem do C.V. é que ele deixa de ser útil quando a média esta próximo de zero.
Baixa dispersão: CV 15%
Média dispersão: CV 15-30%
Alta dispersão: CV 30%
Conceitos Fundamentais Estatística Descritiva
Dada uma amostra a amplitude
Amplitude = X(máximo)-X(mínimo) = 8- 2 =6
Quartis – Dispersão
Os Quartis dividem a distribuição dos dados em quatro partes iguais, correspondendo cada uma delas a 25% do total dos dados ordenados, esta separação é feita por três valores Q1,Q2 eQ3 o valor de Q1 esta abaixo dos 25% dos valores da amostra o valor de Q2 coincide com a mediana o valor de Q3 localiza-se abaixo dos 75%.
Exemplo de Quartil
• Exemplo 1:
• Amostra: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36
• Amostra ordenada: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49
• Q1/4 = 15
• Q2/4 = 40
• Q3/4 = 43
Graficos Boxplot • Exemplos de Gráficos tipo Boxplot
18
Subdivisões da Estatística • AMOSTRAGEM: técnicas para obter uma amostra
representativa, suficiente e que possa ser generalizada para a população.
• ANÁLISE EXPLORATÓRIA DE DADOS: técnicas para resumir, organizar e interpretar os dados, de uma amostra ou da população, para obter informações.
• INFERÊNCIA ESTATÍSTICA: técnicas para generalizar estatisticamente os resultados de uma amostra para a população.
• PROBABILIDADE: técnicas que permitem calcular a confiabilidade das conclusões de Inferência Estatística.
19
Variáveis
• São características observáveis em cada elemento pesquisado: medidas, controladas ou manipuladas em uma pesquisa.
• Cada variável, para cada elemento pesquisado pode assumir APENAS UM valor em determinado momento
• Classificação por nível de mensuração: quantidade de “informação”. – Qualitativas: nominais, ordinais.
– Quantitativas: discretas, contínuas.
• Classificação por nível de manipulação: quais são manipuladas (independentes) e quais apenas observadas (dependentes).
20
Objetivos das pesquisas
• Em última análise os objetivos das pesquisas consistem em estudar o relacionamento entre variáveis na POPULAÇÃO.
• Magnitude e confiabilidade do relacionamento.
• O número de variáveis envolvidas, o seu nível de mensuração, quais são as “independentes” e as “dependentes”, o tipo de pesquisa (levantamento, experimento, censo ou amostragem) influenciarão na escolha das técnicas: – para coletar os dados;
– para apresentar os dados;
Tendência Central: Média Harmônica
Média Harmônica de dados agrupados
Cálculo da média harmônica dos seguintes valores { 2,4,5,7,8,9,12,15}
Tendência Central: Média Harmônica
Média Harmônica: O número de observações divido pela soma do inverso dos valores. Para dados não agrupados;
Cálculo da média harmônica no Excel valores: { 2,4,5,7,8,9,12,15}
Tendência Central: Média Geométrica
A média geométrica é dados agrupados
A média geométrica é dada tirando –se a raiz de ordem n da multiplicação dos valores.
Calcule a média geométrica dos seguintes valores { 2,4,5,7,8,9,12,15}
Tendência Central: Mediana
Assim como a média, a mediana também visa calcular uma tendência central, A mediana é o termo que ocupa a posição central de um conjunto de n Dados ordenados. Exemplo do calculo da mediana com Excel:
Relação entre as Médias Aritméticas Geométricas e Harmônica
Para um conjunto de números positivos vale a seguinte relação:
Usamos a média geométrica
quando os dados estão em uma progressão geométrica.
exemplo { 2,4,8,16,32,64....1024} o próximo valor é o anterior multiplicado por 2 (dois), por exemplo.
Média Harmônica quando as variáveis são inversamente proporcionais tempo e velocidade.
Tendência Central Mediana
Em teoria da probabilidade e em estatística, a mediana é uma medida de tendência central, um número que caracteriza as observações de uma determinada variável de tal forma que este número (a mediana) de um grupo de dados ordenados separa a metade inferior da amostra, população ou distribuição de probabilidade, da metade superior
Quando os dados estão ordenados em ordem
crescente, e o numero de amostras é impar. A mediana é dada: Mediana= (N+1)/2
Probabilidade e Estatística
Medidas de tendência central fornecem um resumo parcial das informações de um conjunto de dados.
A necessidade de uma medida de variação é aparente, para que nos permita, por exemplo, comparar conjuntos diferentes de valores.
Algumas característica desta medida devem ser atendidos como veremos a seguir
Médidas de Dispersão
As medidas de tendência central pouco ou nada informam a respeito da dispersão dos dados. O conceito de medida de dispersão é relativamente difícil
Medidas de Dispersão
O critério geralmente utilizado é aquele que mede a concentração dos dados em torno da média, e algumas medidas são as mais usadas: desvio médio, variância, desvio padrão e Coeficiente de Variação.
Ex: 3, 4, 5, 6, 7 (média 5), os desvios xi-x, são: -2, -1, 0, 1 ,2.
1, 3, 5, 7, 9 (média 5), os desvios xi-x, são: -4, -2, 0, 2, 4.
É fácil observar que a soma dos desvios é igual a zero, o que torna inviável esta medida. As opções são:
a)Considerar o total dos desvios em valor absoluto (módulo) ou,
b)Considerar o total dos quadrados dos desvios. Assim teríamos:
Para a amostra: 3, 4, 5, 6, 7
= 2 + 1 + 0 + 1 + 2 = 6 (a)
2 = 4 + 1 + 0 + 1 + 4 = 10 (b)
Conceito de Dispersão
• As medidas de dispersão indicam como os valores de um conjunto distribuem-se (dispersam) em relação a seu ponto central (média). Quanto maior apresentar-se o intervalo entre os valores extremos de um conjunto, menor é a representatividade estatística da média, pois os valores em observação distanciam-se desta medida central.
• As principais medidas de dispersão a serem estudadas neste item, que apresentam larga aplicação prática na avaliação de risco, são odesvio-padrão, a variância e o coeficiente de variação
Desvio padrão e Variância
• Desvio e variância são as mais importantes e utilizadas medidas de dispersão. O desvio-padrão é representado por σ (sigma), quando calculado de dados de uma população, e por S, quando obtido da amostra (estimativa média da população). Essa medida visa medir estatisticamente a variabilidade (grau de dispersão) de um conjunto de valores em relação a sua média.
Coeficiente de Variação
• Enquanto o desvio-padrão (e a variância) mede o grau de dispersão absoluta dos valores em torno da média, o coeficiente de variação, geralmente expresso em porcentagem, indica a dispersão relativa, ou seja, o risco por unidade.
• Essa medida é obtida pela simples relação entre o desvio-padrão e a média aritmética da amostra (ou população), ou seja:
Calcule a média e o desvio Neste caso vamos considerar o desvio Amostral e não populacional
Repita a mesma tabela
Medida da Variância
Para as amostras 3, 4, 5, 6, 7 e 1, 3, 5, 7, 9
As variâncias seriam:
S12 = (3-5)2+ (4-5)2 + (5-5)2+ (6-5)2+ (7-5)2/4 S1
2 =2,5
S22 = (1-5)2+ (3-5)2+ (5-5)2+ (7-5)2+ (9-5)2/4 S2
2
=10
A amostra 3, 4, 5, 6, 7 é mais homogênea.
Medida de Dispersão Variância A medida que contempla os aspectos da dispersão é a variância 2 (letra grega sigma) para população e s2 para uma amostra. As fórmulas para a variância da população e da amostra são apresentadas abaixo.
A variância é uma medida que expressa um desvio quadrático médio. A unidade da variância é portanto o quadrado dos dados originais. Ex: para dados expressos em centímetros a variância será expressa em centímetros quadrados.
Cálculo da Variância de Desvio Padrão Na amostra a raiz da variância é igual ao desvio padrão.
Cálculos de Variância de Desvio
Calcule a Variância e o Desvio da Seguinte Amostra ou População ? { 3,5,6,8,9,10,13,16}
Desvio Médio
O desvio médio (DM) refere-se à média dos desvio em valor absoluto, como na fórmula a seguir, aplicada a amostra 3, 4, 5, 6, 7. DM(x) = 6/5 = 1,2 Para a amostra 1, 3, 5, 7, 9 teríamos: DM(x) = 12/5 = 2.4
Medidas de Dispersão: Desvio Padrão • O desvio padrão define-se como a raiz quadrada da
variância. É definido desta forma de maneira a dar-nos uma medida da dispersão que:
• seja um número não-negativo;
• use a mesma unidade de medida dos dados fornecidos inicialmente.
• Faz-se uma distinção entre o desvio padrão σ (sigma) do total de uma população ou de uma variável aleatória, e o desvio padrão s de um subconjunto em amostra.
• O termo desvio padrão foi introduzido na estatística por Karl Pearson no seu livro de 1894: "Sobre a dissecção de curvas de frequência assimétricas".