Probabilidade e Estatística -Aula 4 -Revisão de Conceitos

Probabilidade e Estatística AULA -04

Bolsa de Nova York 10/06/2011

2

O que é ESTATÍSTICA • Segundo Velleman “Estatística é a Ciência de obter

conclusões a partir de dados”.

• Paul F. Velleman é um professor de estatística na Universidade de Cornell. Professor Paul Velleman tem uma reputação internacional para a educação estatísticas através de técnicas inovadoras.

A Estatística envolve técnicas para coletar, organizar,

descrever, analisar e interpretar dados, ou provenientes de

experimentos, ou vindos de estudos observacionais. Dados

=> Informações => Decisões

3

O que é ESTATÍSTICA

• Parte de perguntas/desafios do mundo REAL: – Estatísticas financeiras; econômicas aplicadas a econometria

– um político quer saber qual é o percentual de eleitores que pretende votar nele nas próximas eleições.

– a Ford quer verificar a qualidade de um lote inteiro de peças fornecidas através de uma pequena amostra.

– Um produto lançado no mercado esta tendo aceitação?

• Mudança de enfoque:

– Atividade de estado para aplicação em pesquisa

científica em geral.

4

Por que usar Estatística?

• Por que a natureza apresenta VARIABILIDADE: – Variações de indivíduo

para indivíduo;

– Variações no mesmo indivíduo;

“A Estatística estuda como controlar, minimizar e observar a variabilidade INEVITÁVEL de todas as medidas e observações”.Sem Métodos Estatísticos, sem validade científica!

5

Por que usar Estatística

Governos Mundiais Empresas

Tomada de decisões

Pesquisas de opinião, pesquisas de mercado

Previsões de curto, médio e longo prazo

Duas disciplinas de Estatística

6

Medidas de localização central: Média

• Média: Numa amostra de n observações, x1, x2, …, xn

Se os dados estiverem agrupados (k valores distintos)

onde fi designa a frequência absoluta de xi* (ou a frequência absoluta da

classe com marca xi* no caso de dados agrupados em classes)

n

x

n

x

n

xxxx

i

n

i

i

n

121 ...

n

fx

n

fx

n

fxfxfxx

ii

k

i

ii

nn

*

1

*

*

2

*

21

*

1 ...

7

Medidas de localização central: Média

• A média pode ser pensada como o centro de massa dos valores das observações, ie, o ponto de equilibrio após

dispormos as observações sobre uma régua.

Pontos afastados ou erros nas observações podem

afastar a média do grosso das observações.

Tendência Central: Média Aritmética

Cálculo da média Aritmética

9

Medidas de localização central: Moda

• A moda é o valor mais frequente de uma amostra.

• Ao contrário do que acontece com a mediana e a média, uma amostra pode possuir mais do que uma moda.

Moda

10

Conceito de População e Amostra

• População: conjunto de indivíduos com pelo menos uma característica observável

• Se todos podem ser pesquisados: CENSO

• Se não, pesquisa-se uma Amostra: subconjunto finito da população.

X1 X2 X3 ...

11

Medidas amostrais mais utilizadas • Localização relativa:

– Mínimo é o valor minimo da amostra

– Máximo é o valor maximo da amostra

No caso seguinte temos

Conceitos de Estatística Descritiva • Na estatística descritiva , um quartil é qualquer um dos três

valores que divide o conjunto ordenado de dados em quatro partes iguais, e assim cada parte representa 1/4 da amostra ou população.

• Assim, no caso duma amostra ordenada, • primeiro quartil (designado por Q1/4) = quartil inferior = é o

valor aos 25% da amostra ordenada = 25º percentil • segundo quartil (designado por Q2/4) = mediana = é o valor

até ao qual se encontra 50% da amostra ordenada = 50º percentil , ou 5º decil .

• terceiro quartil (designado por Q3/4) = quartil superior = valor a partir do qual se encontram 25% dos valores mais elevados = valor aos 75% da amostra ordenada = 75º percentil

• à diferença entre os quartis superior e inferior chama-se amplitude inter-quartil.

Análise do Coeficiente de Variação

O coeficiente de variação é geralmente expresso em percentagem. O C.V. é independente das unidades adotadas. Por essa razão, é vantajosa para a comparação de distribuições cujas unidades podem ser diferentes. Uma desvantagem do C.V. é que ele deixa de ser útil quando a média esta próximo de zero.

Baixa dispersão: CV 15%

Média dispersão: CV 15-30%

Alta dispersão: CV 30%

Conceitos Fundamentais Estatística Descritiva

Dada uma amostra a amplitude

Amplitude = X(máximo)-X(mínimo) = 8- 2 =6

Quartis – Dispersão

Os Quartis dividem a distribuição dos dados em quatro partes iguais, correspondendo cada uma delas a 25% do total dos dados ordenados, esta separação é feita por três valores Q1,Q2 eQ3 o valor de Q1 esta abaixo dos 25% dos valores da amostra o valor de Q2 coincide com a mediana o valor de Q3 localiza-se abaixo dos 75%.

Exemplo de Quartil

• Exemplo 1:

• Amostra: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36

• Amostra ordenada: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49

• Q1/4 = 15

• Q2/4 = 40

• Q3/4 = 43

Graficos Boxplot • Exemplos de Gráficos tipo Boxplot

18

Subdivisões da Estatística • AMOSTRAGEM: técnicas para obter uma amostra

representativa, suficiente e que possa ser generalizada para a população.

• ANÁLISE EXPLORATÓRIA DE DADOS: técnicas para resumir, organizar e interpretar os dados, de uma amostra ou da população, para obter informações.

• INFERÊNCIA ESTATÍSTICA: técnicas para generalizar estatisticamente os resultados de uma amostra para a população.

• PROBABILIDADE: técnicas que permitem calcular a confiabilidade das conclusões de Inferência Estatística.

19

Variáveis

• São características observáveis em cada elemento pesquisado: medidas, controladas ou manipuladas em uma pesquisa.

• Cada variável, para cada elemento pesquisado pode assumir APENAS UM valor em determinado momento

• Classificação por nível de mensuração: quantidade de “informação”. – Qualitativas: nominais, ordinais.

– Quantitativas: discretas, contínuas.

• Classificação por nível de manipulação: quais são manipuladas (independentes) e quais apenas observadas (dependentes).

20

Objetivos das pesquisas

• Em última análise os objetivos das pesquisas consistem em estudar o relacionamento entre variáveis na POPULAÇÃO.

• Magnitude e confiabilidade do relacionamento.

• O número de variáveis envolvidas, o seu nível de mensuração, quais são as “independentes” e as “dependentes”, o tipo de pesquisa (levantamento, experimento, censo ou amostragem) influenciarão na escolha das técnicas: – para coletar os dados;

– para apresentar os dados;

Tendência Central: Média Harmônica

Média Harmônica de dados agrupados

Cálculo da média harmônica dos seguintes valores { 2,4,5,7,8,9,12,15}

Tendência Central: Média Harmônica

Média Harmônica: O número de observações divido pela soma do inverso dos valores. Para dados não agrupados;

Cálculo da média harmônica no Excel valores: { 2,4,5,7,8,9,12,15}

Tendência Central: Média Geométrica

A média geométrica é dados agrupados

A média geométrica é dada tirando –se a raiz de ordem n da multiplicação dos valores.

Calcule a média geométrica dos seguintes valores { 2,4,5,7,8,9,12,15}

Tendência Central: Mediana

Assim como a média, a mediana também visa calcular uma tendência central, A mediana é o termo que ocupa a posição central de um conjunto de n Dados ordenados. Exemplo do calculo da mediana com Excel:

Relação entre as Médias Aritméticas Geométricas e Harmônica

Para um conjunto de números positivos vale a seguinte relação:

Usamos a média geométrica

quando os dados estão em uma progressão geométrica.

exemplo { 2,4,8,16,32,64....1024} o próximo valor é o anterior multiplicado por 2 (dois), por exemplo.

Média Harmônica quando as variáveis são inversamente proporcionais tempo e velocidade.

Tendência Central Mediana

Em teoria da probabilidade e em estatística, a mediana é uma medida de tendência central, um número que caracteriza as observações de uma determinada variável de tal forma que este número (a mediana) de um grupo de dados ordenados separa a metade inferior da amostra, população ou distribuição de probabilidade, da metade superior

Quando os dados estão ordenados em ordem

crescente, e o numero de amostras é impar. A mediana é dada: Mediana= (N+1)/2

Probabilidade e Estatística

Medidas de tendência central fornecem um resumo parcial das informações de um conjunto de dados.

A necessidade de uma medida de variação é aparente, para que nos permita, por exemplo, comparar conjuntos diferentes de valores.

Algumas característica desta medida devem ser atendidos como veremos a seguir

Médidas de Dispersão

As medidas de tendência central pouco ou nada informam a respeito da dispersão dos dados. O conceito de medida de dispersão é relativamente difícil

Medidas de Dispersão

O critério geralmente utilizado é aquele que mede a concentração dos dados em torno da média, e algumas medidas são as mais usadas: desvio médio, variância, desvio padrão e Coeficiente de Variação.

Ex: 3, 4, 5, 6, 7 (média 5), os desvios xi-x, são: -2, -1, 0, 1 ,2.

1, 3, 5, 7, 9 (média 5), os desvios xi-x, são: -4, -2, 0, 2, 4.

É fácil observar que a soma dos desvios é igual a zero, o que torna inviável esta medida. As opções são:

a)Considerar o total dos desvios em valor absoluto (módulo) ou,

b)Considerar o total dos quadrados dos desvios. Assim teríamos:

Para a amostra: 3, 4, 5, 6, 7

= 2 + 1 + 0 + 1 + 2 = 6 (a)

2 = 4 + 1 + 0 + 1 + 4 = 10 (b)

Conceito de Dispersão

• As medidas de dispersão indicam como os valores de um conjunto distribuem-se (dispersam) em relação a seu ponto central (média). Quanto maior apresentar-se o intervalo entre os valores extremos de um conjunto, menor é a representatividade estatística da média, pois os valores em observação distanciam-se desta medida central.

• As principais medidas de dispersão a serem estudadas neste item, que apresentam larga aplicação prática na avaliação de risco, são odesvio-padrão, a variância e o coeficiente de variação

Desvio padrão e Variância

• Desvio e variância são as mais importantes e utilizadas medidas de dispersão. O desvio-padrão é representado por σ (sigma), quando calculado de dados de uma população, e por S, quando obtido da amostra (estimativa média da população). Essa medida visa medir estatisticamente a variabilidade (grau de dispersão) de um conjunto de valores em relação a sua média.

Coeficiente de Variação

• Enquanto o desvio-padrão (e a variância) mede o grau de dispersão absoluta dos valores em torno da média, o coeficiente de variação, geralmente expresso em porcentagem, indica a dispersão relativa, ou seja, o risco por unidade.

• Essa medida é obtida pela simples relação entre o desvio-padrão e a média aritmética da amostra (ou população), ou seja:

Calcule a média e o desvio Neste caso vamos considerar o desvio Amostral e não populacional

Repita a mesma tabela

Medida da Variância

Para as amostras 3, 4, 5, 6, 7 e 1, 3, 5, 7, 9

As variâncias seriam:

S12 = (3-5)2+ (4-5)2 + (5-5)2+ (6-5)2+ (7-5)2/4 S1

2 =2,5

S22 = (1-5)2+ (3-5)2+ (5-5)2+ (7-5)2+ (9-5)2/4 S2

2

=10

A amostra 3, 4, 5, 6, 7 é mais homogênea.

Medida de Dispersão Variância A medida que contempla os aspectos da dispersão é a variância 2 (letra grega sigma) para população e s2 para uma amostra. As fórmulas para a variância da população e da amostra são apresentadas abaixo.

A variância é uma medida que expressa um desvio quadrático médio. A unidade da variância é portanto o quadrado dos dados originais. Ex: para dados expressos em centímetros a variância será expressa em centímetros quadrados.

Cálculo da Variância de Desvio Padrão Na amostra a raiz da variância é igual ao desvio padrão.

Cálculos de Variância de Desvio

Calcule a Variância e o Desvio da Seguinte Amostra ou População ? { 3,5,6,8,9,10,13,16}

Desvio Médio

O desvio médio (DM) refere-se à média dos desvio em valor absoluto, como na fórmula a seguir, aplicada a amostra 3, 4, 5, 6, 7. DM(x) = 6/5 = 1,2 Para a amostra 1, 3, 5, 7, 9 teríamos: DM(x) = 12/5 = 2.4

Medidas de Dispersão: Desvio Padrão • O desvio padrão define-se como a raiz quadrada da

variância. É definido desta forma de maneira a dar-nos uma medida da dispersão que:

• seja um número não-negativo;

• use a mesma unidade de medida dos dados fornecidos inicialmente.

• Faz-se uma distinção entre o desvio padrão σ (sigma) do total de uma população ou de uma variável aleatória, e o desvio padrão s de um subconjunto em amostra.

• O termo desvio padrão foi introduzido na estatística por Karl Pearson no seu livro de 1894: "Sobre a dissecção de curvas de frequência assimétricas".

Probabilidade e Estatística -Aula 4 -Revisão de Conceitos

Documents

Transcript of Probabilidade e Estatística -Aula 4 -Revisão de Conceitos