Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI...

58
MBI –Master Business Information – Engenharia de Informações –Intelligence Análise Univariada MBI –Master Business Information – Engenharia de Informações –Intelligence Frases “Torture os dados por um tempo suficiente, e eles contam tudo!” fonte: [email protected] (Barry Fetter) “Um homem com um relógio sabe a hora certa. Um homem com dois relógios só sabe a média.” Anônimo MBI –Master Business Information – Engenharia de Informações –Intelligence Roteiro 1. Introdução 2. Gráficos – Variáveis Qualitativas 3. Gráficos - Variáveis Quantitativas 4. Gráficos Temporais 5. Medidas de Tendência Central 6. Medidas de Dispersão 7. Quantis 8. Transformações 9. Referências

Transcript of Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI...

Page 1: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

1

MBI – Master Business Information – Engenharia de Informações – Intelligence

Análise Univariada

MBI – Master Business Information – Engenharia de Informações – Intelligence

Frases

“Torture os dados por um tempo suficiente, e eles contam tudo!”

fonte: [email protected] (Barry Fetter)

“Um homem com um relógio sabe a hora certa. Um homem com dois relógios só sabe a média.”

Anônimo

MBI – Master Business Information – Engenharia de Informações – Intelligence

Roteiro

1. Introdução2. Gráficos – Variáveis Qualitativas3. Gráficos - Variáveis Quantitativas4. Gráficos Temporais5. Medidas de Tendência Central6. Medidas de Dispersão7. Quantis8. Transformações9. Referências

Page 2: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

2

MBI – Master Business Information – Engenharia de Informações – Intelligence

Introdução

LFB126

MBI – Master Business Information – Engenharia de Informações – Intelligence

Atitudes

• Atitudes em relação aos dados:√ QUE VEMOS NOS DADOS:

Atitude da Análise Exploratória de Dados

√ QUAIS AS RESPOSTAS DOS DADOS A ESTA QUESTÃO?

Atitude da Inferência Estatística

MBI – Master Business Information – Engenharia de Informações – Intelligence

Análise Exploratória de Dados

• Exploração de dados, sem que saibamos o que eles irão mostrar;

• Baseia-se essencialmente em gráficos dos dados;• Procura padrões que sugiram questões de estudo

ou conclusões;• Fornece evidência emp írica

√ Podem surgir padrões dos dados, oriundos de muitas fontes.

Page 3: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

3

MBI – Master Business Information – Engenharia de Informações – Intelligence

Objetivos

• Emprega técnicas gráficas e quantitativas, com o objetivo de:√ Obter informações ocultas na estrutura dos dados√ Descoberta de variáveis importantes;√ Identificação de fontes de variabilidade e tendências;

√ Detecção de comportamentos anômalos;√ Escolha de modelos;√ Determinação de número ótimo de variáveis

MBI – Master Business Information – Engenharia de Informações – Intelligence

Idéia Básica

• Modelo = Suave + Irregular (tosco)

• Técnicas visuais podem frequentemente separar mais o “suave” do “irregular” (“ruído”)

MBI – Master Business Information – Engenharia de Informações – Intelligence

Técnicas que buscam:

• maximizar o “insight” do conjunto de dados;

• perceber a estrutura subjacente;

• extrair variáveis importantes;

• detectar valores atípicos (extremos) e anomalias;

• testar hipóteses fundamentais;

• desenvolver modelos parcimoniosos; e• determinar conjunto ótimo de fatores

Page 4: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

4

MBI – Master Business Information – Engenharia de Informações – Intelligence

Clássica vs Exploratória

• Seqüência Clássica: √ Problema > Dados > Modelo> Análise > Conclusões

• Exploratória:√ Problema > Dados > Análise > Modelo > Conclusões

MBI – Master Business Information – Engenharia de Informações – Intelligence

Tratamento de Dados

• Clássica:√ Média e desvio padrão = estimativas pontuais√ Medida de variabilidade explicada – r de Pearson

• Exploratória√ Resumo Numérico (5): Min, Q1, Median, Q3,

Max√ todos (maioria) dados=resumos visuais√ Dispersão√ Histograma

√ boxplot

MBI – Master Business Information – Engenharia de Informações – Intelligence

Estratégia Básica de Exploração

1. Começar examinando isoladamente cada variável.Passar então ao estudo das relações entre as variáveis;

2. Começar com um ou mais gráficos. Acrescentar então medidas resumo de aspectos dos dados

Page 5: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

5

MBI – Master Business Information – Engenharia de Informações – Intelligence

Tipos de Variáveis

Tipos de Variáveis

Quantitativa(medições e contagens)

Qualitativa(define grupos)

Contínua(poucos valores repetidos)

Categ órica(nenhuma idéia de ordem)

Discreta(muitos valores repetidos)

Ordinal(há ordenação natural)

MBI – Master Business Information – Engenharia de Informações – Intelligence

Diretrizes da Técnica

• Passos fundamentais da t écnica:1. Iniciar a análise pelo exame dos dados

disponíveis;2. Decidir técnica para aplicar no equacionamento

do problema;3. Procurar a equação (modelo) que melhor os

represente;4. Interpretar os resultados da modelagem.

MBI – Master Business Information – Engenharia de Informações – Intelligence

Análise Exploratória de Dados

Não pode nunca ser toda a história, mas só ela pode servir como primeiro passo.

Page 6: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

6

MBI – Master Business Information – Engenharia de Informações – Intelligence

Análise Gráfica de Variáveis Qualitativas

MBI – Master Business Information – Engenharia de Informações – Intelligence

Variáveis Categóricas

• Valores são rótulos (níveis) para as categorias.Ex.: “masculino”, “feminino”

MBI – Master Business Information – Engenharia de Informações – Intelligence

Caso 1 – Programa Saúde da Família

• Pesquisa para análise da situação de saúde, considerando as características sociais, econômicas e culturais de região carente de BH, atendida pelo Programa Saúde da Família.

• Aplicados questionários a 60 pessoas da região• Dados: saude_da_familia

Page 7: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

7

MBI – Master Business Information – Engenharia de Informações – Intelligence

Níveis das Variáveis• Categóricas

Sexo: F - FemininoM- Masculino

Moradia: 1 - Própria2 - Alugada3 - Cedida4 - Financiada

Tratamento água de beber: 1 - Filtro

2 - Fervura3 - Cloro4 - Sem Tratamento

Destino do Lixo: 1 - Coleta Oficial2 - Queimado3 - Céu Aberto4 - Enterrado5 - Caçamba6 - Córrego / Rio

Renda Familiar: 1 - Sem Renda 2 - Até 1 SM3 - 1,01 a 2 SM4 - 2,01 a 3 SM5 - 3,01 a 5 SM6 - 5,01 a 10 SM7 - 10,01 a 20 SM8 - Acima de 20 SM

Em caso de doençaprocura: 1 - Hospital

2 - Unidade Básica de Saúde3 -Benzedeira4 - Farmácia5 - Unidade de Urgência 6 - Outros

Participa de gruposcomunitarios: 1 - Cooperativa

2 - Grupo Religioso3 - Associações4 - Outros5 - Não Participa

Meios de transportemais usados: 1 - Ônibus

2 - Caminhão3 - Carro4 - Carroça5- Metrô6- Outros

Alguém da Famíliapossui plano de saúde?: 1 - Sim

2 - Não

• QuantitativasIdade:

Nº de pessoas que reside no local:

Nº de pessoas cobertas pelo plano de saúde:

MBI – Master Business Information – Engenharia de Informações – Intelligence

Distribuição de Freqüências

• A distribuição de freqüências de variável qualitativa se dá:√ Contagem (número) de indivíduos, ou√ Percentagem de indivíduos que se enquadram em

cada categoria;

MBI – Master Business Information – Engenharia de Informações – Intelligence

Moradia Quantidade Percentagem Própria 22 36,67

Alugada 11 18,33

Cedida 16 26,67

Financiada 11 18,33

N= 60 100,00

Tratamento da água de beber Quantidade Percentagem

Filtro 43 71,67 Fervura 5 8,33 Sem tratamento 12 20,00

N= 60 100,00

Destino do Lixo Quantidade Percentagem

Coleta Oficial 42 70,00 Queimado 6 10,00

Céu Aberto 4 6,67

Enterrado 1 1,67

Caçamba 4 6,67 Córrego / Rio 3 5,00

N= 60 100,00

Em caso de

doença procura Quantidade Percent agem

Hospital 13 21,67

Unidade Básica de Saúde 37 61,67

Benzedeira 3 5,00

Farmácia 3 5,00

Unidade de Urgência 4 6,67

N= 60 100,00

Meios de transporte

mais usados Quantidade Percentagem

Ônibus 2 5 41,67

Caminhão 5 8,33

Carro 1 3 21,67

Carroça 9 15,00

Metrô 8 13,33

N= 6 0 100,00

Caso 1 – Algumas Distribuições • Categóricas

Page 8: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

8

MBI – Master Business Information – Engenharia de Informações – Intelligence

Gráficos de Barras• Compara rapidamente os tamanhos dos grupos;• As alturas das barras mostram as quantidades

(ou %) de cada categoria

Em caso de doença procura

Qte

.

U. Urgê nciaF armáciaBenze deiraU. BásicaHospital

40

30

20

10

0

433

37

13

Gráfico de Bar ras

MBI – Master Business Information – Engenharia de Informações – Intelligence

Gráfico de Setores

• Permite ver que parte do total cada grupo constitui

20,0%S/ Tratamento

71,7%Filtro

8,3%Fer vura

Gr áfico de S etores - Tratamento da água de beber

MBI – Master Business Information – Engenharia de Informações – Intelligence

Gráficos de Barras e Setores –Comentários

• Permitem assimilar rapidamente a distribuição;

• São de uso limitado para a análise de dados, pois, é fácil interpretar dados categóricos de uma única variável;

Page 9: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

9

MBI – Master Business Information – Engenharia de Informações – Intelligence

Mais Gráficos de Distribuições

• Variáveis dicotômicas do banco de dados:

31,7%M

68,3%F

Sexo

73,3%Sim

26,7%Não

Alguém da Fam ília possui plano

Alguns Gráf icos de Setores

MBI – Master Business Information – Engenharia de Informações – Intelligence

Outros Gráficos de Barras

Qu

ant

ida

de

Não P artici paA sso cia çõe sGrup o Re li gio soC oop erativ a

30

20

10

0M or ad ia

Qu

ant

ida

de

Fi nanc ia daCe did aA lu gad aPrópri a

20

15

10

5

0

Qu

ant

ida

de

MetrôC a rro çaC arroCa minh ãoÔnib us

24

18

12

6

0

%

5 a 10 SM3 a 5 SM2 a 3 SM1 a 2 SMaté 1 S MSe m rend a

30

20

10

0

12

10

28

1 0

11

16

1 1

22

89

13

5

25

1 3, 33 3313, 33 33

2 0

28, 33 33

21 , 666 7

3 , 3333 3

Par ticipação em gr upos comunitár ios Mor adia

Meios de transport e mais usados Renda Familiar

To dos o s da dos e m porce ntage m

MBI – Master Business Information – Engenharia de Informações – Intelligence

Gráfico de Pareto

• Gráfico de barras com os itens ordenados por tamanho;

• Usada com variáveis categóricas, quando se deseja focar a atenção nos níveis mais freqüentes;

• Traz duas escalas verticais:√ À esquerda: Quantidade absoluta por nível√ À direita: Percentagem acumulada

Page 10: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

10

MBI – Master Business Information – Engenharia de Informações – Intelligence

• Aproximadamente 70% do lixo é coletado, 80%, é coletado ou queimado.

• O gráfico de Pareto é muito utilizado em Controle de Qualidade

Qu

an

tid

ade

% A

cu

mu

lad

a

Co unt

10 ,0 6,7 6, 7 5, 0 1, 7Cum % 7 0,0 80 ,0 8 6,7 93, 3

42

98, 3 1 00, 0

6 4 4 3 1Percent 7 0,0

Out ro sCórrego/rioCaçamb aCéu Aber toQue ima doColeta Oficial

60

50

40

30

20

10

0

100

80

60

40

20

0

Gráfico de Pareto - Destino do Lixo

MBI – Master Business Information – Engenharia de Informações – Intelligence

Gráficos de Barras e Setores –Comentários

• O gráfico de setores não é uma forma boa de dispor informações!√ O olho é bom para julgar medidas lineares e ruim em

julgar áreas relativas.

• Um gráfico de barras ou um diagrama de pontos são formas preferíveis de dispor este tipo de dado.

Cleveland (1985): ”Dados que podem ser mostrados por um gráfico de setores sempre podem ser mostrados por um gráfico de barras ou um diagrama de pontos. Isto significa que julgamentos da posição em meio a uma escala comum podem ser feitos em vez de julgamentos menos acurados via ângulos dos setores.”

MBI – Master Business Information – Engenharia de Informações – Intelligence

Análise Gráfica de Variáveis Quantitativas

Page 11: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

11

MBI – Master Business Information – Engenharia de Informações – Intelligence

Variáveis Quantitativas

• Resultados de medição:√ Variáveis contínuas

• Resultados de contagens:√ Variáveis discretas

MBI – Master Business Information – Engenharia de Informações – Intelligence

Variabilidade

• Variabilidade por diferenças entre indivíduos:√ Ex.: medidas de peso em indivíduos de amostra

• Variabilidade do instrumento de medição:√ Ex.: medidas da velocidade da luz (Newcomb,

1882)

MBI – Master Business Information – Engenharia de Informações – Intelligence

Distribuição de Variável Quantitativa

• Distribuição é constituída pelo padrão de variabilidade da variável;

• Distribuição de variável registra seus valores numéricos e a freqüência de ocorrência de cada valor;

• A melhor maneira de representar uma distribuição é graficamente.

Page 12: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

12

MBI – Master Business Information – Engenharia de Informações – Intelligence

Gráficos para Distribuição Quantitativa

• Ramo-e-folhas;• Histograma

MBI – Master Business Information – Engenharia de Informações – Intelligence

Ramo – e – folhas

• Gráfico que dá uma noção rápida da forma da distribuição;

• Funcionam melhor para pequeno número de observações, que sejam maiores que zero;

• Em inglês: “stem-and-leaf”

MBI – Master Business Information – Engenharia de Informações – Intelligence

Construção de Ramo-e-folhas

• Classificar cada observação:

√ Ramo: todos os dígitos menos o último (à direita)

√ Folha: o algarismo final

• Ordenar os ramos em coluna vertical e traçar reta vertical à esquerda da coluna;

• Escrever cada folha na linha à direita de seu ramo.

Page 13: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

13

MBI – Master Business Information – Engenharia de Informações – Intelligence

Exemplo 1.4 – pg. 7

• Home runs de lendário jogador:

• Ramo-e-folhas

54 59 35 41 46 25 47 60 54 46 49 46 41 34 22

2 25 3 45 4 1166679 5 449 6 0

MBI – Master Business Information – Engenharia de Informações – Intelligence

Ex. 1.5 • Gasto de 50 clientes em supermercado:

• Ramo-e-folhas:

3.11 8.88 9.26 10.81 12.69 13.78 15.23 15.62 17.00 17.39 18.36 18.43 19.27 19.50 19.54 20.16 20.59 22.22 23.04 24.47 24.58 25.13 26.24 26.26 27.65 28.06 28.08 28.38 32.03 34.98 36.37 38.64 39.16 41.02 42.97 44.08 44.67 45.40 46.69 48.65 50.39 52.75 54.80 59.07 61.22 70.32 82.70 85.76 86.37 93.34

MBI – Master Business Information – Engenharia de Informações – Intelligence

0 3 0 89 1 023 1 557788999 2 002344 2 5667888 3 24 3 689 4 1244 4 568 5 024 5 9 6 1 6 7 0 7 8 2

• Incremento: dezena

0 389 1 023557788999 2 0023445667888 3 24689 4 1244568 5 0249 6 1 7 0 8 2

• Incremento: 5

Page 14: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

14

MBI – Master Business Information – Engenharia de Informações – Intelligence

Exame de Distribuição

• Procure o padrão geral do gráfico e desvios acentuados àquele padrão;

• Descreva os padrão geral através de:sua forma, seu centro e sua dispersão;

• Importante:√ Outlier: valor individual que se afasta bastante do

padrão geral

MBI – Master Business Information – Engenharia de Informações – Intelligence

Aspectos da Forma – Moda

• A distribuição suavizada tem um ou vários picos?√ Moda: Valor (ou faixa de valores) mais freqüente;

√ Distribuição unimodal:Distribuição com um único pico

√ Distribuição multimodal:Distribuição com mais de um pico

• Pode ser indicativo de que diferentes categorias têm diferentes padrões.

MBI – Master Business Information – Engenharia de Informações – Intelligence

Aspectos da Forma – Simetria

• A distribuição é aproximadamente simétrica?

√ Simétrica• Os valores menores ou maiores que o ponto médio são

imagens espelho um dos outros

√ Assimétrica:• À direita: cauda direita (valores maiores) é muito maior

que a cauda esquerda

• À esquerda: o contrário

Page 15: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

15

MBI – Master Business Information – Engenharia de Informações – Intelligence

Dos exemplos

Simétrica e Unimodal Assimétrica e Unimodal

Média: 43,9 home runs p/ temporada

0 389 1 023557788999 2 0023445667888 3 24689 4 1244568 5 0249 6 1 7 0 8 2

Média: $ 34,70 p/ cliente

2 25 3 45 4 1166679 5 449 6 0

MBI – Master Business Information – Engenharia de Informações – Intelligence

0 81 3 4 6

5 2 2 3 6 85 4 3 3 9

9 7 6 6 6 1 1 49 4 4 5

0 6 1

Babe Ruth Maris

Uma Comparação• Maris bateu o recorde de Babe Ruth (61 vs. 60).• Qual o jogador melhor?

Outlier

Ambas Simétricas e Unimodais

Mediana: 46

Mediana: 24,5

Média: 43,9

Média: 26,1

MBI – Master Business Information – Engenharia de Informações – Intelligence

Outliers

• Valor significativamente afastado do padrão geral;

• São importantes e devemos procurar uma explicação para qualquer outlier;

√ Podem indicar erros de registro dos dados√ Pode ser causada por falha de medição√ Pode ser indicativo da ocorrência de eventos raros

não revelados pelo padrão geral.

Page 16: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

16

MBI – Master Business Information – Engenharia de Informações – Intelligence

Centro e Dispersão

• Centro:√ Pode ser descrito por seu ponto médio : metade das

observações toma valores superiores a ele e a outra metade, abaixo

• Dispersão:√ Inicialmente, poderíamos utilizar a amplitude:

intervalo entre o maior e o menor valor observados

MBI – Master Business Information – Engenharia de Informações – Intelligence

Histograma

• Os ramo-e-folhas exibem os valores reais das observações e são impróprios para grandes conjuntos de dados;

• Um histograma divide-se em intervalos de valores e apresenta apenas a quantidade de observações, ou porcentagem por cada intervalo;

• Para construção à mão e em pequeno grupo de dados o ramo-e-folhas é mais conveniente.

MBI – Master Business Information – Engenharia de Informações – Intelligence

Construção do Histograma

Em geral:1. Dividir o intervalo dos dados em classes de igual

amplitude;2. Contar o número de observações em cada classe;3. Traçar o histograma:

• Horizontal: valores• Vertical: Quantidade ou porcentagem de valores.• Traçar o gráfico sem espaço entre as barras, a menos

que haja classe vazia.

Page 17: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

17

MBI – Master Business Information – Engenharia de Informações – Intelligence

Exemplo

• Desempenho em leitura de alunos da sétima série;

• Escores de 947 alunos

• Mínimo: 2,0Máximo: 12,1

MBI – Master Business Information – Engenharia de Informações – Intelligence

Notas

Qu

an

tid

ad

e

12108642

250

200

150

100

50

015

24

60

146

206

244

165

5 9

28

9

Hi stograma d as Notas de Vocabu lário

Quantidade Percentagem2 + - - 3 9 0,953 + - - 4 28 2,964 + - - 5 59 6,235 + - - 6 165 17,426 + - - 7 244 25,777 + - - 8 206 21,758 + - - 9 146 15,429 + - - 10 60 6,34

10 + - - 11 24 2,5311 + - - 12 5 0,5312 + - - 13 1 0,11

947 100

Classe

Total

Not as

% e

m c

ad

a c

las

se

12108642

25

20

15

10

5

00,105 5970,5279 83

2 ,5 3432

6,335 8

15 ,4 171

21,75 29

25,765 6

17,423 4

6,23 02

2 ,9 5671

0,95 037

Histog ra ma das Notas de V ocabul ári o

FreqüênciaAbsoluta

FreqüênciaRelativa

• Distribuição regular:UnimodalSimétricaSem outliers vis íveis

MBI – Master Business Information – Engenharia de Informações – Intelligence

Dados de Newcomb

• Medições de Newcomb para cálculo da velocidade da luz√ 66 medições do tempo entre seu laboratório, um

espelho a 7.400 m e a volta√ Tempo medido em nanosegundos (10-9 s)√ 28 é abreviatura de 0,000024828 s√ -44 representa 0,000024756 s ou 24.756

nanosegundos

Page 18: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

18

MBI – Master Business Information – Engenharia de Informações – Intelligence

Variabilidade

• O mesmo indíviduo (luz) foi medido várias vezes;

• A variabilidade nos valores devem-se:√ Alterações no parelho devido a: temperatura√ Densidade atmosférica variando de um dia para

outro

• A média seria uma boa medida para a velocidade da luz?

MBI – Master Business Information – Engenharia de Informações – Intelligence

27,2923Sem outlier mais afastado

26,2121Todas as observações

• Distribuição:√ Simétrica√ Unimodal√ Outliers

• Se não há viésnas medidas, a melhor medida do verdadeiro valor (tempo) éo centro da distribuição

Tempo

Freq

üênc

ia

60402 00-2 0-40

30

25

20

15

10

5

0

Outlier-44 -2

ValorMédia

27,7500Sem outliers

MBI – Master Business Information – Engenharia de Informações – Intelligence

Outliers

• Deve-se procurar a causa para cada outlier:√ Erro de medida√ Falha em equipamento ou erro de transcrição;√ Evidência de ocorrência extraordinária√ Evidência de variabilidade inesperada

Page 19: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

19

MBI – Master Business Information – Engenharia de Informações – Intelligence

Exemplo

• No Brasil houve 262.374 acidentes com vítimas (fatais e não fatais) em 1997. Em 2006 ocorreram 320.333 acidentes desse tipo.

• Você pensa que dirigir um carro era mais seguro em 1997 do que em 2006?

• Fonte: Denatran

MBI – Master Business Information – Engenharia de Informações – Intelligence

Dado Adicional

• A frota nacional, em 1997, era de 30.939.466 e em 2006, 45.370.640.

• Sua resposta à pergunta anterior continua a mesma?

MBI – Master Business Information – Engenharia de Informações – Intelligence

Taxa

• Taxa (subs. fem.):Rubrica: matemática.razão entre as variações de duas grandezas, das quais a primeira é

dependente da segunda.(Dicionário Houaiss)

• É uma medida mais significativa do que uma simples contagem ou número de ocorrências

Page 20: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

20

MBI – Master Business Information – Engenharia de Informações – Intelligence

Taxa de Acidentes por Veículo

• Razão entre número de acidentes e veículos:

• Em 1997:

• Em 2006:

008480,0466.939.30

374.262=

007060,0640.370.45

333.320 =

MBI – Master Business Information – Engenharia de Informações – Intelligence

• O resultado fica muito pequeno, assim multiplicamos por 10.000 e obtemos a taxa: quantidade de acidentes com vítima a cada 10.000 veículos.

• Em 1997:

• Em 2006:

80,84000.10466.939.30

374.262=×

60,70000.10640.370.45

333.320 =×

A taxa de acidentes caiu 16,7%

MBI – Master Business Information – Engenharia de Informações – Intelligence

Tipos de Dados

• Dados de Seção Transversal√ Conjunto de dados com observações de muitos

indivíduos no mesmo instante de tempo (ou sem diferença significativa entre eles);

• Dados Longitudinais:√ Conjunto de dados com observações repetidas do

mesmo indivíduo ao longo do tempo.

Page 21: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

21

MBI – Master Business Information – Engenharia de Informações – Intelligence

Índices de Acidentes por Capital – 2006

• Porto Velho: 15,81√ 3,63 vezes a taxa nacional

• Belo Horizonte: 1,79√ 41% da taxa nacional

Mor tes/10.000 Veículos

Fre

ên

cia

15129630

7

6

5

4

3

2

1

0

Brasil = 4,35

Aciden tes de Trâ nsito Cap itai s - Tax a de Mo rtalid ade

Dados Denatran, 2006

Porto Velho

Mort es/1.000 A cidentes

Fre

ên

cia

1251017753295

5

4

3

2

1

0

Brasil = 61,7

Aci dentes de Trân sito C api tais - Taxa de Se veridad e

Dados Denatran, 2006

J. Pes soa

• João Pessoa: 141,79√ 2,29 vezes a taxa nacional

• Belo Horizonte: 15,84√ 27% da taxa nacional

MBI – Master Business Information – Engenharia de Informações – Intelligence

Índices de Acidentes por Capital (2)

• São Paulo: 13,51√ 1,28 vezes a taxa nacional

• Belo Horizonte: 6,92√ 65% da taxa nacional

• Manaus: 43,80√ 3,77 vezes a taxa nacional

• Belo Horizonte: 28,35√ 2,43 vezes a taxa nacional

Mo

rte

s/

100

.00

0 H

ab

ita

nt

es

20

15

10

5

0

10,57

Vi tória

Teresi naS ão P aul o

Sã o Luí s

Sa lva do r

R io d e Jan eiro

Rio Bran co

Rec ife

Po rto Al eg re

Pa lmas

N atal

Mana us

Macei ó

João P esso a

F ortale za

Cu ritib a

C ui abá

C amp o G ra nd e

B rasí li a

Bel o Hori zon teB elém

A racaju

Dados Denatran, 2006

Acidentes de Trânsi to C apitais - T axa de Mortali dade

Brasi l

At ropelament os/10.000 Veículos

%

42363024181260

40

30

20

10

0

Brasi l = 11,63

Manaus

Acid ente s d e Trânsito Cap ita is - Tax a de Atropel amentos

Dados Denatram, 2006

MBI – Master Business Information – Engenharia de Informações – Intelligence

Índices de Motorização por Capital – 2006

• Curitiba: 55,38√ 2,28 vezes a taxa nacional

• Belo Horizonte: 38,67√ 1,59 vezes a taxa nacional

Ve

ícu

los

/1

00

Ha

bit

an

tes

60

50

40

30

20

10

24,29

SE

N E

S E

N E

N E

SE

NOR TE

N EN ORT E

SU LC. OES TE

N E

NOR TE

N E NOR TE

N E

C. OES TE

NE

SU L

S U L

N ORT E

C. OES TEC.OES TE

N ORT E

SE

N ORT E

N E

C apitais - Ta xa de M otorizaçã o

Dados Denatran, 2006

Br as i l

Page 22: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

22

MBI – Master Business Information – Engenharia de Informações – Intelligence

Quadro Comparativo (1)

14,4011,63Atropelamentos/10k veíc.47,0561,66Mortes/1.000 acidentes3,064,35Mortes/10.000 veículos

10,7310,58Mortes/100.000 hab.35,0824,29Veículos/100 habitantes

22.42852.781Atropelamentos4.76619.752Mortes

101.303320.333Acidentes15.575.96445.370.640Frota44.405.697186.770.562PopulaçãoCapitaisBrasil

123,876,370,3

101,4144,442,524,131,634,323,7%

MBI – Master Business Information – Engenharia de Informações – Intelligence

Quadro Comparativo (2)

Atropelamentos/10k veíc.Mortes/1.000 acidentesMortes/10.000 veículosMortes/100.000 hab.Veículos/100 habitantesAtropelamentosMortesAcidentesFrotaPopulação

CuritibaB.H.

0,390,750,470,671,430,410,500,671,070,75

Ct/BH

11,0011,900,844,64

55,381.090

836.973

990.5421.788.559

28,3515,841,796,92

38,672.631

16610.478

927.9902.399.920

MBI – Master Business Information – Engenharia de Informações – Intelligence

Séries Temporais

• Séries Temporais:√ Medidas de uma variável tomadas a intervalos

regulares de tempo√ EX.:

• Dados governamentais econômicos e sociais• Dados econômicos• Registros metereológicos• Produção ao longo do tempo

Page 23: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

23

MBI – Master Business Information – Engenharia de Informações – Intelligence

Gráficos Temporais

MBI – Master Business Information – Engenharia de Informações – Intelligence

Gráficos Temporais

• Podem revelar muitas características de uma série temporal;

• Localizar padrão global, e depois, os desvios significativos em relação a esse padrão

MBI – Master Business Information – Engenharia de Informações – Intelligence

Padrão Geral de uma Série

• Variação sazonal:√ Padrão que se repete a intervalos regulares de tempo;

• Tendência:√ Ascensão ou declínio persistente a longo prazo

Page 24: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

24

MBI – Master Business Information – Engenharia de Informações – Intelligence

Exemplo – Preço do Leite

• Planilha: Leite√ Há tendência? Qual?√ Há efeito sazonal?

Leit

e

YearMonth

1974197219701968196619641962janjanjanjanjanj anj an

1000

900

800

700

600

500

Evolução do Preço Médio Mensal do Le ite

MBI – Master Business Information – Engenharia de Informações – Intelligence

Ajuste Linear da Tendência

Lei

te

YearMonth

1974197219701968196619641962janj anj anjanj anj anjan

1000

900

800

700

600

500

Mode lo de Crescimento LinearLinea r Trend Model

Yt = 611 ,682 + 1,69262*t

Os dados são mensais

Equação da reta

MBI – Master Business Information – Engenharia de Informações – Intelligence

Estimação Não Paramétrica da Tendência

• Smoother nos valores default do Minitab

Leit

e

Yea rMonth

1974197219701968196619641962janjanjanj anjanjanjan

1000

900

800

700

600

500

Tendência Leva ntada por Suavizador

Page 25: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

25

MBI – Master Business Information – Engenharia de Informações – Intelligence

Estimação da Tendência com Média Móvel

• Média móvel de 12 meses

Leit

e

Ye arMo nth

19 74197219 701 96819 6619 64196 2janja njanja njanjanj an

1 000

900

800

700

600

500

Moving A ver ageLength 12

Tendência pela do P reço do Leite Estimada pela Média Móvel

MBI – Master Business Information – Engenharia de Informações – Intelligence

Número Índice

• Cada valor é calculado como uma percentagem do preço (ou outra grandeza) em uma data base.√ A base pode ser também uma média de período

• O número índice da data base é sempre considerado igual a 100.

MBI – Master Business Information – Engenharia de Informações – Intelligence

Exemplo – Dados sobre Trânsito em BH

• Dados anuais:√ População√ Frota√ Quantidade de Vítimas Fatais

• Período de 1991 a 2005• Planilha: transito_BH

Page 26: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

26

MBI – Master Business Information – Engenharia de Informações – Intelligence

• Escalas de magnitude diferentes atrapalham a comparação entre diferentes evoluções

• Uma solução: números-índice

A no

Qte

2005

2004

2003

2002

20012000

1999

1998

1997

1996

1995

1994

1993

1992

1991

2500000

2000000

1500000

1000000

500000

0

Variable

Pop ulação

FataisFr ota

Trânsito em BH: Ev olução da População, Frota e Vítimas Tais

Dados : Detran_MG, 2006

MBI – Master Business Information – Engenharia de Informações – Intelligence

Trânsito em BH: Alguns Índices

• Quais conjecturas podemos levantar

A no

mer

o-Ín

dic

e

2005

2004

2003

2002

2001

2000

1999

1998

1997

1996

1995

1994

1993

1992

1991

200

150

100

50

Variable

Fatais_indAcidentes_ind

População _indFro ta_ind

Trânsito em BH: Evolução de Índices

Base: 1991 = 100

MBI – Master Business Information – Engenharia de Informações – Intelligence

Evolução de Vítimas Fatais

• Há um ponto aparente de inflexão da curva?

A no

Qte

. V

ítim

as

Fa

tais

po

r A

no

2 00520042003200 22001200019 991 9981997199 619 951994199319 921 991

600

500

400

300

200

100

Trânsito em BH: Vítimas Fatais Anuais

suavizador

Page 27: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

27

MBI – Master Business Information – Engenharia de Informações – Intelligence

Evolução da Frota

• Qual a tendência dos dados?

Ano

Tam

an

ho d

a Fr

ota

(u

n.)

20052004200 32002200120001999199 819 9719 961 9951994199319921 991

900000

800000

700000

600000

500000

Evolução da Frota

suavizador

MBI – Master Business Information – Engenharia de Informações – Intelligence

Taxas de Motorização, Mortalidade e Severidade

• Quais as tendências de cada taxa?

A no

Taxa

s

2005

2004

2003

2002

2001

2000

1999

1998

1997

1996

1995

1994

1993

1992

1991

40

30

20

10

0

Variable

Mortalidade/ 10.000 Veic

MotorizaçãoSever idade

Trânsito de BH: Taxas de Motorização, Sever idade e Mor talidade

Dados Det ra n-MG, 2006

Motorização: Veículos p/ 100 hab.Severidade: Mort es p/ 1.000 acident es

Mortalidade: Mortes p/ 10. 000 veículos

MBI – Master Business Information – Engenharia de Informações – Intelligence

Números-índice das Taxas

• Em 2005:√ Motorização: 153,0√ Severidade: 118,5√ Mortalidade: 26,3

A no

Índi

ce

s

2005

2004

2003

2002

2001

2000

1999

1998

1997

1996

1995

1994

1993

1992

1991

350

300

250

200

150

100

50

0

Variable

Mortalidade_ind

Motoriz ação_indSeveridade_ind

Trânsito de BH: Evolução das Taxas de Mot orização, Severidade e Mortalidade

Moto rização: Veículos p/ 100 hab.Sever idade: Mor tes p/ 1.000 ac identesMor talidade: Mortes p/ 10.000 veículos

Base : 1991 = 100

Page 28: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

28

MBI – Master Business Information – Engenharia de Informações – Intelligence

Índice das Taxas de Atropelamentos

• Usado como base a taxa de atropelamentos de todas as capitais√ Capitais: 14,40 atropelamentos p/ 10.000 veículos

Atr

ope

lam

ent

o_i

nd

30 0

25 0

20 0

15 0

10 0

5 0

0

1 00

VIX

THE

SP

SL Z

SSA

RJ

RBR

REC

PV H

POAPMWNA T

M AO

M CZ

J PA

F OR

CWB

CGB

CG R

BSB

BVB

BH

BEL

AJU

Trânsito Capitais: Índices das Taxas de Atropelamento

Ba se: Cap itais = 1 4,40 atropela men tos p / 1 0.00 0 veículos

Dados: Denat ran , 20 06

MBI – Master Business Information – Engenharia de Informações – Intelligence

Medidas de Tendência Central

MBI – Master Business Information – Engenharia de Informações – Intelligence

Média

• A média é a soma dos valores observados dividido pelo número de observações (média aritmética).

• Pode-se obter a média na janela Session:√ Editor > Enable Commands√ mean ‘nome da coluna’

Page 29: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

29

MBI – Master Business Information – Engenharia de Informações – Intelligence

Home runs – Médias

• Babe Ruth:

• Maris :

9,4315

225954 =+++= Lx

1,2610

61138 =+++= Lx

MBI – Master Business Information – Engenharia de Informações – Intelligence

Média e Outliers

• Média de Maris sem o maior valor (61)

2,22=x

A média não é uma medida resistente de centro

MBI – Master Business Information – Engenharia de Informações – Intelligence

Mediana

• A mediana de uma distribuição de valores é o valor que ocupa a posição central quando os dados estão ordenados.

• Exemplo: considere o conjunto cujos valores são 11,23,14,15,16,20 e 21.

• Valores ordenados: 11,14,15,16,20,21,23

Page 30: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

30

MBI – Master Business Information – Engenharia de Informações – Intelligence

Mediana (2)

11,14,15,16,20,21,23

Valor que ocupaa posição central

Logo, a mediana deste conjunto é 16.

MBI – Master Business Information – Engenharia de Informações – Intelligence

Determina ção da Mediana

1. Ordene as observações da menor para a maior;

2. Se a quantidade de observações (n) é ímpar, localize a mediana contando (n+1)/2observações a partir do início da lista;

3. Se n é par, a mediana é a média das duas observações centrais da lista (observações (n/2) e (n/2+1)

MBI – Master Business Information – Engenharia de Informações – Intelligence

Home runs – Medianas• Maris :

√ n=15,

√ Posição: (15+1)/2=8

• Maris :√ n = 10;√ Posições: n/2=5 e n/2+1=6

22 25 34 35 41 41 46 46 46 47 49 54 54 59 60

8 13 14 16 23 26 28 33 39 61 5,242

2623~ =+

=x

46~ =x

Page 31: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

31

MBI – Master Business Information – Engenharia de Informações – Intelligence

Mediana

• Pode-se obter a mediana pela janela Session:√ Editor > Enable Commands

median ‘nome da coluna’

MBI – Master Business Information – Engenharia de Informações – Intelligence

Média vs Mediana

• fácil de ser manipulada algebricamente;

• representa o “centro de massa” dos dados (ponto de equilíbrio no histograma).

• afetada grandemente por valores extremos (ex.: islands).

• difícil de ser manipulada algebricamente;

• valor da posição central dos dados ordenados;

• não é afetada por valores extremos.

Média Mediana

LFB118

MBI – Master Business Information – Engenharia de Informações – Intelligence

Média vs Mediana (2)

• Para distribuições muito assimétricas, a mediana é uma medida mais apropriada para caracterizar um conjunto de dados.

• Se a distribuição é aproximadamente simétrica, então média e mediana são aproximadamente iguais.

√ Em distribuições perfeitamente simétricas média = mediana.

LFB119

Page 32: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

32

MBI – Master Business Information – Engenharia de Informações – Intelligence

Moda

• É o valor mais freqüente da distribuição.

• No histograma, a classe modal é a classe de maior freqüência e a moda é aproximada pelo ponto médio da classe.

MBI – Master Business Information – Engenharia de Informações – Intelligence

Distribuições Unimodais

• Em distribuições unimodais tem-se sempre a mediana entre a média e a moda:

• Assimetria negativa:média = mediana = moda

• Assimetria positivamoda = mediana = média

• Perfeitamente simétricasmédia = moda = mediana.

MBI – Master Business Information – Engenharia de Informações – Intelligence

Distribuição Unimodal – Assimetria Positiva

média > mediana > moda

LFB165

Page 33: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

33

MBI – Master Business Information – Engenharia de Informações – Intelligence

Distribuição Unimodal – Assimetria Negativa

média < mediana < moda

LFB166

MBI – Master Business Information – Engenharia de Informações – Intelligence

Distribuição Unimodal – Simetria

média = mediana = moda

LFB167

MBI – Master Business Information – Engenharia de Informações – Intelligence

Medidas de Posição – Quartis

Page 34: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

34

MBI – Master Business Information – Engenharia de Informações – Intelligence

Quantis

• Em geral, a média e o desvio-padrão não representam completamente um conjunto de dados, pois:√ são fortemente influenciados por valores extremos;√ não oferecem uma idéia clara da simetria (ou

assimetria) da distribuição dos dados.

MBI – Master Business Information – Engenharia de Informações – Intelligence

Quantis (2)

• Define-se uma medida chamada quantil de ordem p, com 0 < p < 1 , tal que 100 x p% das observações sejam menores do que o quantilde ordem p.

• Notação: q(p)

MBI – Master Business Information – Engenharia de Informações – Intelligence

LFB160

Page 35: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

35

MBI – Master Business Information – Engenharia de Informações – Intelligence

Quartis

• São três medidas (Q1, Q2 e Q3) que dividem a distribuição em quatro intervalos de mesma freqüência (25%)√ Q1: primeiro quartil à q(0,25)√ Q2: segundo quartil ou mediana à q(0,50)√ Q3: terceiro quartil à q(0,75)

MBI – Master Business Information – Engenharia de Informações – Intelligence

LFB161

MBI – Master Business Information – Engenharia de Informações – Intelligence

Decis

• São 9 medidas que dividem a distribuição em 10 intervalos de mesma freqüência (10%):√ D1: primeiro decilà q(0,10)√ D2: segundo decilà q(0,20)

√ D3: terceiro decilà q(0,30)√ etc.

Page 36: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

36

MBI – Master Business Information – Engenharia de Informações – Intelligence

LFB162

MBI – Master Business Information – Engenharia de Informações – Intelligence

Percentis

• São 99 medidas que dividem a distribuição em 100 intervalos de mesma freqüência (1%) √ q(0,01): primeiro percentil;√ q(0,02): segundo percentil;√ q(0,03): terceiro percentil;√ etc.

MBI – Master Business Information – Engenharia de Informações – Intelligence

Esquema dos 5 Números

• São cinco valores importantes para se ter uma boa idéia da assimetria dos dados.

• São as seguintes medidas da distribuição:x(1) , Q1 , Q2 , Q3 e x(n).

Page 37: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

37

MBI – Master Business Information – Engenharia de Informações – Intelligence

Cálculo dos Quartis

1. Ordenar as observações e determinar a mediana;

2. O primeiro quartil (Q1) é a mediana das observações à esquerda da mediana global;

3. O terceiro quartil (Q3) é a mediana das observações à direita da mediana global;

4. Se n é par considera-se cada metade do conjunto de dados; se é impar, exclui-se a mediana e considera-se as metades restantes

MBI – Master Business Information – Engenharia de Informações – Intelligence

Home runs - Quartis

• Resumo dos cinco n úmeros:√ Mínimo: 22√ Q1: 35

√ Mediana: 46√ Q3: 54√ Máximo: 60

22 25 34 35 41 41 46 46 46 47 49 54 54 59 60 46~ =x

Q 1 Q 3

MBI – Master Business Information – Engenharia de Informações – Intelligence

Esquema dos 5 Números (2)

Para uma aproximadamente simétrica, tem-se:√ Q2 – x(1) ≅ x(n) – Q2; √ Q2 – Q1 ≅ Q3 – Q 2 ; √ Q1 – x(1) ≅ x(n) – Q3; √ distâncias entre mediana e Q1, mediana e Q3

menores do que distâncias entre os extremos e Q1 e Q3.

Page 38: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

38

MBI – Master Business Information – Engenharia de Informações – Intelligence

Histograma alisadode uma distribuição simétrica unimodal

MBI – Master Business Information – Engenharia de Informações – Intelligence

Distância Interquartílica

• Distância entre o 3º quartil (Q3) e o 2º quartil (Q2)

• É uma medida de variabilidade uma pouco mais refinada que a amplitude amostral.

MBI – Master Business Information – Engenharia de Informações – Intelligence

Box Plot

• A informação do esquema dos cinco números pode ser expressa num diagrama, conhecido como box plot (gráfico-caixa).

mín. Q2 Q3 máx.Q1

Page 39: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

39

MBI – Master Business Information – Engenharia de Informações – Intelligence

Box Plot (2)

• O retângulo é traçado de maneira que suas bases têm alturas correspondentes Q1 e Q3.

• Corta-se o retângulo por segmento paralelo às bases, na altura correspondente Q2.

• O retângulo do boxplot correponde aos 50% valores centrais da distribuição.

MBI – Master Business Information – Engenharia de Informações – Intelligence

Intervalo dos50% centrais

da distribuição

DistânciaInterquartílica

MBI – Master Business Information – Engenharia de Informações – Intelligence

Região de Observações Típicas

• Delimita-se a região que vai da base superior do retângulo até o maior valor observado que NÃO supere o valor de Q3+1,5 x DIQ.

• Procedimento similar para delimitar a região que vai da base inferior do retângulo, até o menor valor que NÃO é menor do que Q1-1,5 x DIQ.

Page 40: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

40

MBI – Master Business Information – Engenharia de Informações – Intelligence

Região de Observações Atípicas

• Observações são representadas por asterísticos e situam-se:

√ ou, acima do Valor adjacente superior(Q3 + 1,5 DIQ)

√ ou, abaixo do Valor adjacente inferior(Q1 – 1,5 DIQ)

• Estes pontos exteriores são denominados outliers ou valores atípicos.

MBI – Master Business Information – Engenharia de Informações – Intelligence

Quartil superior (Q3)

Valor adjacente superiorQ3 + 1,5 DIQ

Quartil inferior – (Q1)

Valor adjacente inferiorQ1 – 1,5 DIQ

Pontos Exteriores

Ponto Exterior

MedianaDIQ

MBI – Master Business Information – Engenharia de Informações – Intelligence

• Se não houver pontos exteriores:

x(1)

Mediana (Q2)

Q3

x(n)

Q1

Page 41: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

41

MBI – Master Business Information – Engenharia de Informações – Intelligence

Box-plot no Minitab

Graph > Boxplot

MBI – Master Business Information – Engenharia de Informações – Intelligence

Utilização do Box-Plot

• Sua grande utilidade é na comparação entre distribuições;

• Um ramo-e-folhas ou um histograma permitem uma visão mais clara de uma única distribuição.

√ Acompanhada por indicadores numéricos: mediana e quartis.

MBI – Master Business Information – Engenharia de Informações – Intelligence

Trânsito Capitais por Região

• É possível reconhecer algum padrão?

Região

Vít

ima

s f

at

ais

po

r 1

.00

0 a

cid

en

te

s

SULSENORTENEC. O ES TE

140

120

100

80

60

40

20

0

João Pesso a

Se verida de p or Re gião

Dados: Denatran, 2006Região

Ve

ícu

los

po

r 1

00

ha

bit

an

tes

SULSENORTENEC. OESTE

60

50

40

30

20

10

S al vad or

Mo toriza ção p or Re gião

Page 42: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

42

MBI – Master Business Information – Engenharia de Informações – Intelligence

Trânsito por Porte da Capital

√ Médio: até 500.000 hab.√ Grande: de 500.000 at é 2.000.000 hab.√ Metrópole: acima de 2.000.000 hab.

Po rte

Atr

ope

lam

ento

s p

or 1

0.0

00 v

eíc.

Metr ópoleMédioGrande

50

40

30

20

10

0

São Luís

Manaus

Taxa de Atropelamentos por Porte da Capi tal

Dado s: Dena tran, 2006

MBI – Master Business Information – Engenharia de Informações – Intelligence

Medidas de Dispersão

MBI – Master Business Information – Engenharia de Informações – Intelligence

Exemplo 7

• Suponha 5 conjuntos com valores variando de 0 a 10, cada um deles com 10 elementos.

• Os conjuntos estão na planilha grupos;• Estes conjuntos são fictícios e têm objetivo

didático.• O objetivo é o uso de medidas para resumo de

dados

Page 43: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

43

MBI – Master Business Information – Engenharia de Informações – Intelligence

Média e Mediana

• Calcule a média e a mediana de cada conjunto.

Todos os conjuntos têm média e mediana iguais a 5

• Será que podemos afirmar que a distribuição dos dados é a mesma?

MBI – Master Business Information – Engenharia de Informações – Intelligence

Ramo e Folhas

• Para responder a pergunta anterior, observar a variação dos dados nos diferentes conjuntos através de gráficos ramo-e-folhas .

MBI – Master Business Information – Engenharia de Informações – Intelligence

Grupos – Ramo – e – Folhas

Stem - and-Leaf Display: grupo_1 Stem-and-leaf of grupo_1 N = 10 Leaf Unit = 0,10 (10) 5 0000000000 Stem - and-Leaf Display: grupo_2 Stem-and-leaf of grupo_2 N = 10 Leaf Unit = 0,10 4 2 0000 5 3 0 5 4 5 5 5 6 5 7 0 4 8 0000 Stem - and-Leaf Display: grupo_3 Stem-and-leaf of grupo_3 N = 10 Leaf Unit = 0,10 3 4 000 (4) 5 0000 3 6 000

Stem- and-Leaf Display: grupo_4 Stem-and-leaf of grupo_4 N = 10 Leaf Unit = 0,10 1 1 0 2 2 0 3 3 0 4 4 0 (2) 5 00 4 6 0 3 7 0 2 8 0 1 9 0 Stem- and-Leaf Display: grupo_5 Stem-and-leaf of grupo_5 N = 10 Leaf Unit = 0,10 1 3 0 3 4 00 (4) 5 0000 3 6 00 1 7 0

Page 44: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

44

MBI – Master Business Information – Engenharia de Informações – Intelligence

Comentários

• Há grandes diferenças entre os grupos;√ Grupo 1: Todos os valores são iguais a 5.√ Grupo 2: Nenhum valor igual a 5;√ Grupo 3: Valores concentrados entre 4 e 6.√ Grupo 4: Valores espalhados entre 1 e 9√ Grupo 5: Valores dispersos entre 3 e 7

• Além da média e da mediana, é necessário outro tipo de medida para caracterizar os grupos

MBI – Master Business Information – Engenharia de Informações – Intelligence

Medidas de Dispersão

• É necessário caracterizar os grupos através de medidas que avaliem a variabilidade dos dados.

• Apresentamos as medidas de dispersão mais comuns:

MBI – Master Business Information – Engenharia de Informações – Intelligence

Amplitude Amostral - R

• É a mais simples das medidas de dispersão. • É definida como:

Amplitude = máximo amostral – mínimo amostral• Pode ser obtida pela janela Session:

√ Editor > Enable Commandsrange ‘nome da coluna’.

Page 45: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

45

MBI – Master Business Information – Engenharia de Informações – Intelligence

Amplitude Amostral – Desvantagens

• Considera apenas os valores do mínimo e do máximo dos dados, sendo determinada por estesvalores extremos.

• Ignora todo o restante da informação fornecida pela amostra.

MBI – Master Business Information – Engenharia de Informações – Intelligence

Distância Interquartílica

• Ordena-se a amostra, dividindo-a em quatro partes com freqüência iguais.

• Tomam-se os valores do primeiro e do terceiro quartil (Q1 e Q3), os quais correspondem às freqüências relativa acumulada de ¼ e ¾

• É uma medida um pouco mais refinada que a amplitude amostral.

MBI – Master Business Information – Engenharia de Informações – Intelligence

LFB135

Page 46: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

46

MBI – Master Business Information – Engenharia de Informações – Intelligence

Minitab – Interquartile Range

• Pode ser obtida pela janela Session:√ Editor > Enable Commands

describe ‘nome da coluna’;iqrange.

MBI – Master Business Information – Engenharia de Informações – Intelligence

Distância Interquartílica – Desvantagem

• Esta medida, ainda tem a desvantagem de considerar apenas dois valores dos dados, ignorando o restante da informação fornecida pela amostra.

MBI – Master Business Information – Engenharia de Informações – Intelligence

Variância Amostral

2

1

2 )(1

1 ∑=

−−

=n

ii xx

ns

Page 47: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

47

MBI – Master Business Information – Engenharia de Informações – Intelligence

Variância Amostral (2)

• É a média dos desvios quadráticos em relação à média. Tem unidade diferente dos dados.

• Por questões técnicas (Inferência), adota-se n-1 no denominador da média.

• Pode ser obtida pela janela Session:√ Editor > Enable Commands

describe ‘nome da coluna’;variance.

MBI – Master Business Information – Engenharia de Informações – Intelligence

Desvio – Padrão

• É a raiz quadrada a variância.

• Pode ser obtida pela janela Session:√ Editor > Enable Commands

describe ‘nome da coluna’;stdeviation.

√ Para cálculo de uma coluna apenas, pode-se digitar:stde ‘nome da coluna

MBI – Master Business Information – Engenharia de Informações – Intelligence

Exemplo

• Cinco grupos de dados especiais, com a característica de que:

Todos os conjuntos têm média e mediana iguais a 5

• Será que podemos afirmar que a distribuição dos dados é a mesma?

Page 48: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

48

MBI – Master Business Information – Engenharia de Informações – Intelligence

Grupos: Ramo – e – Folhas

Stem - and-Leaf Display: grupo_1 Stem-and-leaf of grupo_1 N = 10 Leaf Unit = 0,10 (10) 5 0000000000 Stem - and-Leaf Display: grupo_2 Stem-and-leaf of grupo_2 N = 10 Leaf Unit = 0,10 4 2 0000 5 3 0 5 4 5 5 5 6 5 7 0 4 8 0000 Stem - and-Leaf Display: grupo_3 Stem-and-leaf of grupo_3 N = 10 Leaf Unit = 0,10 3 4 000 (4) 5 0000 3 6 000

Stem- and-Leaf Display: grupo_4 Stem-and-leaf of grupo_4 N = 10 Leaf Unit = 0,10 1 1 0 2 2 0 3 3 0 4 4 0 (2) 5 00 4 6 0 3 7 0 2 8 0 1 9 0 Stem- and-Leaf Display: grupo_5 Stem-and-leaf of grupo_5 N = 10 Leaf Unit = 0,10 1 3 0 3 4 00 (4) 5 0000 3 6 00 1 7 0

MBI – Master Business Information – Engenharia de Informações – Intelligence

Freq

üên

cia

8642

8642

10,0

7,5

5,0

2,5

0,0

8642

10,0

7,5

5,0

2,5

0,0

Grupo 1 Grupo 2 Grupo 3

Grupo 4 Grupo 5

Hi stogramas de Freqüências - Grupos

s = 0,00 s = 2,98 s = 0,82

s = 2,58 s = 1,16

MBI – Master Business Information – Engenharia de Informações – Intelligence

Desvio-Padrão – Propriedades

• s mede a dispersão em trono da média e deve ser usado somente quando a média é escolhida como medida de centro;

• s = 0 apenas quando não há dispersão, ou seja, apenas quando todas as observações são iguais;

• Caso contrário, s > 0;• s, como a média, não é resistente a outliers

√ poucos outliers podem fazer com que s se torne muito grande.

Page 49: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

49

MBI – Master Business Information – Engenharia de Informações – Intelligence

Coeficiente de Variação Amostral

• Mede a variação relativa dos dados. É dado por:

onde:desvio-padrão amostralmédia amostral

• É adimensional. Em geral expresso em percentagens.• Permite a comparação das variabilidades de diferentes

conjuntos de dados.

xs

cv =

sx

MBI – Master Business Information – Engenharia de Informações – Intelligence

Exemplo – Conjuntos

• Considere os seguintes conjuntos quaisquer de dados:

Conjunto 1Conjunto 224 17530 14524 11526 15529 148

Disponível na planilha conjuntos

MBI – Master Business Information – Engenharia de Informações – Intelligence

Conjunto – Cálculo

• Pode ser obtida pela janela Session:√ Editor > Enable Commands

describe ‘nome da coluna’;cvariation.

MTB > Describe 'Conjunto 1' 'Conjunto 2'; SUBC> Mean; SUBC> StDeviation; SUBC> CVariation. Descriptive Statistics: Conjunto 1; Conjunto 2 Variable Mean StDev CoefVar Conjunto 1 26,714 2,360 8,84 Conjunto 2 147,71 17,83 12,07

Page 50: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

50

MBI – Master Business Information – Engenharia de Informações – Intelligence

Comentários

• O resumo dos cinco números é, em geral, melhor do que a média e o desvio-padrão para descrever uma distribuição com fortes outliers;

• Utilize a média e s apenas para distribuições razoavelmente simétricas;

• As medidas e os métodos estatísticos, em geral, só tem sentido para distribuições cija forma ésuficientemente regular.

MBI – Master Business Information – Engenharia de Informações – Intelligence

Exemplo de Aplicação

MBI – Master Business Information – Engenharia de Informações – Intelligence

Exemplo 9 – Investimentos

• Reportagem sobre o dinheiro da União disponível para investimentos nas prefeituras, em 2004.

• Pergunta: A distribuição foi justa?

LFB143

Page 51: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

51

MBI – Master Business Information – Engenharia de Informações – Intelligence

Banco de Dados

• Dados disponíveis na planilha prefeituras• Variáveis:

√ Cidade: 25 capitais√ partido (do prefeito)√ hab1000: habitantes (em milhares)√ invest1000: investimento (em milhares de $R)

MBI – Master Business Information – Engenharia de Informações – Intelligence

Investimentos – Box-plot

milh

are

s re

ais

25000

20000

15000

10000

5000

0

Inv estimentos

MBI – Master Business Information – Engenharia de Informações – Intelligence

Detalhes dos Investimentos

Milh

are

s re

ais

25000

20000

15000

10000

5000

0 Joao Pessoa

Rec ife

São P aulo

Inve stimentos

Page 52: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

52

MBI – Master Business Information – Engenharia de Informações – Intelligence

Habitantes – Box-plot

Milh

are

s

10000

8000

6000

4000

2000

0 Palmas

Salvador

Rio de Janeiro

São Paulo

Habitantes

MBI – Master Business Information – Engenharia de Informações – Intelligence

Razão de Investimento – Cálculo

Calc > Calculator

MBI – Master Business Information – Engenharia de Informações – Intelligence

$R/h

abita

nte

s

25

20

15

10

5

0 252 4

2 3

22

21

20

19

18

1 716

15

14

13

12

11

10

9

8

7

6

5

4

32

1

Ra zão

Boxplot > Label: row number

$R /

hab

itant

e

25

20

15

10

5

0 Joao Pe ssoaP orto A l eg re

Vi to ria

Bo a Vi sta

Pa lma s

Na ta l

Man au s

T eresi na

R i o de Ja ne iroF orta leza

Po rto Ve lh o

C ur itib a

Ma cei o

Ca mpo Gra nd e

Ri o B ran co

S alv ad or

Mac apa

Fl ori an op ol is

C ui ab a

Be lo Ho rizo nte

Be lem

Ara caju

Go ia ni aR eci fe

Sã o P aul o

Indi vid ual Val ue Plo t - Razão

Individual Value Plot > Label: Cidade

Page 53: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

53

MBI – Master Business Information – Engenharia de Informações – Intelligence

Distribuição dos Investimentos

• Criação de variável classificando partidos como: PT e Outros Partidos√ Alternativa 1: Criar variável indicadora (0 e 1)

através de operador lógico• Editor > EnableCommands

Let ‘Partido’ = ‘_partido’ = “PT”

MBI – Master Business Information – Engenharia de Informações – Intelligence

• Mudar os valores da inidcadora (0 e 1) para os valores desejados (Outros e PT)

Data > Code > Numeric to Text

MBI – Master Business Information – Engenharia de Informações – Intelligence

√ Alternativa 2: Criar a variável desejada modificando cada valor da variável _partido

Data > Code > Text to Text

Page 54: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

54

MBI – Master Business Information – Engenharia de Informações – Intelligence

Graph > Boxplot

MBI – Master Business Information – Engenharia de Informações – Intelligence

Compara ção de Investimentos

Partido

Milh

are

s d

e r

ea

is

PTOutros part idos

25000

20000

15000

10000

5000

0

São Paulo

Inve stimento da Uniã o2004

MBI – Master Business Information – Engenharia de Informações – Intelligence

• Gráfico de percentual de variável contínua (investimento) separada por categoria (Partido)

Graph > Pie Chart

Pie Chart Options > Slice labels: percent

Page 55: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

55

MBI – Master Business Information – Engenharia de Informações – Intelligence

Compara ção de Investimentos

59,2%

40,8%

CategoryOu tros par tid osPT

Distribuição de Recursos para Capitais2004

MBI – Master Business Information – Engenharia de Informações – Intelligence

• Gráfico de total de investimentos (variável contínua) separados por Partido(variável categórica)

Graph > Bar Chart

MBI – Master Business Information – Engenharia de Informações – Intelligence

Compara ção de Investimentos

Partido

Milh

are

s de

rea

is

PTOutros partidos

90000

80000

70000

60000

50000

40000

30000

20000

10000

0

84426

58127

Distr ibuição de Recursos para Cap ita is

Page 56: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

56

MBI – Master Business Information – Engenharia de Informações – Intelligence

MBI – Master Business Information – Engenharia de Informações – Intelligence

Transformação Linear

MBI – Master Business Information – Engenharia de Informações – Intelligence

Transformação Linear

• Muda a variável original x para uma nova variável xnova através de equação da forma:√ xnova = a + b x

• a desloca todos os valores igualmente√ fator de locação

• b muda o tamanho da unidade de medida√ fator de escala

Page 57: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

57

MBI – Master Business Information – Engenharia de Informações – Intelligence

Exemplo

• Para reexpressar uma medida em graus Fahrenheit pra graus Celsius a transformação é:

• Essa transformação muda a unidade da medida e sua origem:√ 0ºC (congelamento da água) é 32ºF

( )3295 −= xxnova

MBI – Master Business Information – Engenharia de Informações – Intelligence

Transformações Lineares - Propriedades

• As transformações lineares não alteram a forma da distribuição:√ Simetria ou assimetria, unimodalidade ou

multimodalidade, etc.

• Embora conserve a forma básica de uma distribuição, o centro e a dispersão variam

MBI – Master Business Information – Engenharia de Informações – Intelligence

Exemplo 1.21 – pg. 32

• Medidas de mesmos 5 indivíduos:√ Utilizadas unidades diferentes (cm e mm)

Aè 1,4 cm 2,2 cm 1,1 cm 1,6 cm 1,2 cmBè 14 mm 22 mm 11 mm 16 mm 12 mm

• Medem os mesmos 5 comprimentos

4,36 mm15 mmB0,436 cm1,5 cmAD. PadrãoMédia

Valores 10 vezes maior

Page 58: Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI – Master Business Information – Engenharia de Informa ções – Intelligence

58

MBI – Master Business Information – Engenharia de Informações – Intelligence

Efeitos de uma Transformação Linear

• Multiplicar cada observação por b acarreta:√ Medidas de centro (média e mediana):

multiplicadas por b;√ Medidas de dispersão(desvio-padrão e intervalo

inter-quartílico) multiplicados por |b|;

• Adicionar a a cada observação acarreta:√ Medidas de centro: adicionar a a cada medida√ Medidas de dispersão: não altera os valores

MBI – Master Business Information – Engenharia de Informações – Intelligence

Referências

MBI – Master Business Information – Engenharia de Informações – Intelligence

Bibliografia Recomendada

• Moore, D. S. e McCabe, G. P. (LTC)Introdução à prática da estatística.

• Wild, C. J. e Seber, G. A. (LTC) Encontros com o acaso.