Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI...
Transcript of Estatística e Teoria da Probabilidade - Lupércio F. …¡ fico de Par eto - Destino do Lixo MBI...
1
MBI – Master Business Information – Engenharia de Informações – Intelligence
Análise Univariada
MBI – Master Business Information – Engenharia de Informações – Intelligence
Frases
“Torture os dados por um tempo suficiente, e eles contam tudo!”
fonte: [email protected] (Barry Fetter)
“Um homem com um relógio sabe a hora certa. Um homem com dois relógios só sabe a média.”
Anônimo
MBI – Master Business Information – Engenharia de Informações – Intelligence
Roteiro
1. Introdução2. Gráficos – Variáveis Qualitativas3. Gráficos - Variáveis Quantitativas4. Gráficos Temporais5. Medidas de Tendência Central6. Medidas de Dispersão7. Quantis8. Transformações9. Referências
2
MBI – Master Business Information – Engenharia de Informações – Intelligence
Introdução
LFB126
MBI – Master Business Information – Engenharia de Informações – Intelligence
Atitudes
• Atitudes em relação aos dados:√ QUE VEMOS NOS DADOS:
Atitude da Análise Exploratória de Dados
√ QUAIS AS RESPOSTAS DOS DADOS A ESTA QUESTÃO?
Atitude da Inferência Estatística
MBI – Master Business Information – Engenharia de Informações – Intelligence
Análise Exploratória de Dados
• Exploração de dados, sem que saibamos o que eles irão mostrar;
• Baseia-se essencialmente em gráficos dos dados;• Procura padrões que sugiram questões de estudo
ou conclusões;• Fornece evidência emp írica
√ Podem surgir padrões dos dados, oriundos de muitas fontes.
3
MBI – Master Business Information – Engenharia de Informações – Intelligence
Objetivos
• Emprega técnicas gráficas e quantitativas, com o objetivo de:√ Obter informações ocultas na estrutura dos dados√ Descoberta de variáveis importantes;√ Identificação de fontes de variabilidade e tendências;
√ Detecção de comportamentos anômalos;√ Escolha de modelos;√ Determinação de número ótimo de variáveis
MBI – Master Business Information – Engenharia de Informações – Intelligence
Idéia Básica
• Modelo = Suave + Irregular (tosco)
• Técnicas visuais podem frequentemente separar mais o “suave” do “irregular” (“ruído”)
MBI – Master Business Information – Engenharia de Informações – Intelligence
Técnicas que buscam:
• maximizar o “insight” do conjunto de dados;
• perceber a estrutura subjacente;
• extrair variáveis importantes;
• detectar valores atípicos (extremos) e anomalias;
• testar hipóteses fundamentais;
• desenvolver modelos parcimoniosos; e• determinar conjunto ótimo de fatores
4
MBI – Master Business Information – Engenharia de Informações – Intelligence
Clássica vs Exploratória
• Seqüência Clássica: √ Problema > Dados > Modelo> Análise > Conclusões
• Exploratória:√ Problema > Dados > Análise > Modelo > Conclusões
MBI – Master Business Information – Engenharia de Informações – Intelligence
Tratamento de Dados
• Clássica:√ Média e desvio padrão = estimativas pontuais√ Medida de variabilidade explicada – r de Pearson
• Exploratória√ Resumo Numérico (5): Min, Q1, Median, Q3,
Max√ todos (maioria) dados=resumos visuais√ Dispersão√ Histograma
√ boxplot
MBI – Master Business Information – Engenharia de Informações – Intelligence
Estratégia Básica de Exploração
1. Começar examinando isoladamente cada variável.Passar então ao estudo das relações entre as variáveis;
2. Começar com um ou mais gráficos. Acrescentar então medidas resumo de aspectos dos dados
5
MBI – Master Business Information – Engenharia de Informações – Intelligence
Tipos de Variáveis
Tipos de Variáveis
Quantitativa(medições e contagens)
Qualitativa(define grupos)
Contínua(poucos valores repetidos)
Categ órica(nenhuma idéia de ordem)
Discreta(muitos valores repetidos)
Ordinal(há ordenação natural)
MBI – Master Business Information – Engenharia de Informações – Intelligence
Diretrizes da Técnica
• Passos fundamentais da t écnica:1. Iniciar a análise pelo exame dos dados
disponíveis;2. Decidir técnica para aplicar no equacionamento
do problema;3. Procurar a equação (modelo) que melhor os
represente;4. Interpretar os resultados da modelagem.
MBI – Master Business Information – Engenharia de Informações – Intelligence
Análise Exploratória de Dados
Não pode nunca ser toda a história, mas só ela pode servir como primeiro passo.
6
MBI – Master Business Information – Engenharia de Informações – Intelligence
Análise Gráfica de Variáveis Qualitativas
MBI – Master Business Information – Engenharia de Informações – Intelligence
Variáveis Categóricas
• Valores são rótulos (níveis) para as categorias.Ex.: “masculino”, “feminino”
MBI – Master Business Information – Engenharia de Informações – Intelligence
Caso 1 – Programa Saúde da Família
• Pesquisa para análise da situação de saúde, considerando as características sociais, econômicas e culturais de região carente de BH, atendida pelo Programa Saúde da Família.
• Aplicados questionários a 60 pessoas da região• Dados: saude_da_familia
7
MBI – Master Business Information – Engenharia de Informações – Intelligence
Níveis das Variáveis• Categóricas
Sexo: F - FemininoM- Masculino
Moradia: 1 - Própria2 - Alugada3 - Cedida4 - Financiada
Tratamento água de beber: 1 - Filtro
2 - Fervura3 - Cloro4 - Sem Tratamento
Destino do Lixo: 1 - Coleta Oficial2 - Queimado3 - Céu Aberto4 - Enterrado5 - Caçamba6 - Córrego / Rio
Renda Familiar: 1 - Sem Renda 2 - Até 1 SM3 - 1,01 a 2 SM4 - 2,01 a 3 SM5 - 3,01 a 5 SM6 - 5,01 a 10 SM7 - 10,01 a 20 SM8 - Acima de 20 SM
Em caso de doençaprocura: 1 - Hospital
2 - Unidade Básica de Saúde3 -Benzedeira4 - Farmácia5 - Unidade de Urgência 6 - Outros
Participa de gruposcomunitarios: 1 - Cooperativa
2 - Grupo Religioso3 - Associações4 - Outros5 - Não Participa
Meios de transportemais usados: 1 - Ônibus
2 - Caminhão3 - Carro4 - Carroça5- Metrô6- Outros
Alguém da Famíliapossui plano de saúde?: 1 - Sim
2 - Não
• QuantitativasIdade:
Nº de pessoas que reside no local:
Nº de pessoas cobertas pelo plano de saúde:
MBI – Master Business Information – Engenharia de Informações – Intelligence
Distribuição de Freqüências
• A distribuição de freqüências de variável qualitativa se dá:√ Contagem (número) de indivíduos, ou√ Percentagem de indivíduos que se enquadram em
cada categoria;
MBI – Master Business Information – Engenharia de Informações – Intelligence
Moradia Quantidade Percentagem Própria 22 36,67
Alugada 11 18,33
Cedida 16 26,67
Financiada 11 18,33
N= 60 100,00
Tratamento da água de beber Quantidade Percentagem
Filtro 43 71,67 Fervura 5 8,33 Sem tratamento 12 20,00
N= 60 100,00
Destino do Lixo Quantidade Percentagem
Coleta Oficial 42 70,00 Queimado 6 10,00
Céu Aberto 4 6,67
Enterrado 1 1,67
Caçamba 4 6,67 Córrego / Rio 3 5,00
N= 60 100,00
Em caso de
doença procura Quantidade Percent agem
Hospital 13 21,67
Unidade Básica de Saúde 37 61,67
Benzedeira 3 5,00
Farmácia 3 5,00
Unidade de Urgência 4 6,67
N= 60 100,00
Meios de transporte
mais usados Quantidade Percentagem
Ônibus 2 5 41,67
Caminhão 5 8,33
Carro 1 3 21,67
Carroça 9 15,00
Metrô 8 13,33
N= 6 0 100,00
Caso 1 – Algumas Distribuições • Categóricas
8
MBI – Master Business Information – Engenharia de Informações – Intelligence
Gráficos de Barras• Compara rapidamente os tamanhos dos grupos;• As alturas das barras mostram as quantidades
(ou %) de cada categoria
Em caso de doença procura
Qte
.
U. Urgê nciaF armáciaBenze deiraU. BásicaHospital
40
30
20
10
0
433
37
13
Gráfico de Bar ras
MBI – Master Business Information – Engenharia de Informações – Intelligence
Gráfico de Setores
• Permite ver que parte do total cada grupo constitui
20,0%S/ Tratamento
71,7%Filtro
8,3%Fer vura
Gr áfico de S etores - Tratamento da água de beber
MBI – Master Business Information – Engenharia de Informações – Intelligence
Gráficos de Barras e Setores –Comentários
• Permitem assimilar rapidamente a distribuição;
• São de uso limitado para a análise de dados, pois, é fácil interpretar dados categóricos de uma única variável;
9
MBI – Master Business Information – Engenharia de Informações – Intelligence
Mais Gráficos de Distribuições
• Variáveis dicotômicas do banco de dados:
31,7%M
68,3%F
Sexo
73,3%Sim
26,7%Não
Alguém da Fam ília possui plano
Alguns Gráf icos de Setores
MBI – Master Business Information – Engenharia de Informações – Intelligence
Outros Gráficos de Barras
Qu
ant
ida
de
Não P artici paA sso cia çõe sGrup o Re li gio soC oop erativ a
30
20
10
0M or ad ia
Qu
ant
ida
de
Fi nanc ia daCe did aA lu gad aPrópri a
20
15
10
5
0
Qu
ant
ida
de
MetrôC a rro çaC arroCa minh ãoÔnib us
24
18
12
6
0
%
5 a 10 SM3 a 5 SM2 a 3 SM1 a 2 SMaté 1 S MSe m rend a
30
20
10
0
12
10
28
1 0
11
16
1 1
22
89
13
5
25
1 3, 33 3313, 33 33
2 0
28, 33 33
21 , 666 7
3 , 3333 3
Par ticipação em gr upos comunitár ios Mor adia
Meios de transport e mais usados Renda Familiar
To dos o s da dos e m porce ntage m
MBI – Master Business Information – Engenharia de Informações – Intelligence
Gráfico de Pareto
• Gráfico de barras com os itens ordenados por tamanho;
• Usada com variáveis categóricas, quando se deseja focar a atenção nos níveis mais freqüentes;
• Traz duas escalas verticais:√ À esquerda: Quantidade absoluta por nível√ À direita: Percentagem acumulada
10
MBI – Master Business Information – Engenharia de Informações – Intelligence
• Aproximadamente 70% do lixo é coletado, 80%, é coletado ou queimado.
• O gráfico de Pareto é muito utilizado em Controle de Qualidade
Qu
an
tid
ade
% A
cu
mu
lad
a
Co unt
10 ,0 6,7 6, 7 5, 0 1, 7Cum % 7 0,0 80 ,0 8 6,7 93, 3
42
98, 3 1 00, 0
6 4 4 3 1Percent 7 0,0
Out ro sCórrego/rioCaçamb aCéu Aber toQue ima doColeta Oficial
60
50
40
30
20
10
0
100
80
60
40
20
0
Gráfico de Pareto - Destino do Lixo
MBI – Master Business Information – Engenharia de Informações – Intelligence
Gráficos de Barras e Setores –Comentários
• O gráfico de setores não é uma forma boa de dispor informações!√ O olho é bom para julgar medidas lineares e ruim em
julgar áreas relativas.
• Um gráfico de barras ou um diagrama de pontos são formas preferíveis de dispor este tipo de dado.
Cleveland (1985): ”Dados que podem ser mostrados por um gráfico de setores sempre podem ser mostrados por um gráfico de barras ou um diagrama de pontos. Isto significa que julgamentos da posição em meio a uma escala comum podem ser feitos em vez de julgamentos menos acurados via ângulos dos setores.”
MBI – Master Business Information – Engenharia de Informações – Intelligence
Análise Gráfica de Variáveis Quantitativas
11
MBI – Master Business Information – Engenharia de Informações – Intelligence
Variáveis Quantitativas
• Resultados de medição:√ Variáveis contínuas
• Resultados de contagens:√ Variáveis discretas
MBI – Master Business Information – Engenharia de Informações – Intelligence
Variabilidade
• Variabilidade por diferenças entre indivíduos:√ Ex.: medidas de peso em indivíduos de amostra
• Variabilidade do instrumento de medição:√ Ex.: medidas da velocidade da luz (Newcomb,
1882)
MBI – Master Business Information – Engenharia de Informações – Intelligence
Distribuição de Variável Quantitativa
• Distribuição é constituída pelo padrão de variabilidade da variável;
• Distribuição de variável registra seus valores numéricos e a freqüência de ocorrência de cada valor;
• A melhor maneira de representar uma distribuição é graficamente.
12
MBI – Master Business Information – Engenharia de Informações – Intelligence
Gráficos para Distribuição Quantitativa
• Ramo-e-folhas;• Histograma
MBI – Master Business Information – Engenharia de Informações – Intelligence
Ramo – e – folhas
• Gráfico que dá uma noção rápida da forma da distribuição;
• Funcionam melhor para pequeno número de observações, que sejam maiores que zero;
• Em inglês: “stem-and-leaf”
MBI – Master Business Information – Engenharia de Informações – Intelligence
Construção de Ramo-e-folhas
• Classificar cada observação:
√ Ramo: todos os dígitos menos o último (à direita)
√ Folha: o algarismo final
• Ordenar os ramos em coluna vertical e traçar reta vertical à esquerda da coluna;
• Escrever cada folha na linha à direita de seu ramo.
13
MBI – Master Business Information – Engenharia de Informações – Intelligence
Exemplo 1.4 – pg. 7
• Home runs de lendário jogador:
• Ramo-e-folhas
54 59 35 41 46 25 47 60 54 46 49 46 41 34 22
2 25 3 45 4 1166679 5 449 6 0
MBI – Master Business Information – Engenharia de Informações – Intelligence
Ex. 1.5 • Gasto de 50 clientes em supermercado:
• Ramo-e-folhas:
3.11 8.88 9.26 10.81 12.69 13.78 15.23 15.62 17.00 17.39 18.36 18.43 19.27 19.50 19.54 20.16 20.59 22.22 23.04 24.47 24.58 25.13 26.24 26.26 27.65 28.06 28.08 28.38 32.03 34.98 36.37 38.64 39.16 41.02 42.97 44.08 44.67 45.40 46.69 48.65 50.39 52.75 54.80 59.07 61.22 70.32 82.70 85.76 86.37 93.34
MBI – Master Business Information – Engenharia de Informações – Intelligence
0 3 0 89 1 023 1 557788999 2 002344 2 5667888 3 24 3 689 4 1244 4 568 5 024 5 9 6 1 6 7 0 7 8 2
• Incremento: dezena
0 389 1 023557788999 2 0023445667888 3 24689 4 1244568 5 0249 6 1 7 0 8 2
• Incremento: 5
14
MBI – Master Business Information – Engenharia de Informações – Intelligence
Exame de Distribuição
• Procure o padrão geral do gráfico e desvios acentuados àquele padrão;
• Descreva os padrão geral através de:sua forma, seu centro e sua dispersão;
• Importante:√ Outlier: valor individual que se afasta bastante do
padrão geral
MBI – Master Business Information – Engenharia de Informações – Intelligence
Aspectos da Forma – Moda
• A distribuição suavizada tem um ou vários picos?√ Moda: Valor (ou faixa de valores) mais freqüente;
√ Distribuição unimodal:Distribuição com um único pico
√ Distribuição multimodal:Distribuição com mais de um pico
• Pode ser indicativo de que diferentes categorias têm diferentes padrões.
MBI – Master Business Information – Engenharia de Informações – Intelligence
Aspectos da Forma – Simetria
• A distribuição é aproximadamente simétrica?
√ Simétrica• Os valores menores ou maiores que o ponto médio são
imagens espelho um dos outros
√ Assimétrica:• À direita: cauda direita (valores maiores) é muito maior
que a cauda esquerda
• À esquerda: o contrário
15
MBI – Master Business Information – Engenharia de Informações – Intelligence
Dos exemplos
Simétrica e Unimodal Assimétrica e Unimodal
Média: 43,9 home runs p/ temporada
0 389 1 023557788999 2 0023445667888 3 24689 4 1244568 5 0249 6 1 7 0 8 2
Média: $ 34,70 p/ cliente
2 25 3 45 4 1166679 5 449 6 0
MBI – Master Business Information – Engenharia de Informações – Intelligence
0 81 3 4 6
5 2 2 3 6 85 4 3 3 9
9 7 6 6 6 1 1 49 4 4 5
0 6 1
Babe Ruth Maris
Uma Comparação• Maris bateu o recorde de Babe Ruth (61 vs. 60).• Qual o jogador melhor?
Outlier
Ambas Simétricas e Unimodais
Mediana: 46
Mediana: 24,5
Média: 43,9
Média: 26,1
MBI – Master Business Information – Engenharia de Informações – Intelligence
Outliers
• Valor significativamente afastado do padrão geral;
• São importantes e devemos procurar uma explicação para qualquer outlier;
√ Podem indicar erros de registro dos dados√ Pode ser causada por falha de medição√ Pode ser indicativo da ocorrência de eventos raros
não revelados pelo padrão geral.
16
MBI – Master Business Information – Engenharia de Informações – Intelligence
Centro e Dispersão
• Centro:√ Pode ser descrito por seu ponto médio : metade das
observações toma valores superiores a ele e a outra metade, abaixo
• Dispersão:√ Inicialmente, poderíamos utilizar a amplitude:
intervalo entre o maior e o menor valor observados
MBI – Master Business Information – Engenharia de Informações – Intelligence
Histograma
• Os ramo-e-folhas exibem os valores reais das observações e são impróprios para grandes conjuntos de dados;
• Um histograma divide-se em intervalos de valores e apresenta apenas a quantidade de observações, ou porcentagem por cada intervalo;
• Para construção à mão e em pequeno grupo de dados o ramo-e-folhas é mais conveniente.
MBI – Master Business Information – Engenharia de Informações – Intelligence
Construção do Histograma
Em geral:1. Dividir o intervalo dos dados em classes de igual
amplitude;2. Contar o número de observações em cada classe;3. Traçar o histograma:
• Horizontal: valores• Vertical: Quantidade ou porcentagem de valores.• Traçar o gráfico sem espaço entre as barras, a menos
que haja classe vazia.
17
MBI – Master Business Information – Engenharia de Informações – Intelligence
Exemplo
• Desempenho em leitura de alunos da sétima série;
• Escores de 947 alunos
• Mínimo: 2,0Máximo: 12,1
MBI – Master Business Information – Engenharia de Informações – Intelligence
Notas
Qu
an
tid
ad
e
12108642
250
200
150
100
50
015
24
60
146
206
244
165
5 9
28
9
Hi stograma d as Notas de Vocabu lário
Quantidade Percentagem2 + - - 3 9 0,953 + - - 4 28 2,964 + - - 5 59 6,235 + - - 6 165 17,426 + - - 7 244 25,777 + - - 8 206 21,758 + - - 9 146 15,429 + - - 10 60 6,34
10 + - - 11 24 2,5311 + - - 12 5 0,5312 + - - 13 1 0,11
947 100
Classe
Total
Not as
% e
m c
ad
a c
las
se
12108642
25
20
15
10
5
00,105 5970,5279 83
2 ,5 3432
6,335 8
15 ,4 171
21,75 29
25,765 6
17,423 4
6,23 02
2 ,9 5671
0,95 037
Histog ra ma das Notas de V ocabul ári o
FreqüênciaAbsoluta
FreqüênciaRelativa
• Distribuição regular:UnimodalSimétricaSem outliers vis íveis
MBI – Master Business Information – Engenharia de Informações – Intelligence
Dados de Newcomb
• Medições de Newcomb para cálculo da velocidade da luz√ 66 medições do tempo entre seu laboratório, um
espelho a 7.400 m e a volta√ Tempo medido em nanosegundos (10-9 s)√ 28 é abreviatura de 0,000024828 s√ -44 representa 0,000024756 s ou 24.756
nanosegundos
18
MBI – Master Business Information – Engenharia de Informações – Intelligence
Variabilidade
• O mesmo indíviduo (luz) foi medido várias vezes;
• A variabilidade nos valores devem-se:√ Alterações no parelho devido a: temperatura√ Densidade atmosférica variando de um dia para
outro
• A média seria uma boa medida para a velocidade da luz?
MBI – Master Business Information – Engenharia de Informações – Intelligence
27,2923Sem outlier mais afastado
26,2121Todas as observações
• Distribuição:√ Simétrica√ Unimodal√ Outliers
• Se não há viésnas medidas, a melhor medida do verdadeiro valor (tempo) éo centro da distribuição
Tempo
Freq
üênc
ia
60402 00-2 0-40
30
25
20
15
10
5
0
Outlier-44 -2
ValorMédia
27,7500Sem outliers
MBI – Master Business Information – Engenharia de Informações – Intelligence
Outliers
• Deve-se procurar a causa para cada outlier:√ Erro de medida√ Falha em equipamento ou erro de transcrição;√ Evidência de ocorrência extraordinária√ Evidência de variabilidade inesperada
19
MBI – Master Business Information – Engenharia de Informações – Intelligence
Exemplo
• No Brasil houve 262.374 acidentes com vítimas (fatais e não fatais) em 1997. Em 2006 ocorreram 320.333 acidentes desse tipo.
• Você pensa que dirigir um carro era mais seguro em 1997 do que em 2006?
• Fonte: Denatran
MBI – Master Business Information – Engenharia de Informações – Intelligence
Dado Adicional
• A frota nacional, em 1997, era de 30.939.466 e em 2006, 45.370.640.
• Sua resposta à pergunta anterior continua a mesma?
MBI – Master Business Information – Engenharia de Informações – Intelligence
Taxa
• Taxa (subs. fem.):Rubrica: matemática.razão entre as variações de duas grandezas, das quais a primeira é
dependente da segunda.(Dicionário Houaiss)
• É uma medida mais significativa do que uma simples contagem ou número de ocorrências
20
MBI – Master Business Information – Engenharia de Informações – Intelligence
Taxa de Acidentes por Veículo
• Razão entre número de acidentes e veículos:
• Em 1997:
• Em 2006:
008480,0466.939.30
374.262=
007060,0640.370.45
333.320 =
MBI – Master Business Information – Engenharia de Informações – Intelligence
• O resultado fica muito pequeno, assim multiplicamos por 10.000 e obtemos a taxa: quantidade de acidentes com vítima a cada 10.000 veículos.
• Em 1997:
• Em 2006:
80,84000.10466.939.30
374.262=×
60,70000.10640.370.45
333.320 =×
A taxa de acidentes caiu 16,7%
MBI – Master Business Information – Engenharia de Informações – Intelligence
Tipos de Dados
• Dados de Seção Transversal√ Conjunto de dados com observações de muitos
indivíduos no mesmo instante de tempo (ou sem diferença significativa entre eles);
• Dados Longitudinais:√ Conjunto de dados com observações repetidas do
mesmo indivíduo ao longo do tempo.
21
MBI – Master Business Information – Engenharia de Informações – Intelligence
Índices de Acidentes por Capital – 2006
• Porto Velho: 15,81√ 3,63 vezes a taxa nacional
• Belo Horizonte: 1,79√ 41% da taxa nacional
Mor tes/10.000 Veículos
Fre
qü
ên
cia
15129630
7
6
5
4
3
2
1
0
Brasil = 4,35
Aciden tes de Trâ nsito Cap itai s - Tax a de Mo rtalid ade
Dados Denatran, 2006
Porto Velho
Mort es/1.000 A cidentes
Fre
qü
ên
cia
1251017753295
5
4
3
2
1
0
Brasil = 61,7
Aci dentes de Trân sito C api tais - Taxa de Se veridad e
Dados Denatran, 2006
J. Pes soa
• João Pessoa: 141,79√ 2,29 vezes a taxa nacional
• Belo Horizonte: 15,84√ 27% da taxa nacional
MBI – Master Business Information – Engenharia de Informações – Intelligence
Índices de Acidentes por Capital (2)
• São Paulo: 13,51√ 1,28 vezes a taxa nacional
• Belo Horizonte: 6,92√ 65% da taxa nacional
• Manaus: 43,80√ 3,77 vezes a taxa nacional
• Belo Horizonte: 28,35√ 2,43 vezes a taxa nacional
Mo
rte
s/
100
.00
0 H
ab
ita
nt
es
20
15
10
5
0
10,57
Vi tória
Teresi naS ão P aul o
Sã o Luí s
Sa lva do r
R io d e Jan eiro
Rio Bran co
Rec ife
Po rto Al eg re
Pa lmas
N atal
Mana us
Macei ó
João P esso a
F ortale za
Cu ritib a
C ui abá
C amp o G ra nd e
B rasí li a
Bel o Hori zon teB elém
A racaju
Dados Denatran, 2006
Acidentes de Trânsi to C apitais - T axa de Mortali dade
Brasi l
At ropelament os/10.000 Veículos
%
42363024181260
40
30
20
10
0
Brasi l = 11,63
Manaus
Acid ente s d e Trânsito Cap ita is - Tax a de Atropel amentos
Dados Denatram, 2006
MBI – Master Business Information – Engenharia de Informações – Intelligence
Índices de Motorização por Capital – 2006
• Curitiba: 55,38√ 2,28 vezes a taxa nacional
• Belo Horizonte: 38,67√ 1,59 vezes a taxa nacional
Ve
ícu
los
/1
00
Ha
bit
an
tes
60
50
40
30
20
10
24,29
SE
N E
S E
N E
N E
SE
NOR TE
N EN ORT E
SU LC. OES TE
N E
NOR TE
N E NOR TE
N E
C. OES TE
NE
SU L
S U L
N ORT E
C. OES TEC.OES TE
N ORT E
SE
N ORT E
N E
C apitais - Ta xa de M otorizaçã o
Dados Denatran, 2006
Br as i l
22
MBI – Master Business Information – Engenharia de Informações – Intelligence
Quadro Comparativo (1)
14,4011,63Atropelamentos/10k veíc.47,0561,66Mortes/1.000 acidentes3,064,35Mortes/10.000 veículos
10,7310,58Mortes/100.000 hab.35,0824,29Veículos/100 habitantes
22.42852.781Atropelamentos4.76619.752Mortes
101.303320.333Acidentes15.575.96445.370.640Frota44.405.697186.770.562PopulaçãoCapitaisBrasil
123,876,370,3
101,4144,442,524,131,634,323,7%
MBI – Master Business Information – Engenharia de Informações – Intelligence
Quadro Comparativo (2)
Atropelamentos/10k veíc.Mortes/1.000 acidentesMortes/10.000 veículosMortes/100.000 hab.Veículos/100 habitantesAtropelamentosMortesAcidentesFrotaPopulação
CuritibaB.H.
0,390,750,470,671,430,410,500,671,070,75
Ct/BH
11,0011,900,844,64
55,381.090
836.973
990.5421.788.559
28,3515,841,796,92
38,672.631
16610.478
927.9902.399.920
MBI – Master Business Information – Engenharia de Informações – Intelligence
Séries Temporais
• Séries Temporais:√ Medidas de uma variável tomadas a intervalos
regulares de tempo√ EX.:
• Dados governamentais econômicos e sociais• Dados econômicos• Registros metereológicos• Produção ao longo do tempo
23
MBI – Master Business Information – Engenharia de Informações – Intelligence
Gráficos Temporais
MBI – Master Business Information – Engenharia de Informações – Intelligence
Gráficos Temporais
• Podem revelar muitas características de uma série temporal;
• Localizar padrão global, e depois, os desvios significativos em relação a esse padrão
MBI – Master Business Information – Engenharia de Informações – Intelligence
Padrão Geral de uma Série
• Variação sazonal:√ Padrão que se repete a intervalos regulares de tempo;
• Tendência:√ Ascensão ou declínio persistente a longo prazo
24
MBI – Master Business Information – Engenharia de Informações – Intelligence
Exemplo – Preço do Leite
• Planilha: Leite√ Há tendência? Qual?√ Há efeito sazonal?
Leit
e
YearMonth
1974197219701968196619641962janjanjanjanjanj anj an
1000
900
800
700
600
500
Evolução do Preço Médio Mensal do Le ite
MBI – Master Business Information – Engenharia de Informações – Intelligence
Ajuste Linear da Tendência
Lei
te
YearMonth
1974197219701968196619641962janj anj anjanj anj anjan
1000
900
800
700
600
500
Mode lo de Crescimento LinearLinea r Trend Model
Yt = 611 ,682 + 1,69262*t
Os dados são mensais
Equação da reta
MBI – Master Business Information – Engenharia de Informações – Intelligence
Estimação Não Paramétrica da Tendência
• Smoother nos valores default do Minitab
Leit
e
Yea rMonth
1974197219701968196619641962janjanjanj anjanjanjan
1000
900
800
700
600
500
Tendência Leva ntada por Suavizador
25
MBI – Master Business Information – Engenharia de Informações – Intelligence
Estimação da Tendência com Média Móvel
• Média móvel de 12 meses
Leit
e
Ye arMo nth
19 74197219 701 96819 6619 64196 2janja njanja njanjanj an
1 000
900
800
700
600
500
Moving A ver ageLength 12
Tendência pela do P reço do Leite Estimada pela Média Móvel
MBI – Master Business Information – Engenharia de Informações – Intelligence
Número Índice
• Cada valor é calculado como uma percentagem do preço (ou outra grandeza) em uma data base.√ A base pode ser também uma média de período
• O número índice da data base é sempre considerado igual a 100.
MBI – Master Business Information – Engenharia de Informações – Intelligence
Exemplo – Dados sobre Trânsito em BH
• Dados anuais:√ População√ Frota√ Quantidade de Vítimas Fatais
• Período de 1991 a 2005• Planilha: transito_BH
26
MBI – Master Business Information – Engenharia de Informações – Intelligence
• Escalas de magnitude diferentes atrapalham a comparação entre diferentes evoluções
• Uma solução: números-índice
A no
Qte
2005
2004
2003
2002
20012000
1999
1998
1997
1996
1995
1994
1993
1992
1991
2500000
2000000
1500000
1000000
500000
0
Variable
Pop ulação
FataisFr ota
Trânsito em BH: Ev olução da População, Frota e Vítimas Tais
Dados : Detran_MG, 2006
MBI – Master Business Information – Engenharia de Informações – Intelligence
Trânsito em BH: Alguns Índices
• Quais conjecturas podemos levantar
A no
Nú
mer
o-Ín
dic
e
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
200
150
100
50
Variable
Fatais_indAcidentes_ind
População _indFro ta_ind
Trânsito em BH: Evolução de Índices
Base: 1991 = 100
MBI – Master Business Information – Engenharia de Informações – Intelligence
Evolução de Vítimas Fatais
• Há um ponto aparente de inflexão da curva?
A no
Qte
. V
ítim
as
Fa
tais
po
r A
no
2 00520042003200 22001200019 991 9981997199 619 951994199319 921 991
600
500
400
300
200
100
Trânsito em BH: Vítimas Fatais Anuais
suavizador
27
MBI – Master Business Information – Engenharia de Informações – Intelligence
Evolução da Frota
• Qual a tendência dos dados?
Ano
Tam
an
ho d
a Fr
ota
(u
n.)
20052004200 32002200120001999199 819 9719 961 9951994199319921 991
900000
800000
700000
600000
500000
Evolução da Frota
suavizador
MBI – Master Business Information – Engenharia de Informações – Intelligence
Taxas de Motorização, Mortalidade e Severidade
• Quais as tendências de cada taxa?
A no
Taxa
s
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
40
30
20
10
0
Variable
Mortalidade/ 10.000 Veic
MotorizaçãoSever idade
Trânsito de BH: Taxas de Motorização, Sever idade e Mor talidade
Dados Det ra n-MG, 2006
Motorização: Veículos p/ 100 hab.Severidade: Mort es p/ 1.000 acident es
Mortalidade: Mortes p/ 10. 000 veículos
MBI – Master Business Information – Engenharia de Informações – Intelligence
Números-índice das Taxas
• Em 2005:√ Motorização: 153,0√ Severidade: 118,5√ Mortalidade: 26,3
A no
Índi
ce
s
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
350
300
250
200
150
100
50
0
Variable
Mortalidade_ind
Motoriz ação_indSeveridade_ind
Trânsito de BH: Evolução das Taxas de Mot orização, Severidade e Mortalidade
Moto rização: Veículos p/ 100 hab.Sever idade: Mor tes p/ 1.000 ac identesMor talidade: Mortes p/ 10.000 veículos
Base : 1991 = 100
28
MBI – Master Business Information – Engenharia de Informações – Intelligence
Índice das Taxas de Atropelamentos
• Usado como base a taxa de atropelamentos de todas as capitais√ Capitais: 14,40 atropelamentos p/ 10.000 veículos
Atr
ope
lam
ent
o_i
nd
30 0
25 0
20 0
15 0
10 0
5 0
0
1 00
VIX
THE
SP
SL Z
SSA
RJ
RBR
REC
PV H
POAPMWNA T
M AO
M CZ
J PA
F OR
CWB
CGB
CG R
BSB
BVB
BH
BEL
AJU
Trânsito Capitais: Índices das Taxas de Atropelamento
Ba se: Cap itais = 1 4,40 atropela men tos p / 1 0.00 0 veículos
Dados: Denat ran , 20 06
MBI – Master Business Information – Engenharia de Informações – Intelligence
Medidas de Tendência Central
MBI – Master Business Information – Engenharia de Informações – Intelligence
Média
• A média é a soma dos valores observados dividido pelo número de observações (média aritmética).
• Pode-se obter a média na janela Session:√ Editor > Enable Commands√ mean ‘nome da coluna’
29
MBI – Master Business Information – Engenharia de Informações – Intelligence
Home runs – Médias
• Babe Ruth:
• Maris :
9,4315
225954 =+++= Lx
1,2610
61138 =+++= Lx
MBI – Master Business Information – Engenharia de Informações – Intelligence
Média e Outliers
• Média de Maris sem o maior valor (61)
2,22=x
A média não é uma medida resistente de centro
MBI – Master Business Information – Engenharia de Informações – Intelligence
Mediana
• A mediana de uma distribuição de valores é o valor que ocupa a posição central quando os dados estão ordenados.
• Exemplo: considere o conjunto cujos valores são 11,23,14,15,16,20 e 21.
• Valores ordenados: 11,14,15,16,20,21,23
30
MBI – Master Business Information – Engenharia de Informações – Intelligence
Mediana (2)
11,14,15,16,20,21,23
Valor que ocupaa posição central
Logo, a mediana deste conjunto é 16.
MBI – Master Business Information – Engenharia de Informações – Intelligence
Determina ção da Mediana
1. Ordene as observações da menor para a maior;
2. Se a quantidade de observações (n) é ímpar, localize a mediana contando (n+1)/2observações a partir do início da lista;
3. Se n é par, a mediana é a média das duas observações centrais da lista (observações (n/2) e (n/2+1)
MBI – Master Business Information – Engenharia de Informações – Intelligence
Home runs – Medianas• Maris :
√ n=15,
√ Posição: (15+1)/2=8
• Maris :√ n = 10;√ Posições: n/2=5 e n/2+1=6
22 25 34 35 41 41 46 46 46 47 49 54 54 59 60
8 13 14 16 23 26 28 33 39 61 5,242
2623~ =+
=x
46~ =x
31
MBI – Master Business Information – Engenharia de Informações – Intelligence
Mediana
• Pode-se obter a mediana pela janela Session:√ Editor > Enable Commands
median ‘nome da coluna’
MBI – Master Business Information – Engenharia de Informações – Intelligence
Média vs Mediana
• fácil de ser manipulada algebricamente;
• representa o “centro de massa” dos dados (ponto de equilíbrio no histograma).
• afetada grandemente por valores extremos (ex.: islands).
• difícil de ser manipulada algebricamente;
• valor da posição central dos dados ordenados;
• não é afetada por valores extremos.
Média Mediana
LFB118
MBI – Master Business Information – Engenharia de Informações – Intelligence
Média vs Mediana (2)
• Para distribuições muito assimétricas, a mediana é uma medida mais apropriada para caracterizar um conjunto de dados.
• Se a distribuição é aproximadamente simétrica, então média e mediana são aproximadamente iguais.
√ Em distribuições perfeitamente simétricas média = mediana.
LFB119
32
MBI – Master Business Information – Engenharia de Informações – Intelligence
Moda
• É o valor mais freqüente da distribuição.
• No histograma, a classe modal é a classe de maior freqüência e a moda é aproximada pelo ponto médio da classe.
MBI – Master Business Information – Engenharia de Informações – Intelligence
Distribuições Unimodais
• Em distribuições unimodais tem-se sempre a mediana entre a média e a moda:
• Assimetria negativa:média = mediana = moda
• Assimetria positivamoda = mediana = média
• Perfeitamente simétricasmédia = moda = mediana.
MBI – Master Business Information – Engenharia de Informações – Intelligence
Distribuição Unimodal – Assimetria Positiva
média > mediana > moda
LFB165
33
MBI – Master Business Information – Engenharia de Informações – Intelligence
Distribuição Unimodal – Assimetria Negativa
média < mediana < moda
LFB166
MBI – Master Business Information – Engenharia de Informações – Intelligence
Distribuição Unimodal – Simetria
média = mediana = moda
LFB167
MBI – Master Business Information – Engenharia de Informações – Intelligence
Medidas de Posição – Quartis
34
MBI – Master Business Information – Engenharia de Informações – Intelligence
Quantis
• Em geral, a média e o desvio-padrão não representam completamente um conjunto de dados, pois:√ são fortemente influenciados por valores extremos;√ não oferecem uma idéia clara da simetria (ou
assimetria) da distribuição dos dados.
MBI – Master Business Information – Engenharia de Informações – Intelligence
Quantis (2)
• Define-se uma medida chamada quantil de ordem p, com 0 < p < 1 , tal que 100 x p% das observações sejam menores do que o quantilde ordem p.
• Notação: q(p)
MBI – Master Business Information – Engenharia de Informações – Intelligence
LFB160
35
MBI – Master Business Information – Engenharia de Informações – Intelligence
Quartis
• São três medidas (Q1, Q2 e Q3) que dividem a distribuição em quatro intervalos de mesma freqüência (25%)√ Q1: primeiro quartil à q(0,25)√ Q2: segundo quartil ou mediana à q(0,50)√ Q3: terceiro quartil à q(0,75)
MBI – Master Business Information – Engenharia de Informações – Intelligence
LFB161
MBI – Master Business Information – Engenharia de Informações – Intelligence
Decis
• São 9 medidas que dividem a distribuição em 10 intervalos de mesma freqüência (10%):√ D1: primeiro decilà q(0,10)√ D2: segundo decilà q(0,20)
√ D3: terceiro decilà q(0,30)√ etc.
36
MBI – Master Business Information – Engenharia de Informações – Intelligence
LFB162
MBI – Master Business Information – Engenharia de Informações – Intelligence
Percentis
• São 99 medidas que dividem a distribuição em 100 intervalos de mesma freqüência (1%) √ q(0,01): primeiro percentil;√ q(0,02): segundo percentil;√ q(0,03): terceiro percentil;√ etc.
MBI – Master Business Information – Engenharia de Informações – Intelligence
Esquema dos 5 Números
• São cinco valores importantes para se ter uma boa idéia da assimetria dos dados.
• São as seguintes medidas da distribuição:x(1) , Q1 , Q2 , Q3 e x(n).
37
MBI – Master Business Information – Engenharia de Informações – Intelligence
Cálculo dos Quartis
1. Ordenar as observações e determinar a mediana;
2. O primeiro quartil (Q1) é a mediana das observações à esquerda da mediana global;
3. O terceiro quartil (Q3) é a mediana das observações à direita da mediana global;
4. Se n é par considera-se cada metade do conjunto de dados; se é impar, exclui-se a mediana e considera-se as metades restantes
MBI – Master Business Information – Engenharia de Informações – Intelligence
Home runs - Quartis
• Resumo dos cinco n úmeros:√ Mínimo: 22√ Q1: 35
√ Mediana: 46√ Q3: 54√ Máximo: 60
22 25 34 35 41 41 46 46 46 47 49 54 54 59 60 46~ =x
Q 1 Q 3
MBI – Master Business Information – Engenharia de Informações – Intelligence
Esquema dos 5 Números (2)
Para uma aproximadamente simétrica, tem-se:√ Q2 – x(1) ≅ x(n) – Q2; √ Q2 – Q1 ≅ Q3 – Q 2 ; √ Q1 – x(1) ≅ x(n) – Q3; √ distâncias entre mediana e Q1, mediana e Q3
menores do que distâncias entre os extremos e Q1 e Q3.
38
MBI – Master Business Information – Engenharia de Informações – Intelligence
Histograma alisadode uma distribuição simétrica unimodal
MBI – Master Business Information – Engenharia de Informações – Intelligence
Distância Interquartílica
• Distância entre o 3º quartil (Q3) e o 2º quartil (Q2)
• É uma medida de variabilidade uma pouco mais refinada que a amplitude amostral.
MBI – Master Business Information – Engenharia de Informações – Intelligence
Box Plot
• A informação do esquema dos cinco números pode ser expressa num diagrama, conhecido como box plot (gráfico-caixa).
mín. Q2 Q3 máx.Q1
39
MBI – Master Business Information – Engenharia de Informações – Intelligence
Box Plot (2)
• O retângulo é traçado de maneira que suas bases têm alturas correspondentes Q1 e Q3.
• Corta-se o retângulo por segmento paralelo às bases, na altura correspondente Q2.
• O retângulo do boxplot correponde aos 50% valores centrais da distribuição.
MBI – Master Business Information – Engenharia de Informações – Intelligence
Intervalo dos50% centrais
da distribuição
DistânciaInterquartílica
MBI – Master Business Information – Engenharia de Informações – Intelligence
Região de Observações Típicas
• Delimita-se a região que vai da base superior do retângulo até o maior valor observado que NÃO supere o valor de Q3+1,5 x DIQ.
• Procedimento similar para delimitar a região que vai da base inferior do retângulo, até o menor valor que NÃO é menor do que Q1-1,5 x DIQ.
40
MBI – Master Business Information – Engenharia de Informações – Intelligence
Região de Observações Atípicas
• Observações são representadas por asterísticos e situam-se:
√ ou, acima do Valor adjacente superior(Q3 + 1,5 DIQ)
√ ou, abaixo do Valor adjacente inferior(Q1 – 1,5 DIQ)
• Estes pontos exteriores são denominados outliers ou valores atípicos.
MBI – Master Business Information – Engenharia de Informações – Intelligence
Quartil superior (Q3)
Valor adjacente superiorQ3 + 1,5 DIQ
Quartil inferior – (Q1)
Valor adjacente inferiorQ1 – 1,5 DIQ
Pontos Exteriores
Ponto Exterior
MedianaDIQ
MBI – Master Business Information – Engenharia de Informações – Intelligence
• Se não houver pontos exteriores:
x(1)
Mediana (Q2)
Q3
x(n)
Q1
41
MBI – Master Business Information – Engenharia de Informações – Intelligence
Box-plot no Minitab
Graph > Boxplot
MBI – Master Business Information – Engenharia de Informações – Intelligence
Utilização do Box-Plot
• Sua grande utilidade é na comparação entre distribuições;
• Um ramo-e-folhas ou um histograma permitem uma visão mais clara de uma única distribuição.
√ Acompanhada por indicadores numéricos: mediana e quartis.
MBI – Master Business Information – Engenharia de Informações – Intelligence
Trânsito Capitais por Região
• É possível reconhecer algum padrão?
Região
Vít
ima
s f
at
ais
po
r 1
.00
0 a
cid
en
te
s
SULSENORTENEC. O ES TE
140
120
100
80
60
40
20
0
João Pesso a
Se verida de p or Re gião
Dados: Denatran, 2006Região
Ve
ícu
los
po
r 1
00
ha
bit
an
tes
SULSENORTENEC. OESTE
60
50
40
30
20
10
S al vad or
Mo toriza ção p or Re gião
42
MBI – Master Business Information – Engenharia de Informações – Intelligence
Trânsito por Porte da Capital
√ Médio: até 500.000 hab.√ Grande: de 500.000 at é 2.000.000 hab.√ Metrópole: acima de 2.000.000 hab.
Po rte
Atr
ope
lam
ento
s p
or 1
0.0
00 v
eíc.
Metr ópoleMédioGrande
50
40
30
20
10
0
São Luís
Manaus
Taxa de Atropelamentos por Porte da Capi tal
Dado s: Dena tran, 2006
MBI – Master Business Information – Engenharia de Informações – Intelligence
Medidas de Dispersão
MBI – Master Business Information – Engenharia de Informações – Intelligence
Exemplo 7
• Suponha 5 conjuntos com valores variando de 0 a 10, cada um deles com 10 elementos.
• Os conjuntos estão na planilha grupos;• Estes conjuntos são fictícios e têm objetivo
didático.• O objetivo é o uso de medidas para resumo de
dados
43
MBI – Master Business Information – Engenharia de Informações – Intelligence
Média e Mediana
• Calcule a média e a mediana de cada conjunto.
Todos os conjuntos têm média e mediana iguais a 5
• Será que podemos afirmar que a distribuição dos dados é a mesma?
MBI – Master Business Information – Engenharia de Informações – Intelligence
Ramo e Folhas
• Para responder a pergunta anterior, observar a variação dos dados nos diferentes conjuntos através de gráficos ramo-e-folhas .
MBI – Master Business Information – Engenharia de Informações – Intelligence
Grupos – Ramo – e – Folhas
Stem - and-Leaf Display: grupo_1 Stem-and-leaf of grupo_1 N = 10 Leaf Unit = 0,10 (10) 5 0000000000 Stem - and-Leaf Display: grupo_2 Stem-and-leaf of grupo_2 N = 10 Leaf Unit = 0,10 4 2 0000 5 3 0 5 4 5 5 5 6 5 7 0 4 8 0000 Stem - and-Leaf Display: grupo_3 Stem-and-leaf of grupo_3 N = 10 Leaf Unit = 0,10 3 4 000 (4) 5 0000 3 6 000
Stem- and-Leaf Display: grupo_4 Stem-and-leaf of grupo_4 N = 10 Leaf Unit = 0,10 1 1 0 2 2 0 3 3 0 4 4 0 (2) 5 00 4 6 0 3 7 0 2 8 0 1 9 0 Stem- and-Leaf Display: grupo_5 Stem-and-leaf of grupo_5 N = 10 Leaf Unit = 0,10 1 3 0 3 4 00 (4) 5 0000 3 6 00 1 7 0
44
MBI – Master Business Information – Engenharia de Informações – Intelligence
Comentários
• Há grandes diferenças entre os grupos;√ Grupo 1: Todos os valores são iguais a 5.√ Grupo 2: Nenhum valor igual a 5;√ Grupo 3: Valores concentrados entre 4 e 6.√ Grupo 4: Valores espalhados entre 1 e 9√ Grupo 5: Valores dispersos entre 3 e 7
• Além da média e da mediana, é necessário outro tipo de medida para caracterizar os grupos
MBI – Master Business Information – Engenharia de Informações – Intelligence
Medidas de Dispersão
• É necessário caracterizar os grupos através de medidas que avaliem a variabilidade dos dados.
• Apresentamos as medidas de dispersão mais comuns:
MBI – Master Business Information – Engenharia de Informações – Intelligence
Amplitude Amostral - R
• É a mais simples das medidas de dispersão. • É definida como:
Amplitude = máximo amostral – mínimo amostral• Pode ser obtida pela janela Session:
√ Editor > Enable Commandsrange ‘nome da coluna’.
45
MBI – Master Business Information – Engenharia de Informações – Intelligence
Amplitude Amostral – Desvantagens
• Considera apenas os valores do mínimo e do máximo dos dados, sendo determinada por estesvalores extremos.
• Ignora todo o restante da informação fornecida pela amostra.
MBI – Master Business Information – Engenharia de Informações – Intelligence
Distância Interquartílica
• Ordena-se a amostra, dividindo-a em quatro partes com freqüência iguais.
• Tomam-se os valores do primeiro e do terceiro quartil (Q1 e Q3), os quais correspondem às freqüências relativa acumulada de ¼ e ¾
• É uma medida um pouco mais refinada que a amplitude amostral.
MBI – Master Business Information – Engenharia de Informações – Intelligence
LFB135
46
MBI – Master Business Information – Engenharia de Informações – Intelligence
Minitab – Interquartile Range
• Pode ser obtida pela janela Session:√ Editor > Enable Commands
describe ‘nome da coluna’;iqrange.
MBI – Master Business Information – Engenharia de Informações – Intelligence
Distância Interquartílica – Desvantagem
• Esta medida, ainda tem a desvantagem de considerar apenas dois valores dos dados, ignorando o restante da informação fornecida pela amostra.
MBI – Master Business Information – Engenharia de Informações – Intelligence
Variância Amostral
2
1
2 )(1
1 ∑=
−−
=n
ii xx
ns
47
MBI – Master Business Information – Engenharia de Informações – Intelligence
Variância Amostral (2)
• É a média dos desvios quadráticos em relação à média. Tem unidade diferente dos dados.
• Por questões técnicas (Inferência), adota-se n-1 no denominador da média.
• Pode ser obtida pela janela Session:√ Editor > Enable Commands
describe ‘nome da coluna’;variance.
MBI – Master Business Information – Engenharia de Informações – Intelligence
Desvio – Padrão
• É a raiz quadrada a variância.
• Pode ser obtida pela janela Session:√ Editor > Enable Commands
describe ‘nome da coluna’;stdeviation.
√ Para cálculo de uma coluna apenas, pode-se digitar:stde ‘nome da coluna
MBI – Master Business Information – Engenharia de Informações – Intelligence
Exemplo
• Cinco grupos de dados especiais, com a característica de que:
Todos os conjuntos têm média e mediana iguais a 5
• Será que podemos afirmar que a distribuição dos dados é a mesma?
48
MBI – Master Business Information – Engenharia de Informações – Intelligence
Grupos: Ramo – e – Folhas
Stem - and-Leaf Display: grupo_1 Stem-and-leaf of grupo_1 N = 10 Leaf Unit = 0,10 (10) 5 0000000000 Stem - and-Leaf Display: grupo_2 Stem-and-leaf of grupo_2 N = 10 Leaf Unit = 0,10 4 2 0000 5 3 0 5 4 5 5 5 6 5 7 0 4 8 0000 Stem - and-Leaf Display: grupo_3 Stem-and-leaf of grupo_3 N = 10 Leaf Unit = 0,10 3 4 000 (4) 5 0000 3 6 000
Stem- and-Leaf Display: grupo_4 Stem-and-leaf of grupo_4 N = 10 Leaf Unit = 0,10 1 1 0 2 2 0 3 3 0 4 4 0 (2) 5 00 4 6 0 3 7 0 2 8 0 1 9 0 Stem- and-Leaf Display: grupo_5 Stem-and-leaf of grupo_5 N = 10 Leaf Unit = 0,10 1 3 0 3 4 00 (4) 5 0000 3 6 00 1 7 0
MBI – Master Business Information – Engenharia de Informações – Intelligence
Freq
üên
cia
8642
8642
10,0
7,5
5,0
2,5
0,0
8642
10,0
7,5
5,0
2,5
0,0
Grupo 1 Grupo 2 Grupo 3
Grupo 4 Grupo 5
Hi stogramas de Freqüências - Grupos
s = 0,00 s = 2,98 s = 0,82
s = 2,58 s = 1,16
MBI – Master Business Information – Engenharia de Informações – Intelligence
Desvio-Padrão – Propriedades
• s mede a dispersão em trono da média e deve ser usado somente quando a média é escolhida como medida de centro;
• s = 0 apenas quando não há dispersão, ou seja, apenas quando todas as observações são iguais;
• Caso contrário, s > 0;• s, como a média, não é resistente a outliers
√ poucos outliers podem fazer com que s se torne muito grande.
49
MBI – Master Business Information – Engenharia de Informações – Intelligence
Coeficiente de Variação Amostral
• Mede a variação relativa dos dados. É dado por:
onde:desvio-padrão amostralmédia amostral
• É adimensional. Em geral expresso em percentagens.• Permite a comparação das variabilidades de diferentes
conjuntos de dados.
xs
cv =
sx
MBI – Master Business Information – Engenharia de Informações – Intelligence
Exemplo – Conjuntos
• Considere os seguintes conjuntos quaisquer de dados:
Conjunto 1Conjunto 224 17530 14524 11526 15529 148
Disponível na planilha conjuntos
MBI – Master Business Information – Engenharia de Informações – Intelligence
Conjunto – Cálculo
• Pode ser obtida pela janela Session:√ Editor > Enable Commands
describe ‘nome da coluna’;cvariation.
MTB > Describe 'Conjunto 1' 'Conjunto 2'; SUBC> Mean; SUBC> StDeviation; SUBC> CVariation. Descriptive Statistics: Conjunto 1; Conjunto 2 Variable Mean StDev CoefVar Conjunto 1 26,714 2,360 8,84 Conjunto 2 147,71 17,83 12,07
50
MBI – Master Business Information – Engenharia de Informações – Intelligence
Comentários
• O resumo dos cinco números é, em geral, melhor do que a média e o desvio-padrão para descrever uma distribuição com fortes outliers;
• Utilize a média e s apenas para distribuições razoavelmente simétricas;
• As medidas e os métodos estatísticos, em geral, só tem sentido para distribuições cija forma ésuficientemente regular.
MBI – Master Business Information – Engenharia de Informações – Intelligence
Exemplo de Aplicação
MBI – Master Business Information – Engenharia de Informações – Intelligence
Exemplo 9 – Investimentos
• Reportagem sobre o dinheiro da União disponível para investimentos nas prefeituras, em 2004.
• Pergunta: A distribuição foi justa?
LFB143
51
MBI – Master Business Information – Engenharia de Informações – Intelligence
Banco de Dados
• Dados disponíveis na planilha prefeituras• Variáveis:
√ Cidade: 25 capitais√ partido (do prefeito)√ hab1000: habitantes (em milhares)√ invest1000: investimento (em milhares de $R)
MBI – Master Business Information – Engenharia de Informações – Intelligence
Investimentos – Box-plot
milh
are
s re
ais
25000
20000
15000
10000
5000
0
Inv estimentos
MBI – Master Business Information – Engenharia de Informações – Intelligence
Detalhes dos Investimentos
Milh
are
s re
ais
25000
20000
15000
10000
5000
0 Joao Pessoa
Rec ife
São P aulo
Inve stimentos
52
MBI – Master Business Information – Engenharia de Informações – Intelligence
Habitantes – Box-plot
Milh
are
s
10000
8000
6000
4000
2000
0 Palmas
Salvador
Rio de Janeiro
São Paulo
Habitantes
MBI – Master Business Information – Engenharia de Informações – Intelligence
Razão de Investimento – Cálculo
Calc > Calculator
MBI – Master Business Information – Engenharia de Informações – Intelligence
$R/h
abita
nte
s
25
20
15
10
5
0 252 4
2 3
22
21
20
19
18
1 716
15
14
13
12
11
10
9
8
7
6
5
4
32
1
Ra zão
Boxplot > Label: row number
$R /
hab
itant
e
25
20
15
10
5
0 Joao Pe ssoaP orto A l eg re
Vi to ria
Bo a Vi sta
Pa lma s
Na ta l
Man au s
T eresi na
R i o de Ja ne iroF orta leza
Po rto Ve lh o
C ur itib a
Ma cei o
Ca mpo Gra nd e
Ri o B ran co
S alv ad or
Mac apa
Fl ori an op ol is
C ui ab a
Be lo Ho rizo nte
Be lem
Ara caju
Go ia ni aR eci fe
Sã o P aul o
Indi vid ual Val ue Plo t - Razão
Individual Value Plot > Label: Cidade
53
MBI – Master Business Information – Engenharia de Informações – Intelligence
Distribuição dos Investimentos
• Criação de variável classificando partidos como: PT e Outros Partidos√ Alternativa 1: Criar variável indicadora (0 e 1)
através de operador lógico• Editor > EnableCommands
Let ‘Partido’ = ‘_partido’ = “PT”
MBI – Master Business Information – Engenharia de Informações – Intelligence
• Mudar os valores da inidcadora (0 e 1) para os valores desejados (Outros e PT)
Data > Code > Numeric to Text
MBI – Master Business Information – Engenharia de Informações – Intelligence
√ Alternativa 2: Criar a variável desejada modificando cada valor da variável _partido
Data > Code > Text to Text
54
MBI – Master Business Information – Engenharia de Informações – Intelligence
Graph > Boxplot
MBI – Master Business Information – Engenharia de Informações – Intelligence
Compara ção de Investimentos
Partido
Milh
are
s d
e r
ea
is
PTOutros part idos
25000
20000
15000
10000
5000
0
São Paulo
Inve stimento da Uniã o2004
MBI – Master Business Information – Engenharia de Informações – Intelligence
• Gráfico de percentual de variável contínua (investimento) separada por categoria (Partido)
Graph > Pie Chart
Pie Chart Options > Slice labels: percent
55
MBI – Master Business Information – Engenharia de Informações – Intelligence
Compara ção de Investimentos
59,2%
40,8%
CategoryOu tros par tid osPT
Distribuição de Recursos para Capitais2004
MBI – Master Business Information – Engenharia de Informações – Intelligence
• Gráfico de total de investimentos (variável contínua) separados por Partido(variável categórica)
Graph > Bar Chart
MBI – Master Business Information – Engenharia de Informações – Intelligence
Compara ção de Investimentos
Partido
Milh
are
s de
rea
is
PTOutros partidos
90000
80000
70000
60000
50000
40000
30000
20000
10000
0
84426
58127
Distr ibuição de Recursos para Cap ita is
56
MBI – Master Business Information – Engenharia de Informações – Intelligence
MBI – Master Business Information – Engenharia de Informações – Intelligence
Transformação Linear
MBI – Master Business Information – Engenharia de Informações – Intelligence
Transformação Linear
• Muda a variável original x para uma nova variável xnova através de equação da forma:√ xnova = a + b x
• a desloca todos os valores igualmente√ fator de locação
• b muda o tamanho da unidade de medida√ fator de escala
57
MBI – Master Business Information – Engenharia de Informações – Intelligence
Exemplo
• Para reexpressar uma medida em graus Fahrenheit pra graus Celsius a transformação é:
• Essa transformação muda a unidade da medida e sua origem:√ 0ºC (congelamento da água) é 32ºF
( )3295 −= xxnova
MBI – Master Business Information – Engenharia de Informações – Intelligence
Transformações Lineares - Propriedades
• As transformações lineares não alteram a forma da distribuição:√ Simetria ou assimetria, unimodalidade ou
multimodalidade, etc.
• Embora conserve a forma básica de uma distribuição, o centro e a dispersão variam
MBI – Master Business Information – Engenharia de Informações – Intelligence
Exemplo 1.21 – pg. 32
• Medidas de mesmos 5 indivíduos:√ Utilizadas unidades diferentes (cm e mm)
Aè 1,4 cm 2,2 cm 1,1 cm 1,6 cm 1,2 cmBè 14 mm 22 mm 11 mm 16 mm 12 mm
• Medem os mesmos 5 comprimentos
4,36 mm15 mmB0,436 cm1,5 cmAD. PadrãoMédia
Valores 10 vezes maior
58
MBI – Master Business Information – Engenharia de Informações – Intelligence
Efeitos de uma Transformação Linear
• Multiplicar cada observação por b acarreta:√ Medidas de centro (média e mediana):
multiplicadas por b;√ Medidas de dispersão(desvio-padrão e intervalo
inter-quartílico) multiplicados por |b|;
• Adicionar a a cada observação acarreta:√ Medidas de centro: adicionar a a cada medida√ Medidas de dispersão: não altera os valores
MBI – Master Business Information – Engenharia de Informações – Intelligence
Referências
MBI – Master Business Information – Engenharia de Informações – Intelligence
Bibliografia Recomendada
• Moore, D. S. e McCabe, G. P. (LTC)Introdução à prática da estatística.
• Wild, C. J. e Seber, G. A. (LTC) Encontros com o acaso.