Análise Exploratória de Dados 1a parte - CPGCCmarcelo/Aula02CPGCC.pdf · Nível de mensuração...
Embed Size (px)
Transcript of Análise Exploratória de Dados 1a parte - CPGCCmarcelo/Aula02CPGCC.pdf · Nível de mensuração...

1
FONTES DE ERRO, HIPÓTESES, ANÁLISE EXPLORATÓRIA DE
DADOS – 1ª PARTE

Fontes de erro
2
Mesmos dados
População
incorreta

“Prescrição”
3
Listar fontes
de variação
Definir
população
Objetivos:
1º passo
Formular
hipóteses
ANTES

Hipóteses de Pesquisa
“Para homens acima de 40 anos com hipertensão crônica, uma dose diária de 100 mg desta nova droga reduzirá em 10 mm de mercúrio (em média) a pressão sanguínea diastólica “.
“Para homens acima de 40 anos com hipertensão crônica, uma dose diária de 100 mg desta nova droga reduzirá em 10 mm de mercúrio (em média) a pressão sanguínea diastólica comparada a uma dose equivalente de metropolol“.
“Esta nova variedade de tijolo refratário apresentará um ponto de fusão 200º C maior (em média) do que a variedade atualmente usada”.
4

5
AED - Conceito
Necessário organizá-los!
Necessário resumi-los!
Dados
Interpretação e tomada
de decisões.

6
Objetivo
Estudar comportamento INDIVIDUAL das variáveis.
Estudar RELACIONAMENTO entre as variáveis.

7
Escolha das técnicas de AED
Nível de mensuração das variáveis.
Objetivo da análise:
Comportamento individual da variável.
Comportamento da variável em função de uma ou mais variáveis (ferramentas múltiplas).
Número de variáveis envolvidas.
Tamanho do conjunto de dados.
Tempo disponível para a apresentação dos resultados.
Grau de conhecimento estatístico do público alvo.

8
Nível de mensuração
Qualitativas
Tabelas de freqüência ou percentuais
Gráficos (barras, setores, linhas)
Quantitativas
Tabelas de freqüência ou percentuais
Gráficos (diagrama de pontos, histograma,
diagrama em caixas, linhas)
Medidas de síntese: média, mediana,
desvio padrão

9
Nível de mensuração
Variáveis QUANTITATIVAS: Discretas - lista finita (geralmente, números inteiros).
Exemplo: quantidade de máquinas ligadas.
Contínuas - infinitos resultados possíveis (um intervalo dos números reais).
Exemplo: tempo de resposta (em segundos).

10
Mensuração de variáveis
Como medir satisfação com o trabalho?
classificar: “satisfeito” / “não satisfeito”
grau de satisfação: escala de 0 a 10
grau de satisfação: escala de 1 a 5 associada a adjetivos
grau de satisfação: escala construída com vários itens de um questionário

11
Nível de mensuração
Qual é o nível de
mensuração de cada
variável no conjunto
ao lado?

12
Pré-análise dos dados
Dados perdidos: não foram registrados para um ou mais dos integrantes do conjunto.
Até 5% aceitável.
Erros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes (quando resultante de erros).
Inconsistências: sua identificação já faz parte da análise dos dados.
Importante para mineração de dados.

13
Recodificação e Transformação
Criar novas variáveis usando condições fixadas.
Recodificação:
Qualitativa para qualitativa.
Quantitativa para qualitativa (categorização).
Quantitativa contínua para classes (agrupamento em classes)
Transformação:
Quantitativa para quantitativa (operação matemática).

Distribuição de frequências
14
Valores possíveis
da variável Número de ocorrências
de cada valor
Marca Freq %
Gradiente 215 8.6
Panasonic 774 30.96
Phillips 401 16.04
Samsung 754 30.16
Toshiba 356 14.24
Total 2500 100
Vendas das marcas
150
250
350
450
550
650
750
850
Gradiente Panasonic Phillips Samsung Toshiba
Marcas
Fre
qü
ên
cia
Ou Quantidades e %

15
Distribuição de frequências - variáveis qualitativas
Marca Freq %
Gradiente 215 8.6
Panasonic 774 30.96
Phillips 401 16.04
Samsung 754 30.16
Toshiba 356 14.24
Total 2500 100
Marca dos produtos vendidos em 2500 transações
Fonte: hipotética

16
Gráfico de barras
Vendas das marcas
150
250
350
450
550
650
750
850
Gradiente Panasonic Phillips Samsung Toshiba
Marcas
Fre
qü
ên
cia

17
Gráfico de barras
Vendas das marcas
0
100
200
300
400
500
600
700
800
900
Gradiente Panasonic Phillips Samsung Toshiba
Marcas
Fre
qü
ên
cia

18
Gráfico em setores (circular ou pizza)
Vendas das marcas9%
31%
16%
30%
14%
Gradiente
Panasonic
Phillips
Samsung
Toshiba

Distribuição de frequência múltipla
19
Tabulação
Cruzada
Dupla
Classificação
Tabela de
Contingências
Valores variável 1
Valores variável 2
Frequências cruzamentos

20
Tabela de contingências
Região
Marca Gradiente Panasonic Philips Samsung Toshiba Total
Centro 25 146 52 82 60 365
Extr.Sul 42 79 65 218 52 456
Leste 48 183 91 142 72 536
Norte 24 148 34 43 53 302
Sudeste 76 218 159 269 119 841
Total 215 774 401 754 356 2500
Podem ser calculados percentuais em relação aos totais das linhas,
das colunas, ou ao total geral.

21
Tabela de contingências
Marca
Região Gradiente Panasonic Phillips Samsung Toshiba
Centro 1.00 5.84 2.08 3.28 2.40
Extr.Sul 1.68 3.16 2.60 8.72 2.08
Leste 1.92 7.32 3.64 5.68 2.88
Norte 0.96 5.92 1.36 1.72 2.12
Sudeste 3.04 8.72 6.36 10.76 4.76
Marca
Região Gradiente Panasonic Phillips Samsung Toshiba Total
Centro 6.85 40.00 14.25 22.47 16.44 100.00
Extr.Sul 9.21 17.32 14.25 47.81 11.40 100.00
Leste 8.96 34.14 16.98 26.49 13.43 100.00
Norte 7.95 49.01 11.26 14.24 17.55 100.00
Sudeste 9.04 25.92 18.91 31.99 14.15 100.00
Perfil linha
Marca
Região Gradiente Panasonic Phillips Samsung Toshiba
Centro 11.63 18.86 12.97 10.88 16.85
Extr.Sul 19.53 10.21 16.21 28.91 14.61
Leste 22.33 23.64 22.69 18.83 20.22
Norte 11.16 19.12 8.48 5.70 14.89
Sudeste 35.35 28.17 39.65 35.68 33.43
Total 100.00 100.00 100.00 100.00 100.00
Perfil coluna

22
Apresentação gráfica
0
50
100
150
200
250
300
350
Gradiente Panasonic Phillips Samsung Toshiba
Fre
qu
ên
cia
Marcas de eletrodomésticos
Distribuição das marcas por região
Centro
Extr.Sul
Leste
Norte
Sudeste

23
Apresentação gráfica
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Gradiente Panasonic Phillips Samsung Toshiba
Fre
qu
ên
cia
Marcas de eletrodomésticos
Distribuição das marcas por região
Sudeste
Norte
Leste
Extr.Sul
Centro

24
Distribuição de frequências - variáveis quantitativas
Nível de mensuração da variável quantitativa:
DISCRETA: semelhante às variáveis qualitativas.
Tabela de freqüências e histograma para dados não agrupados.
CONTÍNUA: necessário agrupar os dados para possibilitar o resumo do conjunto e melhor visualização.
Tabelas de freqüência e histograma para dados agrupados, diagramas em caixa.

25
Tabela de frequências - dados não agrupados
Semelhante às qualitativas: registrar os valores possíveis e contar o número de ocorrências de cada um.
Numa rede de computadores, a quantidade de máquinas que costumam estar ligadas, por dia
20 26 21 21 20 21 23 22 24 22
22 22 23 23 23 22 23 22 24 21

26
Distribuição de Frequências
Máquinas
em uso
20
21
22
23
24
25
26
Total
Freqüência
(absoluta)
2
4
6
5
2
0
1
20
Proporção
0,10 (10%)
0,20 (20%)
0,30 (30%)
0,25 (25%)
0,10 (10%)
0
0,05 ( 5%)
1 (100%)

27
Histograma
20 21 22 23 24 25 26
0,10
0,20
0,30
0,25
0,10
0,05
Máquinas em uso

28
Tabela de frequências para dados agrupados
Recomendável para grande conjuntos de variáveis QUANTITATIVAS.
PERDE-SE informação sobre o conjunto original para obter sua compactação.

29
Tabela de frequências para dados agrupados
Passos para construção:
Determinar o intervalo do conjunto.
Dividir o intervalo em k classes: k = 5 × log n (para n > 100)
Contar frequência dentro das classes.
Tempo (em segundos) para carga de um aplicativo num sistema compartilhado (50 observações):
5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7
6,3 5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7
8,2 7,1 4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1
6,0 4,7 18,1 5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9
6,5 5,9

30
5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7 6,3 5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7 8,2 7,1 4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1 6,0 4,7 18,1 5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9 6,5 5,9
4,7 18,1
4 19 5 6 7 ...

31
Tabela de freqüências

32
Histograma do tempo (em segundos) para carga de um aplicativo num sistema
compartilhado (50 observações). Histogram: Falhas
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
X < Category Boundary
0
2
4
6
8
10
12
14
16
18
20
No.
of
obs.

33
Diagrama de pontos Distribution for variable: Falhas
4 6 8 10 12 14 16 18 20
Falhas
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5

34
Gráfico de linhas Companhia aérea
Meses
Nú
me
ro d
e p
assa
ge
iro
s
0
100
200
300
400
500
600
700
0
100
200
300
400
500
600
700
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150

35
Diagrama de Dispersão
y = 0,7485x + 135,03
y = -0,0435x2 + 1,8279x + 129,66
100
110
120
130
140
150
160
170
180
0 10 20 30
Experiência (anos)
Sa
lári
o a
nu
al