Métodos Quantitativos Aplicados I - AED
-
Upload
eduardo-campi -
Category
Documents
-
view
177 -
download
3
Transcript of Métodos Quantitativos Aplicados I - AED
1
Análise Exploratória de Dados
Análise Exploratória de DadosREI004 – MQA I
2
Resumo de Dados: Tipos de Variáveis
Para cada elemento investigado numa pesquisa (observações) estão associados resultados que correspondem à realização de características (variáveis)
Tipos de variáveis:
a) qualitativas: realizações são um atributo (qualidade) do elemento pesquisado
b) Quantitativas: realizações são números resultantes de uma contagem ou mensuração
Análise Exploratória de DadosREI004 – MQA I
3
Resumo de Dados: Tipos de Variáveis
a) Qualitativas:
a.1) nominais: não há ordenação nas realizações
a.2) ordinais: há ordem nos resultados
b) Quantitativas:
b.1) discretas: valores formam conjunto finito ou enumerável de números, que resultam, em geral, de uma contagem
b.2) contínuas: valores pertencem a um intervalo de números reais e que resultam de uma mensuração
Análise Exploratória de DadosREI004 – MQA I
4
Resumo de Dados: Tipos de Variáveis
Para cada tipo de variável, há técnicas apropriadas para resumir as informaçõesNecessário usar uma tipologia de identificação ou códigos e categoriasPara variáveis qualitativas: atribuir valores numéricos às categorias ou atributos, e depois proceder à análise como se fossem quantitativas especialmente útil para variáveis dicotômicas ou binárias, para as quais só podem ocorrer duas realizações (sucesso e insucesso)
Análise Exploratória de DadosREI004 – MQA I
5
Resumo de Dados: Distribuições de Frequências
Objetivo: conhecer o comportamento de uma variável, analisando a ocorrência de suas possíveis realizações
Maneira de se dispor um conjunto de realizações, para se conhecer sua distribuição: tabela de distribuição de frequências da variável
Medida na interpretação de tabelas de frequências: proporção de cada realização em relação ao total
Análise Exploratória de DadosREI004 – MQA I
6
Resumo de Dados: Distribuições de Frequências
n : número total de observações
ni : a frequência absoluta de cada categoria ou classe da variável
Proporção ou frequência relativa de cada categoria:
Útil para comparações, quando as frequênciasabsolutas totais são diferentes
nn
f ii =
Análise Exploratória de DadosREI004 – MQA I
7
Resumo de Dados: Distribuições de FrequênciasTabela de frequências para variáveis contínuas: agrupar dados em classes das variáveis, dentro de intervalos definidosArbitrária escolha dos intervalos (quantos e quais)
pequeno nº pouco informativo e grande n º não resume dados basear no grau de suavidade da representação gráfica dos dadosEm geral, mesma amplitude das classesNotação: intervalo de números [a, b) contém o extremo a, mas não o b
Análise Exploratória de DadosREI004 – MQA I
8
Resumo de Dados: Gráficos
Representação gráfica da distribuição de uma variável: informação concisa sobre sua variabilidade
a) Gráficos para variáveis qualitativas: barras (niou fi ) e setores (fi )
b) Gráficos para variáveis quantitativas: barras, linhas, dispersão, histograma (niou fi )
Análise Exploratória de DadosREI004 – MQA I
9
Medidas‐Resumo: Medidas de Posição
Medida de tendência central de um conjunto de dados mostra o valor em torno do qual se agrupam as observações
Principais medidas de tendência central são a média aritmética (ou simplesmente, a média), a mediana e a moda; é bastante utilizada também a média ponderada
Medidas de tendência central, assim como as medidas de dispersão, de assimetria, de desigualdade e outras permitem caracterizar de maneira bastante concisa um conjunto de dados
Análise Exploratória de DadosREI004 – MQA I
10
Medidas‐Resumo: Medidas de Posição
Resumo de dados por meio de tabelas de frequênciafornece mais informações sobre o comportamento de uma variável do que a própria tabela original de dados
Maior resumo dos dados: valores representativos da série toda
Medidas de posição ou localização central: média, mediana e moda
1) Moda: realização mais frequente do conjunto de valores observados; pode haver mais de uma distribuição bimodal, multimodal
Análise Exploratória de DadosREI004 – MQA I
11
Medidas‐Resumo: Medidas de Posição
2) Mediana: realização que ocupa a posição central da série de observações (50% dos valores acima e abaixo), ordenadas em ordem crescente
3) Média aritmética: soma dos valores das observações (x1, ..., xn) dividida pelo número de observações (n)
∑=
=++
=n
ii
n xnn
xxx
1
1 1...
Análise Exploratória de DadosREI004 – MQA I
12
Medidas‐Resumo: Medidas de Posição
Se há n observações da variável X, das quais n1 são iguais a x1, n2 são iguais a x2, ..., nk são iguais a xk, então média de X
∑∑==
==++
=k
iii
k
iii
kk xfxnnn
xnxnx
11
11 1...
Análise Exploratória de DadosREI004 – MQA I
13
Medidas‐Resumo: Medidas de Posição
Média Ponderada: dado um conjunto de n valores observados (X1, X2,...,Xn) e conhecidos os respectivos fatores de ponderação (q1, q2,...,qn) a média ponderada (W) de X é:
∑
∑
=
== n
ii
n
iii
q
qxW
1
1
Análise Exploratória de DadosREI004 – MQA I
14
Medidas‐Resumo: Medidas de Posição
Como vimos, a mediana caracteriza uma série de valores devido à sua posição central. No entanto, ela apresenta uma outra característica, tão importante quanto a primeira: ela separa a série em dois grupos que apresentam o mesmo número de valores.
Assim, além das medidas de posição que estudamos, háoutras que, consideradas individualmente, não são medidas de tendência central, mas estão ligadas àmediana relativamente à sua segunda característica, jáque se baseiam em sua posição na série. Essas medidas –os quartis, os percentis e os decis – são juntamente com a mediana, conhecidas como medidas separatrizes
Análise Exploratória de DadosREI004 – MQA I
15
Medidas‐Resumo: Medidas de Posição
Quartis: valores de uma série que a dividem em quatro partes iguais. Há portanto três quartis:
O primeiro quartil (Q1) – valor situado de tal modo que na série que uma quarta parte (25%) dos dados é menor que ele e as três quartas partes restantes (75%) são maiores.
O segundo quartil (Q2) – evidentemente, coincide com a mediana (Q2=D).
O terceiro quartil (Q3) – valor situado de tal modo que as três quartas partes (75%) dos termos são menores que ele e uma quarta parte (25%) é maior.
Análise Exploratória de DadosREI004 – MQA I
16
Medidas‐Resumo: Medidas de Posição
Percentis: os noventa e nove valores que separam uma série em 100 partes iguais. Indicamos os mesmos por P1, P2, P3,... P99. Assim como Q2=D, no caso dos percentis, P50=D, P25=Q1 e P75=Q3.
Decis: valores de uma série que a dividem em dez partes iguais
Análise Exploratória de DadosREI004 – MQA I
17
Medidas‐Resumo: Medidas de Dispersão
Resumo de um conjunto de dados por uma única medida representativa de posição central não revela toda a informação sobre a variabilidade do conjunto de observações
Critério: dispersão dos dados em torno de sua média medidas: desvio médio e variância
Para qualquer conjunto de dados, soma dos desvios éigual a zero e não é uma boa medida de dispersão
( ) 01
=−∑=
n
ii xx
Análise Exploratória de DadosREI004 – MQA I
18
Medidas‐Resumo: Medidas de Dispersão
Opções:
a) Soma dos desvios em valor absoluto
b) Soma dos quadrados dos desvios
Estas somas não são usadas quando há conjuntos de dados com números diferentes de observações
medidas devem ser expressas como médias: desvio médio e variância
∑=
−n
ii xx
1
( )∑=
−n
ii xx
1
2
Análise Exploratória de DadosREI004 – MQA I
19
Medidas‐Resumo: Medidas de Dispersão
Interpretação da variância mais difícil porque medida ao quadrado uso do desvio padrão = raiz quadrada da variância
Medidas de desvio portanto indicam em média qual é o erro ao substituir a observação pela medida resumida do conjunto de dados (média)
n
xxXdm
n
ii∑
=
−= 1)(
( )
n
xxX
n
ii∑
=
−= 1
2
)var(
Análise Exploratória de DadosREI004 – MQA I
20
Medidas‐Resumo: Medidas de Dispersão
∑∑
=
= −=−
=k
iii
k
iii
xxfn
xxnXdm
1
1)(
( )( )∑
∑=
= −=−
=k
iii
k
iii
xxfn
xxnX
1
21
2
)var(
Da mesma forma, se há n observações da variável X, das quais n1 são iguais a x1, n2 são iguais a x2, ..., nksão iguais a xk
Análise Exploratória de DadosREI004 – MQA I
21
Medidas‐Resumo: Medidas de Dispersão
Média e variância são boas medidas se a distribuição dos dados for aproximadamente normal
Maneira mais eficiente de calcular a variância:
21
2
21
2
)var(
)var(
xn
xfX
xn
xX
k
iii
n
ii
−=
−=
∑
∑
=
=
( )2
11
22
1
1⎟⎠
⎞⎜⎝
⎛−=− ∑∑∑
===
n
ii
n
ii
n
ii x
nxxx
Análise Exploratória de DadosREI004 – MQA I
22
Medidas‐Resumo: Medidas de Dispersão
Desvio padrão por si só não diz muita coisa: um desvio padrão de duas unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se a média for 20, o mesmo não pode ser dito
Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando comparamos duas ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando expressas em unidades diferentes
Análise Exploratória de DadosREI004 – MQA I
23
Medidas‐Resumo: Medidas de Dispersão
Para contornar essa dificuldade e limitações, podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos ao seu valor médio coeficiente de variação (CV)
100x x
CV σ=
Análise Exploratória de DadosREI004 – MQA I
24
Análise Bidimensional
Análise do comportamento conjunto de duas ou mais variáveis aleatórias
Dados aparecem na forma de uma matriz, com as colunas indicando as variáveis e as linhas os elementos (indivíduos, firmas, países, etc.)
Principal objetivo: explorar relações entre as colunas
Distribuição conjunta das frequências para compreender o comportamento dos dados
Análise Exploratória de DadosREI004 – MQA I
25
Análise Bidimensional
Variável
Observ. X1 X2 ... Xj ... Xp
1 x11 x12 ... x1j ... x1p
2 x21 x22 ... x2j ... x2p
... ... ... ... ... ... ...
i xi1 xi2 ... xij ... xip
... ... ... ... ... ... ...
n xn1 xn2 ... xnj ... xnp
Análise Exploratória de DadosREI004 – MQA I
26
Análise Bidimensional
Considerando duas variáveis, há 3 situações:
1) Ambas são qualitativas: dados resumidos em tabelas de contingência (ou dupla entrada), nas quais aparecem as frequências absolutas ou contagens de observações que pertencem simultaneamente às categorias das variáveis
2) Ambas quantitativas: dados melhor resumidos em gráficos de dispersão; ou tabelas de dupla entrada de classes das variáveis
Análise Exploratória de DadosREI004 – MQA I
27
Análise Bidimensional
3) Uma qualitativa e a outra quantitativa: análise da quantitativa de acordo com a categorização da qualitativa
Em todas as situações, objetivo: encontrar possíveis relações ou associações entre as variáveis, por meio de métodos gráficos e medidas numéricas
Análise Exploratória de DadosREI004 – MQA I
28
Análise Bidimensional: Variáveis Qualitativas
Tabela de contingência: cada elemento (casela) dáa frequência observada das realizações simultâneas das 2 variáveis (X e Y) distribuição conjunta de X e Y
Distribuições marginais:
a) Linha dos totais: distribuição da variável Y
b) Coluna dos totais: distribuição da variável X
Análise Exploratória de DadosREI004 – MQA I
29
Análise Bidimensional: Variáveis Qualitativas
Y
X
y1 y2 y3 Total
x1 n11 n12 n13 n1.
x2 n21 n22 n23 n2.
x3 n31 n32 n33 n3.
Total n.1 n.2 n.3 n..
Análise Exploratória de DadosREI004 – MQA I
30
Análise Bidimensional: Variáveis Qualitativas
Para comparações, 3 possibilidades de tabelas com frequências relativas (proporções):
1) Em relação ao total geral
2) Em relação ao total de cada linha
3) Em relação ao total de cada coluna
Análise Exploratória de DadosREI004 – MQA I
31
Análise Bidimensional: Associação entre Variáveis Qualitativas
Objetivo de se construir distribuição conjunta de duas variáveis qualitativas: descrever a associação entre elas ou grau de dependênciaAnálise das proporções segundo as linhas ou colunas para fazer comparaçõesIndependência entre as variáveis se as proporções marginais são similares às proporções para cada categoria da outra variávelPor outro lado, associação se as proporções marginais são díspares em relação às proporções nas categorias
Análise Exploratória de DadosREI004 – MQA I
32
Análise Bidimensional: Medidas de Associação entre Variáveis Qualitativas
Coeficientes de associação ou correlação: quantificam o grau de associação entre duas variáveis e descrevem, por meio de um único número, a associação ou dependência entre elasUsualmente, coeficientes variam entre 0 e 1, ou entre ‐1 e 1, sendo a proximidade de 0 indicadora de falta de associaçãoCoeficiente de contingência (Pearson) e uma modificação deste, os quais partem do cálculo dos desvios entre os valores observados e esperados
Análise Exploratória de DadosREI004 – MQA I
33
Análise Bidimensional: Medidas de Associação entre Variáveis Qualitativas
Comparação entre tabelas de valores observados (oi) e esperados (ei) : discrepância entre valores caso as variáveis não forem associadas tabela de desvios = valores observados – esperados
a) Soma total dos desvios é nulab) Desvios relativos: para cada casela
c) Qui‐quadrado (χ2) de Pearson: soma total dos desvios relativos, cujo grande valor indica associação entre as variáveis
( )i
ii
eeo 2−
Análise Exploratória de DadosREI004 – MQA I
34
Análise Bidimensional: Medidas de Associação entre Variáveis Qualitativas
Formalizando: supondo 2 variáveis qualitativas X e Y, classificadas respectivamente em r categorias A1, A2, ... Ar e s categorias B1, B2, ... Bsnij = número de observações da categoria i de X e j de Yni. = Σj=1
snij = número de observações da categoria i de X n.j = Σi=1
rnij = número de observações da categoria j de Yn.. = n = Σi=1
rΣj=1snij = número total de observações
Análise Exploratória de DadosREI004 – MQA I
35
Análise Bidimensional: Variáveis Qualitativas
Y
X
B1 B2 ... Bj ... Bs
n1j
A2 n21 n22 ... n2j ... n2s n2.
... ... ... ... ... ... ... ...
Ai ni1 ni2 ... nij ... nis ni.
...
nrj
...
n.j
n1s
...
nrs
n.s
...
...
...
Total
A1 n11 n12 ... n1.
... ... ... ... ...
Ar nr1 nr2 ... nr.
Total n.1 n.2 ... n..
Análise Exploratória de DadosREI004 – MQA I
36
Análise Bidimensional: Medidas de Associação entre Variáveis Qualitativas
Sob a hipótese de que as variáveis X e Y sejam independentes (ou não sejam associadas):
sjrin
nnn
sjrinn
n
n
rinn
nn
nn
jiij
i
j
ij
s
isii
,...,2,1,,...,2,1,
,...,2,1,,...,2,1,
,...,2,1,...
..
.
.
.2.
2
1.
1
===
===
====
Análise Exploratória de DadosREI004 – MQA I
37
Análise Bidimensional: Medidas de Associação entre Variáveis Qualitativas
Portanto, em termos das frequências relativas, sob hipótese de independência:
fij = fi. f.jValores esperados:
Qui‐quadrado de Pearson:
n
nnn jiij
..* =
( )∑∑= =
−=
r
i
s
j ij
ijij
n
nn
1 1*
2*2χ
Análise Exploratória de DadosREI004 – MQA I
38
Análise Bidimensional: Medidas de Associação entre Variáveis Qualitativas
Em termos das frequências relativas, qui‐quadradode Pearson:
Medida de associação de Pearson: coeficiente de contingência
( )∑∑= =
−=
r
i
s
j ij
ijij
f
ffn
1 1*
2*2χ
nC
+= 2
2
χχ
Análise Exploratória de DadosREI004 – MQA I
39
Análise Bidimensional: Medidas de Associação entre Variáveis Qualitativas
Contudo, este coeficiente não se restringe ao intervalo 0 e 1, dado que seu valor máximo depende de r e sPara restringir o máximo a 1 se r=s
( )( )11
2
−−=
srnT
χ
Análise Exploratória de DadosREI004 – MQA I
40
Análise Bidimensional: Associação entre Variáveis Quantitativas
Distribuição conjunta também resumida em tabelas de dupla entrada, e por meio das distribuições marginais é possível analisar a associação entre as variáveis agrupamento em intervalos de classesVariáveis quantitativas permitem procedimentos analíticos e gráficos mais refinadosGráfico de dispersão: pares de valores (x, y); associação se, por exemplo, à medida que aumenta x, aumenta y; independência se os pontos não apresentam nenhuma tendência específica
Análise Exploratória de DadosREI004 – MQA I
41
Análise Bidimensional: Associação entre Variáveis Quantitativas
Para quantificar a associação linear: medida para avaliar o quanto a nuvem de pontos no gráfico de dispersão se aproxima de uma rendaMedida varia entre ‐1 e 1Situando a origem do gráfico no centro da nuvem de dispersão:
a) há uma associação linear direta (positiva) se a maioria dos pontos está no primeiro e terceiro quadrantes: maioria das coordenadas dos pontos têm o mesmo sinal, sendo seu produto sempre positivo; somando o produto das coordenadas dos pontos, o resultado seráum número positivo
Análise Exploratória de DadosREI004 – MQA I
42
Análise Bidimensional: Associação entre Variáveis Quantitativas
b) há uma associação linear inversa (negativa) se a maioria dos pontos está no segundo e quarto quadrantes: maioria das coordenadas dos pontos têm o sinal contrário, sendo seu produto sempre negativo; somando o produto das coordenadas dos pontos, o resultado será um número negativo
c) Não há associação linear: para cada resultado positivo, há um resultado negativo simétrico, anulando‐se na soma; soma dos produtos das coordenadas igual a zero
Análise Exploratória de DadosREI004 – MQA I
43
Análise Bidimensional: Associação entre Variáveis Quantitativas
Com base nestes fatos, definição do coeficiente de correlação linear entre as variáveis: medida do grau de associação entre elas e da proximidade dos dados a uma retaObs.: soma dos produtos das coordenadas depende do número de observações, sendo difícil comparar conjuntos com números diferentes de pontos; portanto, mais comum usar a média da soma dos produtos das coordenadas
Análise Exploratória de DadosREI004 – MQA I
44
Análise Bidimensional: Medidas da Associação entre Variáveis Quantitativas
Passos do cálculo:1) Mudança da origem do sistema para o centro da
nuvem de dispersão: ponto centrado em relação às médias dos valores de X e Y
2) Redução à mesma escala dos valores de X e Y: divisão dos pontos centrados (desvios em relação às médias) pelos desvios padrões respectivos
3) Produto das coordenadas padronizadas4) Correlação = média do produto
Análise Exploratória de DadosREI004 – MQA I
45
Análise Bidimensional: Medidas da Associação entre Variáveis Quantitativas
Definição do coeficiente de correlação entre duas variáveis X e Y, dados n pares de valores (x1, y1), ..., (xn, yn): média dos produtos dos valores padronizados das variáveis
‐1 ≤ corr (X,Y) ≤ 1
∑=
⎟⎟⎠
⎞⎜⎜⎝
⎛ −⎟⎟⎠
⎞⎜⎜⎝
⎛ −=
n
i
ii
Ydpyy
Xdpxx
nYXcorr
1 )()(1
),(
Análise Exploratória de DadosREI004 – MQA I
46
Análise Bidimensional: Medidas da Associação entre Variáveis Quantitativas
Definição da covariância entre duas variáveis X e Y, dados n pares de valores (x1, y1), ..., (xn, yn): média dos produtos dos valores centrados das variáveis
( )( )∑=
−−=n
iii yyxx
nYX
1
1),cov(
)().(),cov(
),(YdpXdp
YXYXcorr =
Análise Exploratória de DadosREI004 – MQA I
47
Análise Bidimensional: Associação entre Variáveis Qualitativas e Quantitativas
Box PlotMedida do grau de dependência entre as variáveis, utilizando as variânciasSe a variância dentro de cada categoria for menor do que a global, a variável qualitativa melhora a capacidade de previsão da quantitativa há uma relação entre as 2 variáveisMedida resumo da variância entre as categorias da variável qualitativa: média das variâncias, ponderada pelo número de observações em cada categoria
Análise Exploratória de DadosREI004 – MQA I
48
Análise Bidimensional: Associação entre Variáveis Qualitativas e Quantitativas
Onde k é o número de categorias e vari(X) é a variância de X dentro da categoria i (i = 1, 2, ..., k)Dado que , o grau de associação entre as duas variáveis é o ganho relativo na variância, obtido pela introdução da variável qualitativa
( )
∑
∑
=
== k
ii
k
iii
n
XnX
1
1
var)var(
)var()var( XX ≤
Análise Exploratória de DadosREI004 – MQA I
49
Análise Bidimensional: Associação entre Variáveis Qualitativas e Quantitativas
)var()var(
1)var(
)var()var(2
XX
XXX
R −=−
=
0 ≤ R2 ≤ 1
Análise Exploratória de DadosREI004 – MQA I
50