ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de...

19
ESTATÍSTICA ESPACIAL Descrição Espacial

Transcript of ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de...

Page 1: ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira

ESTATÍSTICA ESPACIAL

Descrição Espacial

Page 2: ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira

G

Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira a medir seu grau de associação. A apresentação dos histogramas com seus respectivos sumários estatísticos vai revelar apenas a existência de diferenças mais evidentes. Infelizmente, se as duas distribuições são muito parecidas, este método de comparação não será útil na descoberta de diferenças mais sutis entre as distribuições. Dessa forma, o propósito básico dessa apresentação é apresentar ferramentas que permitam entender melhor o comportamento de dois conjuntos de valores e tornar possível fazer algum tipo de predição, usando uma variável para conhecer a outra.

Introdução

Page 3: ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira

G

Scatterplots

A forma mais comum de apresentar dados bivariados é no gráfico de dispersão ou scatterplot, um gráfico do tipo x-y no qual o eixo x corresponde aos valores de uma variável e a coordenada y aos valores da outra variável.

Page 4: ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira

G

Correlação

De forma simplificada, há três padrões que podem ser observados entre as variáveis em um scatterplot:

• correlação positiva; • correlação negativa; • ausência de correlação.

O coeficiente de correlação () é o parâmetro estatístico mais freqüentemente utilizado para sumarizar a relação entre duas variáveis e é calculado por:

yx

n

1i yixi )my)(mx(n

1

Page 5: ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira

G

n

1i yixiXY )my)(mx(n

1C

O numerador da equação do coeficiente de correlação () é chamado de covariância:

A covariância entre duas variáveis depende da magnitude dos valores dos dados. Se todos os pares de dados V-U forem multiplicados por 10, enquanto o scatterplot vai permanecer com o mesmo aspecto (apenas com os eixos re-escalonados), a covariância será 100 vezes menor.

Page 6: ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira

G

Alta covariância positiva:

Covariância próxima de zero:

Grande covariância negativa:

Page 7: ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira

G

Dividindo a covariância pelo desvio padrão das duas variáveis, garante-se que o coeficiente de correlação estará sempre entre -1 e +1, fornecendo um índice que é independente da magnitude dos valores dos dados.

Page 8: ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira

G

Freqüentemente chamado na literatura estatística de coeficiente de correlação de Pearson, o coeficiente de

correlação () apresenta algumas deficiências:

• é uma medida de dependência linear entre duas variáveis; • é sensível a pontos que plotem afastados da nuvem principal de pontos.

Page 9: ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira

G

Um dos principais aspectos que distinguem os bancos de dados das ciências da terra, da maioria dos outros é que os dados se apresentam necessariamente posicionados espacialmente. Os padrões espaciais dos bancos de dados, tais como localização dos valores extremos, tendências de disposição dos dados ou grau de continuidade são considerados de interesse primordial. Nenhuma das ferramentas de descrição univariada ou bivariada apresentadas anteriormente captura essas feições espaciais. Nesse módulo serão apresentadas as ferramentas para análise dos aspectos espaciais dos dados e incorporação da localização na sua descrição.

Medidas de Continuidade

Page 10: ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira

G87 100 47 111 124 109 0 98 134 144

77 84 74 108 121 143 91 52 136 144

75 80 83 87 94 99 95 48 139 145

74 80 85 90 97 101 96 72 128 130

77 82 86 101 109 113 79 102 120 121

89 88 94 110 116 108 73 107 118 127

88 70 103 111 122 64 84 105 113 123

82 74 97 105 112 91 73 115 118 129

82 61 110 121 119 77 52 111 117 124

81 77 103 112 123 19 40 111 114 120

22 28 4 32 38 20 0 14 31 34

16 17 11 29 37 55 11 3 34 35

14 15 15 15 16 17 13 2 40 38

14 15 15 16 17 18 14 6 28 25

15 16 16 23 24 25 7 15 21 20

21 18 20 27 29 19 7 16 19 22

21 8 27 27 32 4 10 15 17 19

16 9 22 24 25 10 7 19 19 22

16 7 34 36 29 7 4 18 18 20

15 12 24 27 30 0 2 18 18 18 Mapa de localização de 100 amostras extraídas do banco de dados Walker Lake, com valores de V e U, acima e abaixo do símbolo, respectivamente. • Auxiliam na identificação de erros grosseiros; • Ajudam a visualizar estratégias de amostragem.

Mapas de localização

Page 11: ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira

G

87 100 47 111 124 109 0 98 134 144

77 84 74 108 121 143 91 52 136 144

75 80 83 87 94 99 95 48 139 145

74 80 85 90 97 101 96 72 128 130

77 82 86 101 109 113 79 102 120 121

89 88 94 110 116 108 73 107 118 127

88 70 103 111 122 64 84 105 113 123

82 74 97 105 112 91 73 115 118 129

82 61 110 121 119 77 52 111 117 124

81 77 103 112 123 19 40 111 114 120

87 100 47 111 124 109 0 98 134 144

77 84 74 108 121 143 91 52 136 144

75 80 83 87 94 99 95 48 139 145

74 80 85 90 97 101 96 72 128 130

77 82 86 101 109 113 79 102 120 121

89 88 94 110 116 108 73 107 118 127

88 70 103 111 122 64 84 105 113 123

82 74 97 105 112 91 73 115 118 129

82 61 110 121 119 77 52 111 117 124

81 77 103 112 123 19 40 111 114 120

Localização dos mais baixos (a) e mais altos (b) valores de V.

(a) (b)

Page 12: ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira

G

0 to 14

14 to 29

29 to 44

44 to 59

59 to 74

74 to 89

89 to 104

104 to 119

119 to 134

134 to 149

Localização por faixas de valores.

Page 13: ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira

G

87 100 47 111 124 109 0 98 134 144

77 84 74 108 121 143 91 52 136 144

75 80 83 87 94 99 95 48 139 145

74 80 85 90 97 101 96 72 128 130

77 82 86 101 109 113 79 102 120 121

89 88 94 110 116 108 73 107 118 127

88 70 103 111 122 64 84 105 113 123

82 74 97 105 112 91 73 115 118 129

82 61 110 121 119 77 52 111 117 124

81 77 103 112 123 19 40 111 114 120

0 to 81.3

81.3 to 100.5

100.5 to 116.8

116.8 to 146

Localização por faixas de valores, de acordo com os quartis da distribuição de V.

Page 14: ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira

G

0

10

20

30

40

50

60

70

80

90

100

110

120

130

140

Oferecem um excelente sumário das feições espaciais, porém podem mascarar algum detalhe de pequena escala (local). Devem ser encarados como mais uma ferramenta de apreciação qualitativa, já que sua significância quantitativa é questionável.

Mapas de contorno

Page 15: ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira

G

Estatística de janelas móveis

É muito comum observar-se que os valores dos dados em algumas regiões são mais variáveis que em outras. O jargão estatístico para tais anomalias em termos de variabilidade é heterocedacidade, com sérias implicações práticas:

• na mineração, teores de minério muito erráticos freqüentemente causam problemas no beneficiamento já que muitos processos metalúrgicos requerem baixa variabilidade de teores;

• em reservatórios de petróleo, grandes flutuações na permeabilidade podem dificultar a efetividade de muitos processos de recuperação secundários.

Page 16: ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira

G

O cálculo de algumas medidas estatísticas dentro de janelas móveis é freqüentemente usado para investigar anomalias tanto em relação aos valores médios como de variabilidade. A área é dividida em diversas vizinhanças locais de igual tamanho e dentro das quais as medidas estatísticas são calculadas:

• a posição espacial pode ser utilizada para fornecer os critérios condicionantes para o cálculo da estatística univariada e bivariada; • o sumário estatístico das distribuições dentro de janelas móveis podem revelar tendências (trends) importantes dos dados ou sua variabilidade;

Page 17: ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira

G87 100 47 111 124 109 0 98 134 144

77 84 74 108 121 143 91 52 136 144

75 80 83 87 94 99 95 48 139 145

74 80 85 90 97 101 96 72 128 130

77 82 86 101 109 113 79 102 120 121

89 88 94 110 116 108 73 107 118 127

88 70 103 111 122 64 84 105 113 123

82 74 97 105 112 91 73 115 118 129

82 61 110 121 119 77 52 111 117 124

81 77 103 112 123 19 40 111 114 120

87 100 47 111 124 109 0 98 134 144

77 84 74 108 121 143 91 52 136 144

75 80 83 87 94 99 95 48 139 145

74 80 85 90 97 101 96 72 128 130

77 82 86 101 109 113 79 102 120 121

89 88 94 110 116 108 73 107 118 127

88 70 103 111 122 64 84 105 113 123

82 74 97 105 112 91 73 115 118 129

82 61 110 121 119 77 52 111 117 124

81 77 103 112 123 19 40 111 114 120

• dependendo da dimensão da janela utilizada e do número de dados que esta contém, podem ser reveladas importantes características locais dos dados.

m CV

m CV

Page 18: ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira

G

Efeito proporcional

• Estimativas em áreas com alta variabilidade serão menos confiáveis do que aquelas com baixa variabilidade, mudanças na variabilidade local têm reflexo direto na confiabilidade da estimativa;

• A variabilidade local é normalmente relacionada com a magnitude dos valores locais;

• Um gráfico da média contra o desvio padrão reporta o efeito proporcional e pode ser utilizado mais tarde para construção de intervalos de confiança para estimativas locais.

Page 19: ESTATÍSTICA ESPACIAL · ESTATÍSTICA ESPACIAL Descrição Espacial . JG Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira

G

Uma série de modelos de regressão podem mostrar como a continuidade decai com o aumento da distância entre as amostras na posição x e x+h.