Conceitos de estatística espacial
description
Transcript of Conceitos de estatística espacial
Conceitos de Estatística
Espacial
Ecologia de Populações
Conceitos Básicos • A estatística espacial difere da estatística‘ordinária’
devido a inclusão de propriedades de localização.
• Isso torna a estatística espacial mais complexa.
• O texto de Bailey e Gatrell (1995) proporciona uma
introdução boa, e eles identificam quatro
categorias:
– Dados de padrões de pontos;
– Dados contínuos espacialmente;
– Dados de área; e
– Dados de interação.
• Existe uma correspondência obvia com os
modelos conceituais.
Níveis de Escala • Dados de atributos podem ser classificados pela
escala de mensuração:
– Nominal: 1=fêmeas, 2=machos.
– Ordinal: 1= boa, 2= média, 3=pobre.
– Intervalo (razão +): graus Centigrado, porcentagem.
• Bailey e Gatrell classificam as técnicas por propósito:
– Visualização
– Exploração
– Modelagem – envolvida em toda inferência estatística e teste de hipóteses)
Variáveis Aleatórios
• Os modelos estatísticos lidam com fenômenos que
são estocásticos (= sujeito a incerteza).
• O variável aleatório Y tem valores que são
sujeitos a incerteza (mas não precisa ser
aleatório).
• A distribuição de valores possíveis forma a
distribuição de probabilidades, e são
representadas por uma função fY(y)
• Os variáveis aleatórios podem ser discretos ou
contínuos.
Probabilidades
• A probabilidade de que y fica entre a e b é:
• se Y é discreto
• se Y é contínuo (densidade de
probabilidade)
• A probabilidade cumulativa (ou função da
distribuição) FY é descrita como:
• se Y é discreto
• se Y é contínuo
b
ay
Y yf
b
aY dyyf
y
u
YY ufyF
duufyFy
YY
Valores Esperados • O valor esperado de Y é a média E(Y):
• ou
• O valor esperado é uma função de Y, como g(Y):
• ou
• A variância é: VAR(Y) = S([Y - E(Y)]2)
• A raiz quadrada dessa e o desvio padrão (sY)
y
Y yfyYE .
dyyfyYE Y.
yfygYgE Y.
dyyfygYgE Y
.
Probabilidade Conjunta
• Pode ser generalizada a situações em quais existem
mais de um variável aleatório.
• Distribuição de probabilidade conjunta (ou
densidade): fXY(x,y)
• Covariância: COV(X,Y) = S((X - E(X)).(Y - E(Y)))
• Correlação: rX,Y = COV(X,Y) / sX.sy
• Independência: Nenhum variável afeita o outro. A
probabilidade conjunta é o produto das
probabilidades individuais:
• fXY(x,y)=fX(x).fY(y)
Modelos Estatísticos • Um modelo estatístico especifica a distribuição de
probabilidades do fenômeno sendo modelado.
• Se modelamos a densidade populacional numa região R existe uma distribuição de probabilidades para cada localização s (no qual s é i, vetor de 2x1 de pares de coordenados x,y). Os pontos individuais podem ser referenciados como s1, s2 ....
• O conjunto inteiro de variáveis aleatórios forma um processo espacial estocástico.
• A distribuição de probabilidades para os pontos próximos provavelmente será mais similar do que para pontos mais distantes. Por isso, os variáveis aleatórios provavelmente não são independentes.
Especificando Modelos • Para especificar um modelo é necessário especificar
sua distribuição de probabilidades. Por o modelo de densidades precisamos especificar a distribuição conjunta de cada conjunto possível de variáveis aleatórios.
• Para uma densidade igual: fY(y) = 1/6
• Para modelos mais complexos (como densidade) podemos usar os dados observados: (y1, y2, …)
• Esses dados formam uma realização , ou um resultado da distribuição conjunta de probabilidades {Y1, Y2, …}
• Um dos conjuntos de dados resulta em quase nada. Ainda com mais observações precisamos fazer premissas razoáveis, baseadas na teoria ou nas observações anteriores.
Especificando Modelos
• As premissas podem ser expressadas em termos
gerais (como a distribuição normal ou um modelo de
regressão) com parâmetros não especificados.
• O modelo pode ser ajustado usando os dados
observados para estimar os parâmetros.
• Após avaliação do modelo pode tomar a decisão de
mudar sua forma geral.
Um Modelo de Regressão • Para ilustrar, para modelar nossos dados de
densidade podemos usar as premissas de:
– Os variáveis aleatórios {Y(s), s R} são
independentes; – Os variáveis têm a mesma distribuição, mas
médias diferentes;
– As médias são uma função linear simples de sua localização: E(Y(s)) = b0 + b1s1 + b2s2;
– Cada Y(s) tem uma distribuição normal ao redor da média com a mesma variância s2.
• Essas premissas permitem a avaliação dos
parâmetros dos dados disponíveis.
Maximum Likelihood • O método mais comum é de maximum likelihood.
• Podemos escrever a forma geral da distribuição conjunta de probabilidades, como. f(y1,y2, … yn; q ) na qual q é um vetor dos parâmetros - (b0, b1, b2, s
2) do modelo de regressão.
• Por que temos os valores atuais de y1… yn, essa distribuição conjunta de probabilidades é a probabilidade de obter os valores atuais. Isso é a likelihood e geralmente é representada como L(y1, y2, … yn; q).
• O objetivo é identificar os valores do parâmetro q que maximizam L. Na prática geralmente maximizamos o logaritmo de L (log likelihood) representado como l(y1, y2, … yn; q).
Estimação de Parâmetros • Essa é a técnica básica, mas a estimação atual pode
ser mais complicada.
• A estimação dos parâmetros da regressão linear múltipla envolve as premissas de independência, distribuições normais e variâncias iguais reduz a 0 usando o método de quadrados mínimos ordinários.
• Relaxando a independência e variâncias iguais, ainda podemos usar os quadrados mínimos generalizados.
• Os erros padrões proporcionam uma medida da confiabilidade de cada estimativa de parâmetros.
• As razões de likelihood podem ser usados para comparar modelos alternativos.
Teste de Hipótese
• O teste de hipótese envolve comparando o ajuste de
dois modelos, um dos quais incorpora as premissas
da hipótese, e outro que incorpora um conjunto
menos específico de premissas.
• Toda modelagem envolve inevitavelmente algumas
premissas sobre os fenômenos sob estudo. Por
isso, os testes de hipótese sempre envolve a
comparação do ajuste de um modelo hipotético com
um modelo alternativo que também incorpora
premissas, mas de natureza mais geral.
•
Modelagem de Dados
Espaciais • Os dados espaciais frequentemente demonstram
uma correlação espacial (ou autocorrelação). A
premissa da independência pode ser irreal.
• Podemos distinguir entre:
– Efeitos da primeira ordem: variação da média
devido a tendência global;
– Efeitos da segunda ordem: causados pela
correlação espacial.
• Os problemas reais geralmente envolvem uma
mistura dos efeitos da primeira e segunda ordem.
Modelagem de Dados Espaciais • Para permitir efeitos da segunda ordem, os modelos
espaciais podem precisar adotar a premissa de uma estrutura de covariância.
• Os efeitos da segunda ordem podem ser modelados como um processo espacial estacionário. como
– As propriedades estatísticas (média, variância) são independentes de sua localização absoluta;
– A covariância depende somente da localização relativa.
• Um processo é isotrópico se é estacionário, e a covariância depende somente da distancia e não de direção.
• Se a média, variância ou covariância ‘desvia’ na área de estudo, o processo é não estacionário ou exibe uma heterogeneidade.
Modelagem de Dados
Espaciais • A heterogeneidade da média, combinada com a
estacionaridade nos efeitos da segunda ordem, é
uma premissa útil na modelagem espacial.
• A modelagem de um processo espacial
frequentemente tende proceder após a identificação
de qualquer tendência heterogênea do valor médio e
depois modelando os ‘resíduos', ou desvios da
tendência como um processo estacionário.
Regressão Ponderada
Geograficamente • Covariados podem ser incorporados num modelo de
regressão múltipla pela forma geral:
• O modelo tem como premissa que os coeficientes
são homogêneos ou estacionários.
• Fotheringham et al. propuseram um modelo
alternativo:
• Para ajustar o modelo, existe a premissa que os
parâmetros não são estacionários mas funções de
localização.
• Os parâmetros podem ser mapeados.
k
iikki xy bb0
k
iikiikiii xvuvuy bb ,,0
Técnicas de Padrões de
Pontos • As técnicas de padrões de pontos incluem:
– Analise de parcelas
– Estimação de Kernel
– Analise do vizinho mais próximo
– Funções K
• Normalmente usadas para testar a hipótese nula de aleatoriedade espacial completa (como processo de Poisson homogêneo), mas também pode examinar o processo Poisson heterogêneo.
Dados Contínuos
Espacialmente • Técnicas para explorar os dados de campo.
• As vezes chamada geoestatística.
– Médias espaciais movidizas
– Analise da superfície de tendência
– Triangulação de Delauney / polígonos de Thiesen / TINs
– Estimação de Kernel (para volores de pontos de
amostragem)
– Variogramas / covariogramas / krigagem
– Analise de componentes principais / analise de fatores
– Analise de Procrustes
– Analise de cluster
– Correlação canônica
Dados de Área
• Técnicas para a analise de dados de área (como atributos de polígonos) incluem:
– Médias espaciais movidizas
– Estimação de Kernel
– Autocorrelação espacial (I de Moran, c de Geary)
– Correlação e regressão espacial
• Os modelos lineares generalizados proporcionam uma família de técnicas que lidam com tipos especiais de dados: como contagens (regressão de Poisson) e proporções (regressão logística).
• As técnicas Bayesianas são frequentemente usadas para modelar taxas a base de números pequenos.
Dados de Interação Espacial
• As técnicas de modelagem das interações espaciais
se baseiam principalmente em algum variante do
modelo de gravidade.
• Esse modelo postula que a quantidade de interação
entre dois lugares é uma função de seus tamanhos
(medido usando um métrico apropriado) e é
inversamente relacionado a distancia entre eles.
Software
• ArcGIS. Geostatistical Analyst.
• Idrisi. GIS.
• S-Plus. O add on de S+SpatialStats.
• R. R é uma versão livre de S-Plus. .
• BUGS. Software para estatística Bayesiana.
WinBUGS incluía um subconjunto GeoBUGS.