Conceitos de estatística espacial

Conceitos de Estatística

Espacial

Ecologia de Populações

Conceitos Básicos • A estatística espacial difere da estatística‘ordinária’

devido a inclusão de propriedades de localização.

• Isso torna a estatística espacial mais complexa.

• O texto de Bailey e Gatrell (1995) proporciona uma

introdução boa, e eles identificam quatro

categorias:

– Dados de padrões de pontos;

– Dados contínuos espacialmente;

– Dados de área; e

– Dados de interação.

• Existe uma correspondência obvia com os

modelos conceituais.

Níveis de Escala • Dados de atributos podem ser classificados pela

escala de mensuração:

– Nominal: 1=fêmeas, 2=machos.

– Ordinal: 1= boa, 2= média, 3=pobre.

– Intervalo (razão +): graus Centigrado, porcentagem.

• Bailey e Gatrell classificam as técnicas por propósito:

– Visualização

– Exploração

– Modelagem – envolvida em toda inferência estatística e teste de hipóteses)

Variáveis Aleatórios

• Os modelos estatísticos lidam com fenômenos que

são estocásticos (= sujeito a incerteza).

• O variável aleatório Y tem valores que são

sujeitos a incerteza (mas não precisa ser

aleatório).

• A distribuição de valores possíveis forma a

distribuição de probabilidades, e são

representadas por uma função fY(y)

• Os variáveis aleatórios podem ser discretos ou

contínuos.

Probabilidades

• A probabilidade de que y fica entre a e b é:

• se Y é discreto

• se Y é contínuo (densidade de

probabilidade)

• A probabilidade cumulativa (ou função da

distribuição) FY é descrita como:

• se Y é discreto

• se Y é contínuo

b

ay

Y yf

b

aY dyyf

y

u

YY ufyF

duufyFy

YY

Valores Esperados • O valor esperado de Y é a média E(Y):

• ou

• O valor esperado é uma função de Y, como g(Y):

• ou

• A variância é: VAR(Y) = S([Y - E(Y)]2)

• A raiz quadrada dessa e o desvio padrão (sY)

y

Y yfyYE .

dyyfyYE Y.

yfygYgE Y.

dyyfygYgE Y

.

Probabilidade Conjunta

• Pode ser generalizada a situações em quais existem

mais de um variável aleatório.

• Distribuição de probabilidade conjunta (ou

densidade): fXY(x,y)

• Covariância: COV(X,Y) = S((X - E(X)).(Y - E(Y)))

• Correlação: rX,Y = COV(X,Y) / sX.sy

• Independência: Nenhum variável afeita o outro. A

probabilidade conjunta é o produto das

probabilidades individuais:

• fXY(x,y)=fX(x).fY(y)

Modelos Estatísticos • Um modelo estatístico especifica a distribuição de

probabilidades do fenômeno sendo modelado.

• Se modelamos a densidade populacional numa região R existe uma distribuição de probabilidades para cada localização s (no qual s é i, vetor de 2x1 de pares de coordenados x,y). Os pontos individuais podem ser referenciados como s1, s2 ....

• O conjunto inteiro de variáveis aleatórios forma um processo espacial estocástico.

• A distribuição de probabilidades para os pontos próximos provavelmente será mais similar do que para pontos mais distantes. Por isso, os variáveis aleatórios provavelmente não são independentes.

Especificando Modelos • Para especificar um modelo é necessário especificar

sua distribuição de probabilidades. Por o modelo de densidades precisamos especificar a distribuição conjunta de cada conjunto possível de variáveis aleatórios.

• Para uma densidade igual: fY(y) = 1/6

• Para modelos mais complexos (como densidade) podemos usar os dados observados: (y1, y2, …)

• Esses dados formam uma realização , ou um resultado da distribuição conjunta de probabilidades {Y1, Y2, …}

• Um dos conjuntos de dados resulta em quase nada. Ainda com mais observações precisamos fazer premissas razoáveis, baseadas na teoria ou nas observações anteriores.

Especificando Modelos

• As premissas podem ser expressadas em termos

gerais (como a distribuição normal ou um modelo de

regressão) com parâmetros não especificados.

• O modelo pode ser ajustado usando os dados

observados para estimar os parâmetros.

• Após avaliação do modelo pode tomar a decisão de

mudar sua forma geral.

Um Modelo de Regressão • Para ilustrar, para modelar nossos dados de

densidade podemos usar as premissas de:

– Os variáveis aleatórios {Y(s), s R} são

independentes; – Os variáveis têm a mesma distribuição, mas

médias diferentes;

– As médias são uma função linear simples de sua localização: E(Y(s)) = b0 + b1s1 + b2s2;

– Cada Y(s) tem uma distribuição normal ao redor da média com a mesma variância s2.

• Essas premissas permitem a avaliação dos

parâmetros dos dados disponíveis.

Maximum Likelihood • O método mais comum é de maximum likelihood.

• Podemos escrever a forma geral da distribuição conjunta de probabilidades, como. f(y1,y2, … yn; q ) na qual q é um vetor dos parâmetros - (b0, b1, b2, s

2) do modelo de regressão.

• Por que temos os valores atuais de y1… yn, essa distribuição conjunta de probabilidades é a probabilidade de obter os valores atuais. Isso é a likelihood e geralmente é representada como L(y1, y2, … yn; q).

• O objetivo é identificar os valores do parâmetro q que maximizam L. Na prática geralmente maximizamos o logaritmo de L (log likelihood) representado como l(y1, y2, … yn; q).

Estimação de Parâmetros • Essa é a técnica básica, mas a estimação atual pode

ser mais complicada.

• A estimação dos parâmetros da regressão linear múltipla envolve as premissas de independência, distribuições normais e variâncias iguais reduz a 0 usando o método de quadrados mínimos ordinários.

• Relaxando a independência e variâncias iguais, ainda podemos usar os quadrados mínimos generalizados.

• Os erros padrões proporcionam uma medida da confiabilidade de cada estimativa de parâmetros.

• As razões de likelihood podem ser usados para comparar modelos alternativos.

Teste de Hipótese

• O teste de hipótese envolve comparando o ajuste de

dois modelos, um dos quais incorpora as premissas

da hipótese, e outro que incorpora um conjunto

menos específico de premissas.

• Toda modelagem envolve inevitavelmente algumas

premissas sobre os fenômenos sob estudo. Por

isso, os testes de hipótese sempre envolve a

comparação do ajuste de um modelo hipotético com

um modelo alternativo que também incorpora

premissas, mas de natureza mais geral.

•

Modelagem de Dados

Espaciais • Os dados espaciais frequentemente demonstram

uma correlação espacial (ou autocorrelação). A

premissa da independência pode ser irreal.

• Podemos distinguir entre:

– Efeitos da primeira ordem: variação da média

devido a tendência global;

– Efeitos da segunda ordem: causados pela

correlação espacial.

• Os problemas reais geralmente envolvem uma

mistura dos efeitos da primeira e segunda ordem.

Modelagem de Dados Espaciais • Para permitir efeitos da segunda ordem, os modelos

espaciais podem precisar adotar a premissa de uma estrutura de covariância.

• Os efeitos da segunda ordem podem ser modelados como um processo espacial estacionário. como

– As propriedades estatísticas (média, variância) são independentes de sua localização absoluta;

– A covariância depende somente da localização relativa.

• Um processo é isotrópico se é estacionário, e a covariância depende somente da distancia e não de direção.

• Se a média, variância ou covariância ‘desvia’ na área de estudo, o processo é não estacionário ou exibe uma heterogeneidade.

Modelagem de Dados

Espaciais • A heterogeneidade da média, combinada com a

estacionaridade nos efeitos da segunda ordem, é

uma premissa útil na modelagem espacial.

• A modelagem de um processo espacial

frequentemente tende proceder após a identificação

de qualquer tendência heterogênea do valor médio e

depois modelando os ‘resíduos', ou desvios da

tendência como um processo estacionário.

Regressão Ponderada

Geograficamente • Covariados podem ser incorporados num modelo de

regressão múltipla pela forma geral:

• O modelo tem como premissa que os coeficientes

são homogêneos ou estacionários.

• Fotheringham et al. propuseram um modelo

alternativo:

• Para ajustar o modelo, existe a premissa que os

parâmetros não são estacionários mas funções de

localização.

• Os parâmetros podem ser mapeados.

k

iikki xy bb0

k

iikiikiii xvuvuy bb ,,0

Técnicas de Padrões de

Pontos • As técnicas de padrões de pontos incluem:

– Analise de parcelas

– Estimação de Kernel

– Analise do vizinho mais próximo

– Funções K

• Normalmente usadas para testar a hipótese nula de aleatoriedade espacial completa (como processo de Poisson homogêneo), mas também pode examinar o processo Poisson heterogêneo.

Dados Contínuos

Espacialmente • Técnicas para explorar os dados de campo.

• As vezes chamada geoestatística.

– Médias espaciais movidizas

– Analise da superfície de tendência

– Triangulação de Delauney / polígonos de Thiesen / TINs

– Estimação de Kernel (para volores de pontos de

amostragem)

– Variogramas / covariogramas / krigagem

– Analise de componentes principais / analise de fatores

– Analise de Procrustes

– Analise de cluster

– Correlação canônica

Dados de Área

• Técnicas para a analise de dados de área (como atributos de polígonos) incluem:

– Médias espaciais movidizas

– Estimação de Kernel

– Autocorrelação espacial (I de Moran, c de Geary)

– Correlação e regressão espacial

• Os modelos lineares generalizados proporcionam uma família de técnicas que lidam com tipos especiais de dados: como contagens (regressão de Poisson) e proporções (regressão logística).

• As técnicas Bayesianas são frequentemente usadas para modelar taxas a base de números pequenos.

Dados de Interação Espacial

• As técnicas de modelagem das interações espaciais

se baseiam principalmente em algum variante do

modelo de gravidade.

• Esse modelo postula que a quantidade de interação

entre dois lugares é uma função de seus tamanhos

(medido usando um métrico apropriado) e é

inversamente relacionado a distancia entre eles.

Software

• ArcGIS. Geostatistical Analyst.

• Idrisi. GIS.

• S-Plus. O add on de S+SpatialStats.

• R. R é uma versão livre de S-Plus. .

• BUGS. Software para estatística Bayesiana.

WinBUGS incluía um subconjunto GeoBUGS.

Conceitos de estatística espacial

Education

Transcript of Conceitos de estatística espacial