Interpolação de Variáveis Categóricas

26
Interpolação de Variáveis Categóricas Jorge Kazuo Yamamoto Prof. Titular aposentado USP, atualmente Prof. Sênior Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 27 de Julho de 2018

Transcript of Interpolação de Variáveis Categóricas

Page 1: Interpolação de Variáveis Categóricas

Interpolação de Variáveis Categóricas

Jorge Kazuo Yamamoto Prof. Titular aposentado USP,

atualmente Prof. Sênior

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

Page 2: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

Roteiro da Apresentação

• Objetivos da geoestatística

• Natureza das variáveis aleatórias e regionalizadas

• Variáveis categóricas conforme escalas de medida

• Interpolação de variáveis categóricas

• O fenômeno de transição

• Interpolação multiquádrica

• Inferência estatística e incerteza

• Exemplos de interpolação multiquádrica

• Simulação indicadora sequencial para variáveis categóricas

Page 3: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

GEOESTATÍSTICA

A geoestatística tem por objetivo a descrição quantitativa de variáveis naturais distribuídas no espaço ou no tempo e espaço. Exemplos de tais variáveis são: • Teores de minério em um depósito mineral; • Profundidade e espessura de uma camada geológica; • Porosidade e permeabilidade de um meio poroso; • Densidade de árvores de uma certa espécie em uma floresta; • Propriedades do solo em uma região; • Precipitação em uma área de captação; • Pressão, temperatura e velocidade do vento na atmosfera; • Concentração de poluentes em um sítio contaminado.

Fonte: Chilès e Delfiner (2012, p. 1).

Page 4: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

NATUREZA DAS VARIÁVEIS ALEATÓRIAS E REGIONALIZADAS

ESCALA NOMINAL ESCALA ORDINAL

ESCALA RELACIONAL ESC.INTERVALAR

LITOLOGIA

ESTRUTURA

TEORES

ESPESSURAS

RECUPERAÇÃO

COR DA ROCHA

TEXTURA

DENSIDADE

PERF. GEOF.

RQD

ALTERAÇÃO

FRATURAMENTO

TEMPERATURA

VA

RIÁ

VE

IS A

LE

AT

ÓR

IAS

CO

NT

ÍNU

AS

DIS

CR

ET

AS

Variáveis categóricas

Escalas de medida, segundo Stevens (1946).

Page 5: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

VARIÁVEIS CATEGÓRICAS

Exemplos de aplicação da interpolação de variáveis categóricas: • Discriminação entre área contaminada e não; • Separação entre minério e rejeito conforme o teor de corte; • Mapeamento de tipos de solos em uma região, a partir de uma amostra; • Caracterização geotécnica de um talude conforme o grau de faturamento (escala

ordinal);

As variáveis categóricas ocorrem em praticamente todas as áreas das ciências: agronomia, recursos florestais, biologia, ciências sociais, meio ambiente, geologia, petróleo, geotecnia etc.

Page 6: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

INTERPOLAÇÃO DE VARIÁVEIS CATEGÓRICAS

As variáveis categóricas não podem ser manipuladas diretamente, mas somente por meio de suas funções indicadoras. Na verdade, as funções indicadoras foram introduzidas por Matheron (1971, p. 9) para caracterizar um fenômeno de transição como sendo aquele que pode ou não apresentar uma característica, por exemplo, uma formação geológica S, que pode ser amostrada ou não por uma sondagem.

A geoestatística tem sido aplicada convencionalmente para variáveis contínuas, como se pode verificar na definição de Chilès e Delfiner (2012, p. 1). Contudo, mais recentemente tem surgido trabalhos abordando a questão da interpolação de variáveis categóricas.

Page 7: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

FENÔMENO DE TRANSIÇÃO

Conforme a função indicadora, dentro do minério é 1 e fora é 0.

S

Page 8: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

FENÔMENO DE TRANSIÇÃO

Page 9: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

SITUAÇÃO GEOLÓGICA COM QUATRO CAMADAS

COMO SE FAZ A CODIFICAÇÃO INDICADORA PARA MÚLTIPLOS TIPOS?

Page 10: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

INTERPOLAÇÃO DE VARIÁVEIS CATEGÓRICAS

CADA TIPO RECEBE 1 E OS DEMAIS ZERO. SÃO EVENTOS MUTUAMENTE EXCLUSIVOS.

ktipoxZse

ktipoxZsekxI

,1

,0,

A codificação indicadora resulta em probabilidades, portanto o valor calculado é também uma probabilidade.

Page 11: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

INTERPOLAÇÃO DE VARIÁVEIS CATEGÓRICAS

LOCALIZAÇÃO DE TRÊS SONDAGENS PARA AMOSTRAGEM

Page 12: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

INTERPOLAÇÃO DE VARIÁVEIS CATEGÓRICAS

VARIÁVEL CATEGÓRICA COMPOSTA POR K=4 TIPOS

K=4 VETORES BINÁRIOS

Page 13: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

INTERPOLAÇÃO DE VARIÁVEIS CATEGÓRICAS

Nossa amostra é composta por três sondagens {S1, S2, S3}

Sondagem a ser interpolada a partir da amostra.

Page 14: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

INTERPOLAÇÃO MULTIQUÁDRICA

A krigagem indicadora seria o método geoestatístico para estimativas de variáveis categóricas, mas essa aplicação exige K variogramas (Leuangthong et al., 2008), ou seja, um variograma para cada tipo que compõe a variável categórica. Mas, isso é impossível na prática, pois alguns tipos podem apresentar poucos pares de pontos e assim sujeitos à grande flutuação estatística (Yamamoto et al., 2012, p. 147). A opção pelas equações multiquádricas é, então, o melhor entre os métodos de interpolação disponíveis.

N

i

oioiio CyyxxCxZ1

21

222*

Forma geral em 2D

são os coeficientes da equação multiquádrica e C2 é uma constante. NiCi ,1,

NiparaCyyxxCxZN

j

jijiii ,11

21

222

NNNNNN

N

N

xZ

xZ

xZ

C

C

C

qqq

qqq

qqq

2

1

2

1

21

22221

11211

.

Os coeficientes são obtidos da solução de um sistema de equações lineares:

Onde 21

222Cyyxxq jijiij

é o núcleo multiquádrico entre i e j.

Page 15: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

INTERPOLAÇÃO MULTIQUÁDRICA Na forma dual, a equação multiquádrica pode ser escrita como uma fórmula de média ponderada:

Onde os pesos estão sujeitos à restrição:

Os pesos são obtidos a partir da solução de um sistema de equações:

n

i

iio xZWxZ1

*

10111

1

1

1

1

2

1

2

1

21

22212

12111

no

o

o

nnnnn

n

n

xx

xx

xx

W

W

W

xxxxxx

xxxxxx

xxxxxx

11

n

i

iW

Linear

Cúbica

Multiquádrica generalizada

Splines

Gaussiana

FUNÇÕES DE BASE RADIAL MAIS COMUNS

xx

3xx

,0,12

122

kparaxcx

k

xxx log2

2exp xcx

Melhores resultados: multiquádrica e splines.

Page 16: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

INTERPOLAÇÃO MULTIQUÁDRICA

A interpolação multiquádrica é feita para cada vetor, independentemente:

Os pesos da equação multiquádrica são obtidos pela resolução do sistema:

onde é a função de base radial e é a norma de um vetor em Rn.

A incerteza pode ser determinada por meio da variância de interpolação:

O tipo mais provável em um ponto não amostrado é o tipo com maior probabilidade:

n

i

iio kxIwkxI1

;;*

1

,1

1

1

n

j

j

n

j

ioijj

w

niparaxxxxw

n

i

oiioo kxIkxIwkxS1

22 ;*;;

KkkxIkxI oo ,,1,;*max;* max

Page 17: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

INFERÊNCIA ESTATÍSTICA E INCERTEZA

No processo de inferência estatística, as estatísticas amostrais são usadas para inferir os parâmetros populacionais.

Qualquer resultado baseado em uma amostra estará sujeito à incerteza.

Page 18: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

DIFERENÇA ENTRE ERRO E INCERTEZA

Erro é calculado como a diferença entre o valor estimado e o valor real. Portanto, isso significa que devemos conhecer o valor real e, nesse caso, não precisamos de fazer estimativa alguma. Em geoestatística, a validação cruzada permite determinar o erro, pois o valor conhecido em um ponto amostral é removido da base de dados e este ponto é estimado, resultando no erro.

Incerteza é medida pela variância que dá uma noção da dispersão dos dados em torno do valor médio esperado. A incerteza depende do modelo de distribuição de probabilidades, dada pela função de distribuição acumulada condicional. Observar que a média e a variância representam os momentos de 1ª e 2ª ordens desta curva.

Falta de precisão a respeito da incerteza subjacente;

Falta de exatidão dos valores possíveis nas distribuições incertas de probabilidade;

Viés desconhecido na definição do intervalo de possíveis valores;

Variabilidade* natural de processos não controlados;

Distribuições indefinidas de probabilidade para os processos do projeto e tecnologia;

Desconhecimento do intervalo das distribuições de probabilidade;

Ausência de informação a respeito das distribuições de probabilidade.

* Variabilidade é uma propriedade inerente de sistemas naturais.

Fonte: http://pt.slideshare.net/galleman/managing-in-the-presence-of-uncertainty

Page 19: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

INTERPOLAÇÃO MULTIQUÁDRICA

0.00

1.60

3.20

4.80

6.40

8.00

0.00 3.40 6.80 10.20 13.60 17.00

MOD. MAIS PROVÁVEL

I

II

III

IV

0.00

1.60

3.20

4.80

6.40

8.00

0.00 3.40 6.80 10.20 13.60 17.00

MOD. MAIS PROVÁVEL COM ZI

I

II

III

IV

ZI

Apesar da incerteza, a interpolação produziu bons resultados.

Page 20: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

INTERPOLAÇÃO MULTIQUÁDRICA

Page 21: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

ONDE ESTÁ A ZONA DE INCERTEZA?

Com o aumento do número de dados, diminui a zona de incerteza.

Page 22: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

EXEMPLO DE INTERPOLAÇÃO MULTIQUÁDRICA

-40

-20

0

0 50 100 150 200 250DISTANCIA

ELE

VA

CA

O

MOD. MAIS PROVÁVEL

I

II

III

-40

-20

0

0 50 100 150 200 250DISTANCIA

ELE

VA

CA

O

MOD. MAIS PROVÁVEL COM ZI

I

II

III

ZI

Significado da zona de incerteza

Tenho certeza que o tipo não ocorre!

Não tenho certeza! O tipo pode estar no contato.

Tenho certeza que o tipo ocorre!

Page 23: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

EXEMPLO DE INTERPOLAÇÃO MULTIQUÁDRICA

Page 24: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

SIS – VARIÁVEIS CATEGÓRICAS

Page 25: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

REFERÊNCIAS BIBLIOGRÁFICAS

Chilès, J.P. ; Delfiner, P. 2012, Geostatistics: modeling spatial uncertainty. Hoboken, John Wiley & Sons. 2nd edition. 699p. Devore, J.L. 2000. Probability and statistics. Pacific Grove, Duxbury. 775p. Leuangthong, O.; Khan, K.D; Deutsch, C.V. 2008. Solved problems in geostatistics. Hoboke, John Wiley & Sons. 207p. Matheron, G. 1971. The theory of regionalized variables and its applications. Paris, ENSMP. 211p. Stevens, S.S. 1946. On the theory of scales of measurement. Science, v. 103, ´. 677-680. Yamamoto, J.K.; Mao, X.M.; Koike, K.; Crosta, A.P.; Landim, P.M.B.; Hu, H.Z.; Wang, C.Y.; Yao, L.Q. 2012. Mapping an uncertainty zone between interpolated types of a categorical variable. Computers & Geosciences, v. 40, p. 146-152.

Page 26: Interpolação de Variáveis Categóricas

Congresso Brasileiro de Geotecnologias para o Meio Ambiente (CBGEO) 23 – 27 de Julho de 2018

OBRIGADO!

[email protected]

• (11) 2276-5711

• (11) 94887-0770 https://www.linkedin.com/company/geokrigagem/

http://www.geokrigagem.com.br