ANÁLISE ESTATÍSTICA DE DADOS GEOLÓGICOS...

11
1 TÓPICOS ESPECIAIS: ANÁLISE ESTATÍSTICA DE DADOS AMBIENTAIS MULTIVARIADOSPaulo M. Barbosa Landim [email protected] 1 07/julho Análise estatística espacial de dados multivariados. Regressão linear múltipla. Exercício 01 08/julho Análise de agrupamentos. Escalonamento multidimensional. Exercício 02 10/julho Análise de componentes principais. Análise fatorial. Exercício 03 11/julho Análise de correspondências. Análise de correlações canônicas. Exercício 04 14/julho Análise discriminante. Classificação regionalizada. Exercício 05 15/julho Solução dos exercícios 01-05 17/julho Envio dos exercícios 01-05 19/julho Envio do exercício final Todos exercícios enviados: conceito A 2 http://igce.rc.unesp.br/#!/departamentos/geologia-aplicada/curso-prof-landim/ Calvin e Haroldo Os fenômenos naturais não podem ser explicados por crenças. A Matemática não é uma crença. A Matemática pode ser usada para explicar os fenômenos naturais. Amostragem para o teor de um painel Mapeamento de solos 4 MODELAGEM DE FENÔMENOS NATURAIS modelo conceitual modelo escalar modelo matemático: determinístico estocástico (estatístico) 5 6 População visada e população amostrada Parâmetros e estatísticas Planos de amostragem

Transcript of ANÁLISE ESTATÍSTICA DE DADOS GEOLÓGICOS...

1

TÓPICOS ESPECIAIS:

ANÁLISE ESTATÍSTICA DE

DADOS AMBIENTAIS

MULTIVARIADOS”

Paulo M. Barbosa Landim [email protected]

1

07/julho

Análise estatística espacial de dados multivariados. Regressão linear múltipla. Exercício 01

08/julho Análise de agrupamentos. Escalonamento multidimensional. Exercício 02

10/julho Análise de componentes principais. Análise fatorial. Exercício 03

11/julho Análise de correspondências. Análise de correlações canônicas. Exercício 04

14/julho

Análise discriminante. Classificação regionalizada. Exercício 05

15/julho Solução dos exercícios 01-05

17/julho Envio dos exercícios 01-05

19/julho Envio do exercício final Todos exercícios enviados: conceito A

2

http://igce.rc.unesp.br/#!/departamentos/geologia-aplicada/curso-prof-landim/

Calvin e Haroldo

3

Os fenômenos naturais não podem ser explicados por crenças. A Matemática não é uma crença. A Matemática pode ser usada para explicar os fenômenos naturais.

Amostragem para o teor de um painel

● ● ●

Mapeamento de solos

4

MODELAGEM DE FENÔMENOS NATURAIS

modelo conceitual

modelo escalar

modelo matemático:

determinístico

estocástico (estatístico)

5 6

População visada e população amostrada Parâmetros e estatísticas Planos de amostragem

2

Como obter dados?

Amostragem

População e amostra

7

AMOSTRAGEM CASUAL SIMPLES

Necessário preliminarmente construir um sistema de referência, isto é, a relação completa e numerada de todos os elementos n que compõe a população.

Em seguida utiliza-se uma tabela de números ao acaso para a escolha dos n números que comporão a amostra. Essa amostragem será com reposição se os elementos de população puderem entrar mais de uma vez para a amostra e, neste caso, a amostragem é estatisticamente independente. Caso contrário, a amostragem será sem reposição e estatisticamente dependente.

8

Números ao acaso

17 80 97 28 17 80

43 36 15 57 72 08

39 90 73 63 66 29

20 69 82 65 87 36

29 81 05 90 19 91

12 82 89 64 53 98

69 33 71 24 66 68

58 84 26 36 57 10

1 2 3 4 5 6 7 8 9 10

11 12 13 14 15 16 17 18 19 20

21 22 23 24 25 26 27 28 29 30

31 32 33 34 35 36 37 38 39 40

41 42 43 44 45 46 47 48 49 50

51 52 53 54 55 56 57 58 59 60

61 62 63 64 65 66 67 68 69 70

71 72 73 74 75 76 77 78 79 80

81 82 83 84 85 86 87 88 89 90

91 92 93 94 95 96 97 98 99 100

1 2 3 4 5 6 7 8 9 10

11 12 13 14 15 16 17 18 19 20

21 22 23 24 25 26 27 28 29 30

31 32 33 34 35 36 37 38 39 40

41 42 43 44 45 46 47 48 49 50

51 52 53 54 55 56 57 58 59 60

61 62 63 64 65 66 67 68 69 70

71 72 73 74 75 76 77 78 79 80

81 82 83 84 85 86 87 88 89 90

91 92 93 94 95 96 97 98 99 100

AMOSTRAGEM SISTEMÁTICA

Quando o sistema de referência geral para

toda a população é dispensado e por sorteio amostras são sistematicamente coletadas segundo um padrão pré-determinado.

10

1 2 3 4 5 6 7 8 9 10

11 12 13 14 15 16 17 18 19 20

21 22 23 24 25 26 27 28 29 30

31 32 33 34 35 36 37 38 39 40

41 42 43 44 45 46 47 48 49 50

51 52 53 54 55 56 57 58 59 60

61 62 63 64 65 66 67 68 69 70

71 72 73 74 75 76 77 78 79 80

81 82 83 84 85 86 87 88 89 90

91 92 93 94 95 96 97 98 99 100 11

AMOSTRAGEM POR AGRUPAMENTOS

Quando a construção do sistema de referência,

dada uma certa unidade de amostragem, é inexeqüível.

Escolhe-se então uma amostra casual simples de uma unidade de amostragem maior que englobe um certo número de indivíduos, os quais serão todos considerados.

12

3

5 10 15 20 25 30 35 40 45

5

10

15

20

25

30

35

40

45

5 10 15 20 25 30 35 40 45

5

10

15

20

25

30

35

40

45

13

AMOSTRAGEM ESTRATIFICADA

Usada quando se supõe presente uma grande variabilidade nas observações. Neste caso a população é dividida em sub-populações e cada uma delas é submetida a uma amostragem casual simples.

O efeito dessa amostragem é que apesar de existir uma grande variabilidade entre as sub-populações, consegue-se encontrar dentro de cada uma dela uma variabilidade menor.

14

15

AMOSTRAGEM HIERÁRQUICA O sistema de referência é construído no

sentido de unidades de amostragem maiores para menores através de sucessivas amostragens casuais.

16

17

SEQÜÊNCIA EM UM ESTUDO QUANTITATIVO

Enfoque do problema.

Modelo conceitual.

Seleção de variáveis.

Coleta e análise de dados.

Seleção de variáveis.

Refinamento do modelo.

Uso do modelo em previsão.

Aceitação, rejeição ou melhoria do modelo.

Retorno ao estágio apropriado. 18

4

Dados univariados

19

Observações quantitativas

Observações qualitativas

20

Dados Multivariados

21

água esgoto lixo educação renda

sim não não secundário R$ 500.00

não não sim primário R$ 500.00

não sim não secundário R$ 1,000.00

sim não não secundário R$ 1,000.00

não não não primário R$ 500.00

não sim não secundário R$ 500.00

não não não primário R$ 1,000.00

sim sim simuniversitário R$ 2,000.00

não não não secundário R$ 500.00

não não não primário R$ 500.00

não não sim primário R$ 1,000.00

sim não não primário R$ 500.00

não sim não secundário R$ 500.00

não não não primário R$ 500.00

não não sim primário R$ 1,000.00

sim sim não secundário R$ 500.00

sim sim simuniversitário R$ 2,000.00

não sim não primário R$ 500.00

não não não secundário R$ 1,000.00

sim não sim secundário R$ 500.00

22

TiposTipos de dados e de dados e escalasescalas de de medidasmedidas

DadosDados

QuantitativosQuantitativos QualitativosQualitativos

EscalaEscala nominalnominal

EscalaEscala ordinalordinal

EscalaEscala dede intervalointervalo

EscalaEscala de de razãorazão

23

MATRIZ DE DADOS = [XIJ]

66192479

09824454

61377001

22347587

34452223

24 Álgebra matricial: matrizes e métodos estatísticos multivariados

5

Análise de dados: descrição interpretação estimação*

*Este é o grande desafio da análise multivariada de dados espaciais, a estimativa de valores para situações de previsão quantitativa.

25

MÉTODOS ESTATÍSTICOS MULTIVARIADOS Análise de agrupamentos

Análise de componentes principais

Análise de correspondências

Análise de correlações canônicas

Análise discriminante

26

Análise multivariada: exemplos

27

Exemplo 1 Medidas cranianas foram obtidas em 7 espécies fósseis de oreodontes (mamífero do Eoceno-Oligoceno dos Estados Unidos da América).

28

BC-W: largura da caixa craniana na altura da região parietal-escamosal TR-L: comprimento máximo dos dentes molariformes Bu-L: comprimento máximo da “bulla” timpânica Bu-HP: comprimento máximo da “bulla” timpânica medida do bordo dorsal até o processo paroxipital.

Subdesmatochoerus sp. (Su), Megoreodon gigas loomisi (Me), O. osborni (Oo), Psuedodesmatochoerus (Ps), Desmatochoerus hatcheri (De), M. culbertsoni (Mc) e Prodesmatochoerus . meeki (Pr).

Espécie

BC-W TR-L Bu-L Bu-HP

Su 47.0 99.0 26.0 15.0

Su 42.0 93.0 26.0 16.0

Su 40.0 90.0 22.0 13.0

Su 46.0 100.0 22.0 11.0

Su 46.0 96.0 24.0 16.0

Su 42.0 88.0 26.0 15.0

Su 43.0 89.0 23.0 14.0

Su 44.0 78.0 23.0 13.0

Su 44.0 90.0 25.0 11.0

Su 47.0 99.0 27.0 15.0

Su 47.0 92.0 27.0 13.0

Me 78.0 165.0 35.0 18.0

Me 77.0 165.0 37.0 19.0

29 30

6

4 grupos indicados pela Análise Discriminante:

1: Prodesmatochoerus meeki + Merychoidodon culbertsoni + O. osborni

2: Subdesmatochoerus sp

3: Desmatochoerus hatcheri + Psuedodesmatochoerus

4: Megoreodon gigas loomisi

31

? 32

Exemplo 2: Óxidos em rochas magmáticas

Rochas SiO2 Al2O3 Fe2O3 FeO MgO CaO Na2O K2O

01Sienito 61.7 15.1 2 2.3 3.7 4.6 4.4 4.5

02Sienito 58.3 17.9 3.2 1.7 1.5 3.7 5.9 5.3

03Sienito 51.2 17.6 3.5 4.3 3.2 4.5 5.7 4.4

04Monzonito 54.4 14.3 3.3 4.1 6.1 7.7 3.4 4.2

05Diorito 58 15.7 0.7 2.8 5 10.9 3 3.2

06Diorito 46.9 15.9 2.9 10 7 9.6 2.7 0.7

07Diorito 58 17.3 2.2 3.8 2.2 4.3 4.3 4.1

08QDiorito 55.5 16.5 1.7 4.6 6.7 6.7 3.2 2.5

09Gabro 55.4 15.3 2.7 5.5 5.8 9.9 2.9 1.5

10Gabro 55.9 13.5 2.7 5.9 6.5 8.9 2.4 1.7

11Norito 47.2 14.5 1.6 13.8 5.2 8.1 3.1 1.2

12Norito 48.2 18.3 1.3 6.1 10.8 9.4 1.3 0.7

13HipGabro 44.8 18.8 2.2 4.7 11.3 14.6 0.9 0.1

14HipGabro 47 14.1 0.8 15 16 2.3 0.4 1.7

15Sienito 59.8 17.3 3.6 1.6 1.2 3.8 5 5.1

16QSienito 66.2 16.2 2 0.2 0.8 1.3 6.5 5.8

17SienitoAlt 50 9.9 3.5 5 11.9 8.3 2.4 5

18Monzonito 57.4 18.5 3.7 2.1 1.7 6.8 4.5 3.7

19Monzonito 59.8 15.8 3.8 3.3 2.2 3.9 3 4.4

20Diabasio 52.2 18.2 3.3 4.4 4.7 6.5 4.6 1.9 33

16QSienito

01Sienito

18Monzonito

02Sienito

15Sienito

07Diorito

19Monzonito

03Sienito

20Diabasio

05Diorito

09Gabro

10Gabro

04Monzonito

08QDiorito

14HipGabro

17SienitoAlt

06Diorito

11Norito

12Norito

13HipGabro

-5 0 5 10 15 20

34

Si: ↑

Fe3: ↑

Fe2: ↓

Mg: ↓

Na: ↑

K: ↑

35

T = 1000 °C

Comp. = A

T = 900 °C

Comp. = B

T = 800 °C

Comp. = C

T = 700 °C

Comp. = D

T = 600 °C

Comp. = E

Formação de minerais

36

7

37

Distribuição espacial das rochas

20Diabasio

19Monzonito

18Monzonito

17SienitoAlt

16QSienito

15Sienito

14HipGabro

13HipGabro

12Norito

11Norito 10Gabro

09Gabro

08QDiorito 07Diorito

06Diorito

05Diorito

04Monzonito

03Sienito 02Sienito

01Sienito

-3

-2

-1

0

1

2

3

-5 -4 -3 -2 -1 0 1 2 3 4 5

siálicos

máficos

Diferenciação magmática 38

Diferença entre os dois exemplos

1. Análise de dados: metodologia

2. Interpretação final: conhecimento

39 40

•Imensa quantidade de informações coletadas. •Basta ver os relatórios de pesquisa e mesmo os bancos de dados com um grande número de matrizes de informações não trabalhadas. •A sua análise, porem, esta muito aquém.

•Verbas e tempo são gastos com essa coleta que precisa ser devidamente manuseada e para essa análise dos dados o emprego de técnicas estatísticas multidimensionais torna-se uma ferramenta fundamental.

41

•Fenômenos naturais (pedológicos) são resultantes de diversos fatores condicionantes

e o seu entendimento é facilitado quando o estudo é submetido a um enfoque quantitativo multidimensional.

•Deve ser enfatizado, porem, que a pura utilização de técnicas estatísticas, e hoje em

dia bastante facilitado graças à vasta disposição de programas computacionais, não é condição suficiente se o estudo não for embasado num sólido conhecimento específico

Análise Estatística Espacial de Dados Multivariados

4

2

8

Dados univariados

43

Dados univariados georreferenciados

44

Modelagem de fenômenos espaciais Usando informações pontuais conhecidas, como estimar um valor em local não amostrado?

4

5

4

6

ESTATÍSTICA ESPACIAL E INTERPOLAÇÃO DE VALORES

Valores são coletados (amostra) para estimar o comportamento espacial do fenomeno em estudo (população)

Interpolação: procedimento matemático de ajuste de uma função à pontos não amostrados, baseando-se em valores obtidos em pontos amostrados.

Produto final: Mapas (Modelo digital) 4

7

ESTIMATIVA DO RETICULADO

0 10 20 30 40 50 60 70 80 90 100

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

0

20

40

60

80

100

0 10 20 30 40 50 60 70 80 90 1000

10

20

30

40

50

60

70

80

90

100

0 10 20 30 40 50 60 70 80 90 100

0

10

20

30

40

50

60

70

80

90

100

48

9

ALGORÍTMOS PARA INTERPOLAÇÃO inverso do quadrado da distância

curvatura mínima

vizinho natural

regressão polinomial

krigagem

4

9

Krigagem: método univariado

E para dados multivariados?

Análises geoquímicas de elementos maiores e/ou traços;

Bandas espectrais em imagens de satélites;

Caracteres morfológicos de fósseis;

Características geotécnicas de rochas;

Conteúdo mineralógico em rochas;

Eletrofácies para classificação litológica de poços;

Variáveis pedológicas, etc. 5

0

359 amostras de solo (Goovaerts, 1997)

51

Distribuição dos pontos Em cada ponto: “n”variáveis

52

53

Comportamentos espaciais diferentes

54

10

n,m2,m1,m

n,32,31,3

n,22,21,2

n,12,11,1

j,i

zzz

zzz

zzz

zzz

Z

1,m1,m

1,31,3

1,21,2

1,11,1

yx

yx

yx

yx

XY

Modelagem espacial de fenômenos multivariados

+ =? 55

Análise de Agrupamentos

56

Análise de Componentes Principais

57

Análise Discriminante

58

59

Métodos clássicos da análise estatística multivariada não levam em consideração a localização dos pontos de amostragem, nem as suas relações espaciais e também não refletem as diferenças quanto ao suporte das amostras ou com relação ao domínio regional onde o estudo esta sendo realizado. A metodologia geoestatística univariada, tem essas propriedades, mas não é capaz de tratar da correlação espacial entre diversas variáveis. Ferramentas se tornam, então, necessárias para incorporar essas importantes feições e daí a necessidade de métodos estatísticos que enfoquem a análise espacial de dados multivariados.

60

11

Duas soluções propostas

Metodologia geoestatística multivariada

Krigagem fatorial (Castrignanò, Goovaerts, Wackernagel).

Metodologia estatístca multivariada “adaptada”

Classificação regionalizada (Harff and Davis, Voronin, Olea)

6

1

Estudos em aberto. Grande potencial de pesquisa. Diversas possibilidades de aplicação Modelos “Causa-e-efeito”.

Análise estatística multivariada de dados espaciais

6

2

Exemplo: Mapeamento de solos

FATORES

CLIMA

ORGANISMOS

RELÊVO

MATERIAL DE

ORIGEM

VARIÁVEIS

AREIA

SILTE

ARGILA

SOMA DE BASES

CAPACIDADE DE

TROCA DE CÁTIONS

SATURAÇÃO DE

BASES

SATURAÇÃO DE

ALUMÍNIO.

TEMPO

ESPAÇO

63

BIBLIOGRAFIA DAVIS, J.C (2002) - Statistics and Data Analysis in Geology: 3rd ed.,

John Wiley and Sons.

LANDIM, P.M.B. (2011) – Análise estatística de dados geológicos multivariados: Editora Oficina de textos

LEGENDRE, P. & LEGENDRE, L. (1998) – Numerical Ecology, 2nd ed.: Elsevier

KRZANOWSKI, W. J. (200) – Prrinciples of Multivariate Analysis. A User’s Perspective: Oxford University Press

MANLY, B.J.F. (2008) – Métodos estatísticos multivariados. Uma Introdução (Tradução Carmona, S. I. C.): Artmed Editora S. A.

MINGOTI, S. A. (2005) - Análise de dados através de métodos de estatística multivariada: uma abordagem aplicada : Editora UFMG.

VALENTIN, J. L. (2000) - Ecologia numérica: Introdução à análise multivariada de dados ecológicos: Editora Interciência Ltda.

6

4

SOFTWARES

SAS

S-Plus

Statistica

Systat

Matlab (algebra matricial)

PAST (http://folk.uio.no/ohammer/past)

XLStat/Excel (www.xlstat.com)

6

5

66