ANÁLISE ESTATÍSTICA DE DADOS GEOLÓGICOS MULTIVARIADOS › Home › Departamentos47 ›...

12
1 TÓPICOS ESPECIAIS: ANÁLISE ESTATÍSTICA DE DADOS AMBIENTAIS MULTIVARIADOSPaulo M. Barbosa Landim [email protected] 1 06/julho Análise estatística de dados multivariados. Regressão linear múltipla. Exercício 01 07/julho Análise de agrupamentos. Escalonamento multidimensional. Exercício 02 08/julho Análise de componentes principais. Análise fatorial. Exercício 03 09/julho Análise de correspondências. Análise de correlações canônicas. Exercício 04 10/julho Análise discriminante. Classificação regionalizada. Exercício 05 15/julho Envio dos exercícios 01-05 17/julho Solução dos exercícios 01-02-03-04-05 22/julho Envio do exercício final Todos exercícios enviados: conceito A 2 3 http://igce.rc.unesp.br/#!/departamentos/ geologia-aplicada/curso-prof-landim/ Exercício final: Dados fornecidos pelos próprios alunos(as). Relatório: individual ou no máximo até 2 alunos(as) Porque análise de dados? 4 UMA IMAGEM VALE MAIS QUE 1000 PALAVRAS 5 E UMA TABELA DE DADOS? 6

Transcript of ANÁLISE ESTATÍSTICA DE DADOS GEOLÓGICOS MULTIVARIADOS › Home › Departamentos47 ›...

Page 1: ANÁLISE ESTATÍSTICA DE DADOS GEOLÓGICOS MULTIVARIADOS › Home › Departamentos47 › geologia... · 2015-06-25 · 2 ANÁLISE DE DADOS: DESCRIÇÃO Os dados precisam ser explorados

1

TÓPICOS ESPECIAIS: ANÁLISE ESTATÍSTICA DE DADOS AMBIENTAIS MULTIVARIADOS”

Paulo M. Barbosa Landim [email protected]

1

06/julho

Análise estatística de dados multivariados. Regressão linear múltipla. Exercício 01

07/julho Análise de agrupamentos. Escalonamento multidimensional. Exercício 02

08/julho Análise de componentes principais. Análise fatorial. Exercício 03

09/julho Análise de correspondências. Análise de correlações canônicas. Exercício 04

10/julho

Análise discriminante. Classificação regionalizada. Exercício 05

15/julho Envio dos exercícios 01-05

17/julho Solução dos exercícios 01-02-03-04-05

22/julho Envio do exercício final Todos exercícios enviados: conceito A

2

3

http://igce.rc.unesp.br/#!/departamentos/ geologia-aplicada/curso-prof-landim/

Exercício final: Dados fornecidos pelos próprios alunos(as). Relatório: individual ou no máximo até 2 alunos(as)

Porque análise de dados?

4

UMA IMAGEM VALE MAIS QUE 1000 PALAVRAS

5

E UMA TABELA DE DADOS?

6

Page 2: ANÁLISE ESTATÍSTICA DE DADOS GEOLÓGICOS MULTIVARIADOS › Home › Departamentos47 › geologia... · 2015-06-25 · 2 ANÁLISE DE DADOS: DESCRIÇÃO Os dados precisam ser explorados

2

ANÁLISE DE DADOS: DESCRIÇÃO

Os dados precisam ser explorados em sua estrutura multidimensional, tanto sob um enfoque clássico como espacial, para o seu entendimento e, consequente, formulação de hipóteses de trabalho.

Existem a disposição, graças à moderna tecnologia computacional, tanto softwares específicos como ferramentas gráficas que permitem a visualização simultânea de amostras no espaço e/ou no tempo e as primeiras ideias a respeito da estrutura multidimensional podem começar a surgir a partir desses resultados e exibições gráficas.

7

ANÁLISE DE DADOS: INTERPRETAÇÃO

Os resultados analíticos e produtos gráficos obtidos a partir das informações numéricas são avaliados levando em consideração tanto o conhecimento já adquirido com dados similares, como fatos científicos relacionados às variáveis sob estudo.

A interpretação da estrutura espacial ou temporal, as associações e as relações casuais entre variáveis devem, então, ser organizadas num modelo que se ajuste aos dados.

8

ANÁLISE DE DADOS: ESTIMATIVA

A modelagem, se correta, não apenas descreve o fenômeno nos locais amostrados, mas pode se tornar válida para interpolações em locais ou intervalos de tempo adjacentes, não amostrados, representando um passo alem com relação às informações contidas nos dados numéricos.

Na verdade este é o grande desafio da análise multivariada, a estimação de valores para situações de previsão quantitativa.

9

MODELAGEM DE FENÔMENOS NATURAIS

modelo conceitual

modelo escalar

modelo matemático:

determinístico

estocástico (estatístico)

10

Amostragem para o teor de um painel

● ● ●

Mapeamento de solos

11

Mina de cobre

12

Page 3: ANÁLISE ESTATÍSTICA DE DADOS GEOLÓGICOS MULTIVARIADOS › Home › Departamentos47 › geologia... · 2015-06-25 · 2 ANÁLISE DE DADOS: DESCRIÇÃO Os dados precisam ser explorados

3

Biomassa numa plantação de eucaliptos

13

Pluma de contaminação

14

Volume de petróleo no pré-sal

15

Como obter dados?

Amostragem

População e amostra

16

AMOSTRAGEM CASUAL SIMPLES

Necessário preliminarmente construir um sistema de referência, isto é, a relação completa e numerada de todos os elementos n que compõe a população.

Em seguida utiliza-se uma tabela de números ao acaso para a escolha dos n números que comporão a amostra.

Essa amostragem será com reposição se os elementos de população puderem entrar mais de uma vez para a amostra e, neste caso, a amostragem é estatisticamente independente.

Caso contrário, a amostragem será sem reposição e estatisticamente dependente.

17

Números ao acaso

17 80 97 28 17 80

43 36 15 57 72 08

39 90 73 63 66 29

20 69 82 65 87 36

29 81 05 90 19 91

12 82 89 64 53 98

69 33 71 24 66 68

58 84 26 36 57 10

1 2 3 4 5 6 7 8 9 10

11 12 13 14 15 16 17 18 19 20

21 22 23 24 25 26 27 28 29 30

31 32 33 34 35 36 37 38 39 40

41 42 43 44 45 46 47 48 49 50

51 52 53 54 55 56 57 58 59 60

61 62 63 64 65 66 67 68 69 70

71 72 73 74 75 76 77 78 79 80

81 82 83 84 85 86 87 88 89 90

91 92 93 94 95 96 97 98 99 100

1 2 3 4 5 6 7 8 9 10

11 12 13 14 15 16 17 18 19 20

21 22 23 24 25 26 27 28 29 30

31 32 33 34 35 36 37 38 39 40

41 42 43 44 45 46 47 48 49 50

51 52 53 54 55 56 57 58 59 60

61 62 63 64 65 66 67 68 69 70

71 72 73 74 75 76 77 78 79 80

81 82 83 84 85 86 87 88 89 90

91 92 93 94 95 96 97 98 99 100

18

Page 4: ANÁLISE ESTATÍSTICA DE DADOS GEOLÓGICOS MULTIVARIADOS › Home › Departamentos47 › geologia... · 2015-06-25 · 2 ANÁLISE DE DADOS: DESCRIÇÃO Os dados precisam ser explorados

4

AMOSTRAGEM SISTEMÁTICA

Quando o sistema de referência geral para toda a população é dispensado e por sorteio amostras são sistematicamente coletadas segundo um padrão pré-determinado.

19

1 2 3 4 5 6 7 8 9 10

11 12 13 14 15 16 17 18 19 20

21 22 23 24 25 26 27 28 29 30

31 32 33 34 35 36 37 38 39 40

41 42 43 44 45 46 47 48 49 50

51 52 53 54 55 56 57 58 59 60

61 62 63 64 65 66 67 68 69 70

71 72 73 74 75 76 77 78 79 80

81 82 83 84 85 86 87 88 89 90

91 92 93 94 95 96 97 98 99 100 20

AMOSTRAGEM POR AGRUPAMENTOS

Quando a construção do sistema de referência, dada uma certa unidade de amostragem, é inexeqüível.

Escolhe-se então uma amostra casual simples de uma unidade de amostragem maior que englobe um certo número de indivíduos, os quais serão todos considerados.

21

5 10 15 20 25 30 35 40 45

5

10

15

20

25

30

35

40

45

5 10 15 20 25 30 35 40 45

5

10

15

20

25

30

35

40

45

22

AMOSTRAGEM ESTRATIFICADA

Usada quando se supõe presente uma grande variabilidade nas observações. Neste caso a população é dividida em sub-populações e cada uma delas é submetida a uma amostragem casual simples.

O efeito dessa amostragem é que apesar de existir uma grande variabilidade entre as sub-populações, consegue-se encontrar dentro de cada uma dela uma variabilidade menor.

23 24

Page 5: ANÁLISE ESTATÍSTICA DE DADOS GEOLÓGICOS MULTIVARIADOS › Home › Departamentos47 › geologia... · 2015-06-25 · 2 ANÁLISE DE DADOS: DESCRIÇÃO Os dados precisam ser explorados

5

AMOSTRAGEM HIERÁRQUICA O sistema de referência é construído

no sentido de unidades de amostragem maiores para menores através de sucessivas amostragens casuais.

25

26

SEQÜÊNCIA EM UM ESTUDO QUANTITATIVO

Enfoque do problema.

Modelo conceitual.

Amostragem.

Análise de dados.

Seleção de variáveis.

Refinamento do modelo.

Uso do modelo em previsão.

Aceitação, rejeição ou melhoria do modelo.

Retorno ao estágio apropriado. 27 28

Do rigor na ciência

Jorge Luis Borge s

Naquele Império, a Arte da Cartografia logrou tal

perfeição que o mapa de uma única Província

ocupava toda uma Cidade, e o mapa do Império,

toda uma Província. Com o tempo, esses Mapas

Desmedidos não satisfizeram e os Colégios de

Cartógrafos levantaram um Mapa do Império, que

tinha o tamanho do Império e coincidia

pontualmente c om ele. Menos Afeitas ao Estudo da

Cartografia, as Gerações Seguintes entenderam que

esse dilatado Mapa era Inútil e não sem Impiedade

o entregaram às Inclemências do Sol e dos Invernos.

Nos desertos do Oeste perduram despedaçadas Ruínas

do Mapa, habitadas por Animais e por Mendigos. Em

todo o País não há outra relíquia das Disciplinas

Cartográficas.

Suáres Miranda: Viajes de Varones Prudentes, livro quatro, cap. XLV,

Lerida, 1658.

• A incerteza da estimativa •Os resultados são sempre incertos. •Essa incerteza não é uma propriedade intrínsica do fenômeno estudado. •A incerteza reflete apenas o grau de não conhecimento do observador.

29

“O caos é uma ordem por decifrar” Livro dos Contrários/Saramago

TiposTipos de dados e de dados e escalasescalas de de medidasmedidas

DadosDados

QuantitativosQuantitativos QualitativosQualitativos

EscalaEscala nominalnominal

EscalaEscala ordinalordinal

EscalaEscala dede intervalointervalo

EscalaEscala de de razãorazão

30

Page 6: ANÁLISE ESTATÍSTICA DE DADOS GEOLÓGICOS MULTIVARIADOS › Home › Departamentos47 › geologia... · 2015-06-25 · 2 ANÁLISE DE DADOS: DESCRIÇÃO Os dados precisam ser explorados

6

Dados univariados

31

Dados univariados georreferenciados

32

DADOS BIVARIADOS

33 34

DADOS MULTIVARIADOS

Observações quantitativas

Observações qualitativas

35 36

Page 7: ANÁLISE ESTATÍSTICA DE DADOS GEOLÓGICOS MULTIVARIADOS › Home › Departamentos47 › geologia... · 2015-06-25 · 2 ANÁLISE DE DADOS: DESCRIÇÃO Os dados precisam ser explorados

7

água esgoto lixo educação renda

sim não não secundário R$ 500.00

não não sim primário R$ 500.00

não sim não secundário R$ 1,000.00

sim não não secundário R$ 1,000.00

não não não primário R$ 500.00

não sim não secundário R$ 500.00

não não não primário R$ 1,000.00

sim sim simuniversitário R$ 2,000.00

não não não secundário R$ 500.00

não não não primário R$ 500.00

não não sim primário R$ 1,000.00

sim não não primário R$ 500.00

não sim não secundário R$ 500.00

não não não primário R$ 500.00

não não sim primário R$ 1,000.00

sim sim não secundário R$ 500.00

sim sim simuniversitário R$ 2,000.00

não sim não primário R$ 500.00

não não não secundário R$ 1,000.00

sim não sim secundário R$ 500.00

37

MATRIZ DE DADOS = [XIJ]

66192479

09824454

61377001

22347587

34452223

Álgebra matricial: matrizes e métodos estatísticos multivariados.

38

MÉTODOS ESTATÍSTICOS MULTIVARIADOS

Análise de agrupamentos

Análise de componentes principais

Análise de correspondências

Análise discriminante

39

Análise de Agrupamentos

40

Análise de Componentes Principais

41

Análise Discriminante

42

Page 8: ANÁLISE ESTATÍSTICA DE DADOS GEOLÓGICOS MULTIVARIADOS › Home › Departamentos47 › geologia... · 2015-06-25 · 2 ANÁLISE DE DADOS: DESCRIÇÃO Os dados precisam ser explorados

8

Análise multivariada: exemplos

43

Exemplo 1: fósseis Medidas cranianas foram obtidas em 7 espécies fósseis de oreodontes (mamífero do Eoceno-Oligoceno dos Estados Unidos da América).

44

BC-W: largura da caixa craniana na altura da região parietal-escamosal TR-L: comprimento máximo dos dentes molariformes Bu-L: comprimento máximo da “bulla” timpânica Bu-HP: comprimento máximo da “bulla” timpânica medida do bordo dorsal até o processo paroxipital.

Subdesmatochoerus sp. (Su), Megoreodon gigas loomisi (Me), O. osborni (Oo), Psuedodesmatochoerus (Ps), Desmatochoerus hatcheri (De), M. culbertsoni (Mc) e Prodesmatochoerus . meeki (Pr).

45 46

4 grupos indicados pela Análise Discriminante: 1: Prodesmatochoerus meeki + Merychoidodon culbertsoni + O. osborni 2: Subdesmatochoerus sp 3: Desmatochoerus hatcheri + Psuedodesmatochoerus 4: Megoreodon gigas loomisi

47

? 48

Page 9: ANÁLISE ESTATÍSTICA DE DADOS GEOLÓGICOS MULTIVARIADOS › Home › Departamentos47 › geologia... · 2015-06-25 · 2 ANÁLISE DE DADOS: DESCRIÇÃO Os dados precisam ser explorados

9

Exemplo 2: Óxidos em rochas magmáticas

Rochas SiO2 Al2O3 Fe2O3 FeO MgO CaO Na2O K2O

01Sienito 61.7 15.1 2 2.3 3.7 4.6 4.4 4.5

02Sienito 58.3 17.9 3.2 1.7 1.5 3.7 5.9 5.3

03Sienito 51.2 17.6 3.5 4.3 3.2 4.5 5.7 4.4

04Monzonito 54.4 14.3 3.3 4.1 6.1 7.7 3.4 4.2

05Diorito 58 15.7 0.7 2.8 5 10.9 3 3.2

06Diorito 46.9 15.9 2.9 10 7 9.6 2.7 0.7

07Diorito 58 17.3 2.2 3.8 2.2 4.3 4.3 4.1

08QDiorito 55.5 16.5 1.7 4.6 6.7 6.7 3.2 2.5

09Gabro 55.4 15.3 2.7 5.5 5.8 9.9 2.9 1.5

10Gabro 55.9 13.5 2.7 5.9 6.5 8.9 2.4 1.7

11Norito 47.2 14.5 1.6 13.8 5.2 8.1 3.1 1.2

12Norito 48.2 18.3 1.3 6.1 10.8 9.4 1.3 0.7

13HipGabro 44.8 18.8 2.2 4.7 11.3 14.6 0.9 0.1

14HipGabro 47 14.1 0.8 15 16 2.3 0.4 1.7

15Sienito 59.8 17.3 3.6 1.6 1.2 3.8 5 5.1

16QSienito 66.2 16.2 2 0.2 0.8 1.3 6.5 5.8

17SienitoAlt 50 9.9 3.5 5 11.9 8.3 2.4 5

18Monzonito 57.4 18.5 3.7 2.1 1.7 6.8 4.5 3.7

19Monzonito 59.8 15.8 3.8 3.3 2.2 3.9 3 4.4

20Diabasio 52.2 18.2 3.3 4.4 4.7 6.5 4.6 1.9 49 50

Si: ↑

Fe3: ↑

Fe2: ↓

Mg: ↓

Na: ↑

K: ↑

51

T = 1000 °C

Comp. = A

T = 900 °C

Comp. = B

T = 800 °C

Comp. = C

T = 700 °C

Comp. = D

T = 600 °C

Comp. = E

Formação de minerais

52

53

Diferenciação magmática 54

Rochas siálicas

Rochas máficas

Page 10: ANÁLISE ESTATÍSTICA DE DADOS GEOLÓGICOS MULTIVARIADOS › Home › Departamentos47 › geologia... · 2015-06-25 · 2 ANÁLISE DE DADOS: DESCRIÇÃO Os dados precisam ser explorados

10

Diferença entre os dois exemplos

1. Análise de dados: metodologia

2. Interpretação final: conhecimento

55 56

•Imensa quantidade de informações coletadas. •Basta ver os relatórios de pesquisa e mesmo os bancos de dados com um grande número de matrizes de informações não trabalhadas. •A sua análise, porem, esta muito aquém.

•Verbas e tempo são gastos com essa coleta que precisa ser devidamente manuseada e para essa análise dos dados o emprego de técnicas estatísticas multidimensionais torna-se uma ferramenta fundamental.

57

•Fenômenos naturais são resultantes de diversos fatores condicionantes e o seu entendimento é facilitado quando o estudo é submetido a um enfoque quantitativo multidimensional.

•Deve ser enfatizado, porem, que a pura utilização de técnicas estatísticas, e hoje em dia bastante facilitado graças à vasta disposição de programas computacionais, não é condição suficiente se o estudo não for embasado num sólido conhecimento específico

58

Mapa com distribuição espacial das rochas?

Relacionamento no espaço a 8 dimensões é rebatido para 2D. Distorção?

n,m2,m1,m

n,32,31,3

n,22,21,2

n,12,11,1

j,i

zzz

zzz

zzz

zzz

Z

1,m1,m

1,31,3

1,21,2

1,11,1

yx

yx

yx

yx

XY

Modelagem espacial de fenômenos multivariados

+ =? 59

Métodos clássicos da análise estatística multivariada não levam em consideração a localização dos pontos de amostragem, nem as suas relações espaciais e também não refletem as diferenças quanto ao suporte das amostras ou com relação ao domínio regional onde o estudo esta sendo realizado. A metodologia geoestatística univariada, tem essas propriedades, mas não é capaz de tratar da correlação espacial entre diversas variáveis. Ferramentas se tornam, então, necessárias para incorporar essas importantes feições e daí a necessidade de métodos estatísticos que enfoquem a análise espacial de dados multivariados.

60

Page 11: ANÁLISE ESTATÍSTICA DE DADOS GEOLÓGICOS MULTIVARIADOS › Home › Departamentos47 › geologia... · 2015-06-25 · 2 ANÁLISE DE DADOS: DESCRIÇÃO Os dados precisam ser explorados

11

Duas soluções propostas

Metodologia geoestatística multivariada

Krigagem fatorial .

Metodologia estatístca multivariada “adaptada”

Classificação regionalizada .

6

1

Estudos em aberto. Grande potencial de pesquisa. Diversas possibilidades de aplicação Modelos “Causa-e-efeito”.

Análise estatística multivariada de dados espaciais

6

2

Exemplo: Mapeamento de solos

FATORES CLIMA ORGANISMOS RELÊVO MATERIAL DE ORIGEM

VARIÁVEIS AREIA SILTE ARGILA SOMA DE BASES CAPACIDADE DE TROCA DE CÁTIONS SATURAÇÃO DE BASES SATURAÇÃO DE ALUMÍNIO.

TEMPO ESPAÇO

63 64

Este Curso, a ser apresentado de maneira a mais simples possível, por um Professor de Geologia, tem como enfoque uma introdução aos métodos estatísticos multidimensionais que possam ser aplicados na análise de dados, sem uma abordagem matemática complexa, porém sempre, que possível, com um enfoque espacial . Presume que os participantes tenham um conhecimento básico de estatística descritiva, além de dominar conceitos simples de álgebra matricial e familiaridade com manuseio de computadores. Os exemplos são voltados às Geociências, mas a metodologia pode perfeitamente ser utilizada em outras áreas que disponham de dados com estas mesmas características, ou seja, multivariados e regionalizados.

BIBLIOGRAFIA LANDIM, P.M.B. (2011) – Análise estatística de dados geológicos

multivariados: Editora Oficina de Textos

DAVIS, J.C (2002) - Statistics and Data Analysis in Geology: 3rd ed., John Wiley and Sons.

HAIR JR., J.F.; BLACK, W.C.; BABIN, B.J.; ANDERSON, R.E., TATHAM, R.L.

(2009) – Análise Multivariada de Dados: 6a.ed., Bookman.

LEGENDRE, P. & LEGENDRE, L. (1998) – Numerical Ecology: 2nd ed. Elsevier

KRZANOWSKI, W. J. (200) – Prrinciples of Multivariate Analysis. A User’s Perspective: Oxford University Press

MANLY, B.J.F. (2008) – Métodos estatísticos multivariados. Uma Introdução

(Tradução Carmona, S. I. C.): Artmed Editora S. A.

MINGOTI, S. A. (2005) - Análise de dados através de métodos de estatística multivariada: uma abordagem aplicada : Editora UFMG.

6

5

SOFTWARES

SAS

S-Plus

Statistica

Systat

Matlab (algebra matricial)

PAST (http://folk.uio.no/ohammer/past)

XLStat/Excel (www.xlstat.com)

6

6

Page 12: ANÁLISE ESTATÍSTICA DE DADOS GEOLÓGICOS MULTIVARIADOS › Home › Departamentos47 › geologia... · 2015-06-25 · 2 ANÁLISE DE DADOS: DESCRIÇÃO Os dados precisam ser explorados

12

67