Fundamentos de Entropia Máxima para Aplicação na … · Algoritmo. Método de Entropia Máxima...
Transcript of Fundamentos de Entropia Máxima para Aplicação na … · Algoritmo. Método de Entropia Máxima...
Escola Politécnica da Universidade de São Paulo – EPUSPDepartamento de Engenharia de Computação e Sistemas Digitais – PCS
Laboratório de Linguagens e Técnicas Adaptativas – LTALaboratório de Automação Agrícola – LAA
Fundamentos de Entropia Máxima para Aplicação na Modelagem de
Distribuição Geográfica de Espécies
Elisângela Silva da Cunha RodriguesDoutoranda do Programa de Pós-graduação em
Engenharia Elétrica da EPUSP
Agenda Introdução Modelagem de Distribuição Geográfica de
Espécies Método de Entropia Máxima Maxent no openModeller Estudos relacionados ao maxent Referências
2
Introdução Conservação da biodiversidade Conservar a maior quantidade de espécies com o
menor custo possível → hotspots Brasil → abriga a flora mais rica do planeta Modelagem de distribuição geográfica de espécies →
pode ajudar na conservação da biodiversidade Impacto de mudanças climáticas Planejamento do uso de regiões não habitadas Previsão de invasão de espécies Projeto de proteção de espécies ameaçadas de
extinção etc 3
Introdução Algoritmos de modelagem
Entropia máxima (maxent) Redes Neurais Artificiais GARP (Genetic Algorithm for Rule-set
Production) SVM (Support Vector Machine) etc
openModeller - http://openmodeller.sourceforge.net/ MaxEnt
http://www.cs.princeton.edu/~schapire/maxent/ 4
Modelagem de Distribuição Geográfica de Espécies
5
Nicho ecológico Ferramenta de Modelagem → modelo baseado em
nicho. Dados
Pontos de ocorrência Pontos georeferenciados Presença e ausência das espécies
Variáveis Ambientais Nicho ecológico da espécie Exemplos: temperatura, precipitação etc
Modelagem de Distribuição Geográfica de Espécies
6
Dados Tratados
ValidaçãoAlgoritmoTratamentoSeleção
Dados Selecionados
Dados- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Modelo
Modelagem de Distribuição Geográfica de Espécies
7
Modelagem de Distribuição Geográfica de Espécies
8
…
Pontos de Ocorrência
Variáveis Ambientais
Distribuição Potencial Estimada
Algoritmo
Método de Entropia Máxima Dado → sequência de símbolos quantificáveis
puramente sintática Informação → “abstração informal que representa
algo significativo para alguém através de textos, imagens, sons ou animação”
25 Temperatura = 25 Média da temperatura máxima de fevereiro = 25二月份的平均最高氣溫 = 25
9
Método de Entropia Máxima Conhecimento → “abstração interior, pessoal, de
alguma coisa que foi experimentada por alguém” Entropia → medida de desordem ou de
imprevisibilidade de um sistema Observações inesperadas tem informações superiores
às observações esperadas Entropia → probabilidade de ocorrência de um
evento Aplicações: termodinâmica, engenharia hidráulica,
processamento de linguagens naturais etc10
Entropia de Shannon → entropia da informação X = {xk | k = 1, 2, ..., N}
pk = P(X = xk)
pk = 1 → pi = 0, ∀i ≠ k → H(X) = 0
Incerteza → surpresa → informação11
Método de Entropia Máxima
∑=
=N
kkp
11 ∑
=
−=N
kkk ppXH
1log)(
Representação de evidências → informação parcial sobre o problema
Features → f1, f2, ..., fm
, 1 ≤ j ≤ m
12
Método de Entropia Máxima
13
Método de Entropia Máxima
∑=
=N
kkp
11
Segundo o Princípio da Entropia Máxima, a melhor distribuição de probabilidade é aquela que maximiza a entropia e satisfaz todas as restrições.
14
Método de Entropia Máxima
X* → região geográfica de interesse
X = {x1, x2, ..., xN}, tal que X ∈ X*
X → pontos observados em X*
f1, f2, ..., fm → features (variáveis ambientais ou funções delas)
= média empírica de fj, 1 ≤ j ≤ m
15
Método de Entropia Máxima
p [ f j ]=1N ∑
i=1
N
f j xi
Distribuição de Gibbs
16
Método de Entropia Máxima
Algoritmo para calcular os parâmetros do modelo: Entrada: X*
f1, f2, ..., fm em que fj: X* → [0, 1]
x1, x2, ..., xN em∈ X*
β1, β2, ..., βm tal que βj > 0
Saída: λ1, λ2, ..., λm e p*
Inicializar λj = 0, para j = 1, …, m Para t = 1 até t = iterações ou até convergir
17
Método de Entropia Máxima
j ' ,=arg min j ,
p[−ln p]∑j=1
m
j∣ j∣
j={ j se j '= j j }
Como calcular α?
18
Método de Entropia Máxima
=− j
=ln p [ f j]− j1− p1− p [ f j ] j p , desde que j0
=ln p [ f j] j1− p1− p [ f j ]− j p , desde que j0
− p [ f j ]ln 1e−1 p j ∣ j∣−∣ j∣
19
Maxent no openModeller
20
Maxent no openModeller
21
Maxent no openModeller
22
Maxent no openModeller Diferença nos modelos gerados
Redes Neurais GARP
AUC: 0.9AUC: 0.9 AUC: 0.97
SVMEntropia Máxima
AUC: 0.9AUC: 0.9
22AUC: 0.97
Paralelização
Xylopia aromatica → aumento de desempenho: 18% e 40%
Byrsonima intermedia → aumento de desempenho: 17% e 37% 23
Estudos relacionados ao maxent
Maxent adaptativo – aproximadamente 33% mais rápido que o algoritmo clássico em média.
24
Estudos relacionados ao maxent
Fn
F1
Fn
F1Vector of
activated features
log
loss
Activated
Features
.
.
.
Iteration i Feature
Combinations
Feature
AnalysisSelect
Minimum
.
.
.λ i1
Select Minimum
.
.
.λ i2Feature
Analysis
Fn
F1
SelectMinimum
.
.
.λ im
Probability Distribution
Feature
Analysis
.
.
.
SelectMinimum
log loss
log loss
Probability Distribution
Probability Distribution
Parâmetros de regularização
25
Estudos relacionados ao maxent
Species # samples Regularization Parameter
Accuracy (%)
AUC # iterations
Paucifolia 4 0.07 100 1.0 3752
Cistoidea 19 0.05 100 1.0 9632
Sonorae 19 0.9 100 0.94 1250
Argentea 45 1.0 100 0.93 1362
Ramosissima 66 0.9 100 0.98 1357
Secundiflora 66 1.0 100 0.91 1257
Ixine 162 1.0 79.01 0.97 1816
Tomentosa 163 0.07 68.71 0.95 5542
Lanceolata 465 0.7 96.56 0.96 1614
Erecta 755 1.0 86.49 0.97 1978
Parâmetros de regularização
26
Estudos relacionados ao maxent
SpeciesMaxent without regularization Adaptive approach
Accuracy (%)
AUCIterations
Accuracy (%)
AUCIterations
Paucifolia 100 1.0 9007 100 1.0 5421
Cistoidea 94.74 1.0 10000 94.74 1.0 10000
Sonorae 68.42 0.99 4290 68.42 0.99 3208
Argentea 37.78 0.94 200 37.78 0.94 213
Ramosissima 96.97 0.99 1762 96.97 0.99 1854
Secundiflora 27.66 0.74 49 27.66 0.74 54
Ixine 59.26 0.97 484 59.26 0.97 502
Tomentosa 54.60 0.95 4055 57.67 0.94 4042
Lanceolata 86.88 0.95 903 87.96 0.96 972
Erecta 62.12 0.97 904 61.46 0.97 896
Rodrigues, E. S. da C.; Rodrigues, F. A.; Rocha, R. L. A.; Corrêa, P. L. P.; Giannini, T. C.. Evaluation of different aspects of maximum entropy for niche-based modeling. In: International Conference on Ecological Informatics and Ecosystem Conservation (ISEIS 2010), Beijing – China. Procedia Environmental Sciences, Volume 2, 2010. Pages 990 – 1001.
www.sciencedirect.com/ Rodrigues, E. S. da C.; Rodrigues, F. A.; Rocha, R. L. A.; Corrêa,
P. L. P.. An Adaptive Maximum Entropy Approach for Modeling of Species Distribution. In: IV Workshop de Tecnologia Adaptativa, 2010, São Paulo. Memórias do WTA 2010 - Quarto Workshop de Tecnologia Adaptativa, 2010. p. 108-117.
www.pcs.usp.br/~lta/artigos/memorias-wta2010.pdf Phillips, S. J.; Dudík, M.; Schapire, R. E.. A maximum entropy
approach to species distribution modeling. In: Proceedings of the Twenty-First International Conference on Machine Learning, pages 655-662, 2004.
http://www.cs.princeton.edu/~schapire/maxent/
27
Referências
Dudík, M.; Phillips, S. J.; Schapire, R. E.. Performance Guarantees for Regularized Maximum Entropy Density Estimation. In: Proceedings of the 17th Annual Conference on Computational Learning Theory, ACM Press, New York, pp. 655–662, 2004.
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.89.6189 Phillips, S. J.; Dudík, M.. Modeling of species distributions with
Maxent: new extensions and a comprehensive evaluation. Ecography 31: 161–175, 2008.
http://www2.research.att.com/~phillips/pdf/Phillips_Ecography_2008a.pdf Elith, J.; Phillips, S. J.; Hastie, T.; Dudík, M.; Chee, Y. E.; Yates,
C. J.. A statistical explanation of MaxEnt for ecologists. Diversity and Distributions, 17:43-57, 2011.
http://www.cs.princeton.edu/~schapire/maxent/
28
Referências