M ÉTODOS E STATÍSTICOS PARA E XATIDÃO DE M APEAMENTO E A VALIAÇÃO DE M ODELOS Camilo Daleles...
-
Upload
rebeca-dreer-de-sequeira -
Category
Documents
-
view
212 -
download
0
Transcript of M ÉTODOS E STATÍSTICOS PARA E XATIDÃO DE M APEAMENTO E A VALIAÇÃO DE M ODELOS Camilo Daleles...
MÉTODOS ESTATÍSTICOS PARA EXATIDÃO DE MAPEAMENTO E AVALIAÇÃO DE MODELOS
Camilo Daleles RennóReferata Biodiversidade8 novembro 2007
ModelagemModelagem
rocha de origem
lençol freático
rocha de origem
lençol freático
ModelagemModelagem
O que faz uma planta estar num determinado lugar?• Fatores ambientais• Fatores aleatórios
Modelagem => Simplificação=> erros
rocha de origem
lençol freático
rocha de origem
lençol freático
ModelagemModelagem
seleçãocalibração
probabilidadeou chance de ocorrência
limiar
mapa de ocorrência(estimada)
Avaliando Modelos...Avaliando Modelos...
estimadomodelo Averdade
X
Comparando com uma referência...
estimadomodelo B
X
Comparando-se modelos...
Matriz de Erro (de Confusão)Matriz de Erro (de Confusão)
Real (ou Referência)+ - Total
Estimado
+ a b a+b
- c d c+d
Total a+c b+d n
+ presença - ausência
Erros: falsos positivos (b) falsos negativos (c)
É função do limiar de corte e do conjunto de pontos usados na avaliação
Particionamento dos DadosParticionamento dos DadosTreinamento X Teste
Idealmente deveriam ser conjuntos independentes de pontos, ou seja, pontos de teste não usados durante o desenvolvimento do modelo
Métodos de particionamento: Resubstituição (treinamento = teste) -> resultado
otimista Bootstrapping (amostragem com repetição) Aleatorização (amostragem sem repetição) Amostragem prospectiva (amostragem pós-
modelagem) Leave-one-out (1 para teste e demais para
treinamento)*avaliação iterativa: permite estimar a incerteza da precisão
**
*
Um pouco de teoria...Um pouco de teoria...
P(K) = ?P(C) = ?P(K) = 0,5P(C) = 0,5 ou 50%
No lançamento de uma moeda normal,
No lançamento de duas moedas normais,P(KK) = ?
1a
K
C
2a
K
C
KK
KC
CK
CC
P(K) . P(K) eventos independentes
1a
K C Total
2a
K
C
Total
0,25 0,25
0,25 0,25
0,50,5
0,5 0,5 1
Um pouco de teoria...Um pouco de teoria...Se repetíssemos o lançamento de duas moedas 100 vezes, em quantas vezes as duas seriam caras?
Resposta: de zero a 100 vezes (variável aleatória)
Se repetíssemos o lançamento de duas moedas 100 vezes, em quantas vezes esperaríamos que as duas fossem caras?
Resposta: 25 (conceito de esperança, 100*0,25)1a
K C Total
2a
K
C
Total
? ?
? ?
??
? ? 100
1a
K C Total
2a
K
C
Total
25 25
25 25
5050
50 50 100observado esperado
Um pouco de teoria...Um pouco de teoria...Com base no resultado de um experimento, podemos saber se, de fato, o resultado de uma moeda não influencia o da outra?
1a
K C Total
2a
K
C
Total
30 32
14 24
6238
44 56 100
1a
K C Total
2a
K
C
Total
25 25
25 25
5050
50 50 100observado esperado
22 2
21
1 1
~ij ij
i j ij
FAObs FAEspFAEsp
(Distribuição qui-quadrado com 1 grau de liberdade)
independentesnãoindependentes
Importante: pressupõe-se que não haja relação entre cada uma das 100 repetições (2 moedas)
0 +
21
crítX
Voltando ao nosso problema...Voltando ao nosso problema...
Real+ - Total
Estimado
+ a b a+b
- c d c+d
Total a+c b+d n
+ presença - ausência
Erros: falsos positivos (b) falsos negativos (c)
deveriam ser independentes
pontos distribuídos no espaço...Autocorrelação Espacial
Autocorrelação EspacialAutocorrelação Espacial
Potencial problema para estudo baseados em área
Independência entre amostras é violada -> problema para definição de significância dos testes
Soluções:• incorporar a informação de vizinhança no modelo•selecionar conjunto independente espacialmente
(necessita avaliação da autocorrelação espacial)
Medidas de AvaliaçãoMedidas de Avaliação
Real+ - Total
Estimado
+ a b a+b
- c d c+d
Total a+c b+d n
Exatidão Total = a dn 0
1 (ou 100%)
mínimo =
máximo =
Exatidão TotalExatidão Total
Real+ - Total
Estimado
+ 45 2 47
- 5 48 53
Total 50 50 100
Exemplo numérico
Exatidão Total = 45 48100 93 93%
100
Exatidão TotalExatidão Total
Real+ - Total
Estimado
+ ? 47
- 53
Total 50 50 100
Se a relação entre o real e o estimado pelo modelo fosse totalmente aleatória:
Exatidão TotalExatidão Total
Real+ - Total
Estimado
+ 23,5 23,5 47
- 26,5 26,5 53
Total 50 50 100
Exatidão Total =23,5 26,5100 50 50%
100
Se a relação entre o real e o estimado pelo modelo fosse totalmente aleatória:
47*50100
KappaKappa
Real+ - Total
Estimado
+ a b a+b
- c d c+d
Total a+c b+d n
1 2
2
κ̂1
Índice Kappa () – medida de concordância
1a dn
2 2
( )( ) ( )( )a b a c c d b dn
exatidão total
exatidão total(se independência)
< 0
1
mínimo =
máximo =
KappaKappa
Real+ - Total
Estimado
+ 45 2 47
- 5 48 53
Total 50 50 100
Exemplo numérico
1 2
2
0,93 0,5κ̂ 0,861 1 0,5
Índice Kappa () – medida de concordância
1 0,93
2 0,5 Será que este valor é significativamente superior a zero? Teste de hipótese
KappaKappa
1 2
2
κ̂1
1
a dn
2 2
( )( ) ( )( )a b a c c d b dn
2 21 4 21 1 1 1 2 3
2 3 42 2 2
1 41 2 1 21ˆ(κ)1 1 1
Varn
23 (2 ) ( 2 )a a b c d b c d n
34 (2 ) ( 2 ) ( 2 ) ( 2 )a a b c b a b d c a c d d b c d n
κ̂ κ
ˆVar κZ
~ (0,1)N
1 2 1 2
1 2
ˆ ˆκ κ κ κ~ (0,1)
ˆ ˆVar κ Var κZ N
Outras Medidas de AvaliaçãoOutras Medidas de AvaliaçãoReal+ - Total
Estimado
+ a b a+b
- c d c+d
Total a+c b+d n
Prevalência = (a + c)/nPoder de diagnóstico total = (b + d)/nSensitividade = a/(a + c)Especificidade = d/(b + d)Taxa de falso positivo = b/(b + d)Taxa de falso negativo = c/(a + c)Poder preditivo positivo = a/(a + b)Poder preditivo negativo = d/(c + d)Taxa de erro = (b + c)/nOdds-ratio = (ad)/(cb)Tau
0
0,2
0,4
0,6
0,8
1
0 0,2 0,4 0,6 0,8 1
1 - especificidade
sens
itivi
dade
ROC plot
(fraç
ão d
e ve
rdad
eiro
s pos
itivo
s)
(fração de falsos positivos)
Medida independente do limiarMedida independente do limiar
aum
ento
do
limia
r
presença = 0 se Prob(ocorrência) < limiar
1 caso contrário
Área ~ exatidão total
Área
treinamentoteste
Comparando-se ModelosComparando-se Modelos
Xverdade
X
estimadomodelo A
medida A
estimadomodelo Bverdade
X
medida B
cuidado!!!testes estatísticos quase sempre pressupõe independência na amostragem
OBS: 2 Kappas só podem ser comparados se as amostras forem diferentes!!!
Comparando-se ModelosComparando-se Modelos
verdade
X
estimadomodelo A
medida A
estimadomodelo Bverdade
X
medida B
(ok)
(ok) estimadomodelo A
estimadomodelo B
X
medida AxB
Comparando-se ModelosComparando-se Modelos
estimadomodelo A
estimadomodelo B
X
Modelo Acerto errado Total
Modelo B
certo a b a+berrado c d c+d
Total a+c b+d n
teste de McNemar:2
21
( ) ~b cxb c
coerentes nãocoerentes
0 +
21
crítXOBS: Se b + c < 5, use teste
binomial. Para comparações múltiplas (3 ou mais modelos), use o teste de Cochran
ObrigadoObrigado