M ÉTODOS E STATÍSTICOS PARA E XATIDÃO DE M APEAMENTO E A VALIAÇÃO DE M ODELOS Camilo Daleles...

MÉTODOS ESTATÍSTICOS PARA EXATIDÃO DE MAPEAMENTO E AVALIAÇÃO DE MODELOS

Camilo Daleles RennóReferata Biodiversidade8 novembro 2007

ModelagemModelagem

rocha de origem

lençol freático

rocha de origem

lençol freático

ModelagemModelagem

O que faz uma planta estar num determinado lugar?• Fatores ambientais• Fatores aleatórios

Modelagem => Simplificação=> erros

rocha de origem

lençol freático

rocha de origem

lençol freático

ModelagemModelagem

seleçãocalibração

probabilidadeou chance de ocorrência

limiar

mapa de ocorrência(estimada)

Avaliando Modelos...Avaliando Modelos...

estimadomodelo Averdade

X

Comparando com uma referência...

estimadomodelo B

X

Comparando-se modelos...

Matriz de Erro (de Confusão)Matriz de Erro (de Confusão)

Real (ou Referência)+ - Total

Estimado

+ a b a+b

- c d c+d

Total a+c b+d n

+ presença - ausência

Erros: falsos positivos (b) falsos negativos (c)

É função do limiar de corte e do conjunto de pontos usados na avaliação

Particionamento dos DadosParticionamento dos DadosTreinamento X Teste

Idealmente deveriam ser conjuntos independentes de pontos, ou seja, pontos de teste não usados durante o desenvolvimento do modelo

Métodos de particionamento: Resubstituição (treinamento = teste) -> resultado

otimista Bootstrapping (amostragem com repetição) Aleatorização (amostragem sem repetição) Amostragem prospectiva (amostragem pós-

modelagem) Leave-one-out (1 para teste e demais para

treinamento)*avaliação iterativa: permite estimar a incerteza da precisão

**

*

Um pouco de teoria...Um pouco de teoria...

P(K) = ?P(C) = ?P(K) = 0,5P(C) = 0,5 ou 50%

No lançamento de uma moeda normal,

No lançamento de duas moedas normais,P(KK) = ?

1a

K

C

2a

K

C

KK

KC

CK

CC

P(K) . P(K) eventos independentes

1a

K C Total

2a

K

C

Total

0,25 0,25

0,25 0,25

0,50,5

0,5 0,5 1

Um pouco de teoria...Um pouco de teoria...Se repetíssemos o lançamento de duas moedas 100 vezes, em quantas vezes as duas seriam caras?

Resposta: de zero a 100 vezes (variável aleatória)

Se repetíssemos o lançamento de duas moedas 100 vezes, em quantas vezes esperaríamos que as duas fossem caras?

Resposta: 25 (conceito de esperança, 100*0,25)1a

K C Total

2a

K

C

Total

? ?

? ?

??

? ? 100

1a

K C Total

2a

K

C

Total

25 25

25 25

5050

50 50 100observado esperado

Um pouco de teoria...Um pouco de teoria...Com base no resultado de um experimento, podemos saber se, de fato, o resultado de uma moeda não influencia o da outra?

1a

K C Total

2a

K

C

Total

30 32

14 24

6238

44 56 100

1a

K C Total

2a

K

C

Total

25 25

25 25

5050

50 50 100observado esperado

22 2

21

1 1

~ij ij

i j ij

FAObs FAEspFAEsp

(Distribuição qui-quadrado com 1 grau de liberdade)

independentesnãoindependentes

Importante: pressupõe-se que não haja relação entre cada uma das 100 repetições (2 moedas)

0 +

21

crítX

Voltando ao nosso problema...Voltando ao nosso problema...

Real+ - Total

Estimado

+ a b a+b

- c d c+d

Total a+c b+d n

+ presença - ausência

Erros: falsos positivos (b) falsos negativos (c)

deveriam ser independentes

pontos distribuídos no espaço...Autocorrelação Espacial

Autocorrelação EspacialAutocorrelação Espacial

Potencial problema para estudo baseados em área

Independência entre amostras é violada -> problema para definição de significância dos testes

Soluções:• incorporar a informação de vizinhança no modelo•selecionar conjunto independente espacialmente

(necessita avaliação da autocorrelação espacial)

Medidas de AvaliaçãoMedidas de Avaliação

Real+ - Total

Estimado

+ a b a+b

- c d c+d

Total a+c b+d n

Exatidão Total = a dn 0

1 (ou 100%)

mínimo =

máximo =

Exatidão TotalExatidão Total

Real+ - Total

Estimado

+ 45 2 47

- 5 48 53

Total 50 50 100

Exemplo numérico

Exatidão Total = 45 48100 93 93%

100


Real+ - Total

Estimado

+ ? 47

- 53

Total 50 50 100

Se a relação entre o real e o estimado pelo modelo fosse totalmente aleatória:


Real+ - Total

Estimado

+ 23,5 23,5 47

- 26,5 26,5 53

Total 50 50 100

Exatidão Total =23,5 26,5100 50 50%

100

Se a relação entre o real e o estimado pelo modelo fosse totalmente aleatória:

47*50100

KappaKappa

Real+ - Total

Estimado

+ a b a+b

- c d c+d

Total a+c b+d n

1 2

2

κ̂1

Índice Kappa () – medida de concordância

1a dn

2 2

( )( ) ( )( )a b a c c d b dn

exatidão total

exatidão total(se independência)

< 0

1

mínimo =

máximo =

KappaKappa

Real+ - Total

Estimado

+ 45 2 47

- 5 48 53

Total 50 50 100

Exemplo numérico

1 2

2

0,93 0,5κ̂ 0,861 1 0,5

Índice Kappa () – medida de concordância

1 0,93

2 0,5 Será que este valor é significativamente superior a zero? Teste de hipótese

KappaKappa

1 2

2

κ̂1

1

a dn

2 2

( )( ) ( )( )a b a c c d b dn

2 21 4 21 1 1 1 2 3

2 3 42 2 2

1 41 2 1 21ˆ(κ)1 1 1

Varn

23 (2 ) ( 2 )a a b c d b c d n

34 (2 ) ( 2 ) ( 2 ) ( 2 )a a b c b a b d c a c d d b c d n

κ̂ κ

ˆVar κZ

~ (0,1)N

1 2 1 2

1 2

ˆ ˆκ κ κ κ~ (0,1)

ˆ ˆVar κ Var κZ N

Outras Medidas de AvaliaçãoOutras Medidas de AvaliaçãoReal+ - Total

Estimado

+ a b a+b

- c d c+d

Total a+c b+d n

Prevalência = (a + c)/nPoder de diagnóstico total = (b + d)/nSensitividade = a/(a + c)Especificidade = d/(b + d)Taxa de falso positivo = b/(b + d)Taxa de falso negativo = c/(a + c)Poder preditivo positivo = a/(a + b)Poder preditivo negativo = d/(c + d)Taxa de erro = (b + c)/nOdds-ratio = (ad)/(cb)Tau

0

0,2

0,4

0,6

0,8

1

0 0,2 0,4 0,6 0,8 1

1 - especificidade

sens

itivi

dade

ROC plot

(fraç

ão d

e ve

rdad

eiro

s pos

itivo

s)

(fração de falsos positivos)

Medida independente do limiarMedida independente do limiar

aum

ento

do

limia

r

presença = 0 se Prob(ocorrência) < limiar

1 caso contrário

Área ~ exatidão total

Área

treinamentoteste

Comparando-se ModelosComparando-se Modelos

Xverdade

X

estimadomodelo A

medida A

estimadomodelo Bverdade

X

medida B

cuidado!!!testes estatísticos quase sempre pressupõe independência na amostragem

OBS: 2 Kappas só podem ser comparados se as amostras forem diferentes!!!


verdade

X

estimadomodelo A

medida A

estimadomodelo Bverdade

X

medida B

(ok)

(ok) estimadomodelo A

estimadomodelo B

X

medida AxB


estimadomodelo A

estimadomodelo B

X

Modelo Acerto errado Total

Modelo B

certo a b a+berrado c d c+d

Total a+c b+d n

teste de McNemar:2

21

( ) ~b cxb c

coerentes nãocoerentes

0 +

21

crítXOBS: Se b + c < 5, use teste

binomial. Para comparações múltiplas (3 ou mais modelos), use o teste de Cochran

ObrigadoObrigado

M ÉTODOS E STATÍSTICOS PARA E XATIDÃO DE M APEAMENTO E A VALIAÇÃO DE M ODELOS Camilo Daleles...

Documents

Transcript of M ÉTODOS E STATÍSTICOS PARA E XATIDÃO DE M APEAMENTO E A VALIAÇÃO DE M ODELOS Camilo Daleles...