3-Estimação de Parâmetros: Máxima Verosimilhança e...

3-Estimação de Parâmetros: Máxima Verosimilhança e

CT 720 Tópicos em Aprendizagem de Máquina eClassificação de Padrões

ProfFernandoGomide DCA-FEEC-Unicamp

1. Introdução

2. Estimador de máxima verosimilhança

3. Estimador de Bayes

4. Teoria geral estimadores Bayesianos

5. Problemas de dimensionalidade

6. Modelos de Markov

7. Resumo

Conteúdo

DCA-FEEC-UnicampProfFernandoGomide

1-Introdução

� Teoria Bayesiana de decisão– assume P(ωi) e p(x/ωi) completamente conhecidos

– na prática estes valores não são conhecidos

– projeto necessita de dados de treinamento

– problema de estimar função → estimar parâmetros

� Este capítulo– apresenta métodos principais de estimação

– problema da dimensão e complexidade

– classificação estática e dinâmica

� Estimador de máxima verosimilhança– parâmetros de p(x/ωi) são valores fixos, mas desconhecidos

– melhor estimativa: maximiza a probabilidade de obter as observações

� Estimador de Bayes– parâmetros são variáveis aleatórias com distribuições a priori dadas

– observações convertem estas distribuições em a posteriori

� Aprendizagem– amostras x obtidas selecionando estado ωi com probabilidade P(ωi)

– amostras independentemente selecionadas de acordo com p(x/ωi)

– supervisionada: classe (estado) ωi de cada amostra é conhecida

– não supervisionada

2-Estimador de máxima verosimilhança

� Características– boa convergência quando número de amostras de treinamento aumenta

– mais simples que métodos alternativos (Bayes, EM, etc.)

� Princípio geralD1,...., Dc : c conjuntos de dados

Dj : conjunto de amostras independentemente de p(x/ωj) (i.i.d.)

p(x/ωj) : forma paramétrica é, por hipótese, conhecida

θθθθj: vetor de parâmetros que caracteriza p(x/ωj) de forma única

p(x/ωj) = p(x/ωj,θθθθj)

problema: θθθθj ?

� HipóteseDi : não tem informação sobre θθθθj se i ≠ j

parâmetros são funcionalmente independentes

permite tratar cada classe separadamente

� Problema de estimação

Estimar o vetor de parâmetros θθθθj a partir das amostras em D

amostras estas geradas independentemente a partir de p(x/θθθθ)

D = {x1, ....,xn}

1)|()|( θxθD likelihood de θθθθ com relação a D (1)

� Estimador de máxima verosimilhança (MV)– maximiza p(D/θθθθ)

– valor de θθθθ mais aderente aos dados de treinamento

– em geral usa-selog-likelihood

)|(ln)( θθ Dpl =

)(maxargˆ θθθ

1)|(ln)( θxθ

0)|(ln1

=∇=∇ ∑=

kkpl θxθθ condição necessária (7)

� Caso Gaussiano:µµµµ desconhecido

1||)2ln[(

1)|(ln 1

µxΣµxΣµx −−−π−= −k

)()|(ln 1 µxΣµxµ −=∇ −kkp

1 =−∑=

kk µxΣ

(multiplicando por ∑∑∑∑–1 e rearranjando)

� Caso Gaussiano:µµµµ e ∑∑∑∑ desconhecidos

1)|(ln θx

θθxp kk −−π−=θ

θ−+θ

θ−=∇=∇

k θxθθ

221 e σ=µ= θθ

0)ˆ(ˆ1

2=θ−∑

)ˆ(ˆ2

2=θ−+

θ−∑

µ−=σn

222 )ˆ(

1ˆ xµ

)ˆ()ˆ(1ˆ

1µxµxΣ −−= ∑

� Tendenciosidade (bias)

é um estimador não tendencioso de θθθθ se se somente seθ̂ θθ =]ˆ[E

1 σ≠σ−=

−∑

)ˆ()ˆ(1

1µxµxC −−

−= ∑

tendencioso

não tendencioso

3-Estimador de Bayes

� Densidades condicionais de classe

– P(ωi| x) é essencial em classificação Bayesiana

– como obter P(ωi| x) se P(x|ωi) e P(ωi) dão desconhecidos ?

– usar conhecimento e.g. forma funcional e faixas dos parâmetros

– amostras para treinamento: conjuntoD

– P(ωi| x, D) ?

ωPωp

ωPωpωP

1)|(),|(

)|(),|(),|(

� Hipóteses

– probabilidades a priori conhecidas/calculadas: P(ωi|D) = P(ωi)

–D1,...., Dc conjuntos de dados de treinamento

Di : não influencia p(x|ωj, D) se i ≠ j

– classes são tratadas separadamente: c problemas independentes

Di para estimar p(x|ωj, D)

ωPωp

ωPωpωP

1)(),|(

)(),|(),|(

� Aprendizagem Bayesiana

Usa um conjunto D de amostras observadas independentemente

de acordo com uma distribuição de probabilidade fixa, mas

desconhecida p(x) para estimar p(x| D)

DCA-FEEC-Unicamp

� Distribuição de parâmetros

– densidade de probabilidade p(x) desconhecida

– assume-se forma paramétrica de p(x) conhecida: p(x|θθθθ)

– problema: determinar vetor de parâmetros θθθθ– conhecimento a priori sobreθθθθ: p(θθθθ)– observações de D converte p(θθθθ) em p(θθθθ|D )

ProfFernandoGomide

∫= θθxx dpp )|,()|( DD

)|(),|()|,( DDD θθxθx ppp =

),(),|( θxθx pp =D

∫= θθθxx dppp )|()|()|( DD

seleção de x são independentes

(integrar numericamente) (25)

� Exemplo: caso Gaussiano

p(θθθθ|D ) = ?, p(x|D ) = ?

p(x|µµµµ) ~ N(µµµµ, ΣΣΣΣ)

1) Caso univariado: p(µ|D ), µ é o único parâmetro desconhecido

),()|( 2σµ=µ Nxp

),()( 2ooNp σµ=µ

D = {x1, ....,xn}

∏∫ =

µµα=µµµ

µµ=µn

kk pxp

1)()|(

)()|()|(

σµ−µ−

σµ−−

σπα=µ ∏

σµ−µ+

σ−µ−α′= ∑

σ−µ

σ−α ′′= ∑

nNp σµ

σµ−µ−

σπ=µ D

p(xk|µ) p(µ)

igualando (29) e (30)

σµ+µ

n µσ+σ

σ+σσ=µ

σ+σσσ=σ

DCA-FEEC-Unicamp

� Aprendizagem Bayesiana

ProfFernandoGomide

2) Caso univariado:p(x|D )

∫ θθθ= dpxpxp )|()|()|( DD

),()|( 2σµ=µ Nxp

nNp σµ

σµ−µ−

σπ=µ D

∫ µµµ= dpxpxp )|()|()|( DD

∫ µ

σµ−−

σπ= d

x σσ

σ+σµ−−

πσσ=

∫ µ

σ+σµσ+σ−µ

σσσ+σ−=σσ d

1exp),(

),|(),(~)|( 22jDD jnn ωxpNxp =σ+σµ

3) Caso Gaussiano multivariado

p(θθθθ|D ) = ? p(x|D ) = ?

p(x|µµµµ) ~ N(µµµµ, ΣΣΣΣ), p(µµµµ) ~ N(µµµµo, ΣΣΣΣo)

D = {x1, ....,xn}, x1, ....,xn amostras independentes

Após observar as n amostras de D e usando a fórmula de Bayes:

kk ppp

1)()|()|( µµxµ D

+−+−α′= ∑

−−−− n

o1 2)(

1exp µΣxΣµµΣΣµ

p(µµµµ|D ) tem a forma

),(~)()(2

1exp)|( 1

n Np ΣµµµΣµµµ

−−−α ′′= −D (40)

igualando (39) e (40)

11 −−− Σ+Σ=Σ nn

o11 ˆ µµµ −−− Σ+Σ=Σ nnn n

kkn n 1

1ˆ xµ

µΣΣΣµΣΣΣµ

−−

+=nnn nn

ΣΣΣΣΣnnn11 1

),()|()|()|( nnNdppp ΣΣµµµµxx +== ∫ DD

4-Teoria geral estimadores Bayesianos

� Hipóteses

– forma da densidade p(x|θθθθ) é conhecida

– valor de θθθθ não é conhecido exatamente

– conhecimento inicial sobre θθθθ contido densidade a priori p(θθθθ)

– restante do conhecimento sobre θθθθ contido em conjunto D

–D = {x1,..., xn}, cada xi obtido independente de acordo com p(x)

– p(x) desconhecida

� Problema básico

determinar distribuição a posteriori p(θθθθ|D) pois com ela calculamos

θθθ

)()|()|(

1)|()|( θxθD

1) fórmula de Bayes

3) hipótese de independência

solução:

� Análise

1) p(D|θθθθ) tem um pico em

p(θθθθ) ≠ 0 para e não varia significativamente na vizinhança

(50) → p(θθθθ|D) tem um pico neste ponto

(49) →

mesmo resultado que o de MV se fosse o verdadeiro

2) se pico de p(D|θθθθ) é muito acentuado, a influência da informação

a priori sobre incerteza de θθθθ pode ser desprezada

3) solução Bayesiana usa toda informação disponível

θθ ˆ=

)ˆ|()|( θxpxp ≈D

� Aprendizagem Bayesiana incremental

1)Dn = {x1,..., xn}

2) de (51), se n > 1

3) densidade a posteriori

)|()|()|( 1θθxθ

n-n ppp DDn =

∫−

θθθ

θθxθ

)|()|(

)|()|()|(

)()|( 0θθ pp =D

� Exemplo: caso unidimensional, distribuição uniforme

≤≤

=contráriocaso

θx0θ/1)θ,0(~)|( θ

,10)0((θ)|(θ 0 Upp == )D

D = {4, 7, 2, 8}

1) x1 = 4 e usando (53)

≤≤

=α.c.c0

10θ4θ/1)|(θθ)|()|(θ 01 DD pxpp

2) x2 = 7 e usando (53)

≤≤=α

10θ7/θ1)|(θθ)|()|(θ

212 DD pxpp

n) xn = 8 (n = 4) e usando (53)

≤≤

=α −

10θ][max/θ1)|(θθ)|()|(θ 1

nnn pxpp

≤≤

=α −

10θ][max/θ1)|(θθ)|()|(θ 1

nnn pxpp

p(θ|Dn)

p(x|D )

� Questões

– como a precisão de classificação depende da:

• dimensão do espaço de atributos

• quantidade de amostras de treinamento

– complexidade computacional do classificador

– overfitting

5-Problemas de dimensionalidade

� Precisão, dimensão e quantidade dados treinamento

– resultados teóricos para atributos independentes

– exemplo com dois atributos: p(x|ωj) ~ N(µµµµj , ΣΣΣΣ), j = 1, 2

P(ω1) = P(ω2)

erro classificação Bayes

dueePr

u∫∞

−σπ

)()( 211

µµµµ −Σ−= −tr

– P(e) diminui quando r aumenta; P(e) → 0 quando r → ∞

– caso condicionalmente independente ΣΣΣΣ = diag(σ12,...., σd

212 ∑=

σµ−µ=

– atributos mais relevantes: aqueles em que a diferença das

médias é grande comparada com o desvio padrão

– atributo é útil se suas médias para os classificadores diferem

– como reduzir erro? adicionar novos atributos independentes

– observa-se na prática que acrescentar atributos além de

um certo limite deteriora o desempenho do classificador.

– razões principais são as seguintes:

1. hipóteses erradas sobre o modelo

(e.g. Gaussiano, condicionamento)

2. número amostras treinamento pequeno

� Complexidade computacional

– parâmetros distribuição normal para o MV

)(ln|ˆ|ln2

2)ˆ(ˆ)ˆ(

g t +−π−−−−= −ΣµxΣµxx

O(dn) O(nd2) O(1) O(d2n) O(n)

– classificação: O(d2)

– aprendizagem Bayesiana: mais complexo devido à integração

� Overftting

– erro dados de treinamento × generalização

– em geral, interpolação ou extrapolação só pode ser feita

de forma confiável se a solução é sobredeterminada, isto é,

o número de pontos é maior do que o número de parâmetros

a serem determinados.

– heurísticas: e.g. shrinkage

iii α+α−

α+α−=α)1(

ΣΣΣ

IΣΣ β+β−=β )1()( 0 < α, β < 1

),0(~)()( 22 σεε+++= Npcbxaxxf

polinômio 10° grau

polinômio 2° grau

6-Modelos de Markov

� Modelos de Markov de 1a ordem

– ω(t): estado em t

ωωωωT = {ω(1), ω(2), ...., ω(T)} sequência de tamanho T

exemplo: ωωωω6 = {ω1, ω4, ω2, ω2, ω1, ω2}

– P(ωj(t + 1)|ωi(t)) = aij probabilidade de transição de estado

– modelo θθθθ: conjunto de todos os valores aij

probabilidade modelo gerar ωωωωT : produto das probabilidades

exemplo: P(ωωωω6|θθθθ) = a14a42a22a21a14

Modelo de Markov de 1a ordem discreto: estado em t + 1depende somente do estado em t e das probabilidades detransição.

� Modelo Markov de 1a ordem

� Hidden Markov Models de 1a ordem

– ω(t): estado sistema em t

– estado emite símbolos visíveis v(t)

VT = {v(1), v(2), ...., v(T)} sequência de símbolos visíveis

exemplo: V6 = {v5, v1, v1, v5, v2, v3}

– P(vk(t)|ωi(t)) = bjk probabilidade de emitir símbolo vk

– ω não é observável; acesso somente a símbolos visíveis

modelos escondidos de Markov de 1a ordem

� Modelo escondido de Markov de 1a ordem

� Características

– grafos são máquinas de estado finito

– grafos + probabilidades transição = modelos Markov

– MM são estritamente causais

– ergódigos: aij ≠ 0 ∀i, j

– absorção: estado ωo com aoo = 1

))(|)1(( tωtωPa ijij +=

))(|)(( tωtvPb jkjk =

ij ∀=∑ 1

jk ∀=∑ 1

� Problemas importantesem HMM

1) Avaliação: temos HMM com aij e bjk ; qual probabilidade

que uma sequência particular VT foi gerada pelo modelo?

2) Decodificação: temos HMM e VT; determinar a sequência

mais provável de estados escondidos ωωωωT que produziu VT.

3) Aprendizagem: dado a estrutura do modelo e um conjunto

de observações de treinamento, determinar aij e bjk .

1) Avaliação

dado um modelo HMM, determinar a probabilidade que este

modelo gerou uma sequência particular VT de estados visíveis

)()|()(1

TT PPPmax

ωωVV ∑=

)}(,),2(),1({ TωωωTr K=ω

c estados escondidos → rmax= cT termos possíveis

Tr tωtωPP

1)1(|)(()(ω

T tωtvPP1

)(|)(()|( ωV

))1(|)(())(|)(()(1 1∑ ∏= =

−=maxr

T tωtωPtωtvPP V (135)

cálculo de (135): O(TcT) c = 10 e T = 20 → 1021 operações

P(VT) calculado recursivamente: envolve v(t), ω(t) e ω(t – 1)

−α==≠=

=α∑ ..)(])1([

inicialestado01

inicialestado00

cctvbat

i jkiji

bjkv(t): probabilidade bjk associada estado visível v(t)

Algoritmo HMM Forward

1 inicialize t ← 0, aij, bjk, sequência visível VT, αj(0)

2 for t ← t + 1

3 αj(t) ← bjk v(t)[ ∑i = 1,..,c(αi(t – 1) aij ]

4 until t = T

5 return P(VT) ← α0(T)

O(c2T) ~ 2000 operações para c = 10 e T = 20

classificação: Bayes)(

)()|()|(

θθVVθ =

iii ba 2

122 ])2([)3( ∑

=α=α

� Exemplo: avaliação

V4 = {v1, v3, v2, v0}

v0: absorbing state

1.00.01.08.0

1.02.05.02.0

4.01.03.02.0

][ ija

2.01.02.05.00

1.07.01.01.00

2.01.04.03.00

][ jkb

P(VT|θ) = 0.0011

2) Decodificação

dada uma sequênciaVT de estados visíveis, determinar

a sequência mais provável de estados escondidos

Algoritmo HMM Decoding

1 inicialize t ← 0, Path ← {}

2 for t ← t + 1

3 j ← j + 1

4 for j ← j + 1

5 αj(t) ← bjk v(t)[ ∑i = 1,..,c(αi(t – 1) aij ]

6 until t = T

7 j' = arg maxj αj(t)

8 Append ωj ' to Path

9 until t = T

10 return Path

obs: máximos locais → não garante consistência da solução global

� Exemplo: decodificação (exemplo de avaliação)

solução: {ω1, ω3, ω2, ω1, ω0} (inconsistente !! a32 = 0)

3) Aprendizagem

determinar os parâmetros do modelo, aij, bjk

algoritmoforward-backward

αi(t): probabilidade modelo estar no estado ωi(t) e gerou sequência

de referência atét

βi(t): probabilidade modelo está no estado ωi(t) e vai gerar sequência

de referência de t + 1 atéT

++β===≠

=∑ ..)1()1(

)(β 0

cctvbat

Ttωtω

j jkijj

i (138)

– supor αi(t) conhecido atéT – 1

– probabilidade que o modelo gerar o último símbolo visível ?

– esta probabilidade éβi(T)

– βi(T) = probabilidade transição para ωi(T)×

probabilidade estado emitir símbolo visível correto

– definição: βi(T) = 0, se ωi(T) ≠ ω0

βi(T) = 1, se ωi(T) = ω0

– logo βi(T – 1) = ∑jaijbjk(T) βi(T)

� Justificativa de (138)

– γij(t) probabilidade transição entre ωi(t – 1) e ωj(t) dado que o

modelo gerou toda a sequência de treinamento VT em

qualquer caminho

– definimos γij(t)

)()1()(

θVTjjkiji

β−α=γ

– γij(t) probabilidade transição de ωi(t – 1) para ωj(t) dado que o

modelo gerou a sequência visível VT completamente

∑ = γTt ij t1 )(

∑ ∑= γTt k ik1

número esperado de transições de ωi(t – 1) para ωj(t)na sequência de treinamento

número total esperado de transições de ωj(t) paraqualquer outro estado

)()(ˆ

tt k ik

ij∑ ∑

tbtt l jl

∑ ∑

� Estimativa das probabilidades de transição

(140) (141)

Algoritmo Forward-Backward

1 inicialize z ← 0, aij, bjk, sequência treinamentoVT, ε convergência

2 do t ← t + 1

3 calcular â(z) usando a(z – 1) e (140)

4 calcular usandob(z – 1) e (141)

5 aij (z) ← âij (z – 1)

7 until max[aij (z) – aij (z – 1), aij (z) – aij (z – 1)] < ε8 return aij ← aij (z), bij ← bij (z),

)(ˆ zb

jkjk bzb ˆ)( ←

9-Resumo

� Forma densidades condicionais classe conhecida

� Aprendizagem– estimação de parâmetros MV

– estimação densidades Bayes

� Impacto da dimensão espaço atributos e dados de treinamento

� Decisão sequencial com modelos de Markov

DCA-FEEC-Unicamp

Este material refere-se às notas de aula do curso CT 720 Tópicos Especiais em Aprendizagem de Máquina e Classificação de Padrões da Faculdade de Engenharia Elétrica e de Computação da Unicamp e do Centro Federal de Educação Tecnológica do Estado de Minas Gerais. Não substitui o livro texto, as referências recomendadas e nem as aulas expositivas. Este material não pode ser reproduzido sem autorização prévia dos autores. Quando autorizado, seu uso é exclusivo para atividades de ensino e pesquisa em instituições sem fins lucrativos.

Observação

ProfFernandoGomide

3-Estimação de Parâmetros: Máxima Verosimilhança e...

Documents

Transcript of 3-Estimação de Parâmetros: Máxima Verosimilhança e...

Máxima Verossimilhança

UM ESTIMADOR DE ESTADO TRIFÁSICO PARA SISTEMAS DE …repositorio.ufrn.br/jspui/bitstream/123456789/... · 2017. 11. 2. · UM ESTIMADOR DE ESTADO TRIFÁSICO PARA SISTEMAS DE DISTRIBUIÇÃO

ESTIMADOR NO LINEAL PARA REDES DE SENSORES

Pag16Ult - Jornal de Sintra · Pe la verosimilhança com os relógios das estaçòes de caminho de ferro, ... chegar às praias do território que viria a receber o nome de Brasil

· Web view8 O estimador de Kaplan-Meier da função de sobrevivência é uma técnica eficiente de estimação e pode ser interpretado como um estimador de máxima verossimilhança

Contribuição para o estudo da ecologia e da conservação de ... Mestrado... · do modelo de regressão de Poisson, pelo método da quasi-verosimilhança, foi possível identificar

ESTIMADOR BOOTSTRAP NÃO- PARAMÉTRICO DE CURVAS DE ...livros01.livrosgratis.com.br/cp005655.pdf · ESTIMADOR BOOTSTRAP NÃO-PARAMÉTRICO DE CURVAS DE SOBREVIVÊNCIA PARA DADOS ENTOMOLÓGICOS

Enem Nota Máxima

Portfólio Máxima Sistemas

Apresentação Máxima Coifas

Jéssica Franco Cançado Richard Divergência de Kullback-Leibler€¦ · núcleo-estimador (kernel) da amostra e o modelo estimado pelo método de máxima verossimilhança para análise

MARCELO NANNI ESTIMADOR DE ESTADO ROBUSTO … · vários fluxos de carga. ... Fluxograma geral do estimador proposto ... Fluxograma do algoritmo que monta o sistema radial equivalente.

Intervalo de Máxima Eficiência

ESTIMADOR DE ESTADO INTELIGENTE PARA ANÁLISE DE PERDAS EM SISTEMAS DE … · 2011-11-08 · Estimador de estado inteligente para análise de perdas em sistemas de distribuição

Penalidade máxima

Estimador Embarcado para Análise de Redes em Cidades ...lcv.fee.unicamp.br/images/BTSym-17/Papers/76669.pdf · Estimador Embarcado para Análise de Redes em Cidades Inteligentes

Máxima Zero Máxima Zero/1 Máxima Zero/2 BASIC Print … · 2019. 5. 8. · Modelos: RB 600RB 600 Máxima Zero Máxima Zero/1 Máxima Zero/2 BASIC Print 300BASIC Print 300 E-mail:

Reconstrução filogenética: Verossimilhança máxima

343o ver 11.doc) - ipesa.pt · Modelos: Máxima 10/11 Máxima 20/21 Máxima 30/31 Máxima 40/41 Máxima 50/51 E-mail: ipesa@ipesa.pt QUALIDADE

A DENSIDADE APARENTE COMO ESTIMADOR DE ...