Introdução a técnicas computacionais para PLN Ênfase em processamento baseado em corpus.

12
Introdução a técnicas computacionais para PLN Ênfase em processamento baseado em corpus

Transcript of Introdução a técnicas computacionais para PLN Ênfase em processamento baseado em corpus.

Page 1: Introdução a técnicas computacionais para PLN Ênfase em processamento baseado em corpus.

Introdução a técnicas computacionais para PLN

Ênfase em processamento baseado em corpus

Page 2: Introdução a técnicas computacionais para PLN Ênfase em processamento baseado em corpus.

Técnicas de PLN

• “Handcrafted”, baseada em regras manuais– Exemplo: Algoritmo de Hobbs para resolução de

pronomes

• Estatística, corpus-based– Exemplo: PCFG: Probabilistic Context-Free

grammar

Page 3: Introdução a técnicas computacionais para PLN Ênfase em processamento baseado em corpus.

Corpus anotado• Ivo viu a uva• (S (NP (PN Ivo) )

(VP (V viu) (NP (DET a) (NN uva) ) ) )

• Comi uma maçã de manhã• (S (NP –vazio-)

(VP (VP (V comi) (NP (DET uma) (NN maça) ) ) (PP (PREP de) (NN manhã) ) ) )

Page 4: Introdução a técnicas computacionais para PLN Ênfase em processamento baseado em corpus.

Extração de regras da gramática #### REGRAS ###### LÉXICO ####

• (S (NP (PN Ivo) ) S NP VP PN Ivo (VP (V viu) NP PN V viu (NP (DET a) VP V NP DET a (NN uva) ) ) ) NP DET NN NN uva

• (S (NP –vazio-) S NP VP V comi (VP (VP (V comi) NP -vazio- DET uma (NP (DET uma) VP VP PP NN maça (NN maça) ) ) VP V NP PREP de (PP (PREP de) NP DET NN NN manhã (NP (NN manhã) ) ) ) ) PP PREP NP NP NN

Page 5: Introdução a técnicas computacionais para PLN Ênfase em processamento baseado em corpus.

Probabilidades de expansão do NP

• NP:– NP PN : 1 Prob (NP PN) = 0.2– NP DET NN: 2 0.4 – NP -vazio- : 1 0.2– NP NN: 1 0.2

TOTAL: 5

• (S (NP (PN Ivo) ) S NP VP PN Ivo (VP (V viu) NP PN V viu (NP (DET a) VP V NP DET a (NN uva) ) ) ) NP DET NN NN uva

• (S (NP –vazio-) S NP VP V comi (VP (VP (V comi) NP -vazio- DET uma (NP (DET uma) VP VP PP NN maça (NN maça) ) ) VP V NP PREP de (PP (PREP de) NP DET NN NN manhã (NP (NN manhã) ) ) ) ) PP PREP NP NP NN

Page 6: Introdução a técnicas computacionais para PLN Ênfase em processamento baseado em corpus.

CFG (não probabilística)

From Jurafsky & Martin 2000

Page 7: Introdução a técnicas computacionais para PLN Ênfase em processamento baseado em corpus.

CFG

From Jurafsky & Martin 2000

Page 8: Introdução a técnicas computacionais para PLN Ênfase em processamento baseado em corpus.

PCFG

From Jurafsky & Martin 2000

Page 9: Introdução a técnicas computacionais para PLN Ênfase em processamento baseado em corpus.

Derivações da PCFG para uma sentença

From Jurafsky & Martin 2000

Page 10: Introdução a técnicas computacionais para PLN Ênfase em processamento baseado em corpus.

Exemplos de corpus anotado

• Penn Treebankhttp://www.cis.upenn.edu/~treebank/

• Penn PropBank• Floresta Sintática (Linguateca)

http://www.linguateca.pt/Floresta/milhafre/• Sites:– http://ldc.upenn.edu/– http://www.elra.info/– http://www.linguateca.pt/

Page 11: Introdução a técnicas computacionais para PLN Ênfase em processamento baseado em corpus.

Caso 2: Resolução de pronomes usando algoritmo (naive) de Jerry

Hobs (entre outros)

• Veja artigo sobre resolução de pronomes em:– http://revistaseletronicas.pucrs.br/ojs/index.php/fale/article/view/598

Page 12: Introdução a técnicas computacionais para PLN Ênfase em processamento baseado em corpus.