Bruno Guide- Apresentação de Projeto

Abordagem computacional para a questão do acento no português brasileiro

Bruno Ferrari Guide

Orientador: Marcelo Barra Ferreira

O projeto: Objetivos

1. Investigação do acento em um corpus ortográfico de 40 mil palavras.

2. Análise das principais teorias do acento.

3. Estruturando a Abordagem Computacional: Modelo de N-gramas.

4. Próximos passos: as perspectivas de desenvolvimento do projeto

Acento no PB - Introdução

• Restrito as últimas três sílabas da palavra:• Oxítonas: ‘caqui’, ‘sordidez’• Paroxítonas: ‘corda’, ‘beleza’• Proparoxítonas: ‘último’, ‘metódico’

• Comportamento previsível:• ‘-inho(a)’, ‘-ável’, ‘-eza’, ‘-ico’• Flexões verbais;

• Nomes não derivados morfologicamente apresentam um comportamento não completamente previsível.

• Levando em conta o peso silábico:• Acentuar a penúltima sílaba, porém última sílaba pesada atrai o acento.

Acento no PB – Wikipedia

• Corpus ortográfico wikipedia:

• Dicionário com 40.924 palavras listadas e já separadas de acordo com categoria acentual.

TOTAL 40924 100%

Oxítonas 10183 25%

Paroxítonas 25967 63%

Proparoxítonas 4774 12%

Acento no PB - Comportamento

• Maioria das palavras se encaixa nesses dois grupos:• Paroxítonas terminada em vogal (sílaba leve) [Pesquisa ER]

• Oxítonas terminadas em consoante (sílaba pesada) [Pesquisa ER]

Aproximadamente 70% das palavras estão representadas aqui.

Oxítonas 10183 100%

Oxít. Terminadas em C 7888 77%

Paroxítonas 25967 100%

Parox. Terminadas em V 20886 80%

Acento no PB - Comportamento

• Dos 30% que sobram:

• 12% são proparóxitonas

• 6% são oxítonas terminadas em vogal [consoante subjacente?]

• 12% são paroxítonas terminadas em consoantes [plural]

• Próximas etapas:• Transcrever e acentuar as palavras.

• Informações morfológicas (remover plurais).

• Identificar se existem padrões nesses grupos “periféricos”.

Acento no PB – Abordagens teóricas

• Teoria Métrica:• Bisol (1992):

Padrão-• Sílaba pesada final atrai o acento.• Caso a sílaba final não seja pesada, forme um constituinte binário com proêminencia à

esquerda (troqueu) partindo da borda direita da palavra.

No padrão estão as palavras oxítonas terminadas em consoante, paroxítonas terminadas em vogal.

As proparoxítonas e as paroxítonas terminadas em consoante são marcadas como extramétricas no léxico.As oxítonas terminadas em vogal apresentam uma consoante abstrata final na forma lexical [caféC – cafeZal]


• Lee (1995):• Acento depende de informações morfológicas.

• Não verbos:

• Padrão:

• Elemento mais a direita do radical da palavra.

(Paroxítonas terminadas em vogal, oxítonas)

• Exceções:

• No radical da palavra, derivar constituintes binários.

• O item proeminente do constituinte é o mais a esquerda do pé. (iambo)

• Não iterativo.

• Direita para Esquerda.

(Paroxítonas terminadas em consoante, proparoxítonas)


• Lee (1995):• Verbos:

• Padrão:

• Na forma final da palavra, faça constituintes binários.

• Elemento proeminente é o mais a esquerda do pé.

• Não iterativo.

• Direita para a esquerda.

(Paroxítonas e proparoxítonas)

• Exceções:

• Na forma final da palavra, o acento vai cair no elemento mais à direita.

• (Oxítonas)

• Partindo de informações morfológicas, deixa as marcações menos arbitrárias, mas não as elimina.

Acento no PB - Análise

• Teorias analisadas postulam regras categóricas. Porém se não forem aplicadas marcações lexicais individuais, elas só dão conta de uma determinada porção do conjunto de palavras.

Próximas etapas:

• Medir a correção da aplicação das duas teorias num corpus sem considerar as marcações de exceção.

Modelo de N-gramas – Introdução

• Previsão do tempo:• Categorias de clima: Chuvoso, Nublado e Ensolarado.

• Podemos tentar prever o clima de amanhã aleatoriamente:

• Porém, se tivéssemos as informações climáticas do passado:

Clima de amanhã Chance de acertar

Chuvoso 33%

Nublado 33%

Ensolarado 33%

DIA 1 2 3 4 5 6 7 8 9 10

CLIMA SOL NUB SOL SOL NUB CHUV CHUV NUB CHUV SOL


• Poderíamos considerar o histórico para criar um modelo baseado nas frequências, dando essa distribuição para as categorias:

• Apesar de ser um pouco mais informativo, nós podemos desenvolver um modelo que também olha para o clima do dia de hoje:

DIA 11

CLIMA SOL

Clima de amanhã Frequência no Passado(Chance de acertar)

Chuvoso 30%

Nublado 30%

Ensolarado 40%


• E então podemos criar o seguinte modelo de transição climática levando em conta o clima de um dia para prever o clima do dia seguinte:

• Baseado nessa tabela e acreditando na relevância do corpus utilizado, podemos dizer que a previsão para o clima de amanhã é de 50% de chance de nublado, 50% de chance de ensolarado.

Clima do dia X -> Chuvoso Nublado Ensolarado

Clima do dia X+1 ↓

Chuvoso 1 (33%) 2 (66%) 0 (0%)

Nublado 1 (33%) 0 (0%) 2 (50%)

Ensolarado 1 (33%) 1 (33%) 2 (50%)


• O primeiro modelo, que considerava apenas as frequências, é uma aplicação do modelo de Uni-gramas.

• O segundo, que considerava o segmento de dois dias para criar a tabela de transição, é uma aplicação do modelo de Bi-gramas.

• O segundo é mais informativo que o primeiro, um modelo de tri-gramas seria mais informativo ainda, mas o número de estados possíveis é maior, o tamanho do corpus necessário para que a informatividade seja relevante também é bem maior.

Modelo de N-gramas – Aplicação na Questão do Acento

• A ideia é criar um modelo de aprendizagem baseado em n-gramas, que irá associar a cada segmento (no caso, cada som) uma distribuição de probabilidades transicionais extraídas do corpus.

• No caso do acento, isso se dará da seguinte maneira:• Uma palavra sem marcação de acento será apresentada ao programa

• Serão gerados os possíveis candidatos para a palavra sem marcação, e a cada um será atribuído uma probabilidade baseado no modelo.

Modelo de N-gramas – Aplicação na Questão do Acento EXEMPLO

• Input:• ‘ca-lor’

• Candidatos:1. ‘ca-lor’2. ‘ca-lor’

Candidato 1:bigramas: ca, a-, -l, lo, ortrigramas:ca-, a-l, -lo, lor

Candidato 2:bigramas: ca, a-, -l, lo, ortrigramas: ca-, a-l, -lo, lor

Modelo de N-Gramas- O que é modelado?

• Um modelo simples de linguagem, em que a probabilidade de um determinado segmento ocorrer depende apenas dos ‘n-1’ segmentos anteriores.

• Abordagem indutiva da questão, é especialmente interessante ver o comportamento dela nos casos em que as abordagens categoriais marcam como exceções.

• Não é uma solução categorial. Porém é uma solução bastante barata em termos computacionais, ao mesmo tempo é capaz de revelar padrões locais e também se há algum tipo de atração do acento por determinados fonemas/ contextos fonêmicos.

Próximos passos

• Continuar a desenvolver outra faceta da abordagem computacional para a questão: um modelo de aprendizagem estatístico baseado em um Classificador Bayesiano Ingênuo.• Essa abordagem será capaz de atribuir probabilidades a diversas variáveis,

podendo incluir classes de palavra, peso silábico e também a localidade da abordagem por n-gramas.

• Apesar de ser mais pesada computacionalmente, essa abordagem poderá possibilitar a análise da relevância de diversos traços para a questão do acento.

Bibliografia

• JURAFSKY, D. and MARTIN, J. (2008). Speech and Language Processing. Upper Saddle River, NJ: Prentice Hall.

• LEE, S.H (1995) – “Morfologia e Fonologia lexical do Português Brasileiro” – Tese de Doutorado –UNICAMP

• BISOL, L. (Org.) (2010) . Introdução a estudos de fonologia do português brasileiro. 5º. ed. Porto Alegre: ediPUCRS.

• BIRD, S., KLEIN, E. and LOPER, E. (2009). Natural Language Processing with Python. Sebastopol, CA: O’Reilly.

• NORVIG, P. (2011) On Chomsky and the Two Cultures of Statistical Learning http://norvig.com/chomsky.html

Muito Obrigado!

Bruno Guide- Apresentação de Projeto

Science

Transcript of Bruno Guide- Apresentação de Projeto