Bruno Guide- Apresentação de Projeto
-
Upload
bruno-guide -
Category
Science
-
view
49 -
download
2
description
Transcript of Bruno Guide- Apresentação de Projeto
Abordagem computacional para a questão do acento no português brasileiro
Bruno Ferrari Guide
Orientador: Marcelo Barra Ferreira
O projeto: Objetivos
1. Investigação do acento em um corpus ortográfico de 40 mil palavras.
2. Análise das principais teorias do acento.
3. Estruturando a Abordagem Computacional: Modelo de N-gramas.
4. Próximos passos: as perspectivas de desenvolvimento do projeto
Acento no PB - Introdução
• Restrito as últimas três sílabas da palavra:• Oxítonas: ‘caqui’, ‘sordidez’• Paroxítonas: ‘corda’, ‘beleza’• Proparoxítonas: ‘último’, ‘metódico’
• Comportamento previsível:• ‘-inho(a)’, ‘-ável’, ‘-eza’, ‘-ico’• Flexões verbais;
• Nomes não derivados morfologicamente apresentam um comportamento não completamente previsível.
• Levando em conta o peso silábico:• Acentuar a penúltima sílaba, porém última sílaba pesada atrai o acento.
Acento no PB – Wikipedia
• Corpus ortográfico wikipedia:
• Dicionário com 40.924 palavras listadas e já separadas de acordo com categoria acentual.
TOTAL 40924 100%
Oxítonas 10183 25%
Paroxítonas 25967 63%
Proparoxítonas 4774 12%
Acento no PB - Comportamento
• Maioria das palavras se encaixa nesses dois grupos:• Paroxítonas terminada em vogal (sílaba leve) [Pesquisa ER]
• Oxítonas terminadas em consoante (sílaba pesada) [Pesquisa ER]
Aproximadamente 70% das palavras estão representadas aqui.
Oxítonas 10183 100%
Oxít. Terminadas em C 7888 77%
Paroxítonas 25967 100%
Parox. Terminadas em V 20886 80%
Acento no PB - Comportamento
• Dos 30% que sobram:
• 12% são proparóxitonas
• 6% são oxítonas terminadas em vogal [consoante subjacente?]
• 12% são paroxítonas terminadas em consoantes [plural]
• Próximas etapas:• Transcrever e acentuar as palavras.
• Informações morfológicas (remover plurais).
• Identificar se existem padrões nesses grupos “periféricos”.
Acento no PB – Abordagens teóricas
• Teoria Métrica:• Bisol (1992):
Padrão-• Sílaba pesada final atrai o acento.• Caso a sílaba final não seja pesada, forme um constituinte binário com proêminencia à
esquerda (troqueu) partindo da borda direita da palavra.
No padrão estão as palavras oxítonas terminadas em consoante, paroxítonas terminadas em vogal.
As proparoxítonas e as paroxítonas terminadas em consoante são marcadas como extramétricas no léxico.As oxítonas terminadas em vogal apresentam uma consoante abstrata final na forma lexical [caféC – cafeZal]
Acento no PB – Abordagens teóricas
• Lee (1995):• Acento depende de informações morfológicas.
• Não verbos:
• Padrão:
• Elemento mais a direita do radical da palavra.
(Paroxítonas terminadas em vogal, oxítonas)
• Exceções:
• No radical da palavra, derivar constituintes binários.
• O item proeminente do constituinte é o mais a esquerda do pé. (iambo)
• Não iterativo.
• Direita para Esquerda.
(Paroxítonas terminadas em consoante, proparoxítonas)
Acento no PB – Abordagens teóricas
• Lee (1995):• Verbos:
• Padrão:
• Na forma final da palavra, faça constituintes binários.
• Elemento proeminente é o mais a esquerda do pé.
• Não iterativo.
• Direita para a esquerda.
(Paroxítonas e proparoxítonas)
• Exceções:
• Na forma final da palavra, o acento vai cair no elemento mais à direita.
• (Oxítonas)
• Partindo de informações morfológicas, deixa as marcações menos arbitrárias, mas não as elimina.
Acento no PB - Análise
• Teorias analisadas postulam regras categóricas. Porém se não forem aplicadas marcações lexicais individuais, elas só dão conta de uma determinada porção do conjunto de palavras.
Próximas etapas:
• Medir a correção da aplicação das duas teorias num corpus sem considerar as marcações de exceção.
Modelo de N-gramas – Introdução
• Previsão do tempo:• Categorias de clima: Chuvoso, Nublado e Ensolarado.
• Podemos tentar prever o clima de amanhã aleatoriamente:
• Porém, se tivéssemos as informações climáticas do passado:
Clima de amanhã Chance de acertar
Chuvoso 33%
Nublado 33%
Ensolarado 33%
DIA 1 2 3 4 5 6 7 8 9 10
CLIMA SOL NUB SOL SOL NUB CHUV CHUV NUB CHUV SOL
Modelo de N-gramas – Introdução
• Poderíamos considerar o histórico para criar um modelo baseado nas frequências, dando essa distribuição para as categorias:
• Apesar de ser um pouco mais informativo, nós podemos desenvolver um modelo que também olha para o clima do dia de hoje:
DIA 11
CLIMA SOL
Clima de amanhã Frequência no Passado(Chance de acertar)
Chuvoso 30%
Nublado 30%
Ensolarado 40%
Modelo de N-gramas – Introdução
• E então podemos criar o seguinte modelo de transição climática levando em conta o clima de um dia para prever o clima do dia seguinte:
• Baseado nessa tabela e acreditando na relevância do corpus utilizado, podemos dizer que a previsão para o clima de amanhã é de 50% de chance de nublado, 50% de chance de ensolarado.
Clima do dia X -> Chuvoso Nublado Ensolarado
Clima do dia X+1 ↓
Chuvoso 1 (33%) 2 (66%) 0 (0%)
Nublado 1 (33%) 0 (0%) 2 (50%)
Ensolarado 1 (33%) 1 (33%) 2 (50%)
Modelo de N-gramas – Introdução
• O primeiro modelo, que considerava apenas as frequências, é uma aplicação do modelo de Uni-gramas.
• O segundo, que considerava o segmento de dois dias para criar a tabela de transição, é uma aplicação do modelo de Bi-gramas.
• O segundo é mais informativo que o primeiro, um modelo de tri-gramas seria mais informativo ainda, mas o número de estados possíveis é maior, o tamanho do corpus necessário para que a informatividade seja relevante também é bem maior.
Modelo de N-gramas – Aplicação na Questão do Acento
• A ideia é criar um modelo de aprendizagem baseado em n-gramas, que irá associar a cada segmento (no caso, cada som) uma distribuição de probabilidades transicionais extraídas do corpus.
• No caso do acento, isso se dará da seguinte maneira:• Uma palavra sem marcação de acento será apresentada ao programa
• Serão gerados os possíveis candidatos para a palavra sem marcação, e a cada um será atribuído uma probabilidade baseado no modelo.
Modelo de N-gramas – Aplicação na Questão do Acento EXEMPLO
• Input:• ‘ca-lor’
• Candidatos:1. ‘ca-lor’2. ‘ca-lor’
Candidato 1:bigramas: ca, a-, -l, lo, ortrigramas:ca-, a-l, -lo, lor
Candidato 2:bigramas: ca, a-, -l, lo, ortrigramas: ca-, a-l, -lo, lor
Modelo de N-Gramas- O que é modelado?
• Um modelo simples de linguagem, em que a probabilidade de um determinado segmento ocorrer depende apenas dos ‘n-1’ segmentos anteriores.
• Abordagem indutiva da questão, é especialmente interessante ver o comportamento dela nos casos em que as abordagens categoriais marcam como exceções.
• Não é uma solução categorial. Porém é uma solução bastante barata em termos computacionais, ao mesmo tempo é capaz de revelar padrões locais e também se há algum tipo de atração do acento por determinados fonemas/ contextos fonêmicos.
Próximos passos
• Continuar a desenvolver outra faceta da abordagem computacional para a questão: um modelo de aprendizagem estatístico baseado em um Classificador Bayesiano Ingênuo.• Essa abordagem será capaz de atribuir probabilidades a diversas variáveis,
podendo incluir classes de palavra, peso silábico e também a localidade da abordagem por n-gramas.
• Apesar de ser mais pesada computacionalmente, essa abordagem poderá possibilitar a análise da relevância de diversos traços para a questão do acento.
Bibliografia
• JURAFSKY, D. and MARTIN, J. (2008). Speech and Language Processing. Upper Saddle River, NJ: Prentice Hall.
• LEE, S.H (1995) – “Morfologia e Fonologia lexical do Português Brasileiro” – Tese de Doutorado –UNICAMP
• BISOL, L. (Org.) (2010) . Introdução a estudos de fonologia do português brasileiro. 5º. ed. Porto Alegre: ediPUCRS.
• BIRD, S., KLEIN, E. and LOPER, E. (2009). Natural Language Processing with Python. Sebastopol, CA: O’Reilly.
• NORVIG, P. (2011) On Chomsky and the Two Cultures of Statistical Learning http://norvig.com/chomsky.html
Muito Obrigado!