Pedro Oliveira [email protected]/reports/sigc_stemming.pdf · Radicalização em Inglês...
Transcript of Pedro Oliveira [email protected]/reports/sigc_stemming.pdf · Radicalização em Inglês...
Pedro [email protected]
O que é a radicalização Aplicações Radicalização em Inglês Radicalização em Português
Experiência com algoritmos para o Português
Vantagens e Desvantagens
2
Processo de reduzir variações de uma mesma palavra a uma representação única: o radical
Normalmente executado através da remoção de afixos (sufixos e prefixos) de uma palavra
Exemplo
problemáticos, problematização, problemas -> problem
3
O objectivo é chegar a um radical que permita capturar uma palavra com generalidade suficiente, sem perder muito detalhe ou informação
O objectivo não é ser um exercício linguístico, que tenha de seguir regras linguísticas complexas
O que interessa é que funcione!
4
Recuperação de Informação
Garantir que documentos indexados com diferentes formas da mesma palavra possam ser recuperados utilizando quaisquer uma das suas formas
Permitir a expansão da query utilizando outras formas da mesma palavra
Ex:
▪ Pesquisar no Google por Smoking Detector
5
Sistemas de Resposta (Q&A)
Basta criar regras básicas de comunicação, não sendo necessário guardar todo o vocabulário existente
Ex:
▪ “* cust um bilhete de avião”▪ Quanto custa um bilhete de avião
▪ Quanto me vai custar um bilhete de avião
▪ Qual o custo de um bilhete de avião
6
Onde tudo começou… Lovins Stemmer (1968)
Composto por 249 sufixos, 29 condições e 35 regras de transformação
Lida com letras duplicadas (sitting->sitt->sit), plurais irregulares (matrix e matrices) e algumas palavras irregulares (commit e commission)
Execução muito rápida, mas pouco abrangente
7
Porter Stemmer (1980)
Stemmer mais famoso e utilizado
Mais simples e completo que Lovins
Algoritmo com passos definidos, onde em cada fase a palavra é comparada sequencialmente com o maior sufixo presente
▪ Caso este seja encontrado, o mesmo é removido ou substituído
8
Porter Stemmer (1980)
Ex:
▪ Passo 1a▪ sses ->ss (caresses-> caress)
▪ ies -> i (ponies -> poni)
▪ s -> (cats -> cat)
▪ Passo 1b▪ (m>1) eed -> ee (agreed -> agree)
▪ (*v*) ed -> (plastered -> plaster)
9
Campo muito pouco explorado Orengo (2001)
Primeira versão amplamente divulgada de um algoritmo de radicalização para a língua portuguesa
Constituído por 199 regras distribuídas por 8 passos
Utilização de lista de excepções
10
Sufixo TamanhoMin. Substituição Excepções Exemplo
tivo 4 relativo contraceptivo -> contracep
edor 3 entendedor -> entend
quice 4 c maluquice -> maluc
12
Pegastemming (2003)
Algoritmo pouco divulgado
Remoção simples de sufixos comuns, sem se preocupar com artigos, preposições ou conjunções
Sem aplicação prática conhecida
13
Porter (2005)
Adaptação do algoritmo em Inglês para o Português
Constituído por 5 passos sequenciais▪ Remoção de sufixos (precisamente>precisa)
▪ Remoção de sufixos verbais (partirem->part)
▪ Remoção do sufixo i se precedido de c (estabeleci->estabelec)
▪ Remoção de sufixos residuais os, a, i, o, á, í, ó (presos->pres)
▪ Remoção dos sufixos e, ê, é e tratamento de cedilhas (pré->pr)
14
Desenvolvimento de aplicação em Java Algoritmos implementados
Orengo
Porter
Código aberto disponível brevemente
15
Anotado manualmente o radical de 30 palavras aleatórias disponíveis no corpus da Linguateca
10 adjectivos
10 verbos
10 advérbios
16
Medidas de desempenho
Overstemming
▪ Quando é removido não só o sufixo, mas também uma parte do radical
Understemming
▪ Quando o sufixo não é removido, ou é apenas removido parcialmente
17
Resultados
18
Número Acertos OverStemming UnderStemming Concordância
Orengo Porter Orengo Porter Orengo Porter Acertos Erros
Adjectiv
os 10 7 7 1 2 2 1 5 1
Verbos 10 8 8 2 2 0 0 8 2
Advérbi
os 10 7 7 2 3 1 0 5 1
Total 30 22 22 5 7 3 1 18 4
Desvantagens
Palavra deve de estar gramaticalmente correcta, senão pode ocorrer erros na radicalização
Existência de palavras com múltiplos sentidos (polissemia)
Incapacidade de abarcar todo o léxico de uma linguagem
20
Desvantagens
Necessidade de uma análise semântica antes de efectuar a radicalização (tokenização, etc)
Necessidade de detectar nomes e outras formas verbais que não podem ser radicalizados
21