AVALIAÇÃO DE ALGORITMOS DE STEMMING PARA A LÍNGUA PORTUGUESA. Acadêmico: João Paulo Figueira do...

1
AVALIAÇÃO DE ALGORITMOS DE STEMMING PARA A LÍNGUA PORTUGUESA. Acadêmico: João Paulo Figueira do Nascimento Professor responsável: Reinaldo Viana Alvares INTRODUÇÃO DESENVOLVIMENTO A área de Recuperação de Informação (RI) foi criada para auxiliar no gerenciamento de grande volume de informações que vem sendo gerado nos últimos anos. Uma das principais ferramentas utilizadas para auxiliar nesse processo são os Algoritmos de Stemming. O processo de stemming consiste em reduzir variações de uma palavra para uma forma única, denominada stem, que de forma aproximada representa o conceito atrelado à palavra. O estudo dos desses algoritmos pode tornar mais eficiente o processo de busca e recuperação da informação. Neste traablho, é feita uma avaliação de três algoritmos projetados para a língua portuguesa, usando três métodos de avaliação encontrados na literatura. Os Algoritmos Removedor de Sufixos da Língua Portuguesa (RSLP): desenvolvido por ORENGO e HUYCK, composto por 8 fases, conforme Figura 01: Figura 01: RSLP (adaptado de FLORES) STEMBR: desenvolvido por Alvares et all composto por 4 fases, conforme Figura 02: Figura 02: STEMBR (adaptado de FLORES) SNOWBALL (SNB): Desenvolvido por Porter em 2001 sua versão para o português é composta por cinco fases, conforme Figura 03: CONCLUSÕES REFERÊNCIAS O trabalho em avaliou três stemmers para a língua portuguesa, em uma amostra de 1500 palavras, usando três métodos: manual, redução do vocabulário, e o de Paice: No método manual, o STEMBR ficou praticamente empatado com o RSLP. O STEMBR apresentou mais erros de overstemming. Já o RSLP, maior quantidade de understemming;O SNOWBALL foi obteve o pior resultado nos testes; O SNOWBALL obteve maior redução do vocabulário; Pelo Método de Paice, o SNOWBALL obteve maiores índices de overstemming e understemming. Como trabalho futuro, cita-se aplicação dos algoritmos em uma amostra maior, bem como a realização de validação estatística dos resultados dos stemmers. ALVARES,R.V.;GARCIA, A. C. B.; FERRAZ, I. STEMBR: A Stemming Algorithm for the Brazilian Portuguese Language. 2005, Springer. p. 693-701. CHAVES, M.S.; Um Estudo e Apreciação sobre Algoritmos de Stemming para a Língua Portuguesa.(Programa de Pós-Graduação em Ciência da Computação) – PUCRS, Porto Alegre. ORENGO, V. M.; HUYCK, C. R. A Stemming Algorithm for the Portuguese Languague. In: 8th International Symposium on String Processing and Information Retrieval (SPIRE). 2001, Laguna de San Raphael, Chile, p. 183-193. PAICE, C. D. An Evaluation Method for Stemming Algorithms. In: 17th ACM SIGIR Conference on Research and Development in Information Retrieval, W. B. Croft e C. J. Van Rijsbergen, Editors. 1994, ACM: Dublin, Ireland, p. 42-50. PORTER, M. F. Portuguese stemming algorithm. 2007. Disponível em <http://snowball.tartarus.org/algorithms/portuguese/stemmer.html>. Acesso em 30 de maio de 2010. Foram utilizados os seguintes métodos: Manual, Redução do Vocabulário e o de Paice. A amostra, retirada de ALVARES et all, é composta por 1.500 palavras . Método Manual: um ser humano, define o stem de cada palavra. Após a execução do algoritmo, três medidas são obtidas: número de acertos; número de erros de overstemming e número de erros de understemming. Método de Paice: a partir de uma amostra organizada em ‘grupos conceituais’, o método obtém quatro medidas: Overstemming Index (OI), Understemming Index (UI), Stemming Weight (SW) e Error Rate Relative to Truncation (ERRT) . Redução do Vocabulário: consiste em verificar em quanto um algoritmo foi capaz de reduzir o número de palavras da amostra. Os Métodos de Avaliação Resultados Figura 04: Método Manual. Figura 03: Fluxograma do Snowball Figura 05: Redução do Vocabulário. Figura 06: Método de Paice. Os resultados dos testes realizados podem ser observados nas Figuras 04, 05 e 06 a seguir:

Transcript of AVALIAÇÃO DE ALGORITMOS DE STEMMING PARA A LÍNGUA PORTUGUESA. Acadêmico: João Paulo Figueira do...

Page 1: AVALIAÇÃO DE ALGORITMOS DE STEMMING PARA A LÍNGUA PORTUGUESA. Acadêmico: João Paulo Figueira do Nascimento Professor responsável: Reinaldo Viana Alvares.

AVALIAÇÃO DE ALGORITMOS DE STEMMING PARA A LÍNGUA PORTUGUESA.

Acadêmico:João Paulo Figueira do Nascimento

Professor responsável: Reinaldo Viana Alvares

 

INTRODUÇÃO

DESENVOLVIMENTO

A área de Recuperação de Informação (RI) foi criada para auxiliar no gerenciamento de grande volume de informações que vem sendo gerado nos últimos anos. Uma das principais ferramentas utilizadas para auxiliar nesse processo são os Algoritmos de Stemming. O processo de stemming consiste em reduzir variações de uma palavra para uma forma única, denominada stem, que de forma aproximada representa o conceito atrelado à palavra. O estudo dos desses algoritmos pode tornar mais eficiente o processo de busca e recuperação da informação. Neste traablho, é feita uma avaliação de três algoritmos projetados para a língua portuguesa, usando três métodos de avaliação encontrados na literatura.

Os Algoritmos• Removedor de Sufixos da Língua Portuguesa (RSLP): desenvolvido por ORENGO e HUYCK, composto por 8 fases, conforme Figura 01:

Figura 01: RSLP (adaptado de FLORES)• STEMBR: desenvolvido por Alvares et all composto por 4 fases, conforme Figura 02:

Figura 02: STEMBR (adaptado de FLORES)•SNOWBALL (SNB): Desenvolvido por Porter em 2001 sua versão para o português é composta por cinco fases, conforme Figura 03:

CONCLUSÕES

REFERÊNCIAS

O trabalho em avaliou três stemmers para a língua portuguesa, em uma amostra de 1500 palavras, usando três métodos: manual, redução do vocabulário, e o de Paice:

• No método manual, o STEMBR ficou praticamente empatado com o RSLP. O STEMBR apresentou mais erros de overstemming. Já o RSLP, maior quantidade de understemming;O SNOWBALL foi obteve o pior resultado nos testes;• O SNOWBALL obteve maior redução do vocabulário;• Pelo Método de Paice, o SNOWBALL obteve maiores índices

de overstemming e understemming.

Como trabalho futuro, cita-se aplicação dos algoritmos em uma amostra maior, bem como a realização de validação estatística dos resultados dos stemmers.

ALVARES,R.V.;GARCIA, A. C. B.; FERRAZ, I. STEMBR: A Stemming Algorithm for the Brazilian Portuguese Language. 2005, Springer. p. 693-701.

CHAVES, M.S.; Um Estudo e Apreciação sobre Algoritmos de Stemming para a Língua Portuguesa.(Programa de Pós-Graduação em Ciência da Computação) – PUCRS, Porto Alegre.

ORENGO, V. M.; HUYCK, C. R. A Stemming Algorithm for the Portuguese Languague. In: 8th International Symposium on String Processing and Information Retrieval (SPIRE). 2001, Laguna de San Raphael, Chile, p. 183-193.

PAICE, C. D. An Evaluation Method for Stemming Algorithms. In: 17th ACM SIGIR Conference on Research and Development in Information Retrieval, W. B. Croft e C. J. Van Rijsbergen, Editors. 1994, ACM: Dublin, Ireland, p. 42-50.

PORTER, M. F. Portuguese stemming algorithm. 2007. Disponível em <http://snowball.tartarus.org/algorithms/portuguese/stemmer.html>. Acesso em 30 de maio de 2010.

Foram utilizados os seguintes métodos: Manual, Redução do Vocabulário e o de Paice. A amostra, retirada de ALVARES et all, é composta por 1.500 palavras .

• Método Manual: um ser humano, define o stem de cada palavra. Após a execução do algoritmo, três medidas são obtidas: número de acertos; número de erros de overstemming e número de erros de understemming.

• Método de Paice: a partir de uma amostra organizada em ‘grupos conceituais’, o método obtém quatro medidas: Overstemming Index (OI), Understemming Index (UI), Stemming Weight (SW) e Error Rate Relative to Truncation (ERRT).

• Redução do Vocabulário: consiste em verificar em quanto um algoritmo foi capaz de reduzir o número de palavras da amostra.

Os Métodos de Avaliação

Resultados

Figura 04: Método Manual.

Figura 03: Fluxograma do Snowball

Figura 05: Redução do Vocabulário.

Figura 06: Método de Paice.

Os resultados dos testes realizados podem ser observados nas Figuras 04, 05 e 06 a seguir: