An Alise de Express Oes Re Ferenc i a Is

106
Análise de Expressões Referenciais em Corpus Anotado da Língua Portuguesa Sandra Collovini de Abreu São Leopoldo 2005

description

expressões.

Transcript of An Alise de Express Oes Re Ferenc i a Is

  • Anlise de Expresses Referenciais em Corpus Anotado da Lngua Portuguesa

    Sandra Collovini de Abreu

    So Leopoldo 2005

  • UNIVERSIDADE DO VALE DO RIO DOS SINOS CINCIAS EXATAS E TECNOLGICAS

    PROGRAMA INTERDISCIPLINAR DE PS-GRADUAO EM COMPUTAO APLICADA PIPCA

    Sandra Collovini de Abreu

    Anlise de Expresses Referenciais em Corpus Anotado da Lngua Portuguesa

    Dissertao de Mestrado submetida a avaliao como

    requisito parcial para obteno do grau de Mestre em Computao Aplicada

    Orientadora: Prof. Dr. Renata Vieira

    So Leopoldo 2005

  • Dedico este trabalho em memria minha me que infelizmente no pode acompanh-lo, mas pode contribuir muito com o seu exemplo de determinao, amor, f e luta pela realizao de seus sonhos.

  • Agradecimentos

    minha orientadora, Prof. Dr. Renata Vieira, pela dedicao, comprometimento,

    confiana e amizade durante todo o Mestrado.

    meu grande amor, James, por todo o companheirismo, incentivo, compreenso e

    amor. minha sogra Clenir e sogro Joo por todo o apoio.

    toda a minha famlia, pelo amor, compreenso, incentivo, em especial a minha irm

    ngela, que me acompanhou durante toda esta etapa.

    Aos meus colegas do laboratrio de Engenharia da Linguagem, Cssia, Cassiana,

    Cludia, Csar, Douglas, Fbio, Leonardo, Rodrigo, Sandro, Vincius, pela amizade e auxlio

    no transcorrer deste estudo. Em especial aos colegas Csar, por todo o apoio e pela realizao

    da anotao de correferncia no corpus Pblico, e ao Rodrigo pelo auxlio na elaborao das

    folhas de estilo.

    Aos colegas de Portugal, Ana Margarida Aires pela contribuio no processo de

    comparao da classificao manual e automtica e ao Prof. Dr. Paulo Quaresma pelo

    acompanhamento e cooperao.

    Aos colegas do Mestrado, por todo o companheirismo. Em especial aos colegas

    Adriana, Daniela, Gabriela, Letcia, Isa Mara e Rafael Torchelsen, por todos os momentos de

    ajuda e incentivo.

    Ao corpo docente do PIPCA pela disposio; aos administradores de rede, Fbio e

    Antnio pela prestatividade. secretaria Rejane, por todo o auxilio e amizade.

  • CAPES pelo auxlio financeiro durante o transcorrer do Mestrado e pelo

    financiamento do projeto DIRPI de cooperao internacional com Portugal, pela oportunidade

    de visitar Universidade de vora e aprofundar os estudos relacionados a este trabalho.

  • Resumo

    A anlise de expresses referenciais fundamental na interpretao do discurso. A

    identificao de expresses correferentes importante em diversas aplicaes de

    Processamento da Linguagem Natural. Expresses referenciais podem ser usadas para

    introduzir entidades em um discurso ou podem fazer referncia a entidades j mencionadas,

    podendo fazer uso de reduo lexical, como em: O Eurocenter oferece cursos de Japons na

    bela cidade de Kanazawa. Os cursos tm quatro semanas de durao. Onde cursos de

    Japons introduz uma nova entidade e os cursos retomam essa entidade. A resoluo de

    correferncia o processo de identificar as expresses que se referem mesma entidade no

    discurso. As expresses referenciais so analisadas e a existncia de um antecedente textual

    verificada. Aquelas que introduzem novos elementos, chamamos novas no discurso.

    Esta dissertao apresenta um estudo das caractersticas de um tipo especfico de

    expresses referenciais (descries definidas) com o objetivo de identificar automaticamente

    expresses novas no discurso em textos da Lngua Portuguesa. Este estudo importante, pois

    o nmero de expresses sem antecedentes textuais no discurso tanto na Lngua Inglesa como

    na Lngua Portuguesa expressivo.

    O estudo das caractersticas baseou-se na literatura e em um estudo de corpus. A partir

    destas caractersticas foi construda uma base de dados para o aprendizado automtico de

    rvores de deciso. Os melhores resultados da classificao das descries definidas foram

    implementados no ambiente ART. Uma anlise dos atributos foi desenvolvida para calcular o

    potencial de distino de cada um, destacando-se o atributo tamanho (nmero de palavras

    do sintagma nominal) por ser um atributo original e significativo nos experimentos e o

  • atributo sem antecedente (ncleo da descrio definida uma palavra que no ocorre

    anteriormente no texto) por ter um impacto positivo nos resultados.

    As rvores de deciso geradas foram avaliadas em um novo corpus, composto por

    textos extrados do jornal portugus Pblico. Obtivemos 77% de F-measure para a

    identificao de expresses novas no discurso.

    Palavras chave: expresses referenciais, classificao automtica de expresses

    referenciais, resoluo de correferncia, resoluo de anforas, aprendizado de mquina.

  • Abstract

    The analysis of referring expressions is fundamental to discourse interpretation. The

    identification of correfering expressions is an important step in many Natural Language

    Processing applications. Referring expressions may introduce new entities in a discourse or

    the can refer back to already mentioned entities; they can do it on the basis of simplified

    expressions, as in Eurocenter offers Japanese courses in Kanazawa. The courses are four

    week long. In this example, the expression Japenese courses introduces a new discourse

    entity, whereas the courses refer back to this already mentioned entity.

    Correference resolution is the process of identification expressions that refer to the

    same entity. Referring expressions are analysed and the existence of a textual antecedent is

    verifyed. Those which introduce new discourse entities are considered discourse new in the

    discourse.

    This dissertation presents a study of a specific type of referring expression (definite

    description) with the goal of identifying discourse new expressions in Portuguese texts. This

    is an important issue since the number of such expressions without textual antecedents were

    found to be significant both in English and Portuguese corpora.

    The study of definite description features was based both on the literature and on

    corpus studies. A data base for learning decisions trees was constructed. The generated trees

    through the learning process were implemented and evaluated in the ART framework.

    The features were analysed individually and we found that a new atribute based on the

    size of the noun phrase presented interesting results. Another relevant atribute with good

    impact in the results is based on the lack of the head noun in the previous text.

  • The automatically generated trees were evaluated in a new corpus, composed of

    European Portuguese texts from the Portuguese newspaper Publico. We had an F-measure of

    77% for the identification of discourse new.

  • Lista de Figuras

    FIGURA 2.1 ESTRUTURA DA RVORE DE DECISO............................................................... 27 FIGURA 3.1 ARQUIVO DE WORDS. ....................................................................................... 40 FIGURA 3.2 ARQUIVO DE POS. ........................................................................................... 40 FIGURA 3.3 ARQUIVO DE CHUNKS. ...................................................................................... 40 FIGURA 3.4 ARQUIVO DA ESTRUTURA................................................................................. 42 FIGURA 3.5 ARQUIVO DE MARCAES. ............................................................................... 42 FIGURA 3.6 ARQUITETURA DA FERRAMENTA ART (GOULART, GASPERIN; VIEIRA, 2004)

    ..................................................................................................................................... 44 FIGURA 3.7 ARQUIVO DE ANAFRICAS ............................................................................... 45 FIGURA 3.8 ARQUIVO DE CANDIDATOS A ANTECEDENTES ................................................... 45 FIGURA 3.9 ARQUIVO DE MARCAES................................................................................ 45 FIGURA 3.10 ARQUIVO NO FORMATO ARFF........................................................................ 46 FIGURA 3.11 ABRANGNCIA ............................................................................................... 48 FIGURA 3.12 PRECISO....................................................................................................... 48 FIGURA 3.13 F-MEASURE.................................................................................................... 49 FIGURA 3.14 TRECHO DO ARQUIVO DE CHUNKS .................................................................. 55 FIGURA 3.15 TRECHO DO ARQUIVO DE CHUNKS .................................................................. 55 FIGURA 3.16 TRECHO DO ARQUIVO DE CHUNKS .................................................................. 56 FIGURA 3.17 METODOLOGIA PROPOSTA.............................................................................. 57 FIGURA 3.18 ARQUIVO DE MARCAES............................................................................... 59 FIGURA 3.19 ARQUIVO DE CHUNKS ..................................................................................... 59 FIGURA 3.20 TRECHO DE UM TEXTO.................................................................................... 59 FIGURA 3.21 LISTA DE DESCRIES DEFINIDAS .................................................................. 59 FIGURA 3.22 TRECHO DO ARQUIVO DE ENTRADA NO FORMATO ARFF ................................ 62 FIGURA 4.1 RVORE DE DECISO COM ATRIBUTOS G1........................................................... 75 FIGURA 4.2 RVORE DE DECISO COM ATRIBUTOS G1 SEM TAM .......................................... 76

  • Lista de Tabelas

    TABELA 2.1 CONFIGURAES DAS DESCRIES DEFINIDAS. ................................................... 25 TABELA 2.2 ALGUMAS CARACTERSTICAS DE TRABALHOS RELACIONADOS. ............................ 36 TABELA 3.1 INFORMAES SOBRE O CORPUS 1.................................................................... 37 TABELA 3.2 INFORMAES SOBRE O CORPUS 2.................................................................... 38 TABELA 4.1 NMERO DE EXEMPLOS DE CADA CLASSE. ........................................................ 67 TABELA 4.2 RESULTADOS DO BASELINE. .............................................................................. 67 TABELA 4.3 EXPERIMENTO 1 COM ATRIBUTOS G1. .............................................................. 68 TABELA 4.4 RESULTADOS DO EXPERIMENTO 1 COM ATRIBUTOS G12. .................................. 68 TABELA 4.5 RESULTADOS DO EXPERIMENTO 1 COM G123 DE ATRIBUTOS. ........................... 69 TABELA 4.6 PERCENTUAL DE ACERTOS DO EXPERIMENTO 1................................................. 69 TABELA 4.7 COMPARAO ENTRE O BASELINE E O EXPERIMENTO 1...................................... 70 TABELA 4.8 NMERO DE EXEMPLOS DE CADA CLASSE. ........................................................ 70 TABELA 4.9 RESULTADOS DO BASELINE. .............................................................................. 70 TABELA 4.10 RESULTADOS DO EXPERIMENTO 2 COM ATRIBUTOS G1. .................................. 71 TABELA 4.11 RESULTADOS DO EXPERIMENTO 2 COM ATRIBUTOS G12. ................................ 71 TABELA 4.12 RESULTADOS DO EXPERIMENTO 2 COM ATRIBUTOS G123. .............................. 72 TABELA 4.13 PERCENTUAL DE ACERTOS DO EXPERIMENTO 2............................................... 72 TABELA 4.14 COMPARAO ENTRE O BASELINE E EXPERIMENTO 2....................................... 73 TABELA 4.15 POTENCIAL DE DISTINO DOS ATRIBUTOS G1 (CF = 0,35) ............................ 74 TABELA 4.16 POTENCIAL DE DISTINO DOS ATRIBUTOS G12 (CF = 0,35). ......................... 74 TABELA 4.17 POTENCIAL DE DISTINO DOS ATRIBUTOS G123 (CF = 0,10) ........................ 74 TABELA 4.18 COMPARAO DO ATRIBUTO TAM ................................................................ 75 TABELA 4.19 POTENCIAL DE DISTINO DOS ATRIBUTOS G1 (CF = 0,35) ............................ 76 TABELA 4.20 POTENCIAL DE DISTINO DOS ATRIBUTOS G12 (CF = 0,35). ......................... 77 TABELA 4.21 POTENCIAL DE DISTINO DOS ATRIBUTOS G123 (CF = 0,35). ....................... 77 TABELA 4.22 PIPES E FILTROS DO EXPERIMENTO 1.............................................................. 78 TABELA 4.23 RESULTADO COMPARATIVO DO EXPERIMENTO 1............................................. 78 TABELA 4.24 PIPES E FILTROS DO EXPERIMENTO 2. ............................................................. 79 TABELA 4.25 RESULTADO COMPARATIVO DO EXPERIMENTO 2............................................. 80 TABELA 4.26 NMERO DE EXEMPLOS POR CLASSE DOS EXPERIMENTOS ............................... 80 TABELA 4.27 RESULTADOS DOS BASELINES DOS EXPERIMENTOS. ......................................... 81 TABELA 4.28 RESULTADO COMPARATIVO DO EXPERIMENTO 1............................................. 81 TABELA 4.29 RESULTADO COMPARATIVO DO EXPERIMENTO 2 .......................................... 82 TABELA 5.1 RESULTADOS DOS TRABALHOS RELACIONADOS. ............................................... 86

  • Lista de Abreviaturas

    AM Aprendizado de Mquina ART Anaphor Resolution Tool IA Inteligncia Artificial MMAX Multi-Modal Annotation in XML NILC Ncleo Interinstitucional de Lingstica

    Computacional PLN Processamento de Linguagem Natural POS Part of Speech RI Recuperao de Informao SCT Sistema de Categorizao de Textos Weka Waikato Environment for Knowledge Analysis XML eXtensible Markup Language XSL eXtensible Stylesheet Language

  • Sumrio

    1. Introduo .................................................................................................................. 14 1.1 Objetivos .............................................................................................................. 15 1.1.1 Objetivo Geral .................................................................................................. 15 1.1.2 Objetivos Especficos ....................................................................................... 15 1.2 Organizao do Texto........................................................................................... 16

    2. Reviso bibliogrfica.................................................................................................. 18 2.1 Expresses Referenciais: Sintagmas Nominais e Descries Definidas ................. 18 2.2 Correferncia e Anfora ....................................................................................... 19 2.3 Classificao das descries definidas .................................................................. 21 2.4 Estudo das caractersticas das descries definidas ............................................... 22 2.4.1 Partes fundamentais das descries definidas.................................................... 23 2.4.2 Os complementos das descries definidas ....................................................... 23 2.5 rvores de Deciso............................................................................................... 25 2.6 Trabalhos Relacionados........................................................................................ 29 2.7 Consideraes Finais ............................................................................................ 35

    3. Materiais e Mtodos ................................................................................................... 37 3.1 Descrio do Corpus............................................................................................. 37 3.2 PALAVRAS e Xtractor ........................................................................................ 39 3.3 MMAX ................................................................................................................ 41 3.4 ART ..................................................................................................................... 43 3.5 Weka.................................................................................................................... 45 3.6 Avaliao ............................................................................................................. 47 3.7 Grupos de Caractersticas das descries definidas ............................................... 49 3.8 Identificao Automtica das Caractersticas no Corpus ....................................... 54 3.9 Processo de Aprendizado...................................................................................... 57 3.9.1 Coleta da Base .................................................................................................. 57 3.9.2 Pr-processamento............................................................................................ 57 3.9.3 Classificao..................................................................................................... 61 3.10 Implementao no Ambiente ART........................................................................ 62 3.11 Consideraes Finais ............................................................................................ 63

    4. Resultados................................................................................................................... 66 4.1 Gerao de rvores de Deciso ............................................................................ 66 4.1.1 Experimento 1 novas no discurso (Weka) ...................................................... 67 2.1.2 Experimento 2 no correferentes (Weka) ....................................................... 70 4.1.3 Potencial de Distino das Caractersticas......................................................... 73 4.2 Avaliao das rvores no Ambiente ART ............................................................ 77 4.2.1 Avaliao das Caractersticas em um novo corpus ............................................ 80 4.3 Consideraes finais ............................................................................................. 82

    5. Concluses e Trabalhos Futuros................................................................................ 84

  • Referncias ......................................................................................................................... 87 APNDICE A Folhas de Estilo XSL .............................................................................. 92 APNDICE B rvores de Deciso ............................................................................... 101

  • 14

    1. Introduo

    Em sistemas de Processamento de Linguagem Natural (PLN), a anlise de expresses

    referenciais um componente fundamental na interpretao do sentido do texto. A resoluo

    de correferncia constitui do ponto de vista do processamento computacional, um problema

    difcil, devido complexidade do fenmeno lingstico e por isso motiva inmeras pesquisas.

    O processo de resoluo de correferncia busca identificar expresses lingsticas que

    se referem mesma entidade (correferentes). Para exemplificar, segue o trecho de um texto,

    onde as expresses correferentes esto destacadas.

    O advogado de Castor de Andrade, Nlio Machado, afirmou que vai aguardar a

    evoluo dos fatos para se pronunciar. O advogado disse desconhecer a existncia de

    documentos que demonstrariam o pagamento de propinas a autoridades policiais.

    A identificao de expresses correferentes importante em diversas aplicaes de

    PLN, como, por exemplo, em sumarizao automtica, extrao de informao, recuperao

    de informao, traduo automtica, classificao de textos, entre outros.

    Este estudo trata de expresses referenciais em textos da Lngua Portuguesa,

    especificamente de descries definidas. Chamamos descries definidas os sintagmas

    nominais iniciados por artigo definido (o, a, os, as). As descries definidas so estudadas

    extensivamente pela lingstica, filosofia, psicologia e lingstica computacional (VIEIRA,

    1998). Alm disso, trabalha-se com descries definidas pelo fato de ocorrerem em grande

    quantidade nos textos. Tambm, existem vrios trabalhos sobre resoluo de anforas

    pronominais, contudo existem poucos trabalhos que abordam a resoluo anafrica das

    descries definidas para a Lngua Portuguesa.

  • 15

    Estudos anteriores (VIEIRA; GASPERIN; GOULART, 2003) mostram que as

    descries definidas em textos jornalsticos possuem um antecedente textual em apenas 50%

    dos casos. Esse fato aliado complexidade da tarefa de encontrar um antecedente para

    resoluo de correferncia estimula a comunidade a propor como parte do processo de

    resoluo, a identificao de descries definidas novas no discurso (MCCARTHY,

    LEHNERT, 1995; BEAN, RILOFF, 1999; CARDIE; WAGSTAFF,1999; VIEIRA, POESIO,

    2000; (SOON; NG; LIM, 2001; MULLER; RAPP; STRUBE, 2002; NG, CARDIE, 2002a,

    2002b; STRUBE; RAPP; MULLER, 20002; URYUPINA, 2003; POESIO et al., 2005). Todos

    esses trabalhos so estudos da Lngua Inglesa. Nessa dissertao realizamos um estudo

    detalhado das expresses referenciais definidas da Lngua Portuguesa e das suas

    caractersticas para a identificao daquelas que no possuem um antecedente textual.

    1.1 Objetivos

    1.1.1 Objetivo Geral Este trabalho tem como objetivo geral o estudo de caractersticas das descries

    definidas em textos da Lngua Portuguesa para a sua classificao como expresses novas no

    discurso. Para isso, uma anlise das ocorrncias de descries definidas em textos da Lngua

    Portuguesa realizada. A abordagem de Aprendizado de Mquina Supervisionado (rvores de

    deciso) para a avaliao das caractersticas relevantes utilizada. Por fim, uma anlise das

    rvores de deciso geradas realizada para posterior implementao no ambiente ART.

    1.1.2 Objetivos Especficos

    Estudo das descries definidas nos textos da Lngua Portuguesa, com base em

    corpus anotado com relaes de correferncia;

  • 16

    Levantamento de caractersticas para a classificao das descries definidas como

    expresses novas no discurso (no possuem um antecedente textual) ou outra (possuem um

    antecedente textual) com base no estudo de corpus e na literatura disponvel para a Lngua

    Inglesa (MCCARTHY, LEHNERT, 1995; BEAN, RILOFF, 1999; CARDIE,

    WAGSTAFF,1999; VIEIRA, POESIO, 2000; SOON; NG; LIM, 2001; MULLER; RAPP;

    STRUBE, 2002; NG, CARDIE, 2002a; NG, CARDIE, 2002b; STRUBE et al, 20002;

    URYUPINA, 2003; POESIO et al., 2005);

    Construo da base de dados para o aprendizado automtico, com base nas

    caractersticas identificadas que serviro de atributos para as rvores de deciso;

    Gerao e anlise de rvores de deciso para a investigao dos atributos

    relevantes na classificao binria das descries definidas como nova no discurso e outra;

    Implementao das rvores de deciso no ambiente ART (GOULART;

    GASPERIN; VIEIRA, 2004);

    Avaliao final das rvores de deciso implementadas no ambiente ART com um

    novo corpus.

    1.2 Organizao do Texto

    Esta dissertao est organizada da seguinte forma. No captulo 2, dada uma

    introduo aos conceitos importantes relacionados a esse trabalho. Um estudo inicial das

    descries definidas apresentado. Aps, uma viso geral de rvores de Deciso mostrada.

    Por fim, os trabalhos relacionados.

    O captulo 3 apresenta uma viso geral dos materiais e mtodos da pesquisa: corpus e

    ferramentas, alm das medidas de avaliao que sero utilizadas nos experimentos. Uma

    anlise detalhada das caractersticas morfossintticas das descries definidas do corpus

    anotado mostrada. Aps, o processo para a identificao automtica das caractersticas para

  • 17

    gerao da base de dados do aprendizado, utilizando a linguagem XSL abordado. Por fim, o

    processo de aprendizado com rvores de deciso e as etapas para a implementao das rvores

    de deciso no ambiente ART so apresentados.

    No captulo 4, so apresentados os resultados da gerao das rvores e posterior

    implementao das mesmas no Ambiente ART. A avaliao dos experimentos no ambiente

    ART com um novo corpus mostrada.

    Por fim, no captulo 5 so apresentadas as concluses e uma discusso sobre os

    trabalhos futuros.

  • 18

    2. Reviso bibliogrfica

    O objetivo deste captulo abordar conceitos importantes das reas de lingstica e

    computao relacionados dissertao.

    Com base na literatura, apresentado o conceito de descries definidas, as estruturas

    de interesse deste trabalho, assim como as configuraes possveis que estas podem adotar.

    Alm disso, exposta a classificao das descries definidas empregada neste trabalho. Um

    estudo das caractersticas das descries definidas usadas na classificao apresentado. Este

    captulo tambm aborda rvores de Deciso. Os principais trabalhos relacionados que

    contriburam para este estudo so referenciados.

    2.1 Expresses Referenciais: Sintagmas Nominais e Descries Definidas

    Um sintagma uma palavra ou um conjunto de palavras, que constituem uma unidade

    significativa dentro da sentena (BONINI, 2002, KOCH, 2003; MACAMBIRA, 1990).

    Os sintagmas desempenham diferentes funes na sentena e combinam-se em torno

    de um ncleo. o ncleo que denomina o sintagma. O sintagma pode ser nominal (ncleo

    nome ou pronome), verbal (ncleo verbo), preposicional (ncleo preposio), adjetival

    (ncleo adjetivo) e adverbial (ncleo advrbio). Os sintagmas nominais so as expresses

    lingsticas utilizadas para referenciar entidades em um discurso.

    No caso do sintagma nominal, o ncleo pode configurar-se em nome comum/prprio

    ou pronome: pessoal, demonstrativo, indefinido, possessivo entre outros. O sintagma nominal

    pode apresentar ainda determinantes e/ou modificadores. Os determinantes antecedem o

    ncleo, podendo ser artigos definidos (o, a, os e as), indefinidos (um, uma, uns, umas),

    pronomes possessivos (meu, minha, seu, teu etc) entre outros. Os modificadores antecedem

  • 19

    ou sucedem o ncleo. Por exemplo, em as acusaes, observa-se um sintagma nominal

    constitudo por um determinante, na forma de artigo definido (as), e um ncleo, na forma de

    substantivo (acusaes). J em as acusaes contra policiais, h o mesmo sintagma

    nominal do exemplo anterior, s que agora modificado pelo sintagma preposicional (contra

    policiais).

    Dentre as vrias configuraes de sintagmas nominais, observaremos as descries

    definidas, foco de nosso trabalho. Muitos lingistas chamam a ateno para uma estrutura

    bastante complexa das descries definidas em Lngua Portuguesa (KOCH, 2000; FVERO,

    1997; VILELA, KOCH, 2001; KOCH, TRAVAGLIA, 2002; MACAMBIRA, 1990;

    HAUSSER, 1999; JURAFSKY, MARTIN, 2000).

    Dessa forma, as descries definidas podem ser constitudas por uma extensa e

    varivel seqncia de termos (BONINI, 2002, KOCH, TRAVAGLIA, 1996; ZUMTHOR,

    2000). As possibilidades de estruturaes de descries definidas que acreditamos serem

    importantes distino de expresses novas no discurso e outra sero vistas na seo 2.4;

    porm, antes, so apresentados conceitos sobre correferncia e anfora.

    2.2 Correferncia e Anfora

    Os conceitos de correferncia e anfora so similares, com pequenas diferenas.

    Expresses correferentes fazem referncia mesma entidade, enquanto expresses anafricas

    podem retomar uma referncia anterior (nesse caso, correferentes) ou podem ativar um novo

    referente cuja interpretao dependente de outras expresses referenciais anteriormente

    presentes do texto (nesse caso, no correferentes).

    Geralmente uma expresso correferente anafrica, mas nem sempre uma expresso

    anafrica correferente, veja o exemplo:

  • 20

    O Eurocenter oferece cursos de Japons na bela cidade de Kanazawa. Os cursos tm

    quatro semanas de durao. As aulas do nvel avanado incluem refeies tpicas e passeios

    a pontos tursticos.

    No exemplo acima, a expresso Os cursos retoma a expresso anterior cursos de

    Japons, ou seja, as duas expresses referenciais fazem meno mesma entidade, portanto

    duas expresses correferenciais e anafricas. Porm, expresses anafricas no precisam ser

    necessariamente correferentes, por exemplo, a expresso As aulas do nvel avanado no

    correferente a nenhum termo anterior, mas apresenta parte do seu significado apoiado na

    expresso cursos de Japons, portanto trata-se de uma expresso no correferente e

    anafrica.

    Na maioria das vezes, uma expresso anafrica ou correferente manifesta-se como um

    pronome ou uma descrio definida1 ou demonstrativa2 (FVERO, KOCH, 1994; KOCK,

    2000). Porm, ao contrrio dos pronomes e das descries demonstrativas, estudos de corpus

    da Lngua Inglesa (VIEIRA, 1998) e Portuguesa (SALMON-ALT, VIEIRA, 2002; VIEIRA;

    SALMON-ALT; SCHANG, 2002; VIEIRA et al., 2002; VIEIRA; GASPERIN; GOULART,

    2003) mostram que 50% das descries definidas no possuem um antecedente textual. Esse

    dado chama a ateno para a necessidade da elaborao de uma estratgia de resoluo de

    anforas ou correferncia que seja composta por uma etapa que identifique as expresses

    novas no discurso a fim de que as operaes de verificao de antecedentes ocorram

    exclusivamente nas expresses anafricas ou correferentes.

    Com o objetivo de contribuir para essa etapa de classificao, foram analisadas

    caractersticas que predominantemente se manifestariam em expresses novas no discurso

    (seo 3.7). Porm, antes de prosseguir, para uma boa compreenso deste estudo de

    1 Grupo de palavras que inicia por artigo definido e possui ncleo nome (e.g. o parecer, a resoluo final).

    2 Grupo de palavras que inicia por pronome demonstrativo e possui ncleo nome (e.g. essa resoluo).

  • 21

    caractersticas; as possveis classificaes das descries definidas sero apresentadas a

    seguir.

    2.3 Classificao das descries definidas

    Em Vieira (1998), encontra-se uma diviso das descries definidas em quatro

    categorias, dependendo da forma que esto relacionadas com os seus antecedentes:

    1. Anafricas Diretas: so antecedidas por uma expresso que possui o mesmo

    nome-ncleo e refere-se mesma entidade no discurso. Por exemplo:

    As listas apontam quase todas as divises e departamentos da Polcia Civil. Alguns

    delegados da Polcia Federal tambm so citados nas listas.

    2. Anafricas Indiretas: so antecedidas por uma expresso que no tm o mesmo

    nome-ncleo do seu antecedente, mas referem-se mesma entidade j introduzida no

    discurso. Assim, o ncleo pode ser um sinnimo do antecedente ou mesmo uma elipse. Por

    exemplo:

    A Folha de So Paulo apresentou as listas apreendidas na operao contra o crime

    organizado. O jornal tentou ouvir o delegado encarregado.

    3. Anafricas Associativas: possuem um antecedente textual no correferente. Assim,

    a descrio definida tem seu significado ancorado em uma outra entidade. Por exemplo:

    A Folha de So Paulo apresentou as listas apreendidas na operao contra o crime

    organizado. O jornal tentou ouvir o delegado encarregado.

    4. Novas no discurso: so aquelas que introduzem um novo referente no texto e no

    possuem uma ncora para se apoiar semanticamente. Por exemplo:

    O quilmetro 430 da rodovia Assis Chateau Briand ontem foi cenrio da campanha

    de segurana no trnsito.

  • 22

    Cabe ressaltar que as expresses anafricas diretas e indiretas so expresses

    correferentes, pois se referem mesma entidade. J as expresses anafricas associativas no

    so correferentes, pois apesar de possurem uma relao semntica com seus antecedentes, o

    antecedente no referencia a mesma entidade. As expresses novas no discurso no so

    correferentes, pois a primeira manifestao das expresses no discurso.

    A seguir, apresentamos o estudo de caractersticas das descries definidas novas no

    discurso.

    2.4 Estudo das caractersticas das descries definidas

    Na literatura encontramos vrias propostas que levam em considerao a estrutura

    sinttica; aspectos lexicais; semnticos; posicionais; de contexto; entre outras caractersticas

    para classificar as descries definidas, conforme apresentado em (MCCARTHY,

    LEHNERT, 1995; BEAN, RILOFF, 1999; CARDIE,WAGSTAFF,1999; VIEIRA, POESIO,

    2000; SOON; NG; LIM, 2001; MULLER; RAPP; STRUBE, 2002; NG, CARDIE, 2002a;

    NG, CARDIE, 2002b; URYUPINA, 2003; POESIO et al., 2005).

    Um resumo destes trabalhos apresentado na seo 2.6. Muitos desses trabalhos

    referem-se estrutura do sintagma como caracterstica relevante. Um estudo de corpus foi

    realizado para verificar a presena destas e de outras caractersticas (seo 3.7).

    Quanto ao aspecto estrutural, importante discriminar caractersticas que so comuns,

    e por isso presentes em todas as descries definidas, das que so adicionais, e que, em alguns

    casos, podem sinalizar expresses novas no discurso. Nesse sentido, nosso olhar concentra-se

    em dois blocos distintos de elementos estruturais das descries definidas: as partes

    fundamentais e os complementos.

  • 23

    2.4.1 Partes fundamentais das descries definidas

    Uma descrio definida fundamentalmente composta por duas classes de palavras:

    Artigo definido: palavra que acompanha o substantivo, determinando-o de forma

    definida.

    Na Lngua Portuguesa os artigos definidos so: o, a, os e as.

    Nome (substantivo): palavra que designa os seres/objetos reais ou imaginrios. O

    nome pode ser comum (referncia genrica a um ser/objeto) ou prprio (referncia especfica

    a um ser/objeto, identificando este entre todos os outros seres/objetos de uma espcie).

    O ncleo nome pode ser formado por um ou mais nomes. Nos casos da presena na

    estrutura sinttica de um nico nome, ele denominado simples; caso contrrio, ele ser

    denominado composto.

    Alm disso, na composio das descries definidas, com exceo dos artigos

    definidos, que assumem a posio primeira no sintagma, os nomes, apesar de centrais, no

    ocupam uma posio fixa, pois, para referenciao, por vezes, vrios elementos

    complementadores so necessrios, ora precedendo os nomes ora antecedendo os nomes.

    2.4.2 Os complementos das descries definidas

    Os elementos complementares das descries definidas tambm so mencionados na

    literatura como elementos modificadores. Na construo das descries definidas, elementos

    que se somam aos nomes so:

    Aposto: um ou mais termos que se referem a um substantivo ou pronome

    explicando-o.

    O aposto pode localizar-se entre vrgulas ou travesses ou vir depois de dois-pontos3.

    Para exemplificar, segue a descrio definida:

    3 No corpus comum a presena desse tipo de construo sem o uso de travesses ou entre vrgulas.

  • 24

    O bicheiro, Castor de Andrade,.

    Sintagma preposicional: sintagma que possui como ncleo uma preposio,

    palavra invarivel que liga/relaciona dois termos (palavras e oraes), indicando origem,

    posse, finalidade, meio, causa etc.

    Nessa relao, um termo vai explicar ou completar o sentido do outro. Para

    exemplificar, segue a descrio definida:

    A data da reforma.

    Sintagma adjetival: sintagma que possui como ncleo um adjetivo (palavra que

    especifica e caracteriza seres/objetos atribuindo-lhes estados ou qualidades).

    O sintagma adjetival tambm pode apresentar intensificador (palavra que modifica um

    verbo, um adjetivo ou outro advrbio, indicando uma circunstncia). Para exemplificar,

    seguem as descries definidas:

    A literatura infantil.

    As democracias mais fortes.

    Clusula relativa: so oraes que funcionam como sintagmas adjetivais e

    apresentam-se encaixadas na posio de modificador do nome. Por exemplo:

    O sistema que fiscalizava o Inamps".

    Podemos dizer, ento, que as descries definidas possuem um conjunto de

    configuraes conforme Tab. 2.1, seguindo a legenda abaixo:

    Legenda:

    AD: artigo definido; N: nome; SA: sintagma adjetival; SP: sintagma preposicional; REL: clusula relativa; PRONP: pronome possessivo; INT: intensificador; APO: aposto.

  • 25

    Tabela 2.1 Configuraes das descries definidas.

    Configuraes Exemplos AD + N A humanidade.

    AD + N + SA A vista ocidental.

    AD + SA + N Os grandes clientes.

    AD + SA + N + SA As antigas casas medievais.

    AD + NOME + SP O artefato de lentes. AD + PRONP + N + SP O meu amigo de infncia. AD + PRONP + N + SA A nossa proposta ambiental.

    AD + PRONP + SA + N + SA As nossas grandes faanhas administrativas. AD + SA + N + SP A antiga cidade de Kanazawa.

    AD + N + INT + SA + SP Os momentos mais difceis de minha carreira. AD + N + REL O comunicado que deve ser assinado pelos jornalistas. AD + SA + N + SP + REL As grandes deficincias da gesto financeira que recentemente provocou

    pela primeira vez na histria do clube atraso no pagamento dos jogadores. AD + N + SP + REL O texto do comunicado que deve ser assinado hoje. AD + N + APO O ex-deputado, Agnaldo Timteo,

    AD + N + SP + APO O diretor do Departamento de Polcia do Interior, delegado Mrio Covas,

    AD + N + REL + OPO O delegado que acusado pelo departamento, lson Campelo, AD + N + INT + SA + REL +

    APO

    O deputado muito disposto que iniciara as investigaes, Emir Laranjeira,

    2.5 rvores de Deciso O Aprendizado de Mquina (AM) uma sub-rea de pesquisa em Inteligncia

    Artificial (IA) relacionada capacidade de aprender ser essencial para um comportamento

    inteligente. O objetivo principal de AM encontrar mtodos computacionais baseados em

    operaes lgicas ou binrias capazes de aprender uma tarefa a partir de um conjunto de

    exemplos. Neste sentido, o AM estuda mtodos computacionais para adquirir novos

    conhecimentos, novas habilidades e novos meios de organizar o conhecimento j existente

    (MITCHELL, 1997). O estudo de tcnicas de aprendizado baseado em computador tambm

    pode fornecer um melhor entendimento do prprio raciocnio.

  • 26

    A induo a forma de inferncia lgica que permite obter concluses genricas sobre

    um conjunto particular de exemplos, a qual se caracteriza pelo raciocnio a partir de um

    conceito especfico e generalizado, ou seja, da parte para o todo. Sendo assim, na induo um

    conceito aprendido efetuando-se inferncia indutiva sobre os exemplos apresentados

    (MONARD, BARANAUSKAS, 2003).

    O aprendizado indutivo pode ser dividido em supervisionado e no-supervisionado.

    No aprendizado supervisionado fornecido ao algoritmo de aprendizado, um conjunto de

    exemplos de treinamento para os quais o rtulo da classe associada conhecido. Um rtulo

    descreve o fenmeno de interesse, isto , o conceito-meta que se deseja aprender para fazer

    previses a respeito.

    No aprendizado supervisionado, geralmente cada exemplo descrito por um vetor de

    valores de caractersticas ou de aspectos do exemplo, esses conhecidos como atributos, e pelo

    rtulo da classe associada. Tem-se como objetivo do algoritmo de induo, construir um

    classificador que seja capaz de determinar corretamente a classe de novos exemplos que ainda

    no possuam rtulo da classe. Sendo que, para rtulos de classe discretos, esse problema

    conhecido como Classificao e para valores contnuos como Regresso.

    Dentro da rea de Aprendizado de Mquina foram propostos vrios paradigmas

    capazes de aprender a partir de um conjunto de exemplos, constituindo-se de paradigmas

    simblico, estatstico, conexionista, evolutivo, baseado em casos (MONARD,

    BARANAUSKAS, 2003). No contexto desse trabalho, ser abordado o paradigma simblico,

    no qual os sistemas objetivam aprender constituindo representaes simblicas de um

    conceito por meio da anlise de exemplos e contra-exemplos desse conceito. Dentre as

    representaes simblicas, ser utilizada a representao por rvores de deciso para a

    classificao de entidades novas no discurso. Adotamos rvores de deciso, pois so

    geralmente utilizadas para esse tipo de tarefa, conforme podemos observar na literatura da

  • 27

    AATTRRIIBBUUTTOO

    CCLLAASSSSEE 11

    XX11 XX22

    CCLLAASSSSEE 22

    rea. Alm disso, o mtodo adequado para a anlise da relevncia das caractersticas que

    um dos nossos objetivos principais.

    Uma rvore de deciso capaz de prever a classe de um exemplo baseada em decises

    realizadas sobre os atributos que descrevem esse exemplo (AMADO, 2001). Neste contexto,

    uma rvore de deciso uma forma simples de representao, que classifica exemplos de uma

    base de dados em um nmero finito de classes, tendo a seguinte estrutura:

    FIGURA 2.1 Estrutura da rvore de Deciso.

    Na FIGURA 2.1 cada nodo representa um atributo da base de dados. Cada galho

    representa um valor do atributo. Cada nodo folha representa uma classe. Alm dessa estrutura,

    as rvores de deciso possuem algumas caractersticas, tais como:

    Representam uma srie de perguntas em relao aos atributos do domnio;

    Um objeto classificado seguindo o caminho do nodo raiz at o nodo folha,

    enquanto as suas caractersticas satisfazem as ligaes.

    As rvores de deciso so baseadas no uso de um algoritmo de particionamento

    recursivo, tais como ID3 (QUINLAN, 1986), C4.5 (QUINLAN, 1993) e CART (BREIMAN

    et al., 1984). Esses realizam uma busca em um espao de hipteses completo e possuem um

    vis indutivo em direo a rvores de tamanho reduzido, baseando-se na abordagem: dividir

    para conquistar.

    Nesses algoritmos, a induo da rvore baseia-se na diviso recursiva do conjunto de

    exemplos de treinamento em subconjuntos mais representativos, ou seja, dividir o conjunto de

  • 28

    treinamento at todos os subconjuntos conterem exemplos que pertencem a apenas uma

    classe. As divises do conjunto de treinamento so realizadas com base nos valores possveis

    de um dos atributos que descrevem os exemplos. A cada diviso associado um nodo na

    rvore que representa o teste realizado aos valores do atributo que deu origem diviso.

    Quando todos os exemplos de um conjunto pertencem mesma classe, esse associado a uma

    folha na rvore que representa a classe dos exemplos.

    O tamanho e a preciso das rvores de deciso construdas por este processo depende

    da escolha dos atributos utilizados para a diviso do conjunto de treinamento, sendo o critrio

    mais utilizado, para escolher o atributo que particiona o conjunto de exemplos em cada

    iterao, a mtrica de ganho de informao4. Um bom critrio de escolha de atributos

    fundamental, uma vez que uma m escolha de um atributo pode fragmentar o conjunto de

    treinamento e reduzir a preciso.

    Uma outra questo a ser considerada na construo das rvores de deciso a

    simplificao, uma vez que o mtodo descrito para a construo das rvores de deciso resulta

    em rvores perfeitamente ajustadas ao conjunto de exemplos utilizados na sua construo, ou

    seja, ocorre uma superestimativa dos dados (overfitting5). Para tentar solucionar o problema

    de superajuste dos dados, utilizam-se dois mtodos de simplificao das rvores de deciso:

    O primeiro mtodo consiste em utilizar um determinado critrio para verificar se,

    antes de realizar a diviso dos exemplos num nodo, a diviso relevante para a

    classificao final. Caso no o seja, esta no realizada e a explorao do galho da

    rvore terminada.

    4 O ganho de informao uma medida que indica a reduo esperada na entropia de um conjunto de dados,

    causada pelo particionamento dos exemplos em relao a um dado atributo. 5 Overfitting ocorre quando ao induzir, a partir de exemplos disponveis, a hiptese muito especfica para o

    conjunto de treinamento utilizado, ou seja, a hiptese ajusta-se em excesso ao conjunto de treinamento.

  • 29

    O segundo mtodo, muitas vezes denominado poda, aplicado aps a construo

    da rvore. Cada nodo da rvore visitado e os galhos que no contriburem

    significativamente para a classificao so simplificados.

    As rvores de deciso podem ser representadas tambm por conjuntos de regras if-

    then, por serem estas mais legveis. Cada regra representa um possvel caminho a ser

    percorrido desde a raiz at uma folha, onde o resultado da classificao especificado.

    Nesse trabalho, as rvores de deciso sero aplicadas na investigao de quais

    atributos so mais relevantes para a classificao das descries definidas como novas no

    discurso, com base no corpus anotado manualmente.

    Uma vez apresentados os conceitos sobre rvores de deciso, na seqncia,

    apresentaremos alguns trabalhos relacionados que utilizam esses conceitos e contriburam

    para a dissertao.

    2.6 Trabalhos Relacionados

    Nesta seo so apresentados alguns trabalhos relacionados sobre resoluo de

    correferncia de sintagmas nominais, focalizando as caractersticas tanto sintticas como

    semnticas dos sintagmas nominais, utilizadas no processo de resoluo de anforas.

    Muitas aplicaes em PLN requerem a resoluo de anforas de sintagmas nominais,

    sendo necessrios meios para determinar quais sintagmas nominais em um texto ou em um

    dilogo referem-se mesma entidade real do mundo.

    A maioria dos algoritmos que tratam resoluo de anforas de sintagmas nominais

    combina caractersticas sintticas e semnticas, com o intuito de desenvolver sistemas

    robustos. A seguir, sero descritos alguns trabalhos relacionados resoluo de anforas e

    uma viso geral das caractersticas que eles apresentam.

  • 30

    Aone e Bennett (1995) descrevem um sistema de resoluo de anfora que abrange

    tipos de anforas (descries definidas, pronominais etc.) que podem ser definidos a partir da

    necessidade do usurio. Para a realizao dos experimentos, um conjunto de artigos

    jornalsticos em japons foi usado como exemplos de treinamento para o algoritmo de

    aprendizado de mquina de rvores de deciso C4.5 (QUINLAN, 1993). Para isso, Aone e

    Bennett utilizaram 66 caractersticas, dentre as quais esto as caractersticas morfolgicas,

    sintticas, semnticas e posicionais. Essas caractersticas podem ser caractersticas unrias6 ou

    caractersticas binrias7.

    Em Mccarthy e Lehnert (1995) a resoluo de anforas apresentada como um

    problema dos Sistemas de Extrao de Informao, que necessitam identificar informaes de

    interesse em uma coleo de textos, onde as entidades envolvidas so referenciadas em

    lugares diferentes e em caminhos diferentes. Esse problema pode ser reformulado como um

    problema de classificao: dado dois referentes, eles apontam para os mesmos objetos ou para

    objetos diferentes. Neste sentido, Mccarthy e Lehnert apresentaram uma nova abordagem para

    resoluo de correferncia (Sistema RESOLVE): a construo de rvores de deciso que

    classificam pares de sintagmas nominais como correferentes ou no correferentes. Mccarthy e

    Lehnert relatam o uso de oito caractersticas para essa tarefa de classificao de correferncia,

    dentre essas caractersticas temos a presena de um nome prprio e a presena de um

    sintagma nominal comum em um par de referentes.

    Bean e Riloff (1999) desenvolveram um algoritmo baseado em corpus para identificar

    automaticamente sintagmas nominais definidos no-anafricos que possuem potencial para

    melhorar a eficincia e a preciso de sistemas de resoluo de correferncia. Bean e Riloff

    classificaram os sintagmas nominais definidos utilizando a seguinte taxonomia: sintagmas

    nominais referentes que possuem um referente anterior nos textos (antecedente), e sintagmas

    6 Caracterstica de uma anfora ou de um antecedente.

    7 Caracterstica que diz respeito s relaes entre os pares de anforas e de antecedentes.

  • 31

    nominais existenciais8 que no possuem um referente anterior nos textos (antecedente). Aps,

    os sintagmas nominais foram classificados em duas categorias: independentes9 e

    associativos10. O objetivo de Bean e Riloff construir um sistema para identificar os

    sintagmas nominais existenciais independentes automaticamente. Para isso, observaram-se as

    caractersticas de existencialismo dos sintagmas nominais definidos a partir da sintaxe e da

    semntica. Desta forma, foi construdo um conjunto de heursticas sintticas que procuram

    pistas (cues) estruturais de pr-modificadores restritivos e ps-modificadores restritivos.

    Em Cardie e Wagstaff (1999) um novo algoritmo no supervisionado para resoluo

    de correferncia de sintagmas nominais apresentado. A resoluo de correferncia tratada

    como uma tarefa de agrupamento11. Cardie e Wagstaff utilizaram onze caractersticas para

    particionar os sintagmas nominais simples12, que foram obtidas automaticamente sem

    qualquer etiquetagem manual. Dentre essas caractersticas verificou-se, por exemplo, o tipo

    de artigo (definido, indefinido, nenhum); o tipo de pronome (possessivo, ambguo, nominal);

    o gnero (masculino, feminino, neutro, outro); entre outras.

    Em Vieira e Poesio (2000) apresentado um sistema para o processamento de

    descries definidas independente de domnio, que est fundamentado em experimentos

    baseados em corpus. O sistema foi implementado e testado com idias de diferentes usos das

    descries definidas e observou-se a predominncia de descries novas no discurso em

    corpus jornalsticos na Lngua Inglesa. Vieira e Poesio detalham um estudo sobre as

    descries definidas na Lngua Inglesa, utilizando a classificao dos usos de descries

    8 Um sintagma nominal definido existencial, quando especifica completamente uma representao cognitiva da

    entidade na mente do leitor, por exemplo, O F.B.I.. 9 Sintagmas nominais existenciais independentes so entendidos isoladamente pelo leitor, sem a necessidade de

    um contexto. 10

    Sintagmas nominais existenciais associativos so inerentemente associados a um evento, ao, objeto ou outro contexto, para o entendimento do leitor. 11 Agrupamento um mtodo de descoberta de conhecimento utilizado para identificar co-relacionamentos e associaes entre objetos, facilitando assim a identificao de classes. 12

    Sintagmas nominais simples que no contm nenhum outro sintagma nominal menor dentro dele.

  • 32

    definidas13 abordadas nos experimentos de Vieira (1998). E assim, foram desenvolvidos trs

    diferentes conjuntos de heursticas para:

    1. Resolver descries diretamente anafricas;

    2. Identificar descries novas no discurso;

    3. Identificar uma ncora da descrio associativa e a relao semntica entre a

    descrio associativa e a sua ncora.

    Soon; Ng; Lim (2001) apresenta uma abordagem de aprendizado para resoluo de

    correferncia de sintagmas nominais em textos do MUC-614 (MUC-6, 1995) e do MUC-7

    (MUC-7, 1997). A abordagem utiliza, para o aprendizado, um corpus pequeno anotado e a sua

    tarefa determinar relaes de correferncia entre elementos textuais, como por exemplo,

    sintagmas nominais definidos, sintagmas nominais demonstrativos, nomes prprios, apostos.

    Soon; Ng; Lim relatam o uso de doze caractersticas para verificar se duas entidades so ou

    no correferentes (antecedente em potencial e anafrica). Dentre as caractersticas temos a

    verificao se o antecedente em potencial e o anafrico so pronomes (reflexivos, pessoais,

    possessivos); verificao se o antecedente em potencial e o anafrico so nomes prprios;

    identificao do tipo de sintagma nominal (definido, demonstrativo); verificao de

    construes de aposto; verificao de flexo de nmero (plural, singular) e de gnero

    (feminino e masculino); entre outras.

    Ng e Cardie (2002a) relatam um mtodo de aprendizado supervisionado para a

    identificao de sintagmas nominais anafricos e no anafricos e mostram como podem ser

    incorporadas tais informaes em um sistema de resoluo de correferncia. Para isso, Ng e

    Cardie construram um classificador para a determinao da anaforicidade, utilizando o

    sistema de induo de rvore de deciso C4.5 (QUINLAN,1993), onde cada exemplo de

    treinamento representa um nico sintagma nominal e consiste de 37 caractersticas que so

    13 As descries definidas esto divididas em trs categorias (anforas diretas, novas no discurso e associativas),

    dependendo da forma que esto relacionadas com os seus antecedentes. 14

    MUC: Conferncias organizadas em forma de competio para apresentao de sistemas.

  • 33

    potencialmente teis para distinguir entre sintagmas nominais anafricos e no anafricos.

    Lingisticamente, essas caractersticas podem ser divididas em quatro grupos: lxico,

    gramatical, semntico e posicional.

    Em Ng e Cardie (2002b) apresenta-se um sistema de correferncia de sintagmas

    nominais que estende o trabalho de Soon; Ng; Lim (2001) e produz melhores resultados para

    o conjunto de dados de resoluo de correferncia do MUC-6 (MUC-6, 1995) e do MUC-7

    (MUC-7, 1997). Ng e Cardie, ento, estenderam o conjunto de caractersticas de Soon; Ng;

    Lim (2001) de 12 caractersticas para um conjunto mais amplo de 53 caractersticas, sendo

    caractersticas lxicas, semnticas, e baseadas em conhecimento; alm de 26 caractersticas

    gramaticais que incluem uma variedade de restries lingsticas e preferncias.

    Em Muller; Rapp; Strube (2002) relata-se a realizao de alguns experimentos com o

    algoritmo de Aprendizado de Mquina Supervisionado Co-treinamento15. Com o intuito de

    verificar se o algoritmo de Co-Treinamento pode reduzir significativamente a quantidade de

    trabalho manual de etiquetagem e ainda produzir um classificador com um desempenho

    aceitvel. Para isso, utilizou-se um corpus com 250 textos em alemo sobre locais tursticos,

    eventos histricos e pessoas em Heidelberg. As caractersticas utilizadas por Muller; Rapp;

    Strube foram consideradas como independentes do domnio, distinguiu-se entre as

    caractersticas atribudas a sintagmas nominais, tais como funo gramatical do antecedente e

    do anafrico, e as caractersticas atribudas relao de correferncia potencial, tais como a

    distncia entre o anafrico e o antecedente em palavras e em sentenas, totalizando um

    conjunto de 17 caractersticas.

    Strube; Rapp; Muller (2002) mostram uma abordagem de rvore de deciso16 que

    utiliza um conjunto de caractersticas usadas em trabalhos prvios em experimentos de

    resoluo de correferncia (SOON; NG; LIM, 2001; CARDIE, WAGSTAFF, 1999;

    15 um algoritmo que utiliza exemplos de treinamento no etiquetados, alm dos etiquetados para o aprendizado

    do classificador. 16

    Algoritmo de classificao de rvores de deciso j48, o qual uma re-implementao em Java do C4.5.

  • 34

    MCCARTHY, LEHNERT, 1995) e caractersticas adicionais independentes de domnio

    baseadas na mnima distncia de edio (MEC) entre strings. Nesse estudo, analisaram-se o

    desempenho desse conjunto de caractersticas para as diferentes formas de expresses

    anafricas, encontrando bons resultados para pronomes, resultados moderados para nomes

    prprios e resultados pobres para sintagmas nominais definidos. Strube; Rapp; Muller

    analisaram tambm a influncia das caractersticas baseadas na distncia mnima de edio

    (MEC) entre o anafrico e o antecedente na resoluo de referncia, que so computadas pelo

    nmero de substituies, inseres, delees e pelo comprimento do antecedente em potencial

    ou do anafrico.

    Uryupina (2003) desenvolveu um sistema para identificao automtica de entidades

    novas no discurso e nicas, com base no discurso e no ouvinte utilizando o algoritmo de

    aprendizado de mquina RIPPER (COHEN, 1995). Nesse sentido, classificaram-se as

    entidades em novas no discurso17 e velhas no discurso, e as expresses em referidas

    unicamente18 e referidas no unicamente. Para isso, utilizou-se um corpus pequeno de

    treinamento do MUC-7 (MUC-7, 1997), alm de alguns dados da Internet. Uryupina usou

    trinta e duas caractersticas para a realizao dos experimentos, que esto divididas em

    caractersticas sintticas, como a identificao de apostos; caractersticas de contexto, como o

    clculo da distncia entre um determinado sintagma nominal e o seu antecedente em potencial

    de mesmo ncleo; e caractersticas de probabilidade definida, onde para cada expresso

    buscou-se na internet19 o nmero de pginas que contenham tal expresso.

    Poesio et al. (2005) reexaminaram a literatura referente resoluo de anforas

    (VIEIRA; POESIO, 2000; NG; CARDIE, 2002a; URYUPINA, 2003) e propuseram um

    algoritmo revisado que incorpora um novo conjunto de caractersticas para a descoberta de

    17 Entidades novas no discurso quando se refere um objeto ou pessoa no mencionada previamente no discurso.

    18 Expresses so nicas quando especificam completamente o seu referente, sendo interpretada sem qualquer

    contexto. 19

    Site de busca do Alta Vista, disponvel em: http://www.altavista.com/

  • 35

    descries definidas novas no discurso. Este algoritmo segue dois passos: primeiro,

    executado o algoritmo de resoluo de anforas diretas de Vieira e Poesio (2000), alm de

    outras caractersticas de deteco das expresses novas no discurso da literatura, que sero as

    caractersticas de entrada para o classificador. Segundo, um classificador baseado em rvores

    de deciso (implementao do C4.5 incluindo a biblioteca da Ferramenta Weka 3.4)

    utilizado para classificar as descries definidas como anafricas (caso tenha sido encontrado

    um antecedente no primeiro passo) ou novas no discurso. As caractersticas de entrada das

    descries definidas baseiam-se no reconhecimento de predicativos (construes copulares,

    aposto); nomes prprios; funcionalidade (superlativo); clusulas relativas e posio no texto.

    Os trabalhos relacionados com resoluo de anforas apresentam propostas para o

    tratamento de diferentes tipos de anforas com diferentes conjuntos de caractersticas

    analisadas. Cabe ressaltar que, as caractersticas utilizadas para a resoluo das descries

    definidas nestes trabalhos sero identificadas e utilizadas na construo das rvores de

    deciso, na busca da melhor combinao destas caractersticas para a classificao das

    descries definidas novas no discurso, com base no corpus anotado manualmente.

    Cabe ressaltar que, todos os trabalhos citados acima se referem a outras lnguas

    diferentes da Lngua Portuguesa. Para a Lngua Portuguesa existem estudos de corpora sobre

    correferncia, mas esses trabalhos no implementam resoluo ou classificao automtica

    (SALMON-ALT, VIEIRA, 2002; VIEIRA; SALMON-ALT; SCHANG, 2002; VIEIRA et al.,

    2003; VIEIRA; GASPERIN; GOULART, 2003).

    2.7 Consideraes Finais

    Neste captulo foram apresentados conceitos importantes de lingstica e computao.

    Com base nestes conceitos, possvel perceber a importncia da identificao de expresses

    referenciais que no possuem antecedentes.

  • 36

    Na literatura encontramos vrios trabalhos que apresentam algoritmos que tratam a

    resoluo de anforas de sintagmas nominais e partem da investigao de suas caractersticas

    tanto sintticas quanto semnticas na busca de um bom classificador. Entre os algoritmos de

    classificao, destacam-se os de rvores de deciso (seo 2.5) por serem mais adequados

    para a anlise da relevncia de caractersticas. Partimos de estudos realizados em outras

    lnguas, especialmente na Lngua Inglesa, com o objetivo de investigar quais caractersticas

    so mais significativas para o processo de classificao das descries definidas. Algumas das

    caractersticas analisadas nos trabalhos relacionados so ilustradas na Tab. 2.2.

    rvores de deciso so importantes para a investigao de atributos relevantes para a

    classificao das descries definidas.

    Tabela 2.2 Algumas caractersticas de trabalhos relacionados.

    Mccarthy; Lehnert

    Bean; Riloff

    Cardie; Wagstaff

    Vieira; Poesio

    Soon; Ng; Lim

    Ng; Cardie

    Poesio et al

    SP20 SP21 SP21 APO20 APO APO20 APO APO20

    APO_NP22 APO_NP23 APO_NP22 APO_NP23 APO_NP22 APO_NP23 REL20 REL21 REL REL21

    NP_COM22 NP_COM22 NP_COM24 NP_COM22 NP_COM NP_COM24 PRE_ADJ25 PRE_ADJ PRE_NUM PRE_NUM SUP25 SUP SUP COP COP

    PRI_SENT PRI_SENT PRI_SENT PRI_SENT

    CARACTERSTICAS

    SEM_ANT SEM_ANT SEM_ANT SEM_ANT

    20 Caractersticas de um mesmo grupo.

    21 Caractersticas de um mesmo grupo sendo analisadas como ps modificadores restritivos.

    22 Analisam somente a presena de um nome prprio.

    23 Caracterstica sendo analisada como modificador nome prprio.

    24 Ncleo nome prprio simples.

    25 Caractersticas mais restritivas (por exemplo, listas de predicados especiais).

    Legenda:

    SP: sintagma preposicional; SUP: superlativo; APO: aposto; COP: construo copular; APO_NP: nome prprio com funo de aposto; PRI_SENT: primeira sentena; NP_COM: ncleo nome prprio composto; REL: clusula relativa; PRE_ADJ: pr modificador adjetivo; PRE_NUM: pr modificador nmero; SEM_ANT: verificao de um antecedente.

  • 37

    3. Materiais e Mtodos

    Este captulo apresenta o corpus e as ferramentas utilizadas nos experimentos: o

    analisador sinttico PALAVRAS, usado na anlise gramatical dos textos; a ferramenta

    Xtractor que converte a anlise para o cdigo XML; a ferramenta MMAX, usada na marcao

    manual do corpus; a ferramenta ART que trata a resoluo de anforas; a ferramenta Weka,

    constituda de uma coleo de algoritmos de aprendizado de mquina. Aps, os grupos de

    caractersticas usados para a classificao e o processo de identificao automtica das

    descries definidas so mostrados. Por fim, a metodologia proposta para o aprendizado

    descrita, alm da implementao das rvores de deciso no ambiente ART.

    3.1 Descrio do Corpus

    Neste trabalho, foram utilizados dois corpora. O primeiro (corpus 1) constitui-se de

    um extrato do corpus NILC26, formado por um conjunto de 24 textos jornalsticos da Folha de

    So Paulo, escritos em portugus do Brasil. Cada documento um arquivo texto (formato

    ASCII) com tamanho entre 1 Kbytes e 6 Kbytes, com um mnimo de 186 palavras e um

    mximo de 1089 palavras, totalizando 11042 palavras. O corpus contm 2319 sintagmas

    nominais, sendo que 1411 so descries definidas. Estas informaes so apresentadas na

    Tab 3.1.

    TABELA 3.1 Informaes sobre o corpus 1. Corpus N

    Textos Tamanho N total de

    Palavras N Sintagmas Nominais

    N Descries Definidas

    corpus 1 24 de 1 6 Kb 11042 2319 1411

    26 Ncleo Interinstitucional de Lingstica Computacional. Disponvel em http://www.nilc.icmp.usp.br/nilc

  • 38

    Alm deste, outro corpus (corpus 2) ser utilizado para validao dos experimentos, o

    qual constitui-se de um extrato do corpus Pblico (SANTOS, 2000) formado por 4 textos

    retirados do jornal Pblico, escritos no portugus europeu. Cada documento um arquivo

    texto (formato ASCII) com tamanho entre 2 Kbytes e 9 Kbytes, com um mnimo de 201

    palavras e um mximo de 1356 palavras, totalizando 3627 palavras. O corpus contm 777

    sintagmas nominais, sendo que 483 so descries definidas. Estas informaes so

    apresentadas na Tab 3.2.

    TABELA 3.2 Informaes sobre o corpus 2. Corpus N

    Textos Tamanho N total de

    Palavras N Sintagmas

    Nominais N Descries

    Definidas corpus 2 4 de 2 9 Kb 3627 777 483

    Os corpora usados foram anotados com informaes de correferncia. A ferramenta

    MMAX foi utilizada para a realizao da anotao manual e ser descrita na seo 3.3. Os

    seguintes estudos de corpora esto relacionados com este trabalho e foram desenvolvidos com

    a ajuda da ferramenta MMAX: (SALMON-ALT, VIEIRA, 2002; VIEIRA; SALMON-ALT;

    SCHANG, 2002; VIEIRA et al., 2003; VIEIRA; GASPERIN; GOULART, 2003).

    A anotao manual do corpus 1 foi realizada inicialmente por dois anotadores

    (Cassiano Ricardo Haag e Terezinha Margarete da Silva) em quatro etapas. Em um primeiro

    momento, foram anotadas as descries definidas, considerando-se que uma descrio

    definida pode conter outras descries definidas, por exemplo, A lista do banqueiro do jogo

    do bicho, o banqueiro do jogo do bicho, o jogo do bicho. Em um segundo momento,

    foi analisada a correferncia das expresses, sendo estas classificadas como correferentes e

    no correferentes. Em um terceiro momento, as descries definidas correferentes foram

    classificadas como anafricas diretas e anafricas indiretas, sendo que para estas foram

    apontados os respectivos antecedentes. Em uma etapa final, as descries definidas no

    correferentes, foram classificadas em novas no discurso e anafricas associativas, sendo que,

  • 39

    para as anafricas associativas foram apontadas as expresses em que estas esto ancoradas

    semanticamente (antecedentes). Essa anotao foi revisada pelo anotador Jorge Cesar Barbosa

    Coelho.

    No corpus 2, a anotao manual foi realizada pelo anotador Jorge Cesar Barbosa

    Coelho, seguindo as mesmas etapas do corpus 1.

    Na prxima seo apresentado o analisador sinttico usado na anlise gramatical dos

    textos e a ferramenta Xtractor que converte a anlise para o cdigo XML.

    3.2 PALAVRAS e Xtractor

    Em muitas aplicaes de PLN, necessrio utilizar um analisador sinttico, que

    trabalha em nvel de sentena ou sintagma e reconhece uma seqncia de palavras como

    constituintes de uma frase da lngua construindo uma rvore de derivao, que explicita as

    relaes entre as palavras que compem a sentena.

    Neste trabalho foi utilizado o analisador sinttico PALAVRAS (BICK, 2000), uma

    ferramenta robusta utilizada para a anlise sinttica do portugus. A partir da sada deste

    analisador sinttico, a ferramenta Xtractor27 (GASPERIN et al., 2003) gera trs arquivos

    XML (eXtensible Markup Language).

    O primeiro o arquivo bsico de palavras (words); o segundo o arquivo com as

    categorias morfossintticas (POS Part of Speech) das palavras do corpus; e por fim o

    terceiro o arquivo com as estruturas sintticas das sentenas (chunks). Um chunk pode

    possuir sub-elementos chunks com informaes das sub-estruturas da sentena. Para

    exemplificar, segue a descrio definida O Othon Palace Hotel e seus arquivos de word

    (FIGURA 3.1), POS (FIGURA 3.2) e chunks (FIGURA 3.3).

    27 A Ferramenta Xtractor engloba a anlise do corpus a partir do analisador sinttico PALAVRAS, o tratamento

    da sada do analisador sinttico, com a gerao dos trs arquivos XML.

  • 40

    .....

    .....

    .....

    .....

    .....

    .....

    .....

    o Othon_Palace_Hotel .....

    FIGURA 3.1 Arquivo de words.

    FIGURA 3.2 Arquivo de POS.

    FIGURA 3.3 Arquivo de chunks.

    Neste trabalho, os atributos dos sub-elementos chunks sero utilizados na identificao

    das caractersticas das descries definidas, que sero mostradas na seo 3.7. Portanto, cabe

    ressaltar que as informaes de interesse dos sub-elementos chunks so:

    Atributo ext: representa a funo sinttica do chunk, por exemplo, sentena

    ou enunciado (ext=sta); sujeito (ext=subj); ncleo (ext=h).

    Atributo form: representa a forma ou estrutura morfossinttica do chunk, tais

    como: clusula finita (form=fcl); sintagma nominal (form=np); substantivo (form=n).

  • 41

    Na seo que segue apresentada a ferramenta MMAX que usada neste estudo para

    a anotao manual dos corpora utilizados.

    3.3 MMAX

    Para a anotao manual de corpus, utilizou-se a ferramenta MMAX (Multi-Modal

    Annotation in XML) (MULLER, STRUBE, 2000). Essa ferramenta utiliza o arquivo de words,

    gerado pela ferramenta Xtractor que contm todas as palavras do corpus associadas a um

    identificador (FIGURA 3.1). Ela tambm utiliza um segundo arquivo que contm a estrutura

    do corpus (pargrafos, sentenas, cabealhos etc.).

    O resultado do processo de anotao no MMAX um arquivo que contm a anotao

    de correferncia. As marcaes so codificadas como elementos markables, cujo atributo

    span indica as palavras que formam a expresso, o atributo pointer indica o identificador do

    antecedente; alm desses atributos; outros atributos podem ser especificados pelo pesquisador.

    Em (GOULART; GASPERIN; VIEIRA, 2004) utilizou-se o atributo classification que

    corresponde classificao anafrica da expresso.

    Para exemplificar, segue o trecho de um dos textos do corpus 1:

    (1) Segundo a Confederao Nacional dos Bispos do Brasil CNBB, a Igreja Catlica

    perde em mdia, s no Brasil, 600 mil fiis para outras religies(i). [..] No incio do ano, ele

    enviou ao Brasil 50 discpulos que se hospedaram no Othon Palace Hotel, em So Paulo(ii).

    Observamos que no exemplo (1) temos duas sentenas: sentena (i) corresponde ao

    span "word_276..word_297" e sentena (ii) corresponde ao span "word_698..word_721" no

    arquivo da estrutura do corpus (Figura 3.4).

    Para uma melhor compreenso do arquivo resultante com as marcaes desse estudo,

    analisemos as marcaes das descries definidas sublinhadas na sentena (ii) ilustrada na

    FIGURA 3.5. A expresso o Brasil (atributo span="word_708..word_709") possui como

  • 42

    .....

    .....

    .....

    .....

    .....

    .....

    .....

    antecedente a expresso o Brasil que est destacada (em negrito) na sentena (i) (atributo

    pointer="markable_36"), a forma de descrio definida (atributo form="defnp"), a

    classificao de anafrica direta (atributo classification="direct"), pois o seu antecedente

    possui o mesmo nome-ncleo da expresso (nome-ncleo Brasil) e a classificao de

    correferente porque a expresso analisada e o seu antecedente se referem mesma entidade

    (atributo coreference="coreferent"). J a expresso o Othon Palace Hotel (atributo

    span="word_716..word_717) no possui um antecedente por ser a primeira manifestao da

    expresso no discurso (atributo pointer=") e possui a forma de descrio definida (atributo

    form="defnp"). Consequentemente, a expresso classificada como nova no discurso

    (atributo classification="discourse_new") e no correferente (atributo

    coreference="non_coreferent).

    FIGURA 3.4 Arquivo da Estrutura.

    FIGURA 3.5 Arquivo de Marcaes.

    As ferramentas apresentadas (PALAVRAS, Xtractor, MMAX) so utilizadas no

    contexto desse trabalho no processo de identificao automtica das caractersticas das

  • 43

    descries definidas (seo 3.8) e na metodologia proposta para o processo de aprendizado

    (seo 3.9).

    Na seo que segue so apresentadas a ferramenta ART, que trata a resoluo de

    anforas, e a ferramenta Weka, formada por um conjunto de algoritmos de AM.

    3.4 ART

    ART (Anaphor Resolution Tool) uma ferramenta para resoluo de expresses

    anafricas, entre elas as descries definidas, onde o processo de resoluo das anforas

    baseado em heursticas (GOULART; GASPERIN; VIEIRA, 2004). Ela foi desenvolvida em

    Java e para os seus dados de entrada e sada adotou-se a linguagem de marcao XML,

    seguindo formatos MMAX (seo 3.3). Utiliza informaes adicionais baseadas na anlise

    sinttica do analisador sinttico PALAVRAS (seo 3.2) para o portugus.

    A arquitetura da ferramenta baseada em pipes & filters (GAMMA, 1995),

    constituindo-se de um conjunto de trs etapas com uma ou mais tarefas codificadas atravs de

    da linguagem XSL (FIGURA 3.6).

    Na primeira etapa, denominada Input Analysis, a partir dos arquivos de Words, de POS

    e de Chunks so extrados os nodos anafricos (anaphor) (A), onde o atributo span

    corresponde a cada descrio definida do texto (FIGURA 3.7). Nesse passo tambm so

    extrados os nodos candidatos a antecedentes (candidate) (B), onde o atributo span

    corresponde aos sintagmas nominais do texto (FIGURA 3.8).

    A prxima etapa utiliza a base de resoluo de heursticas (Resolution Heuristics

    Base) composta por um conjunto de regras que implementam as heursticas para resoluo de

    correferncia (regras R1 Rn) e filtram os nodos anafricos (anaphor) em busca dos seus

    antecedentes (VIEIRA; SALMON-ALT; SCHANG, 2002).

  • 44

    Input Analysis

    Resolution Heuristics Base

    Output Generation

    Words POS Chunks

    C

    Output

    Rn

    A

    R2

    R1

    B

    Na ltima etapa, chamada Output Generation, os resultados da ferramenta ART so

    adaptados para o mesmo formato utilizado pela ferramenta MMAX (elementos markables)

    (C) (FIGURA 3.9), com o intuito de possibilitar a comparao dos resultados da marcao

    automtica e da marcao manual (GASPERIN; GOULART; VIEIRA, 2003).

    FIGURA 3.6 Arquitetura da Ferramenta ART (GOULART; GASPERIN; VIEIRA, 2004).

    Para exemplificar as etapas descritas, retomemos no exemplo (1) a sentena (ii) e

    analisemos as descries definidas o Brasil (span ="word_708..word_709") e o Othon

    Palace Hotel (span ="word_716..word_717) contidas nesta sentena. Na FIGURA 3.7

    apresentado um trecho do arquivo de anforas, onde foram extradas as descries definidas

    citadas. J na FIGURA 3.8 mostrado um trecho do arquivo de candidatos a antecedentes

    (todos os sintagmas nominais). Para finalizar, na FIGURA 3.9, apresentado um trecho do

    arquivo de marcaes, com o resultado da ferramenta ART, correspondente s descries

  • 45

    .....

    o incio de o ano o ano o Brasil 50 discpulos que se hospedaram em o Othon_Palace_Hotel , em So_Paulo o Othon_Palace_Hotel .....

    .....

    .....

    .....

    o Brasil

    o Othon_Palace_Hotel .....

    definidas tomadas como exemplo, seguindo o mesmo formato da sada do MMAX (FIGURA

    3.5).

    FIGURA 3.7 Arquivo de Anafricas.

    FIGURA 3.8 Arquivo de Candidatos a Antecedentes.

    FIGURA 3.9 Arquivo de Marcaes.

    3.5 Weka

    Nesta seo descrita a ferramenta Weka que se constitui de um conjunto de

    implementaes de algoritmos de aprendizado de mquina.

  • 46

    @RELATION descrio_definida @ATTRIBUTE atributo_1 {TRUE, FALSE}. @ATTRIBUTE atributo_2 {TRUE, FALSE} @ATTRIBUTE atributo_3 {TRUE, FALSE}. @ATTRIBUTE atributo_4 {TRUE, FALSE}. @ATTRIBUTE class {nova_discurso, outra}

    @DATA TRUE,FALSE,TRUE,FALSE,nova_discurso FALSE,TRUE,FALSE,FALSE,nova_discurso FALSE,FALSE,FALSE,FALSE,outra FALSE,FALSE,FALSE,FALSE,outra ..................

    O pacote Weka28 (Waikato Environment for Knowledge Analysis) foi desenvolvido

    pela Universidade de Waikato, na Nova Zelndia e formado por um conjunto de

    implementaes de algoritmos de Minerao de Dados (WITTEN; FRANK, 2000). O pacote

    est implementado na linguagem Java, que tem como principal caracterstica ser portvel,

    podendo rodar nas mais variadas plataformas e aproveitar os benefcios de uma linguagem

    orientada a objetos, como modularidade, polimorfismo, encapsulamento, reutilizao de

    cdigo, dentre outros; alm disso, um software de domnio pblico.

    O Weka possui um formato prprio, o ARFF, que consiste basicamente de duas partes.

    A primeira parte contm uma lista de todos os atributos, onde se define o tipo do atributo ou

    os valores que ele pode representar (ao utilizar os valores esses devem estar entre {} e

    separados por vrgulas). A segunda parte consiste das instncias, ou seja, os registros a serem

    minerados; com o valor dos atributos para cada instncia separado por vrgula; a ausncia de

    um item em um registro deve ser representada pelo smbolo ?. Para exemplificar, a

    FIGURA 3.10 ilustra um arquivo no formato ARFF.

    FIGURA 3.10 Arquivo no formato ARFF.

    A ferramenta Weka alm de possuir mtodos de classificao e de predio numrica,

    dispe tambm de 4 tipos diferentes de validao desses mtodos:

    28 O Weka est disponvel em http://www.cs.waikato.ac.nz/ml/weka/

  • 47

    Use trainning set: no efetuar a diviso. Usar para testar o modelo o mesmo

    conjunto usado para a sua construo.

    Supplied test set: usar um conjunto de teste especfico.

    Cross-Validation n-fold: validao cruzada29 em n-folds.

    Percentage split: treinar o modelo numa percentagem do conjunto de exemplos e

    testar na restante.

    Nesta dissertao, a ferramenta Weka utilizada no processo de aprendizado, na etapa

    de classificao das descries definidas, com a aplicao do algoritmo de rvores de deciso

    J48, que uma re-implementao em Java do algoritmo C4.5 (QUINLAN, 1993) nessa

    ferramenta. O algoritmo j48 no necessita de um ponto inicial de busca; dessa forma pode ser

    executado apenas uma vez. Entre as funcionalidades do algoritmo j48 temos: a incorporao

    de atributos numricos (contnuos); os valores nominais (discretos) de um atributo podem ser

    agrupados de maneira a permitir testes mais complexos; possui poda (post-pruning) das

    rvores para aumentar a preciso; permite lidar com informao incompleta (missing attribute

    values), entre outros. Os valores dos parmetros de treinamento deste algoritmo podem ser os

    sugeridos pela ferramenta (fator de confiana de poda (CF) igual a 0,25; nmero mnimo de

    instncias por folha igual a 2 etc.) ou podem ser alterados quando necessrio.

    Aps a escolha do mtodo de classificao e da forma de validao na ferramenta

    Weka, esta fornece uma avaliao dos resultados com base em algumas medidas de avaliao

    do desempenho. Algumas destas medidas sero descritas na seo seguinte.

    3.6 Avaliao

    A avaliao de sistemas de PLN exige um domnio abrangente sobre o problema em

    observao para possibilitar ou o desenvolvimento de metodologias prprias de avaliao ou

    29 Validao Cruzada: os exemplos so aleatoriamente divididos em r folds de tamanho n/r exemplos. Os

    exemplos sobre (r-1) folds so usados para treinamento e a hiptese induzida testada no fold remanescente.

  • 48

    Abrangncia = n_acertos_classe

    n_classe

    Preciso = n_acertos_classe

    n_classificados_classe

    o bom uso de medidas j existentes. Segundo SANTOS (2001) s possvel o

    desenvolvimento de uma boa avaliao se o problema analisado for quantificado e suas

    vantagens de uso identificadas.

    Para o desenvolvimento de um mtodo de classificao existem vrias questes

    importantes em relao ao seu desempenho, tanto durante a sua construo como na sua

    utilizao.

    No contexto deste trabalho, aps o processo de aprendizado (seo 3.9), a resoluo

    das rvores implementadas avaliada utilizando medidas de desempenho. As medidas de

    avaliao de desempenho utilizadas aqui so adotadas da rea de Recuperao de Informao

    (RI). Dentre as medidas mais importantes para a avaliao dos resultados e do desempenho

    esto abrangncia, preciso e F-measure (KORFHAGE, 1997; KOWALSKI, 1997); e podem

    ser obtidas atravs das seguintes relaes:

    Abrangncia: a razo do nmero de acertos da classe pelo nmero total de itens

    da classe, expressa na frmula mostrada na FIGURA 3.11:

    FIGURA 3.11 Abrangncia.

    Preciso: representa o grau de confiana de um mtodo de classificao, o que

    torna a medida mais importante e necessria em qualquer tarefa de induo. geralmente

    calculada como a razo entre o nmero de exemplos corretamente classificados sobre o

    nmero total de exemplos classificados na classe, ilustrada na frmula descrita na FIGURA

    3.12:

    FIGURA 3.12 Preciso.

  • 49

    F = (2 + 1) * P*C

    2 * (P + C)

    A anlise de avaliao deve considerar tanto preciso quanto abrangncia. Por isso,

    uma medida que combine os valores de preciso e de abrangncia obtendo o desempenho

    geral do sistema, deve ser adotada. Neste trabalho, empregamos a medida F-measure que

    permite um balanceamento entre os valores de preciso e abrangncia atravs da expresso na

    seguinte frmula (FIGURA 3.13) em que o parmetro que permite a atribuio de

    diferentes pesos para as medidas de preciso (P) e abrangncia (C), sendo 1 o valor

    freqentemente utilizado. O valor do F-measure (F) maximizado quando a preciso e a

    abrangncia so iguais ou muito prximas, assumindo por definio, o prprio valor da

    preciso ou da abrangncia, representando o ponto de equilbrio do sistema.

    FIGURA 3.13 F-measure.

    Alm dessas medidas, utilizamos o percentual de acertos para a avaliao.

    3.7 Grupos de Caractersticas das descries definidas

    Um estudo de corpus foi realizado para analisar aspectos estruturais das descries

    definidas com o objetivo de identificar as caractersticas que podem sinalizar as expresses

    novas no discurso. Este estudo partiu de trabalhos realizados na Lngua Inglesa (VIEIRA,

    1998), de um estudo inicial para a Lngua Portuguesa (COLLOVINI; GOULART; VIEIRA,

    2004) e da anlise das possveis configuraes para as descries definidas da Lngua

    Portuguesa (seo 2.4). Dessa forma, algumas caractersticas previamente identificadas para o

    ingls foram verificadas para a Lngua Portuguesa. Alm destas, novas caractersticas foram

    adicionadas.

  • 50

    As caractersticas foram organizadas em trs grupos para examinar melhor o desempenho de cada aspecto. O primeiro grupo composto por caractersticas relacionadas especificamente estrutura da descrio definida. No segundo grupo, reunimos as caractersticas que envolvem a anlise da sentena. E o terceiro baseia-se na anlise do texto.

    Dessa forma, com a anlise de corpus observamos que a primeira manifestao de uma descrio definida ocorre de modo mais completo do que as demais. Por isso, os elementos

    complementares elementos que se integram ao nome ncleo para complet-lo ou aperfeio-

    lo foram selecionados como caractersticas do primeiro grupo (Grupo 1).

    Analisamos tambm as relaes que ocorrem em descries definidas com verbos de ligao (ser, estar, permanecer etc.) denominadas construes copulares, pois composies mais completas podem sinalizar a primeira manifestao de um referente no texto. A verificao de construes copulares compe o segundo grupo de caractersticas (Grupo 2). Entendendo que expresses da primeira sentena no possuem antecedentes, elaboramos uma caracterstica que analisa a posio da sentena e que faz parte do segundo grupo (Grupo 2). Seguindo o princpio de que descries definidas novas no discurso no apresentam antecedentes foi desenvolvida, ento, uma caracterstica que busca um antecedente no texto (Grupo 3).

    Estes grupos de caractersticas das descries definidas so descritas a seguir.

    1. Caractersticas baseadas na estrutura do sintagma (GRUPO 1):

    Caracterstica 1 (SP): descries definidas acompanhadas de um sintagma

    preposicional, ps-modificador (restritivo). Por exemplo:

    A tarde de ontem.

    Nesses casos, um ps-modificador restritivo sucede o ncleo restringindo-o. Um

    modificador restritivo permite que o referente seja identificado atravs da informao do

    modificador (neste caso, um sintagma preposicional) que especifica a informao do ncleo,

    no sendo necessrio recorrer a um antecedente para a sua interpretao.

    Caracterstica 2 (APO): descries definidas constitudas de construes de apostos

    com marca explcita. Por exemplo:

  • 51

    O prefeito de Gravata, Daniel Luiz Bordignom.

    No corpus estudado, por tratar-se de textos jornalsticos, so relatadas informaes

    explicativas (sobre locais, pessoas, empresas, eventos etc.), sendo que uma caracterstica

    observada nesses textos a presena de construes de aposto que geralmente introduzem um

    novo referente no discurso, sendo auto-explicativas.

    Caracterstica 3 (APO_NP): descrio definida acompanhada de um nome prprio

    constituindo um aposto sem marca explcita. Por exemplo:

    O delegado Elson Campelo.

    No corpus estudado, uma caracterstica observada nos textos a construo de

    descries definidas com ncleo sendo um nome comum (substantivo comum), seguido de

    um nome prprio com funo de aposto e geralmente tratando-se de um novo referente no

    discurso.

    Caracterstica 4 (REL): descries definidas acompanhadas de uma clusula

    relativa. Por exemplo:

    O texto que deve ser assinado pelos jornalistas.

    No corpus estudado uma caracterstica observada nos textos a presena de clusulas

    relativas modificando um nome e que geralmente introduzem um novo referente no discurso.

    Caracterstica 5 (NP_COM): descrio definida com o ncleo sendo um nome

    prprio composto. Por exemplo:

    O Othon Palace Hotel.

    No corpus estudado, verificamos que as estruturas com nomes prprios compostos

    coincidem, predominantemente, com a classe nova no discurso. Geralmente, na continuidade

    do texto, as expresses que retomam descries definidas com nomes prprios compostos o

    fazem com apenas um dos nomes prprios ou com termos sinnimos.

  • 52

    Caracterstica 6 (SA): descrio definida acompanhada de um sintagma adjetival,

    ps-modificador (restritivo). Por exemplo:

    As conversas mais antigas.

    Um ps-modificador restritivo sucede o ncleo limitando-o e permite que o referente

    seja identificado atravs da informao do modificador (neste caso, um sintagma adjetival)

    que especifica a informao do ncleo.

    Caracterstica 7 (PRE_ADJ): descrio definida que apresenta um adjetivo

    anteposto ao ncleo, pr-modificador (restritivo). Por exemplo:

    O primeiro grau.

    Um pr-modificador restritivo antecede o ncleo, limitando-o e especificando a

    informao do ncleo.

    Caracterstica 8 (PRE_NUM): descrio definida composta por um numeral

    anteposto ao ncleo, pr-modificador (restritivo). Por exemplo:

    Os 65 anos.

    Essa caracterstica entende como numeral os nmeros cardinais, ordinais,

    multiplicativos e fracionrios.

    Caracterstica 9 (NUM): descrio definida que apresenta aps o ncleo um

    numeral, ps-modificador (restritivo). Por exemplo:

    Os anos 60.

    Os nmeros cardinais, ordinais, multiplicativos e fracionrios fazem parte do conceito

    de numeral dessa caracterstica.

    Caracterstica 10 (DET): descrio definida que possui, alm do artigo definido,

    outro(s) determinante(s). Por exemplo:

    Os nossos arquelogos.

  • 53

    Ao lado do artigo definido, podem atuar como determinantes pronomes indefinidos

    (todos, outros, poucos etc.), possessivos (seu, nossos, meu etc.), demonstrativos (mesmo,

    outro, demais etc.).

    Caracterstica 11 (SUP): descrio definida acompanhada de um superlativo. Por

    exemplo:

    Os melhores alunos.

    Superlativo uma palavra que expressa uma qualidade (adjetivo) em um grau elevado

    ou no mais elevado grau.

    Caracterstica 12 (SUP_A): descrio definida que descreve o grau mximo de

    qualidade (adjetivo), representando o maior ndice de uma escala. Por exemplo:

    O Christofle lquido o melhor.

    Uma descrio definida com essa caracterstica de