A CONCORDÂNCIA NOMINAL E O REVISOR GRAMATICAL … › livros › pt › cp036943.pdfsoftwares de...

127
HENRIETTE MARCEY ZANINI A CONCORDÂNCIA NOMINAL E O REVISOR GRAMATICAL ELETRÔNICO DO WORD Cuiabá 2007

Transcript of A CONCORDÂNCIA NOMINAL E O REVISOR GRAMATICAL … › livros › pt › cp036943.pdfsoftwares de...

  • HENRIETTE MARCEY ZANINI

    A CONCORDÂNCIA NOMINAL E O REVISOR GRAMATICAL ELETRÔNICO DO WORD

    Cuiabá 2007

  • HENRIETTE MARCEY ZANINI

    A CONCORDÂNCIA NOMINAL E O

    REVISOR GRAMATICAL ELETRÔNICO DO WORD

    Dissertação apresentada ao Programa de Mestrado em Estudos de Linguagem da Universidade Federal de Mato Grosso – UFMT, como requisito parcial para obtenção do título de Mestre em Estudos de Linguagem. Área de concentração: Estudos Lingüísticos

    Orientadora: Profª. Drª. Alice Maria Teixeira Saboia

    Instituto de Linguagens da UFMT Cuiabá 2007

  • Dedico e agradeço...

    A Wendy e Tayná, amores e razões primeiras de todo meu viver.

    A minha mãe, Marley, guerreira que, entre outras coisas, me ensinou a nunca desistir, por mais árdua, longa e acidentada se mostrasse a minha trilha.

    A meu pai, Toni, onde quer que ele se encontre depois de ter partido para os Campos Elíseos. Demorou, mas hoje eu sei que ele realmente acreditava que eu podia realizar qualquer coisa que me propusesse a fazer.

    A minha irmã Andréa, que, uma semana antes da minha defesa, foi levada para trabalhar no departamento dos anjos de Deus. Minha maior incentivadora, em tudo!

    Aos meus irmãos, Luiz Francisco, Jeancarlo e Thiago (e suas famílias), por terem, principalmente, “agüentado” minhas reclamações, meu cansaço, muitas vezes meu desânimo, e porque sem eles, ao meu lado, sou menos gente.

    Ao Toninho, que de um modo muito especial também me acompanhou nessa jornada.

    A minha avó, Natalina Ellert, que aos 91 anos teima em dizer a todos com quem conversa que, agora, eu sou “doutora”; a minha tia Sirley, que soube entender minhas angústias e acalmar meu coração; a minha tia Leda, com quem aprendi a amar os livros e a música.

    A minha amiga-irmã Vera Lúcia Eilert, por seu incentivo constante e fé absoluta no “meu poder”, e pelos fichamentos que me ajudou a fazer.

    Às minhas amigas do coração, Tereza Sartori, Terezinha Konopaktzi, Irene Cajal, Luzia Guimarães, Vera Lúcia Lopes, Mariângela Sola López Díaz, Sônia Zaramella, Ana Maria de Souza e Maura Guimarães. Cada uma, à sua maneira, me apoiou, me ajudou, me “empurrou”, iluminando meu caminhar.

    Aos amigos queridos, Lívio Wogel, Delarim Martins Gomes e Javier Eduardo López Díaz, pelo “ombro” e pela ajuda incondicional sempre que precisei.

    À minha turma do Mestrado, amigos inesquecíveis, meus Professores de Vida: Carmen Hornick, Caroline Akie, Degmar dos Anjos, Edsônia Melo, Marcelo Silvestrim, Neusa Phillipsen, Paula Jeorgea, Rodney Mendes de Arruda e Ruth Dourado.

    A meus professores, formadores de mais um pouco de mim: Denise Dal’Bello, Lúcia Helena Vendrúsculo Possari, Manoel Mourivaldo, Marcos Moura Vieira, Maria Inês Pagliarini Cox, Maria Rosa Petroni e Marieta Prata.

    À minha professora-orientadora Profª. Drª. Alice Maria Teixeira Sabóia que, sem me conhecer e contra todas as probabilidades, acreditou firmemente que eu pudesse fazer um trabalho de qualidade.

    Agradeço, em especial, à banca de avaliação: Profª. Drª. Maria Inês Pagliarini Cox e Prof. Dr. Cláudio Cezar Henriques, por tão generosamente despenderem seu tempo para compartilharem comigo uma parte do seu imenso conhecimento.

    Henriette Marcey Zanini

  • Os limites da minha linguagem são os limites do meu mundo.

    Wittgenstein

  • RESUMO

    ZANINI, Henriette Marcey. A concordância nominal e o revisor gramatical eletrônico

    do Word

    Resumo: Esta dissertação aborda o revisor gramatical eletrônico do “Microsoft Office

    Word” para o português. Recorta-se em especial a aplicação da regra de

    concordância nominal, testada esta em exemplos extraídos de três gramáticas

    diferenciadas entre si, pelo modelo teórico-metodológico utilizado no tratamento da

    linguagem verbal, para detectar o modelo gramatical subjacente ao revisor estudado.

    Neste trabalho busca-se entender como se comporta o revisor gramatical quanto às

    regras de concordância nominal contidas em sua gramática, comparando-as às da

    gramática normativa e às dos usos cotidianos do português brasileiro padrão. Os

    resultados da análise do material permitem inferir que o modelo adotado pela

    referida ferramenta computacional assenta-se, em parte, na gramática tradicional, no

    que tange à regra geral, deixando, todavia, de observar as regras excepcionais

    prescritas.

    Palavras-chave: revisor gramatical eletrônico, concordância nominal, norma

    lingüística

    Abstract: This paper approaches the automatic grammar checker of the Microsoft

    Office Word for Portuguese Language. It observes especially the use of the nominal

    concordance rulers, tested themselves through examples from three diferent

    grammar books, by a theoretical and methodological model used in the treatment of

    verbal language, in order to detect the grammatical model that underlies the focused

    checker. Here, we search to understand how the grammar checker behaves itself

    facing nominal concordance rulers in its grammar, compare them with those into the

    normative grammar and the daily uses of standard Brazilian Portuguese. The results

    of the analysed material take us to grasp that the adopted model by the automatic

    grammar checker settling is based partly on the traditional grammar, relating to

    general rule, but it doesn’t observe the excepcional rules prescribed by that grammar.

    Key-words: automatic grammar checker, nominal concordance, linguistic rule

  • SUMÁRIO Dedicatória e agradecimentos................................................................................ iii

    Epígrafe.................................................................................................................. iv

    Resumo/Abstract.....................................................................................................v

    INTRODUÇÃO ......................................................................................................07 Capítulo I – METODOLOGIA ................................................................................13

    Capítulo II – O ADVENTO DO REVISOR GRAMATICAL ELETRÔNICO .............18

    2.1 A Lingüística Computacional................................................................19

    2.2 A Sintaxe Computacional .....................................................................24

    2.3 O Revisor Gramatical Eletrônico ..........................................................30

    2.3.1 Como “nasceu” o Revisor ......................................................41

    2.3.2 Como funciona o revisor gramatical do Word........................49

    Capítulo III – A CONCORDÂNCIA NOMINAL.......................................................55

    3.1 Em Napoleão Mendes de Almeida.......................................................57

    3.2 Em Evanildo Bechara...........................................................................66

    3.3 Em Maria Helena Moura Neves ...........................................................78

    Capítulo IV – O (DES)COMPASSO ENTRE AS NORMAS DE CONCORDÃNCIA NOMINAL CONSTANTES NAS TRÊS GRAMÁTICAS E NO REVISOR ELETRÔNICO ...................84

    Capítulo V – CONCLUSÃO.................................................................................101

    REFERÊNCIAS BIBLIOGRÁFICAS ....................................................................108 ANEXO A - Informática: símbolos digitais e glossários.......................................111

    ANEXO B - O ReGra: Revisor Gramatical do Word ............................................116

    ANEXO C - Telas de Aconselhamento da gramática eletrônica do Word ...........120

  • Introdução

    As línguas são de certo modo seres que nos rodeiam e nos iluminam como grandes arcanjos viventes: é necessário lhes dar um espaço interior de acolhida e estar dispostos a escutá-los e a lhes prestar atenção.

    Ivonne Bordelois (1934-), lingüista argentina.

    Desde o começo dos primeiros estudos lingüísticos a preocupação com a

    norma, a preocupação no sentido de fixar o “bom uso” e a correção estão dentre as

    motivações mais fortes que levaram os estudiosos a descrever as línguas,

    resultando na seleção de uma determinada modalidade lingüística em detrimento de

    outras consideradas vulgares, impuras, incorretas, ilegítimas. Apoiada nesse

    pressuposto, toda a tradição lingüística ocidental atribuiu duas funções básicas ao

    gramático: dizer o que a língua é, descrevendo-a, e, simultaneamente, dizer o que

    ela deve ser.

    Desta forma, não é de se estranhar a ênfase no fato de a linguagem ser

    considerada um procedimento importantíssimo, que qualifica ou desqualifica, pela

    forma utilizada, o que é dito e quem o diz.

    Essa preocupação com o bom, com o adequado uso da linguagem

    encontra-se vividamente dentro de empresas, de órgãos públicos, nas redações de

    grandes jornais, para citar apenas alguns exemplos, e tem suscitado o

    aparecimento de programas de aperfeiçoamento, fazendo surgir um número

    considerável de manuais de cultura idiomática. Com a Internet, vários passaram a

    ser disponibilizados para consulta on-line, na tentativa de agilizar a vida do usuário

    que não dispõe, no momento em que precisa, de material impresso para tirar suas

    dúvidas em relação ao uso considerado correto do seu idioma.

    Hoje, usuários que necessitam redigir um texto, e que não são tão

    proficientes na escrita da língua portuguesa, encontram à sua disposição alguns

    softwares de correção gramatical desenvolvidos para auxiliá-los no momento de

    escritura de seus textos.

    Interessa-nos, aqui, particularmente, falar sobre o revisor gramatical

    eletrônico do Microsoft Word, o programa de edição de textos mais utilizado no

    mundo, e objeto de nossa pesquisa.

  • 8

    A idéia de trabalhar com este tema nasceu da observação de inadequações

    sintáticas no que diz respeito às concordâncias verbal e/ou nominal, apresentadas,

    principalmente, em textos de alunos de graduação. Inicialmente nos parecia que

    eles não procediam a uma revisão gramatical de seus escritos, porém como

    asseguravam que “pediam ajuda ao computador”, mais especificamente à tecla F7, percebemos a necessidade de averiguar o que se passava.

    Não costumávamos utilizar o recurso de clicar em Ferramentas: ortografia e

    gramática (desconhecíamos, ainda, que o atalho era a tecla F7) por dois simples

    motivos: primeiro, pelo conhecimento razoavelmente bom do idioma, e por

    recorrermos constantemente ao dicionário e à gramática; segundo, a quase total

    falta de intimidade com a maioria dos recursos computacionais, ou seja, a não

    utilização nem de 1/3 dos recursos que o computador oferece, entre eles como

    procurar a ajuda do revisor, quer ortográfico, quer gramatical.

    Então, ao começarmos a expor ao revisor eletrônico do Word alguns

    problemas lingüísticos apresentados pelos alunos, acabamos nos deparando com

    outros problemas que ele nos apresentava. Parecia analisar e sugerir alterações

    aleatoriamente, como se não houvesse um padrão que seguisse. Referimo-nos a

    padrão, aqui, como regras ditadas pela gramática normativa da língua portuguesa. E

    o mais preocupante é que para os usuários do revisor, ou seja, para as pessoas que

    não têm um conhecimento maior de estruturas sintáticas e regras de concordância,

    ele é tido como um instrumento confiável de colaboração para a correção gramatical

    de seus escritos.

    Vale uma ressalva, aqui: o termo “corretor” tem como sinônimos “revisor” e

    “verificador”. Optamos por utilizar com maior freqüência o termo revisor, primeiro por

    achá-lo, particularmente, mais adequado e, em segundo, porque é esse termo que

    aparece na configuração do Microsoft Office Word, presente em cada PC, tanto para

    Revisor Ortográfico quanto para Revisor Gramatical.

    Assim, é natural que, em virtude das tentativas vãs em entender a lógica com

    que o revisor operava, algumas interrogações começaram a nos atiçar a

    curiosidade, tais como: por que a descrição gramatical do revisor eletrônico não diz

    respeito à verificação de grande parte das estruturas usuais do português do Brasil

    em relação às regras de Concordância Nominal? Que gramática subjaz ao revisor

    gramatical eletrônico? Trata-se de uma gramática casuística, composta de um

  • 9

    elenco de frases, que considera caso a caso? Trata-se de uma gramática que vê a

    língua como um conjunto de enunciados pré-estabelecidos?

    Destes questionamentos originou-se a pergunta principal de nossa pesquisa:

    quais normas constam da memória da gramática eletrônica em relação à

    concordância nominal? Seguem o modelo tradicional ou não?

    E, sem respostas imediatas a essas e outras questões, principalmente no

    retorno das correções feitas nos textos dos alunos, surgiu, então, o desejo de

    procurar essas respostas por meio de uma investigação científica que desse

    respaldo às nossas discussões com os alunos quando eles se deparassem com as

    correções feitas em seus textos e os pedidos para não confiarem tanto no revisor

    eletrônico, mas, sim, nas velhas e boas regras encontradas nas gramáticas

    impressas que, sabemos, a maioria não gosta de, ou não sabe como, pesquisar.

    Aliás, essa confiança no revisor gramatical é um dos aspectos que precisa ser

    debatido, pois realmente chama a atenção ver como usuários comuns se apóiam no

    que lhes aconselha o revisor como correção. Confiança não compartilhada com os

    homens de letras - aqui representados por pessoas com conhecimento maior das

    normas gramaticais em relação àqueles -, como se pôde perceber, por exemplo,

    nas opiniões de professores de português, dispostas no subcapítulo dedicado ao

    funcionamento do revisor.

    Desta forma, pensamos realizar um trabalho que pretende, por meio da

    investigação científica, demonstrar qual o grau de (in)adequação da gramática

    eletrônica, no que diz respeito às regras de Concordância Nominal apresentadas

    pelo revisor do Word, com relação às regras da gramática normativa e aos usos

    cotidianos da língua portuguesa.

    Para saber mais e conseguir chegar a conclusões claras e consistentes para a

    composição do texto, como um todo, optamos escolher traçar um caminho que, a

    nosso ver, nos embasaria teoricamente e nos forneceria dados para a compreensão

    buscada.

    No primeiro capítulo encontra-se a metodologia, desenhada por nós, uma vez

    que não conseguimos encontrar no gênero algo com o qual pudéssemos trabalhar.

    Considerações sobre o revisor gramatical eletrônico estão dispostas no

    segundo capítulo, bem como considerações acerca da lingüística computacional e

    da sintaxe computacional. Acerca do revisor, dispusemos as informações que

    conseguimos (a maioria pela Internet) e que consideramos ainda um pouco

  • 10

    inconsistentes para compreender bem a complexidade desta ferramenta de trabalho

    de que dispõe um usuário de computador quando utiliza um editor de textos. Há

    testes que fizemos com um anúncio de venda de um revisor gramatical, infelizmente

    sem nome e sem datação, mas de grande ajuda para o início das reflexões acerca

    de algo que não conhecíamos ainda. Informações de como proceder – apenas

    algumas dentre as diversas orientações fornecidas pelo programa - para utilizar o

    revisor estão no primeiro subcapítulo e, no segundo, quem esteve e está por trás da

    criação, do desenvolvimento e do aprimoramento dos revisores ortográfico e

    gramatical para a língua portuguesa utilizados pela Microsoft Word nos

    computadores que se utilizam do sistema Office Word.

    O terceiro capítulo é dedicado às noções de concordância – ênfase na

    concordância nominal - prescritas para o uso do português culto, bem como os

    capítulos destinados ao assunto pelos três gramáticos escolhidos por nós, com as

    respectivas telas copiadas quando o revisor detectava um problema com alguma

    regra.

    No quarto capítulo, as análises contrastivas entre as normas de concordância

    nominal constantes nas três gramáticas e no revisor gramatical. Também as

    respostas para as perguntas iniciais de pesquisa, com as análises julgadas

    pertinentes.

    No quinto capítulo, as conclusões a que chegamos.

    Como anexos, disponibilizamos algumas telas de aconselhamento ofertadas

    pelo revisor gramatical eletrônico sobre outros tópicos gramaticais, que não apenas a concordância nominal, com os quais nos deparamos, durante a digitação do texto

    desta pesquisa, sublinhados com a linha ondulada verde. Servem a título de

    ilustração e também de exemplificação de alguns dos aspectos que ainda precisam

    ser melhorados pelos pesquisadores/idealizadores do revisor. Há, também, outros

    dois anexos: do universo da informática retiramos informações sobre o que são

    símbolos digitais e dois glossários de termos; e a transcrição de um artigo publicado

    pelo NILC quando da apresentação da última versão do ReGra – Revisor

    Gramatical.

    Por ter trabalhado com Napoleão Mendes de Almeida, Evanildo Bechara e

    Maria Helena Moura Neves, pensamos ser relevante a observação disposta no

    próximo parágrafo, o que também já nos serve de fecho para esta apresentação.

  • 11

    No contraponto entre a gramática eletrônica e as gramáticas citadas acima há

    um conhecimento que se faz necessário e, para obtê-lo, fizemos no segundo

    capítulo deste trabalho uma breve incursão aos domínios da lingüística

    computacional. Breve incursão porque sabemos não haver condições temporais e

    cognitivas para um aprofundamento nesse tema. Pretendemos apenas

    compreender melhor como se processa a linguagem que o computador utiliza para

    reconhecer como gramaticais sentenças de línguas naturais. Em melhores termos,

    como um programador consegue introduzir regras gramaticais para o uso efetivo do

    revisor eletrônico.

    Nesse quesito, trabalhamos principalmente com Othero e Menuzzi (2005) e

    suas orientações na construção de um parser lingüístico, além de suas reflexões

    acerca da gramática e das programações de máquinas para responder a comandos

    de usuários em sua própria língua. Com relação ao trabalho do lingüista, dizem no

    comentário de orelha do livro: Por trás desse tipo de trabalho, deve estar o lingüista: ele é o cientista que busca compreender coisas como as nuances semânticas de uma expressão, as regras sintáticas de uma língua ou os detalhes de funcionamento de seus sons. É preciso “ensinar” essas coisas ao computador, se quisermos que essa máquina venha a interagir conosco.

    Pensamos que ensinar, ou reensinar, coisas ao computador depende de

    estudos como o que pretendemos levar a cabo. Aí reside a importância social que

    acreditamos ter uma pesquisa como a nossa. Alguns problemas com a gramática

    eletrônica serão detectados, outros, provavelmente, ficarão “sem sugestões”, haja

    vista a dificuldade que encontramos com o “humor” da tecla F7: às vezes, aparece a

    sublinha verde sob uma estrutura frasal e, às vezes, quando a mesma sentença é

    exposta novamente ao corretor, não aparece sublinhada em verde. Em outras,

    ainda, o revisor sublinha o texto, mas na janela de ortografia e gramática surge a

    expressão “(sem sugestão)”, ainda que seja oferecida uma explicação gramatical.

    (Vide tela na página seguinte.)

    De qualquer modo, temos a intenção de contribuir, mesmo que timidamente,

    para que novos estudos sejam realizados no intuito de se melhorar o desempenho

    da gramática eletrônica do Word, ao menos quanto às regras de concordância

    nominal contidas nela.

  • 12

  • Capítulo I - Metodologia

    Em virtude de não conseguirmos encontrar um modelo metodológico o qual

    servisse à nossa intenção de demonstrar a adequação ou a inadequação do revisor

    gramatical eletrônico do Microsoft Office Word, houve a necessidade de desenhar

    um método próprio, sem a mínima pretensão ou ilusão de que seja algo

    inteiramente novo.

    Para buscar e encontrar respostas às dúvidas suscitadas e relatadas na parte

    introdutória deste trabalho, a pesquisa objetivou alcançar:

    • um inventário dos critérios utilizados para a organização do revisor

    gramatical do Word;

    • as normas (ou pelo menos uma boa parte delas) de Concordância

    Nominal constantes da memória gramatical eletrônica, verificando se

    seguem ou não o modelo tradicional;

    • exemplos de quais sentenças, dentre as submetidas e consideradas

    gramaticais, são reconhecidas pelo revisor, como também de sentenças

    tidas como corretas gramaticalmente, usuais, e que não são

    reconhecidas por ele;

    • e, ainda, a identificação de qual(is) nível(is) de linguagem é(são)

    contemplado(s) pela gramática do revisor do Word e pelas gramáticas

    utilizadas para retirada de exemplos para o corpus da pesquisa,

    aproximando-os ou afastando-os, conforme resultados obtidos.

    Alcançar estes objetivos nos auxiliará a encontrar resposta para a pergunta

    principal de nossa pesquisa:

    1. Que normas constam da memória da gramática eletrônica em relação à

    Concordância Nominal? Seguem o modelo tradicional ou não?

    E também para responder às questões auxiliares:

    1. Por que a descrição gramatical do revisor eletrônico não diz respeito à

    verificação de grande parte das estruturas usuais do português do Brasil em

    relação às regras de Concordância Nominal?

  • 14

    2. Que gramática subjaz ao revisor gramatical eletrônico? Trata-se de uma

    gramática casuística, composta de um elenco de frases, que considera

    caso a caso? Trata-se de uma gramática que vê a língua como um conjunto

    de enunciados pré-estabelecidos?

    Nosso universo de pesquisa abrangeu a gramática eletrônica do Word e as gramáticas de Napoleão Mendes de Almeida: Gramática metódica da língua

    portuguesa, numa edição de 1975, a Moderna gramática portuguesa, edição 1999,

    de Evanildo Bechara, e a Gramática de usos do português, publicada em 2000, de

    Maria Helena Moura Neves.

    Esses autores foram escolhidos por suas abordagens bem diversas no trabalho

    com a gramática normativa da Língua Portuguesa, além da distância temporal

    existente entre as publicações de seus estudos gramaticais, principalmente entre

    Napoleão e Bechara. O primeiro, de cunho purista; o segundo, um gramático

    tradicional de formação lingüística mais recente, tradutor de um dos maiores

    pensadores da lingüística moderna, Coseriu; e Moura Neves, de tradição filosófica,

    que distingue o que é prescrição e o que é uso na língua, servindo como

    contraponto a Napoleão e Bechara.

    O procedimento de coleta consistiu na verificação e extração de sentenças

    fornecidas como exemplos das regras de concordância nominal encontradas nas

    gramáticas dos autores citados no parágrafo anterior. Para isso, os capítulos, de

    cada uma das gramáticas dedicados ao tema, foram redigitados por nós para que

    as próprias regras de concordância fossem submetidas ao crivo do revisor

    gramatical. Os textos redigitados encontram-se no capítulo III.

    A cada vez que, na redigitação, aparecia a sublinha verde, o revisor era

    consultado. As telas com a amostragem da marcação verde do revisor e as

    sugestões e explicações gramaticais fornecidas por ele encontram-se nos corpos

    dos capítulos escolhidos, imediatamente após a regra de concordância explicitada e

    não reconhecida e/ou aceita pelo revisor.

    O mesmo procedimento descrito acima foi feito durante a redação deste

    trabalho, com as telas impressas servindo como “prova”. Alguns exemplos não são

    especificamente de problemas de concordância nominal, porém achamos

    interessante mostrá-los porque nos auxiliaram na análise do que chamamos de

  • 15

    “humores da F7”, a tecla de atalho para a janela de Ferramentas: Ortografia e

    Gramática.

    Para conseguirmos as telas impressas, aprendemos que devemos proceder

    aos seguintes passos:

    1º) selecionar a palavra/expressão/frase;

    2º) apertar a tecla F7 (atalho, mais rápido);

    3º) apertar a tecla Print Screen SysRq, à direita, superior, do teclado alfabético;

    4º) posicionar o cursor em um documento do Word e, então, “colar” por meio

    de CtrlC ou do botão direito do mouse. Depois, apenas redimensionar tamanhos, de

    acordo com a necessidade.

    O procedimento de análise consistiu em colher as sugestões fornecidas pelo

    revisor gramatical eletrônico - ou não fornecidas, pois, às vezes, ele sublinha, mas

    não tem sugestões a dar (vide exemplo na tela abaixo) -, além de colher as

    explicações gramaticais (regras e “dicas”) que o revisor apresenta para, no final,

    comparar quais concordâncias, exemplificadas nas gramáticas, o revisor reconhece

    ou não como corretas.

  • 16

    Interessante explicar que algumas sentenças são detectadas pelo revisor,

    outras não, conforme a configuração do computador no qual se está trabalhando.

    Por isso, serão encontradas telas neste trabalho com cores diferentes, pois foram

    copiadas de máquinas diferentes em configuração.

    As telas que aparecem na cor cinza, como esta acima, e principalmente as que

    se encontram nos capítulos redigitados de Napoleão Mendes de Almeida e Maria

    Helena Moura Neves respectivamente, foram retiradas de uma máquina com a

    seguinte configuração:

    Microsoft Office Word 2000 Sistema Windows XP Home Versão 2002 – Service Pack 2

    Computador: Intel® Celeron ™ processador 1100 MHz, 128 MB de RAM

    Itautec/Philco S.A., 2001.

    Já as telas em cor azul, maioria, foram copiadas do nosso computador pessoal,

    que traz as seguintes informações de configuração:

    Microsoft Office Word 2003 Sistema Windows XP Professional Edição 2003 Versão 2002 – Service Pack 2

    Computador: AMD Duron™ processador 950 MHz, 248 MB de RAM

    Itautec/Philco S.A., 2001.

    É importante a observação de que as duas máquinas trazem tanto o Revisor

    Ortográfico quanto o Revisor Gramatical para Língua Portuguesa na sua versão 7.

    Já foi lançado, pela Microsoft, para download inclusive, o Office 2007, porém não o

    quisemos conhecê-lo ainda, nem analisá-lo, porque acreditamos que seriam

    necessárias algumas reformulações neste texto, para o que não há mais tempo

    hábil, além do que recebemos a informação de especialistas no assunto de que o

    novo programa necessita, para funcionar bem, de um computador com mais

    recursos, mais potência para suportar as novas ferramentas. O que também não é o

    caso do computador com o qual estamos trabalhando.

    Em resumo, nosso universo de pesquisa foi extraído das gramáticas dos

    autores mencionados acima e da gramática encontrada no revisor eletrônico do

  • 17

    Word. Trabalhamos com um critério de análise que passou pelo método

    comparativo para encontrar respostas às nossas questões de pesquisa, porém essa

    pesquisa teve caráter predominantemente qualitativo.

    Este, enfim, é um trabalho que requereu muito esforço, principalmente pela

    ausência de similares no tema. Resta de bom o conhecimento adquirido e a

    tentativa de abordagem inicial para futuros outros estudos.

    No capítulo a seguir, considerações sobre lingüística e sintaxe computacionais

    e, também, como foi criado e como funciona o revisor gramatical eletrônico do Word,

    ou revisor gramatical automático, como o chamam seus criadores.

  • Capítulo II – O advento do revisor gramatical eletrônico

    Escrita, leitura, visão, audição, criação, aprendizagem são capturados por uma informática cada vez mais avançada. (...) Emerge, neste final do século XX, um conhecimento por simulação que os epistemologistas ainda não inventariaram.

    Pierre Lévy

    A primeira impressão é sempre aquela que fica, como se costuma ouvir por aí? Pensamos que não, pois cada um de nós já teve, certamente, oportunidade para

    refazer uma primeira impressão. Se não naturalmente, pelo próprio repensar uma

    opinião, ao menos forçosamente, pela contingência de algum fato cotidiano.

    É estranho, para dizer o mínimo, para pessoas como nós – estudantes,

    professores, escritores, letrados, cidadãos conscientes e participativos do/no atual

    momento histórico, globalizado, por que passa o mundo moderno – pensar que

    alguém ainda não saiba tudo, ou quase tudo, sobre computadores. Afinal, já fazem

    parte do nosso viver, já não sabemos trabalhar sem eles. No entanto, quando

    deixamos nossa prepotência de lado, vemos que muitos ainda não conseguem ter

    um relacionamento harmonioso e satisfatório com esta ferramenta tecnológica. O

    senso comum costuma afirmar que tudo que é novo provoca certo medo, até se

    conhecer e dominar o novo.

    A verdade é que se ouve, ainda hoje, alguém afirmando, saudosamente, que

    com sua máquina de datilografia era feliz e não sabia. E muitas reclamações sobre

    o PC são ouvidas: “É lento!”, “Trava sempre!”, “È caro para comprar e para

    consertar.”, “Quero escrever de um jeito, ele muda automaticamente.”, É para

    enlouquecer qualquer cristão!”.

    Só que os computadores vieram para ficar, e a cada dia se aperfeiçoam,

    ultrapassam todas as idéias pré-concebidas sobre si e nos fazem engolir em seco,

    uma vez que somos nós a ter que nos adaptar a ele, e não o contrário, sonho de

    todo usuário.

    Para entendermos melhor como funciona um revisor, quer seja ele

    ortográfico, quer seja ele gramatical, precisamos conhecer como é feito um

    programa para a criação da gramática eletrônica que o subsidia. E, então, entramos

    na seara da lingüística computacional, ciência que, se comparada a outras, é bem

    jovenzinha ainda. E, ao entrarmos nesse campo, nos deparamos com a sintaxe

  • 19

    computacional e seus termos diferentes, como parser/parsing, Prolog etc. É o que

    pretendemos mostrar nos próximos subcapítulos.

    2.1 A Lingüística Computacional

    De acordo com o pesquisador Ray Kurzweil, pioneiro em inteligência artificial, em 2029 um computador com o preço de um PC de nossos dias (aproximadamente U$ 800) terá a capacidade

    de computação equivalente à do cérebro humano. E, ainda segundo Kurzweil, em 2060 uma máquina que custe em torno de U$ 1.000 terá a capacidade de todos os cérebros humanos somados, o que nos levaria a atingir um progresso de vinte milênios em apenas cem anos!

    (Othero e Menuzzi, 2005:16)

    Pierre Levy (s/d), em um artigo publicado no site www.faced.ufba.br , afirma

    que uma tecnologia intelectual não precisa ser efetivamente utilizada por uma

    maioria estatística de indivíduos para ser considerada dominante. Diz ele que até o

    começo do século XIX, a maior parte dos franceses não sabia ler, mas mesmo

    assim a escrita era, havia muito, a tecnologia intelectual motriz no plano tanto

    imaginário como religioso, científico ou estético. “Durante séculos a verdade foi

    escrita, bem como o destino. O mundo desenrolava uma imensa página coberta de

    sinais a serem interpretados.”.

    Para Levy, assim como a escrita, a informática, por sua dimensão empírica,

    deve ser analisada como tecnologia intelectual, mas essas máquinas de calcular, essas telas, esses programas não são apenas objetos de experiência. Enquanto tecnologia intelectual, contribuem para determinar o modo de percepção e intelecção pelo qual conhecemos os objetos. Fornecem modelos teóricos para as nossas tentativas de conceber, racionalmente, a realidade. Enquanto interfaces, por seu intermédio é que agimos, por eles é que recebemos de retorno a informação sobre os resultados de nossas ações. Os sistemas de informação efetuam a mediação prática de nossas interações com o universo.

    Este subcapítulo será dedicado a considerações acerca de um assunto extremamente complexo ainda, muito mais desconhecido, para a maioria das

    pessoas. A incursão aos domínios da lingüística computacional se dará de forma

    bastante simples, até mesmo infantil, uma vez que não há espaço, neste trabalho,

    para aprofundamento desse conhecimento. Porém, é necessária esta abordagem,

    mesmo que deficitária, por estar esse conhecimento intrinsecamente relacionado às

    perguntas que norteiam o nosso pensar e para as quais buscamos respostas.

  • 20

    A referida incursão será breve, porque sabemos não haver condições

    temporais e cognitivas para um aprofundamento nesse tema. Pretendemos apenas

    compreender melhor como se processa a linguagem que o computador utiliza para

    reconhecer como gramaticais sentenças de línguas naturais. Em melhores termos,

    como um programador consegue introduzir regras gramaticais para o uso efetivo do

    corretor eletrônico. Nesse quesito, trabalharemos principalmente com Othero &

    Menuzzi (2005) e suas orientações na construção de um parser lingüístico, além de

    suas reflexões acerca da gramática e das programações de máquinas para

    responder a comandos de usuários em sua própria língua.

    Comecemos, então, pela definição desta nova ciência, dada por Othero e

    Menuzzi (2005): Lingüística computacional é a área da ciência lingüística preocupada com o tratamento computacional da linguagem e das línguas naturais. Ela pode ser dividida em duas linhas de pesquisa distintas: a Lingüística de Corpus e o Processamento da Linguagem Natural.

    A Lingüística de corpus é a parte que estuda diferentes fenômenos das línguas com base em corpora eletrônicos. Conforme Berber Sardinha (2000c:2), ela

    “se ocupa da coleta e exploração de corpora, ou conjunto da dados lingüísticos

    textuais que foram coletados criteriosamente com o propósito de servirem para a

    pesquisa de uma língua ou variedade lingüística”.

    Já o Processamento de Linguagem Natural (PLN) é a área de estudo da

    linguagem voltada diretamente para a construção de softwares e sistemas

    computacionais específicos. Alguns resultados desse tipo de estudo são a criação e

    desenvolvimento de programas de tradutores automáticos, chatterbots, parsers,

    reconhecedores automáticos de voz, dentre outros. Cabe à área de PLN desenvolver programas capazes de processar (leia-se compreender e produzir) informações em LINGUAGEM NATURAL. Esses programas podem envolver diferentes áreas da lingüística, como a fonologia, a fonética, a semântica, a sintaxe, a pragmática etc. (Othero & Menuzzi, 2005:124).

    Ainda segundo Othero & Menuzzi (2005:11), as máquinas estão sendo

    programadas, cada vez mais, para responder a comandos do usuário em sua língua

    materna, qualquer que seja ela. Isto é resultado da busca por uma melhor interação

    entre humanos e máquinas, o que está se dando através da linguagem natural, ou

    seja, da linguagem do homem.

  • 21

    Por trás desse tipo de trabalho, deve estar o dedo do lingüista: afinal, é ele o cientista da linguagem, o cientista que busca compreender coisas como as nuances semânticas de uma expressão, as regras sintáticas de uma língua ou os detalhes de funcionamento de seus sons. E é preciso “ensinar” essas coisas a um computador – ou melhor, programar esse conhecimento na “máquina binária”, dos “zeros” e dos “uns”, isto é, do sim e do não - se quisermos que essa máquina esteja pronta a interagir naturalmente conosco. (Othero e Menuzzi, 2005:12)

    É claro que desenvolver computadores com capacidade de interagir de forma

    natural com humanos ainda está distante da realidade atual, mas é um dos objetivos

    da lingüística computacional, que se ocupa do tratamento computacional da

    linguagem para diversas finalidades práticas.

    Os autores acima (2005:18) acreditam que, antes de tentar fazer com que

    uma máquina interaja efetivamente com humanos e os compreenda, é

    inevitavelmente necessário fazer com que ela aprenda a se comunicar com um ser

    humano, e a maneira mais fácil de este tipo de comunicação ocorrer é através da

    própria língua materna da pessoa usuária de um computador. E completam: Por isso, muitos pesquisadores vêm trabalhando com o tratamento computacional da linguagem humana (ou das línguas humanas), isto é, com maneiras de simular, no computador, aquilo que fazemos naturalmente quando conversamos com alguém. Isso exige, no entanto, que se avance no estudo do funcionamento das línguas naturais e na descrição formal dos sistemas lingüísticos, e é aí que começamos a falar da lingüística computacional.

    Uzskoreit (apud Othero & Menuzzi, 2005:18), pesquisador da área da

    informática, afirma que: Ainda que os sistemas existentes em TL [tecnologias lingüísticas] estejam longe de alcançar a habilidade humana, eles têm diversas aplicações possíveis. O objetivo é criar softwares que tenham algum conhecimento da linguagem humana. (...) Há necessidade urgente deles para que se possa melhorar a interação humano-máquina, já que o obstáculo principal na interação entre um humano e um computador é simplesmente um problema de comunicação. Os computadores de hoje não entendem nossa língua, e as linguagens de computação, por outro lado, são difíceis de se aprender e não correspondem à estrutura do pensamento humano. (Uzskoreit, sd:2).

    Percebe-se, agora, a dificuldade – talvez até o ceticismo de alguns – em se

    encontrar respostas para questões como: O que se deve fazer para que o

    computador “compreenda” uma língua natural? Como fazer para que uma máquina

    consiga produzir textos ou falas em uma língua natural? Chegará o dia em que uma

  • 22

    máquina poderá ser capaz de dominar a sintaxe, o sistema fonológico, as nuanças

    semânticas e o uso pragmático, entre outros conhecimentos, de uma língua natural?

    Os autores com os quais estamos trabalhando neste capítulo (dentre inúmeros

    outros) acreditam que, algum dia, os computadores serão capazes sim de dominar a

    linguagem natural de maneira satisfatória e, assim, interagir de tal modo com os

    humanos, em uma determinada língua natural, que não se conseguirá distinguir as

    respostas da máquina das de um outro ser humano.

    Porém, voltemos ao que realmente nos interessa: o estudo computacional da

    sintaxe da língua portuguesa, ou seja, com o modo como as frases da nossa língua

    se organizam e o modo como esta organização é reconhecida pelo computador.

    Além da fonética e da fonologia, é indiscutível a importância dos estudos da

    morfossintaxe e da semântica para o desenvolvimento de programas de PLN

    [Processamento da Linguagem Natural], pois esses estudos são fundamentais para

    sistemas que envolvam a compreensão ou a geração automática de frases de uma

    língua. Este é o caso, por exemplo, dos chatterbots, programas desenvolvidos para

    interagir com usuários humanos através de diálogos em linguagem natural, na

    modalidade escrita. “O primeiro chatterbot desenvolvido foi ELIZA, criado pelo

    pesquisador Joseph Weinzenbaum, no MIT, em 1966”. (Othero e Menuzzi,

    2005:31).

    ELIZA era um programa de conversação que se utilizava de um sistema

    baseado em “moldes” (templates, em inglês) para construir suas frases, e que,

    como todos os chatterbots baseados em moldes, tinha, como uma de suas

    limitações, a repetição eventual de suas próprias frases e as de seu interlocutor,

    apresentando, freqüentemente, contradição em suas “opiniões”. Por isso, acreditamos que as próximas gerações de chatterbots devem exigir dos programadores um profundo conhecimento da sintaxe (que permitirá que desenvolvam no programa a capacidade de gerar infinitas sentenças da língua combinando um número finito de regras e elementos lexicais) e de semântica (o que tornará possível fazer com que o programa seja capaz de interpretar o significado do input lingüístico fornecido pelo usuário humano). (Othero & Menuzzi, 2005:35).

    Além dos chatterbots e dos tradutores automáticos, conhecimentos em

    sintaxe e semântica são fundamentais, também, para outros aplicativos, como

    parsers, geradores automáticos de resumos, corretores ortográficos e gramaticais,

    classificadores automáticos de documentos digitais etc.

  • 23

    O termo parsing vem da expressão latina pars orationes (partes do discurso)

    e tem suas raízes na tradição clássica. “De acordo com Mateus & Xavier

    (1992:886), parsing pode ser entendido como o ‘processo de atribuição de uma

    estrutura e de uma interpretação a uma seqüência lingüística’.”. (apud Othero &

    Menuzzi, 2005: 39) Um parser, no contexto da lingüística computacional, é um analisador automático (ou semi-automático) de sentenças. Esse tipo de programa é capaz de analisar uma sentença com base em uma gramática preestabelecida de uma determinada língua, verificando se as sentenças fazem parte ou não da língua, de acordo com o que autoriza a sua gramática. (...) também analisa sintaticamente as sentenças, decompondo-as em uma série de unidades menores, primeiramente em nódulos não-terminais (os sintagmas), até chegar a nódulos terminais (os itens lexicais) atribuindo-lhes uma estrutura de constituintes. Essa estrutura de constituintes, que representa a organização hierárquica e sintática da frase, é apresentada comumente através de árvores sintáticas ou através de colchetes rotulados. (Othero & Menuzzi, 2005:49).

    E de acordo com Covington (1994:42, apud Othero & Menuzzi, 2005:40),

    fazer o parsing de uma sentença é “determinar, por um processamento algorítmico,

    se a sentença é gerada por determinada gramática, e se for, que estrutura a

    gramática atribui a ela”.

    Bons exemplos de um simples algoritmo que pode fazer uma medida

    analítica da linguagem são os corretores ortográficos e gramaticais. Porém, uma

    das armadilhas dos corretores ortográficos está na leitura de uma determinada

    palavra dentro de um contexto. O computador não pode encontrar um erro ortográfico se a palavra estiver correta para um outro contexto (por exemplo, conserto e concerto). A habilidade da mente humana em analisar e reconhecer corretamente falas, estilos e gramática não é reproduzida satisfatoriamente pelos computadores, porque mentes e computadores trabalham diferentemente. [http://labbi.uesc.br/apostila]

    Mesmo assim, o poder dos computadores é inegável. Hoje, escrever um texto

    utilizando um processador de textos, por exemplo, se tornou tão mais fácil e tão

    popular, que, para milhões de usuários, é uma ferramenta considerada

    indispensável.

  • 24

    2.2 A Sintaxe Computacional

    Para compor o início deste subcapítulo serão utilizadas informações

    disponibilizadas pelo programa de pós-graduação em computação do Instituto de

    Informática da Universidade Federal do Rio Grande do Sul [www.inf.ufrgs.br],

    especialmente de um trabalho feito para a disciplina de Arquiteturas Especiais de

    Computadores, assinado por Fábio Abreu Dias de Oliveira, intitulado

    “Processamento de linguagem natural: princípios básicos e a implementação de um

    analisador sintático de sentenças da língua portuguesa”. A escolha recaiu nesses

    dados em virtude de sua linguagem acessível, simples e clara. Porém, também

    continuaremos atentos ao que Othero & Menuzzi (2005) ensinam sobre o assunto.

    Para que um sistema computacional interprete uma sentença em linguagem

    natural, é necessário manter informações morfológicas, sintáticas e semânticas,

    armazenadas em um dicionário, juntamente com as palavras que o sistema

    compreende.

    A primeira etapa do processamento dessa linguagem natural passa,

    obrigatoriamente, pelo analisador morfológico, que identifica palavras ou expressões

    isoladas em uma sentença. Esse processo é auxiliado por delimitadores (pontuação

    e espaços em branco). As palavras identificadas são classificadas de acordo com

    seu tipo de uso, ou, em linguagem natural, categoria gramatical.

    Assim, uma instância de uma palavra em uma sentença gramaticalmente

    válida pode ser substituída por outra do mesmo tipo, configurando uma sentença

    ainda válida (exemplo: substantivos, pronomes, verbos, etc.). Dentro de um mesmo

    tipo de palavra, existem grupos de regras que caracterizam o comportamento de um

    subconjunto de vocábulos da linguagem, como, por exemplo, a formação do plural

    de substantivos terminados em “ão” e as flexões dos verbos regulares terminados

    em “ar”, dentre outros. Assim, a morfologia cuida das palavras quanto a sua

    estrutura, forma, flexão e classificação, no que se refere a cada um dos tipos de

    palavras.

    Para Rich & Knight (1993) o “emprego do analisador morfológico é

    fundamental para a compreensão de uma frase, pois para formar uma estrutura

    coerente de uma sentença, é necessário compreender o significado de cada uma

    das palavras componentes.”

  • 25

    Já o analisador sintático, através da gramática da linguagem a ser analisada

    e das informações do analisador morfológico, procura construir árvores de derivação

    para cada sentença, mostrando como as palavras estão relacionadas entre si.

    Durante a construção da árvore de derivação, é verificada a adequação das

    seqüências de palavras às regras de construção impostas pela linguagem na

    composição de frases, períodos ou orações. Dentre estas regras, a concordância e

    a regência nominal e/ou verbal, assim como o posicionamento de termos na frase.

    Um termo corresponde a um elemento de informação (palavra ou expressão), e é

    tratado como unidade funcional da oração, participando da estrutura como um de

    seus constituintes, denominados sintagmas.

    Como sabemos, a análise sintática de uma oração em português deve levar

    em conta os seguintes sintagmas: termos essenciais (sujeito e predicado), termos

    integrantes (complementos verbal e nominal) e termos acessórios (adjuntos

    adverbial e nominal, e aposto). A análise do período, por sua vez, deve considerar o

    tipo de período (simples ou composto), sua composição (por coordenação ou

    subordinação) e a classificação das orações (absoluta, principal, coordenada ou

    subordinada).

    Nos sistemas de processamento de linguagem natural, o maior problema é a

    transformação de uma frase potencialmente ambígua em uma não-ambígua, a qual

    será utilizada pelo sistema. Esta transformação é conhecida como parsing, termo já

    explicado anteriormente.

    As abordagens de linguagens formais são utilizadas com muito sucesso no

    estudo da análise sintática em PLN. Dentre as principais, temos:

    • Gramáticas Regulares: para o processamento sintático da linguagem natural, estas gramáticas são bastante simples e facilmente reconhecidas, porém

    apresentam um poder de expressão limitado (equivalente ao poder de expressão de

    um autômato finito, reconhecedor utilizado para a análise morfológica).

    • Gramáticas Livres de Contexto: são muito úteis no que tange à descrição de gramáticas em linguagem natural e, em geral, são mais poderosas que as

    regulares já que permitem a representação de linguagens com um certo grau de

    complexidade. No entanto, a dificuldade em expressar dependências simples, como

    por exemplo a concordância entre verbo e sintagma nominal, constitui um dos

    maiores problemas para sua utilização no tratamento da língua natural. O autor

    mencionado como fonte principal dessas informações, afirma que abordagens

  • 26

    puramente livres de contexto não são suficientemente poderosas para captar a

    descrição adequada deste gênero de linguagem. Mas que, ainda assim, é utilizada

    uma notação denominada com Definite Clause Grammar (DCG), disponível em

    Prolog, para definir gramáticas livres de contexto e analisar sentenças, ou seja,

    realizar o parsing.

    • Gramáticas Sensíveis ao Contexto: os problemas de dependência expressos anteriormente são resolvidos nesta classe de gramática. Porém,

    conforme Rich & Knight (1993), ainda assim as gramáticas sensíveis ao contexto

    não abordam satisfatoriamente o tratamento de restrições gramaticais. O

    impedimento para seu uso reside na questão do reconhecimento. O problema de decidir se uma sentença pertence a uma gramática sensível ao contexto é uma função exponencial sobre o tamanho da sentença, o que torna a implementação do procedimento de verificação uma questão complexa, do ponto de vista computacional. (idem)

    Vale lembrar a existência de gramáticas irrestritas, também presentes na

    hierarquia de Chomsky, as quais não são utilizadas para a construção de interfaces

    em linguagem natural.

    O artigo-base desses dados informa que a maioria das pesquisas atuais

    propõe trabalhar em modelos que se situem em um nível intermediário entre as

    gramáticas livres de contexto e as sensíveis ao contexto, aliando boa capacidade de

    representação, incluindo construções que permitam modelar dependências, e um

    modelo computacional viável.

    Com relação à gramática, ainda, Othero & Menuzzi (2005:44) alertam para

    fato de que a maioria das versões recentes do Prolog vem equipada com uma extensão nocional conhecida como DCG, ou Gramática de Cláusula Definida (do inglês Definite Clause Grammar), que facilita a implementação de regras formais de parsing. A DCG é um formalismo de representação de gramáticas livres de contexto.

    Ela torna muito mais fácil implementar uma gramática e desenvolver um

    parser em Prolog, já que “uma gramática descrita em uma DCG é diretamente

    executada pelo Prolog com um analisador sintático” (Bratko, 1997:431, apud Othero

    & Menuzzi, idem).

    Prolog - PROgramming in LOGic - é uma linguagem de programação

    baseada na lógica. Ao contrário da maioria das linguagens de programação, que

  • 27

    são de natureza “procedural”, o Prolog é uma linguagem “declarativa”, conforme

    ensinam Othero & Menuzzi (2005:42). (...) outras linguagens de programação, como o Basic e o Pascal, apresentam ao computador uma solução para um problema na forma de uma série de instruções para que a máquina as execute estritamente na ordem em que foram especificadas. Programar com Prolog (...) deve ser declarativo, um programa deve simplesmente ser o enunciado do problema. A maneira como o problema é solucionado e a seqüência de instruções por que o computador deve passar para resolvê-lo são decididas pelo sistema. (McDonald & Yazdani, 1990:ix, apud Othero & Menuzzi, 2005:44)

    Porém, mesmo após todas essas informações do mundo computacional, como entender o processo de criação de uma gramática eletrônica? A obra que nos

    tem servido como base primeira, para este capítulo, escrita por Gabriel Othero e

    Sérgio Menuzzi, trata justamente desse ponto. Eles ensinam como desenvolver um

    aplicativo computacional para o tratamento da linguagem natural, com exemplo de

    uma aplicação prática de conhecimentos da sintaxe no desenvolvimento de um

    sistema de análise das frases do português – um “parser sintático” programado em

    linguagem Prolog. (Vide definição de parser por Othero & Menuzzi disposta no final

    do subcapítulo 2.1).

    Othero & Menuzzi simulam a criação de um parser para o reconhecimento

    automático de sentenças em língua portuguesa. Um parser que deverá reconhecer

    as sentenças gramaticais – e somente elas – e atribuir-lhes uma estrutura de

    constituintes.

    Não é possível, aqui, naturalmente, reproduzir o passo-a-passo dos

    procedimentos que os autores ensinam, pois envolvem teorias e metodologias

    diversas, tornando-se inviável uma demonstração fiel. Contudo, decidimos resumir

    algumas das várias etapas que constituem o trabalho, apenas para que se tenha

    uma idéia, mesmo que distante, de como uma gramática “se forma no interior de

    uma máquina”.

    • começa com o reconhecimento e distinção de frases consideradas

    gramaticais/agramaticais;

    • faz representações delas em diagramas arbóreos (com divisão das

    frases em “blocos”, ou sintagmas, até os itens lexicais);

  • 28

    • pode ter que realizar diferentes “testes” para identificar um

    constituinte/sintagma (testes de coordenação, interpolação, anáfora,

    entre outros);

    • nas regras de reescrita (ou regras sintagmáticas) utiliza-se dos

    símbolos usados por Chomsky (S,SN, SV, Det., N, V), e são elas que

    validam as sentenças;

    • há, ainda, as regras de inserção lexical, as responsáveis por introduzir

    as palavras abaixo de cada símbolo respectivo. Obs.: Essas regras (de

    reescrever e de inserção) são chamadas de gerativas, pois elas geram

    sentenças gramaticais a partir de instruções precisas e explícitas. Após

    a aplicação dessas regras, obtém-se a estrutura de uma frase válida, ou

    gramatical na língua definida pela gramática escolhida;

    • finalmente é estruturada a árvore sintática da frase a partir das regras,

    trabalhando como um parser top-down (que constrói uma sentença a

    partir de seu topo, até chegar ao nível das palavras);

    Os autores ressalvam, porém, que “é sabido que a gramática sintagmática

    apresenta uma série de limitações e precisa ser enriquecida com recursos

    adicionais” (idem:64). Isso se deve ao fato de a gramática criada poder gerar

    também sentenças claramente agramaticais, principalmente se algumas palavras

    forem expandidas para outra categoria. Por isso, no exemplo que dão, eles

    precisam adicionar alguns recursos às regras sintagmáticas e trabalhar com a

    descrição e classificação do léxico para implementar o tipo de gramática na

    linguagem Prolog.

    Como, na maioria dos casos, o Prolog está tentando descobrir se uma

    afirmação é verdadeira ou falsa, ou está tentando encontrar alguma combinação de

    variáveis que torne uma afirmação verdadeira, para executar um programa em

    Prolog é preciso fazer uma consulta à sua base de dados. “E uma consulta nada

    mais é do que uma chamada de uma cláusula do programa, equivalendo a uma

    solicitação para provar se o que pedimos é verdadeiro de acordo com a base de

    dados do programa “ (ibid: 66).

    Há basicamente dois tipos de perguntas que podemos fazer ao Prolog:

    perguntas sim/não (envolvendo respostas sim ou não), e perguntas QU (wh-

  • 29

    questions en inglês, envolvendo pronomes interrogativos: quem, qual, quando, onde

    etc.).

    Voltando à criação do parser, começa, então, a etapa de escrever um

    programa, que deve ser aberto em um editor de textos, como o bloco de notas,

    presente em todas as versões do MS Windows disponíveis no mercado. É no editor

    que serão desenvolvidos os programas que mais tarde serão rodados na plataforma

    do Prolog. Tudo deve ser escrito em letras minúsculas e sempre haver um ponto

    final no fim de cada linha. As letras maiúsculas serão usadas para as variáveis.

    Como exemplo de um programa simples, Othero e Menuzzi (2005:67) dão o

    seguinte:

    Sócrates é homem.

    O homem é mortal.

    Em notação Prolog, deve-se escrever:

    homem(socrates).

    mortal(X) :- homem(X).

    Em PROLOG Em PORTUGUÊS

    homem(socrates). Sócrates é homem.

    mortal(X) :- homem(X). O homem é mortal. Tradução – PROLOG x PORTUGUÊS

    A primeira premissa (homem(socrates).) é chamada em Prolog de fato. Os fatos são regras que, de certa forma, se auto-satisfazem, ou seja, são dados

    sempre verdadeiros, nunca apresentando variáveis. A segunda premissa (mortal(X) :- homem(X).) é uma regra em Prolog: ela apresenta uma variável e uma relação de condicionalidade, expressa pelo operador “:-“ . Ao contrário dos fatos, as regras consistem sempre de duas partes: a cabeça e o corpo:

    mortal(X) :- homem(X) Cabeça Corpo

    Para que a cabeça da regra seja verdadeira, as condições expressas em seu

    corpo devem ser satisfeitas. A interpretação de uma regra desse estilo é bastante

    simples:

    a :- b. “a” é verdadeiro se “b” é verdadeiro

    a :- b, c, d. “a” é verdadeiro se “b”, “c” e “d” forem verdadeiros

  • 30

    E, então, depois desse processo (extremamente resumido e simplificado,

    aqui), o programador utiliza-se do recurso de DCG (já conceituado anteriormente).

    Com esse recurso, as regras de reescrita podem ser convertidas de maneira

    bastante simples e transparente para a notação em Prolog. “Grosso modo, a DCG

    pode ser entendida como um recurso que torna mais fácil ao lingüista a

    implementação de regras sintagmáticas em Prolog”. (Othero e Menuzzi, 2005:77)

    Em resumo, para o desenvolvimento de uma gramática em Prolog, deve-se:

    a) implementar regras sintagmáticas relativas à descrição sintática do português

    (por exemplo, a regra: S SN SV); b) a partir dessa regra, elaborar outras para o

    SN e para o SV, ou conferir o que consta na literatura pertinente. (Exemplo:

    SN Det N; SV V SN; c) implementar itens lexicais (Exemplo: Det o,a:

    N João, Maria; V ama; d) implementar na gramática do parser algumas

    regras consagradas na literatura; e) a partir delas, pode-se usar exemplos

    apresentados na literatura que servem para ilustrar ou testar a regra; f) por último,

    trabalhar com as dificuldades encontradas para implementar uma regra em Prolog

    da melhor maneira possível.

    Os autores consultados deixam claro que há diferentes maneiras de se

    trabalhar com parsers sintáticos, e diversas têm sido as alternativas de

    desenvolvimento de ferramentas de linguagem natural que tratem da sintaxe de

    uma língua.

    Esperamos ter conseguido aclarar um pouco o que seja uma linguagem de

    programação, principalmente no que concerne ao desenvolvimento de uma

    gramática, que é um dos principais aspectos que nos interessam neste trabalho.

    2.3 - O Revisor Gramatical Eletrônico A maneira mais simples e rápida de escrever corretamente. Com o Revisor

    Gramatical você revisa os seus textos corrigindo erros de concordância verbal e

    nominal, erros de ortografia, acentuação, conjugação de verbos, colocação de

    pronomes, dúvidas do dia-a-dia e muito mais! Também apresenta regras

    gramaticais que esclarecem suas dúvidas, otimizando o seu trabalho.

    O excerto acima faz parte de um texto on-line [www.amigomouse.com.br], na

    seção de oferta de compra de produtos de informática. Achamos apropriado

  • 31

    utilizarmo-nos dessa propaganda para começar este capítulo, pois há informações

    interessantes, muitas, talvez, não do conhecimento da maioria dos usuários de

    computador. Deixando de lado o objetivo de publicidade que o texto tem, vamos

    apresentar essas informações porque elas nos servirão, mais além, para provar

    nossa tese de que os revisores ainda precisam ser melhorados, e muito, em vários

    aspectos. Como principais características do Revisor Gramatical, aparecem:

    • Possui um dicionário ortográfico com mais de 2 milhões de palavras na

    língua portuguesa;

    • Revisa a gramática e a ortografia;

    • Possui explicação gramatical dos erros encontrados (para todo erro

    gramatical encontrado pelo Revisor, basta clicar no botão “Ajuda”, que o

    mesmo apresenta as regras gramaticais.);

    • Acentuador automático (reconhece palavras de uma única grafia

    acentuadas incorretamente e, automaticamente, corrige a acentuação,

    facilitando e agilizando o processo de correção ortográfica.);

    • Informa a existência de palavras homógrafas (as palavras homógrafas

    perfeitas se escrevem e se pronunciam da mesma forma. As

    homógrafas imperfeitas diferenciam-se entre si por um detalhe apenas

    (a acentuação, por exemplo). O Revisor Gramatical aponta as palavras

    que têm homógrafas imperfeitas para que se possa conferir se seu uso

    está correto.);

    • Corretor automático inteligente (durante a digitação, se o usuário

    cometer o mesmo erro ortográfico por 03 (três) vezes num mesmo

    documento, o Revisor Gramatical permite ao usuário inserir este erro no

    Dicionário Inteligente. Depois de inserto, o Revisor irá corrigir o erro

    automaticamente, agilizando a correção.);

    • Conjugador verbal (conjuga verbos em todos os tempos e modos da

    língua portuguesa de modo simples e fácil. Reconhece inclusive verbos

    impessoais como “chover”, “ventar”, etc., destacando as formas mais

    usuais).

    Este Revisor anunciado serve para aplicativos como Microsoft Word

    Compatíveis, Microsoft Word 2000 (Português/Inglês) versão 9.0, Microsoft Word 97

    (Português/Inglês) versão 8.0 e Microsoft Word 95 (Português/Inglês) versão 7.0.

  • 32

    Como requisitos mínimos de funcionamento precisa de um PC 486 ou superior, 16

    MB de RAM, 2 MB de espaço livre no disco rígido, drive de CD-ROM, Windows 95

    ou superior previamente instalado, rede: NT & Novell.

    Decidimos testar partes dele, apenas para servir como exemplos de sua

    funcionalidade efetiva.

    A palavra “conjugador”, por exemplo, que aparece no último item das

    características do Revisor, não faz parte dos 2 milhões do dicionário do mesmo, e

    aparece sublinhada em vermelho. O mesmo ocorre com a palavra “acentuador”, no

    4º item. A sugestão de ortografia correta para “conjugador” encontra-se na tela 1,

    copiada na página seguinte. Estas, então, são palavras que precisaríamos

    acrescentar ao dicionário do nosso PC.

    Com relação ao reconhecimento das homógrafas imperfeitas (da forma como

    apresentado neste texto), como por exemplo, “Ela esta bem.” e “Ela está bem.” , o

    revisor gramatical do computador que estamos utilizando não apontou nenhum

    problema, tanto com uma como com a outra forma. Assim, se não soubermos que a

    primeira frase torna-se inadequada, sem o acento em “esta”, também não teremos

    como o saber, pois o revisor não nos avisa disso. Em “Ele para, olha e fica

    pensando...” e “Ele para mim é um anjo.” , também não há manifestação contrária

    por parte do revisor quanto à acentuação que deveria existir no verbo “para” na

    primeira frase. Em: “Fizeram boa viajem?”, pensamos que o revisor distinguiria o

    verbo “viajem” do substantivo “viagem”. Isso não aconteceu. Ele sublinhou em verde

    “fizeram boa” e sugeriu o que aparece na tela 2. Concluindo: o revisor NÂO aponta

    as homógrafas imperfeitas para conferência de sua correção.

    Quanto ao reconhecimento e correção automática, por parte do revisor, de

    palavras de grafia única acentuadas incorretamente, em alguns casos isso se

    mostra verdadeiro, em outros, não. Vejamos:

    “Vocé”, digitada propositalmente por nós, foi realmente corrigida

    imediatamente, aparecendo “Você”. Se se utilizar a tecla F7 (ortografia e gramática),

    a sugestão de grafia “Você” aparecerá. Mas quando digitamos a palavra “pêrola”,

    ele apresentou 25 sugestões de escritura de diferentes palavras, mas não a grafia

    “pérola” .(Vide tela 3.)

  • 33

    Tela 1

    Tela 2

  • 34

    Tela 3

    O teste agora é da conjugação de verbos em todos os tempos e modos,

    inclusive os impessoais. Somente alguns exemplos:

    “Chove chuva, chove sem parar...”

    “Amaram-no mais que tudo neste mundo.”

    “Fazer silêncio, por favor.”

    Mas, em:

    “(...) Se me ainda amas, por amor não ames:

    Trairias-me comigo.” (Já sobre a fronte – Poesia Completa. Ricardo Reis/Fernando Pessoa)

  • 35

    Tela 4

    A ênclise na forma verbal “trairias-me” não foi reconhecida como correta pelo

    revisor, que apresentou a sugestão de ortografia conforme tela acima.

    Por pura curiosidade, decidimos reescrever o trecho não aceito antepondo o

    pronome oblíquo ao verbo, e o revisor, após mostrar a sublinha verde, manifestou-

    se assim:

    Se me ainda amas, por amor não ames:

    Me trairias comigo.

  • 36

    Tela 5

    Como se pôde perceber até agora, o revisor gramatical tem lá seus humores.

    Não são de admirar, então, as inúmeras reclamações dos mais diversos tipos de

    usuários quando se utilizam do editor de textos do Word e pedem “ajuda” ao revisor

    eletrônico para verificar a correção de seus textos. Algumas sugestões do revisor

    tornam-se engraçadas, porque completamente ilógicas para qualquer falante

    razoável da língua portuguesa.

    Dílson Catarino, professor, em um de seus textos de dicas de gramática no

    site do uol/vestibulares, quando mostra como se deve usar os pronomes

    demonstrativos em textos, faz a seguinte advertência: Somente mais um

    comentário, sem ligação alguma com os estudos de hoje: ao escrever um texto em

    seu computador, nunca confie no corretor do Word, pois ele apresenta falhas

    clamorosas. E cita como exemplo, uma das frases do próprio texto que ele

    escreveu naquele dia.: Onde escrevi: Não se deve andar com os vidros do automóvel abertos nas grandes cidades brasileiras, o sinistro Word diz: Não se deve andar com os vidros do automóvel aberto nas grandes cidades brasileira ou Não se deve andar com os vidros dos automóveis abertos nas grandes cidades brasileiros. (grifos do autor)

  • 37

    E termina com um desabafo revoltado: Que é isso, meu santo protetor dos professores de Português?! Como deixam acontecer isso? Será que nossa Língua é tão desprezada assim? Será que nenhum dos nossos ilustres imortais usa computador? Ou será que eles escrevem como o Word quer?

    Quanto à “acusação” aos imortais não podemos nos pronunciar, uma vez que

    não dispomos de informações confiáveis de que eles se comportem ou não como

    supõe o autor acima.

    Quanto à reclamação do referido professor, redigitamos a frase mencionada

    e acionamos a tecla F7. O revisor nada acusou. Porém, este é um dado sobre o

    qual já alertamos anteriormente: a configuração de cada computador pessoal

    interfere quanto às manifestações do revisor eletrônico, seja o ortográfico, seja o

    gramatical. Acreditamos que o PC de Catarino não dispunha, à época, da mesma

    configuração deste que estamos utilizando agora.

    Quanto à confiança cega que alguns usuários depositam no revisor

    eletrônico, o Jornal do Brasil publicou matéria, em 27/09/2001, cujo título era

    Viciados em F7. (Imediatamente o revisor sublinhou em verde o título. A tela com a

    sugestão ortográfica e a explicação gramatical está mais à frente). O articulista

    começa explicando o que é a tecla F7 e diz que Para quem se garante nos quesitos ortografia e gramática, o corretor automático é um chato que fica sublinhando, em verde ou vermelho (conforme o caso), nomes de pessoas, palavras que não estão no dicionário e erros que não existem – como segue regras rígidas, muitas vezes ele aponta como erro formas que na verdade são opcionais ou licenças poéticas.

    Mais adiante, o texto fala sobre a tábua de salvação que é a tecla F7 para os

    não “tão craques” em português, impedindo que não sejam entregues trabalhos

    repletos de “erros ortográficos constrangedores”, uma vez que os possíveis erros

    são apontados pelo revisor, que oferece soluções para os problemas. Afirma o JB, Assim, formou-se uma verdadeira legião de viciados em F7. Indiferentes à discussão sobre qual é o melhor dicionário, eles dispensam cuidados ao digitar e não se preocupam com a ortografia. O relaxamento pode chegar a tal ponto de a pessoa repetir o mesmo erro diversas vezes, ignorando a possibilidade de aprender a grafia correta.

    O artigo termina com uma fala do exemplo citado pelo jornal, um “ex-

    dependente” nas palavras do articulista, e que hoje tira suas dúvidas no dicionário,

  • 38

    em vez de continuar confiando apenas no corretor eletrônico: O mercado de

    trabalho exige que se escreva corretamente, e eu pretendo acompanhar o mercado.

    Tela relativa à página anterior. O revisor considera inadequada a concordância feita no título.

    Como era de se esperar, o artigo no Jornal do Brasil suscitou respostas em

    defesa do uso do revisor eletrônico. Duas leitoras de Belo Horizonte, Carla Viana

    Coscarelli e Else Martins, enviaram carta ao jornal, intitulada Viciados em F7? Nossa resposta ao JB (27/09/2001), que foi publicada em outubro de 2001. Assim

    começa o texto: A informática entrou em nossa vida – isso não tem retorno - e sua influência na escrita é inevitável. De pouco adianta torcer o nariz ou fechar os olhos para as conseqüências que o uso do teclado e dos programas de texto provocam na escrita das pessoas. Necessário se faz estudar essas modificações e, sem pré-conceitos, analisar até onde isso é bom ou não. (...) A crítica que mais se faz ao uso dos corretores de texto e das comunicações sincrônicas (chats) e assincrônicas (e-mail) é o fato de que eles levam o indivíduo a escrever errado. No primeiro caso, inclusive, dizem até que “vicia”!

    As autoras da resposta ao JB defendem que é preciso entender que alguns

    aspectos da escrita merecem mais atenção do que ortografia e separação de

    sílabas, entre outras “questões menores”, na visão delas. Afirmam que língua não

  • 39

    se resume a ortografia. Há muito além disso, a sintaxe, a semântica, a textualidade,

    os fatores pragmáticos, a discursividade, e ninguém discute isso na imprensa. A

    ortografia é sempre a grande vedete. O que elas propõem é a desnecessidade de

    perder tempo com questões ortográficas, e deixar sua resolução por conta do

    corretor ortográfico. Acreditam que quanto menos tivermos de nos preocupar com

    isso no momento da criação, melhor, pois sobrará tempo e recursos cognitivos para

    as atividades de planejamento e organização das idéias no texto, para escolher

    melhor os recursos lingüísticos a serem usados e as estratégias textuais que melhor

    seduzirão o leitor. (sic)

    Acrescentam ainda, as duas leitoras, que não há programa de computador

    que consiga substituir as escolhas semânticas e estruturas frasais de cada produtor.

    Além disso, pelo fato de seguir normas rígidas, o recurso de correção sintática e

    ortográfica não exclui a participação do usuário: Apareceu o risquinho verde no texto

    e, imediatamente, vai-se verificar o que está acontecendo, que tipo de correção é

    sugerida. Apareceu o risquinho vermelho e vai-se verificar o erro ortográfico

    cometido.

    E concluem, em sua resposta: Que diferença faz tirar dúvidas no dicionário de papel ou no eletrônico? Muita. Enquanto o rapaz do nosso exemplo está a consultar um dicionário, o colega ao lado já analisou e aceitou ou não a correção proposta e produziu infinitamente mais. (...) o texto produzido em computador vai aos poucos instalando um texto novo, criativo, ágil e que exige um leitor que domine os recursos de produção desse texto, para melhor entendê-lo.

    À parte acusações ou defesas, o corretor eletrônico permanece impassível

    diante de tudo isso. As considerações anteriores, sobre os textos publicados no

    Jornal do Brasil, foram feitas no intuito de servirem de exemplos, dentre os tantos

    encontrados por nós, principalmente na Internet, das opiniões favoráveis ou

    contrárias ao uso do revisor eletrônico do Word.

    Hélio Consolaro, professor de português e coordenador do site

    www.portrasdasletras.com.br, num artigo intitulado “Revisor do Word”, afirma que

    “Os limites do revisor são dois: a qualidade do conhecimento lingüístico de quem

    abasteceu o seu léxico (o dicionário) e a limitação do programa”. E continua: As nuanças de concordância, regência. Exemplo: Juliana era as esperanças do time. O revisor aponta erro de concordância, porque não distingue que Juliana se trata de nome de pessoa, nesse caso o verbo SER concorda com ele.

  • 40

    Grifamos, em verde, o que estava sublinhado pelo corretor, na citação acima,

    para comprovar a afirmação de Consolaro.

    Tela 6

    Mais uma surpresa: a sugestão vem na forma de “era as esperança”,

    concordando “esperança”, provavelmente, com “do time”, termo subseqüente, mais

    próximo. Quando digitada a frase “era as esperança”, o corretor permaneceu em

    silêncio.

    Consolaro, como tantos outros, não necessariamente professores de

    português apenas, aconselha levar a sério os apontamentos que o Word apresenta,

    verificando se há razão ou não dos mesmos estarem sendo feitos, não deixando de

    pesquisar em gramáticas ou dicionários quando houver dúvidas. E termina o

    conselho com uma advertência: “Erra mais quem tem muita certeza”.

  • 41

    2.3.1 Como “nasceu” o Revisor

    Não nos foi fácil, nem rápido, conseguir informações sobre a criação e os

    criadores do revisor gramatical do Word, mesmo tendo a Internet e o site da

    Microsoft à nossa disposição. Os e-mails enviados, solicitando ajuda, ficaram sem

    respostas.

    Tínhamos, em mãos, um único texto - um artigo de divulgação - encontrado

    num site e que falava sobre um revisor gramatical chamado ReGra, da Itautec.

    Porém, como ignorávamos completamente o significado do ícone da Itautec-Philco,

    que vem, conforme a configuração de algumas máquinas, na tela de iniciação do

    computador, não conseguíamos aliar uma coisa à outra. Após inúmeras buscas,

    conseguimos encontrar uma fonte fidedigna sobre a origem do revisor que temos

    em nossas máquinas de sistema do Windows: um texto escrito pelos próprios

    pesquisadores/criadores do ReGra, conseguido via Internet, e apresentado em São

    Paulo, em 2002, num encontro de Estudos Lingüísticos.

    Restou-nos, dessa forma, trabalhar com apenas duas fontes e a impressão de

    que não há dados suficientes e satisfatórios para compor esse subcapítulo. No

    entanto, disponibilizaremos o que conseguimos mesmo correndo o risco de serem

    insuficientes as informações sobre como surgiu o revisor que utilizamos

    rotineiramente.

    No site http://inventabrasilnet.t5.com.br/revgram.htm há um artigo intitulado

    Revisor Gramatical falando sobre a Itautec, empresa brasileira de computadores e

    softwares, que precisou desenvolver, em 1993, um revisor ortográfico para um

    processador de texto utilizado nos computadores fabricados por ela. A empresa

    procurou o Núcleo Interinstitucional de Lingüística Computacional (NILC), formado

    por pesquisadores dos Institutos de Ciências Matemáticas e de Computação e de

    Física da USP de São Carlos e da Faculdade de Letras da Universidade Paulista

    (Unesp), de Araraquara.

    Esse grupo, composto de alunos e professores, pesquisava, à época, um

    software de processamento da língua portuguesa. A Itautec-Philco, que já possuía

    um revisor ortográfico de textos, interessou-se pela pesquisa, pois pretendia

    aprimorar seu revisor ortográfico, incluindo um revisor gramatical capaz de detectar

    e corrigir erros de concordância e de regência verbal e nominal, entre outros.

  • 42

    Em 1994, Maria das Graças Volpe Nunes, pesquisadora-responsável pelo

    NILC, e seus colaboradores apresentaram o Revisor Gramatical Automático para o

    Português. A princípio, o revisor deveria apenas se preocupar com os erros mais

    comuns das secretárias, devido ao perfil corporativo dos clientes Itautec-Philco, mas

    o produto acabou posteriormente incorporado ao Word da Microsoft.

    O projeto foi aprovado no PITE, em 1996, e contou também com a

    colaboração dos professores Cláudio Lucchesi, Tomas Kowaltowski e Jorge Stolfi,

    do Instituto de Computação da Unicamp. Em São Carlos, sob a coordenação da

    professora Maria das Graças Volpe Nunes, foram desenhados os algoritmos e

    formado o banco de base de palavras e, em Campinas, desenvolveu-se a

    compactação do sistema e a diminuição do tempo de resposta do programa.

    Em 1997, a empresa começou a vender, no varejo, a primeira versão do

    revisor gráfico e gramatical, em caixas próprias, como um produto de prateleira. No

    final desse ano, a Microsoft procurou a empresa para incorporar o revisor no

    programa Office, o mais vendido no Brasil e em todo o mundo. O antigo revisor

    criado em Portugal para a língua portuguesa comportava 200 mil palavras; o da

    Itautec já dispunha de 1,5 milhão de palavras. O revisor foi incorporado ao Office

    2000. A empresa brasileira licenciou o produto por um período de três anos e, pelo

    trabalho desenvolvido, o professor Lucchesi recebeu o Prêmio Santista de

    Informática, em 1999.

    Anunciava o artigo: Com as funções de revisão licenciadas, o usuário de qualquer um dos aplicativos que compõem o Microsoft Office poderá ter seus erros gramaticais e ortográficos corrigidos automaticamente, desde erros de concordância verbal, uso de crase, regência, colocação pronominal até a grafia correta das palavras em português. Além de todos esses recursos, o Microsoft Office contará também com um dicionário de sinônimos e antônimos (thesaurus), como recurso extra de consulta. As demais funções do Revisor Word não licenciadas pela Microsoft continuarão a ser comercializadas pela Itautec sob o nome de Revisor Plus. Constarão do Revisor Plus os recursos de conjugação de verbos, consulta à gramática da língua portuguesa, acentuação automática de documentos, consulta a verbetes semelhantes, dicas sobre erros mais freqüentes, consulta a brocardos jurídicos e dicionários português/português, português/inglês e inglês/português. Também farão parte do produto dicionários temáticos nas áreas de Medicina, Direito, Administração e Informática. O Revisor Plus estará disponível para comercialização simultaneamente com o lançamento da próxima versão do Microsoft Office em português. (grifo nosso)

  • 43

    Afirma o artigo ainda que, apesar de as pesquisas em processamento de

    linguagem natural (PLN) de português terem se iniciado muito antes da década de

    1990, praticamente nada havia sido feito que visasse à criação de uma ferramenta

    robusta e de uso genérico requerendo recursos lingüísticos e computacionais de

    grande monta.

    O PLN trata do processamento envolvendo análise, interpretação e produção

    de uma linguagem humana por uma máquina, sendo uma área da inteligência

    artificial voltada para os estudos e desenvolvimento de sistemas que permitam

    interpretar e gerar linguagem natural. “O processamento de linguagem natural

    ainda é coisa nova. (...) Além das limitações do PLN, tínhamos o limite da falta de

    experiência em produção de produtos comerciais”, afirma Maria das Graças Volpe

    Nunes, no citado artigo.

    O sistema de correção gramatical foi chamado de ReGra, não incluindo as

    rotinas para detecção de erros ortográficos, embora a base lexical que suporta o

    corretor ortográfico tenha sido compilada para o projeto de correção gramatical.

    O ReGra é constituído por três módulos principais:

    i) o módulo estatístico – realiza uma série de cálculos, fornecendo parâmetros

    físicos de um texto sob análise, com o número total de parágrafos, de sentenças, de

    palavras, de caracteres, etc. O componente mais importante desse módulo, entretanto, é o que fornece o “índice de legibilidade”, uma indicação do grau de dificuldade da leitura do texto. O conceito de índice de legibilidade surgiu a partir do trabalho de Flesch, de 1948, para a língua inglesa e busca uma correlação entre tamanhos médios de palavras e sentenças e a facilidade de leitura. Não inclui aspectos de compreensão do texto, que requereriam tratamento de mecanismos complexos de natureza lingüística, cognitiva e pragmática. O índice Flesch, assim como outros similares, tem sido empregado para uma grande variedade de línguas, mas o trabalho do NILC foi o primeiro para o português. Através de um estudo comparativo de textos originais em inglês e traduzidos para o português, verificou-se que a equação que fornece o índice Flesch precisaria ter seus parâmetros adaptados para o português, pois as palavras desta língua são em média mais longas, em termos de número de sílabas, do que em inglês. (artigo supra)

    ii) o módulo mecânico – detecta erros facilmente identificáveis que não são

    percebidos por um corretor ortográfico, como, por exemplo, palavras e símbolos de

    pontuação repetidos; presença de símbolos de pontuação isolados; uso não

    balanceado de símbolos delimitadores, como parênteses e aspas; capitalização

  • 44

    inadequada, como o início da sentença com letra minúscula; e ausência de

    pontuação no final da sentença.

    iii) o módulo gramatical – contém mais de dez mil regras de correção, realiza

    inclusive a análise sintática automática das sentenças. As regras foram testadas em

    textos reais não corrigidos, como cartas comerciais, redações de vestibulares e

    teses, e em textos editados, como os de livros e revistas. O banco de textos

    empregado nestes testes contém mais de 37 milhões de palavras. A última versão

    (não se pode saber com certeza qual é, pois não há sua datação) conta ainda com

    uma minigramática eletrônica, disponível ao usuário através de hipertexto, que

    explica as principais regras gramaticais da língua portuguesa. Possui também um

    dicionário de sinônimos e antônimos.

    Dizem os pesquisadores do NILC que o primeiro passo para a elaboração do

    módulo gramatical foi o levantamento de erros (ou inadequações) mais comuns

    entre usuários de nível médio, como secretárias e profissionais de escritório em

    geral, e alunos cursando o ensino médio ou ingressando na universidade. O termo

    “erro”, aqui, frisam eles, refere-se ao que os gramáticos normativos consideram

    como forma desviante da norma culta.

    Cita o artigo que Nas primeiras versões do ReGra, os erros eram detectados através de regras heurísticas implementadas na forma de redes de transição estendidas (augmented transition networks), numa abordagem que se poderia chamar de “error-driven”. As primeiras versões do ReGra apresentavam vários benefícios do ponto de vista da implementação computacional: agilidade, especificidade, rapidez, portabilidade, e disponibilidade de memória. Entretanto, seu escopo de atuação era muito limitado: problemas envolvendo itens lexicais não contíguos e estruturas recursivas não podem ser atingidos pelas estratégias heurísticas normalmente desenhadas por abordagens error-driven. Para prover a essas insuficiências, optou-se por analisar sintaticamente as sentenças do usuário, antes de operar a revisão propriamente dita. Isso permite aplicar regras que apontam desvios nas relações entre núcleos e adjuntos, entre núcleos e modificadores, entre regentes e regidos. A realização de análise sintática automática obviamente requer que todos os itens lexicais estejam categorizados apropriadamente. Para tanto, realizou-se em paralelo a construção do léxico, que envolveu a compilação exaustiva das palavras da língua portuguesa e a hierarquização das categorias dos itens lexicais morfologicamente ambíguos. Uma vez que alguns erros em contextos lingüísticos específicos ocorrem in