A CONCORDÂNCIA NOMINAL E O REVISOR GRAMATICAL … › livros › pt › cp036943.pdfsoftwares de...

HENRIETTE MARCEY ZANINI

A CONCORDÂNCIA NOMINAL E O REVISOR GRAMATICAL ELETRÔNICO DO WORD

Cuiabá 2007

HENRIETTE MARCEY ZANINI

A CONCORDÂNCIA NOMINAL E O

REVISOR GRAMATICAL ELETRÔNICO DO WORD

Dissertação apresentada ao Programa de Mestrado em Estudos de Linguagem da Universidade Federal de Mato Grosso – UFMT, como requisito parcial para obtenção do título de Mestre em Estudos de Linguagem. Área de concentração: Estudos Lingüísticos

Orientadora: Profª. Drª. Alice Maria Teixeira Saboia

Instituto de Linguagens da UFMT Cuiabá 2007

Dedico e agradeço...

A Wendy e Tayná, amores e razões primeiras de todo meu viver.

A minha mãe, Marley, guerreira que, entre outras coisas, me ensinou a nunca desistir, por mais árdua, longa e acidentada se mostrasse a minha trilha.

A meu pai, Toni, onde quer que ele se encontre depois de ter partido para os Campos Elíseos. Demorou, mas hoje eu sei que ele realmente acreditava que eu podia realizar qualquer coisa que me propusesse a fazer.

A minha irmã Andréa, que, uma semana antes da minha defesa, foi levada para trabalhar no departamento dos anjos de Deus. Minha maior incentivadora, em tudo!

Aos meus irmãos, Luiz Francisco, Jeancarlo e Thiago (e suas famílias), por terem, principalmente, “agüentado” minhas reclamações, meu cansaço, muitas vezes meu desânimo, e porque sem eles, ao meu lado, sou menos gente.

Ao Toninho, que de um modo muito especial também me acompanhou nessa jornada.

A minha avó, Natalina Ellert, que aos 91 anos teima em dizer a todos com quem conversa que, agora, eu sou “doutora”; a minha tia Sirley, que soube entender minhas angústias e acalmar meu coração; a minha tia Leda, com quem aprendi a amar os livros e a música.

A minha amiga-irmã Vera Lúcia Eilert, por seu incentivo constante e fé absoluta no “meu poder”, e pelos fichamentos que me ajudou a fazer.

Às minhas amigas do coração, Tereza Sartori, Terezinha Konopaktzi, Irene Cajal, Luzia Guimarães, Vera Lúcia Lopes, Mariângela Sola López Díaz, Sônia Zaramella, Ana Maria de Souza e Maura Guimarães. Cada uma, à sua maneira, me apoiou, me ajudou, me “empurrou”, iluminando meu caminhar.

Aos amigos queridos, Lívio Wogel, Delarim Martins Gomes e Javier Eduardo López Díaz, pelo “ombro” e pela ajuda incondicional sempre que precisei.

À minha turma do Mestrado, amigos inesquecíveis, meus Professores de Vida: Carmen Hornick, Caroline Akie, Degmar dos Anjos, Edsônia Melo, Marcelo Silvestrim, Neusa Phillipsen, Paula Jeorgea, Rodney Mendes de Arruda e Ruth Dourado.

A meus professores, formadores de mais um pouco de mim: Denise Dal’Bello, Lúcia Helena Vendrúsculo Possari, Manoel Mourivaldo, Marcos Moura Vieira, Maria Inês Pagliarini Cox, Maria Rosa Petroni e Marieta Prata.

À minha professora-orientadora Profª. Drª. Alice Maria Teixeira Sabóia que, sem me conhecer e contra todas as probabilidades, acreditou firmemente que eu pudesse fazer um trabalho de qualidade.

Agradeço, em especial, à banca de avaliação: Profª. Drª. Maria Inês Pagliarini Cox e Prof. Dr. Cláudio Cezar Henriques, por tão generosamente despenderem seu tempo para compartilharem comigo uma parte do seu imenso conhecimento.

Henriette Marcey Zanini

Os limites da minha linguagem são os limites do meu mundo.

Wittgenstein

RESUMO

ZANINI, Henriette Marcey. A concordância nominal e o revisor gramatical eletrônico

do Word

Resumo: Esta dissertação aborda o revisor gramatical eletrônico do “Microsoft Office

Word” para o português. Recorta-se em especial a aplicação da regra de

concordância nominal, testada esta em exemplos extraídos de três gramáticas

diferenciadas entre si, pelo modelo teórico-metodológico utilizado no tratamento da

linguagem verbal, para detectar o modelo gramatical subjacente ao revisor estudado.

Neste trabalho busca-se entender como se comporta o revisor gramatical quanto às

regras de concordância nominal contidas em sua gramática, comparando-as às da

gramática normativa e às dos usos cotidianos do português brasileiro padrão. Os

resultados da análise do material permitem inferir que o modelo adotado pela

referida ferramenta computacional assenta-se, em parte, na gramática tradicional, no

que tange à regra geral, deixando, todavia, de observar as regras excepcionais

prescritas.

Palavras-chave: revisor gramatical eletrônico, concordância nominal, norma

lingüística

Abstract: This paper approaches the automatic grammar checker of the Microsoft

Office Word for Portuguese Language. It observes especially the use of the nominal

concordance rulers, tested themselves through examples from three diferent

grammar books, by a theoretical and methodological model used in the treatment of

verbal language, in order to detect the grammatical model that underlies the focused

checker. Here, we search to understand how the grammar checker behaves itself

facing nominal concordance rulers in its grammar, compare them with those into the

normative grammar and the daily uses of standard Brazilian Portuguese. The results

of the analysed material take us to grasp that the adopted model by the automatic

grammar checker settling is based partly on the traditional grammar, relating to

general rule, but it doesn’t observe the excepcional rules prescribed by that grammar.

Key-words: automatic grammar checker, nominal concordance, linguistic rule

SUMÁRIO Dedicatória e agradecimentos................................................................................ iii

Epígrafe.................................................................................................................. iv

Resumo/Abstract.....................................................................................................v

INTRODUÇÃO ......................................................................................................07 Capítulo I – METODOLOGIA ................................................................................13

Capítulo II – O ADVENTO DO REVISOR GRAMATICAL ELETRÔNICO .............18

2.1 A Lingüística Computacional................................................................19

2.2 A Sintaxe Computacional .....................................................................24

2.3 O Revisor Gramatical Eletrônico ..........................................................30

2.3.1 Como “nasceu” o Revisor ......................................................41

2.3.2 Como funciona o revisor gramatical do Word........................49

Capítulo III – A CONCORDÂNCIA NOMINAL.......................................................55

3.1 Em Napoleão Mendes de Almeida.......................................................57

3.2 Em Evanildo Bechara...........................................................................66

3.3 Em Maria Helena Moura Neves ...........................................................78

Capítulo IV – O (DES)COMPASSO ENTRE AS NORMAS DE CONCORDÃNCIA NOMINAL CONSTANTES NAS TRÊS GRAMÁTICAS E NO REVISOR ELETRÔNICO ...................84

Capítulo V – CONCLUSÃO.................................................................................101

REFERÊNCIAS BIBLIOGRÁFICAS ....................................................................108 ANEXO A - Informática: símbolos digitais e glossários.......................................111

ANEXO B - O ReGra: Revisor Gramatical do Word ............................................116

ANEXO C - Telas de Aconselhamento da gramática eletrônica do Word ...........120

Introdução

As línguas são de certo modo seres que nos rodeiam e nos iluminam como grandes arcanjos viventes: é necessário lhes dar um espaço interior de acolhida e estar dispostos a escutá-los e a lhes prestar atenção.

Ivonne Bordelois (1934-), lingüista argentina.

Desde o começo dos primeiros estudos lingüísticos a preocupação com a

norma, a preocupação no sentido de fixar o “bom uso” e a correção estão dentre as

motivações mais fortes que levaram os estudiosos a descrever as línguas,

resultando na seleção de uma determinada modalidade lingüística em detrimento de

outras consideradas vulgares, impuras, incorretas, ilegítimas. Apoiada nesse

pressuposto, toda a tradição lingüística ocidental atribuiu duas funções básicas ao

gramático: dizer o que a língua é, descrevendo-a, e, simultaneamente, dizer o que

ela deve ser.

Desta forma, não é de se estranhar a ênfase no fato de a linguagem ser

considerada um procedimento importantíssimo, que qualifica ou desqualifica, pela

forma utilizada, o que é dito e quem o diz.

Essa preocupação com o bom, com o adequado uso da linguagem

encontra-se vividamente dentro de empresas, de órgãos públicos, nas redações de

grandes jornais, para citar apenas alguns exemplos, e tem suscitado o

aparecimento de programas de aperfeiçoamento, fazendo surgir um número

considerável de manuais de cultura idiomática. Com a Internet, vários passaram a

ser disponibilizados para consulta on-line, na tentativa de agilizar a vida do usuário

que não dispõe, no momento em que precisa, de material impresso para tirar suas

dúvidas em relação ao uso considerado correto do seu idioma.

Hoje, usuários que necessitam redigir um texto, e que não são tão

proficientes na escrita da língua portuguesa, encontram à sua disposição alguns

softwares de correção gramatical desenvolvidos para auxiliá-los no momento de

escritura de seus textos.

Interessa-nos, aqui, particularmente, falar sobre o revisor gramatical

eletrônico do Microsoft Word, o programa de edição de textos mais utilizado no

mundo, e objeto de nossa pesquisa.

8

A idéia de trabalhar com este tema nasceu da observação de inadequações

sintáticas no que diz respeito às concordâncias verbal e/ou nominal, apresentadas,

principalmente, em textos de alunos de graduação. Inicialmente nos parecia que

eles não procediam a uma revisão gramatical de seus escritos, porém como

asseguravam que “pediam ajuda ao computador”, mais especificamente à tecla F7, percebemos a necessidade de averiguar o que se passava.

Não costumávamos utilizar o recurso de clicar em Ferramentas: ortografia e

gramática (desconhecíamos, ainda, que o atalho era a tecla F7) por dois simples

motivos: primeiro, pelo conhecimento razoavelmente bom do idioma, e por

recorrermos constantemente ao dicionário e à gramática; segundo, a quase total

falta de intimidade com a maioria dos recursos computacionais, ou seja, a não

utilização nem de 1/3 dos recursos que o computador oferece, entre eles como

procurar a ajuda do revisor, quer ortográfico, quer gramatical.

Então, ao começarmos a expor ao revisor eletrônico do Word alguns

problemas lingüísticos apresentados pelos alunos, acabamos nos deparando com

outros problemas que ele nos apresentava. Parecia analisar e sugerir alterações

aleatoriamente, como se não houvesse um padrão que seguisse. Referimo-nos a

padrão, aqui, como regras ditadas pela gramática normativa da língua portuguesa. E

o mais preocupante é que para os usuários do revisor, ou seja, para as pessoas que

não têm um conhecimento maior de estruturas sintáticas e regras de concordância,

ele é tido como um instrumento confiável de colaboração para a correção gramatical

de seus escritos.

Vale uma ressalva, aqui: o termo “corretor” tem como sinônimos “revisor” e

“verificador”. Optamos por utilizar com maior freqüência o termo revisor, primeiro por

achá-lo, particularmente, mais adequado e, em segundo, porque é esse termo que

aparece na configuração do Microsoft Office Word, presente em cada PC, tanto para

Revisor Ortográfico quanto para Revisor Gramatical.

Assim, é natural que, em virtude das tentativas vãs em entender a lógica com

que o revisor operava, algumas interrogações começaram a nos atiçar a

curiosidade, tais como: por que a descrição gramatical do revisor eletrônico não diz

respeito à verificação de grande parte das estruturas usuais do português do Brasil

em relação às regras de Concordância Nominal? Que gramática subjaz ao revisor

gramatical eletrônico? Trata-se de uma gramática casuística, composta de um

9

elenco de frases, que considera caso a caso? Trata-se de uma gramática que vê a

língua como um conjunto de enunciados pré-estabelecidos?

Destes questionamentos originou-se a pergunta principal de nossa pesquisa:

quais normas constam da memória da gramática eletrônica em relação à

concordância nominal? Seguem o modelo tradicional ou não?

E, sem respostas imediatas a essas e outras questões, principalmente no

retorno das correções feitas nos textos dos alunos, surgiu, então, o desejo de

procurar essas respostas por meio de uma investigação científica que desse

respaldo às nossas discussões com os alunos quando eles se deparassem com as

correções feitas em seus textos e os pedidos para não confiarem tanto no revisor

eletrônico, mas, sim, nas velhas e boas regras encontradas nas gramáticas

impressas que, sabemos, a maioria não gosta de, ou não sabe como, pesquisar.

Aliás, essa confiança no revisor gramatical é um dos aspectos que precisa ser

debatido, pois realmente chama a atenção ver como usuários comuns se apóiam no

que lhes aconselha o revisor como correção. Confiança não compartilhada com os

homens de letras - aqui representados por pessoas com conhecimento maior das

normas gramaticais em relação àqueles -, como se pôde perceber, por exemplo,

nas opiniões de professores de português, dispostas no subcapítulo dedicado ao

funcionamento do revisor.

Desta forma, pensamos realizar um trabalho que pretende, por meio da

investigação científica, demonstrar qual o grau de (in)adequação da gramática

eletrônica, no que diz respeito às regras de Concordância Nominal apresentadas

pelo revisor do Word, com relação às regras da gramática normativa e aos usos

cotidianos da língua portuguesa.

Para saber mais e conseguir chegar a conclusões claras e consistentes para a

composição do texto, como um todo, optamos escolher traçar um caminho que, a

nosso ver, nos embasaria teoricamente e nos forneceria dados para a compreensão

buscada.

No primeiro capítulo encontra-se a metodologia, desenhada por nós, uma vez

que não conseguimos encontrar no gênero algo com o qual pudéssemos trabalhar.

Considerações sobre o revisor gramatical eletrônico estão dispostas no

segundo capítulo, bem como considerações acerca da lingüística computacional e

da sintaxe computacional. Acerca do revisor, dispusemos as informações que

conseguimos (a maioria pela Internet) e que consideramos ainda um pouco

10

inconsistentes para compreender bem a complexidade desta ferramenta de trabalho

de que dispõe um usuário de computador quando utiliza um editor de textos. Há

testes que fizemos com um anúncio de venda de um revisor gramatical, infelizmente

sem nome e sem datação, mas de grande ajuda para o início das reflexões acerca

de algo que não conhecíamos ainda. Informações de como proceder – apenas

algumas dentre as diversas orientações fornecidas pelo programa - para utilizar o

revisor estão no primeiro subcapítulo e, no segundo, quem esteve e está por trás da

criação, do desenvolvimento e do aprimoramento dos revisores ortográfico e

gramatical para a língua portuguesa utilizados pela Microsoft Word nos

computadores que se utilizam do sistema Office Word.

O terceiro capítulo é dedicado às noções de concordância – ênfase na

concordância nominal - prescritas para o uso do português culto, bem como os

capítulos destinados ao assunto pelos três gramáticos escolhidos por nós, com as

respectivas telas copiadas quando o revisor detectava um problema com alguma

regra.

No quarto capítulo, as análises contrastivas entre as normas de concordância

nominal constantes nas três gramáticas e no revisor gramatical. Também as

respostas para as perguntas iniciais de pesquisa, com as análises julgadas

pertinentes.

No quinto capítulo, as conclusões a que chegamos.

Como anexos, disponibilizamos algumas telas de aconselhamento ofertadas

pelo revisor gramatical eletrônico sobre outros tópicos gramaticais, que não apenas a concordância nominal, com os quais nos deparamos, durante a digitação do texto

desta pesquisa, sublinhados com a linha ondulada verde. Servem a título de

ilustração e também de exemplificação de alguns dos aspectos que ainda precisam

ser melhorados pelos pesquisadores/idealizadores do revisor. Há, também, outros

dois anexos: do universo da informática retiramos informações sobre o que são

símbolos digitais e dois glossários de termos; e a transcrição de um artigo publicado

pelo NILC quando da apresentação da última versão do ReGra – Revisor

Gramatical.

Por ter trabalhado com Napoleão Mendes de Almeida, Evanildo Bechara e

Maria Helena Moura Neves, pensamos ser relevante a observação disposta no

próximo parágrafo, o que também já nos serve de fecho para esta apresentação.

11

No contraponto entre a gramática eletrônica e as gramáticas citadas acima há

um conhecimento que se faz necessário e, para obtê-lo, fizemos no segundo

capítulo deste trabalho uma breve incursão aos domínios da lingüística

computacional. Breve incursão porque sabemos não haver condições temporais e

cognitivas para um aprofundamento nesse tema. Pretendemos apenas

compreender melhor como se processa a linguagem que o computador utiliza para

reconhecer como gramaticais sentenças de línguas naturais. Em melhores termos,

como um programador consegue introduzir regras gramaticais para o uso efetivo do

revisor eletrônico.

Nesse quesito, trabalhamos principalmente com Othero e Menuzzi (2005) e

suas orientações na construção de um parser lingüístico, além de suas reflexões

acerca da gramática e das programações de máquinas para responder a comandos

de usuários em sua própria língua. Com relação ao trabalho do lingüista, dizem no

comentário de orelha do livro: Por trás desse tipo de trabalho, deve estar o lingüista: ele é o cientista que busca compreender coisas como as nuances semânticas de uma expressão, as regras sintáticas de uma língua ou os detalhes de funcionamento de seus sons. É preciso “ensinar” essas coisas ao computador, se quisermos que essa máquina venha a interagir conosco.

Pensamos que ensinar, ou reensinar, coisas ao computador depende de

estudos como o que pretendemos levar a cabo. Aí reside a importância social que

acreditamos ter uma pesquisa como a nossa. Alguns problemas com a gramática

eletrônica serão detectados, outros, provavelmente, ficarão “sem sugestões”, haja

vista a dificuldade que encontramos com o “humor” da tecla F7: às vezes, aparece a

sublinha verde sob uma estrutura frasal e, às vezes, quando a mesma sentença é

exposta novamente ao corretor, não aparece sublinhada em verde. Em outras,

ainda, o revisor sublinha o texto, mas na janela de ortografia e gramática surge a

expressão “(sem sugestão)”, ainda que seja oferecida uma explicação gramatical.

(Vide tela na página seguinte.)

De qualquer modo, temos a intenção de contribuir, mesmo que timidamente,

para que novos estudos sejam realizados no intuito de se melhorar o desempenho

da gramática eletrônica do Word, ao menos quanto às regras de concordância

nominal contidas nela.

Capítulo I - Metodologia

Em virtude de não conseguirmos encontrar um modelo metodológico o qual

servisse à nossa intenção de demonstrar a adequação ou a inadequação do revisor

gramatical eletrônico do Microsoft Office Word, houve a necessidade de desenhar

um método próprio, sem a mínima pretensão ou ilusão de que seja algo

inteiramente novo.

Para buscar e encontrar respostas às dúvidas suscitadas e relatadas na parte

introdutória deste trabalho, a pesquisa objetivou alcançar:

• um inventário dos critérios utilizados para a organização do revisor

gramatical do Word;

• as normas (ou pelo menos uma boa parte delas) de Concordância

Nominal constantes da memória gramatical eletrônica, verificando se

seguem ou não o modelo tradicional;

• exemplos de quais sentenças, dentre as submetidas e consideradas

gramaticais, são reconhecidas pelo revisor, como também de sentenças

tidas como corretas gramaticalmente, usuais, e que não são

reconhecidas por ele;

• e, ainda, a identificação de qual(is) nível(is) de linguagem é(são)

contemplado(s) pela gramática do revisor do Word e pelas gramáticas

utilizadas para retirada de exemplos para o corpus da pesquisa,

aproximando-os ou afastando-os, conforme resultados obtidos.

Alcançar estes objetivos nos auxiliará a encontrar resposta para a pergunta

principal de nossa pesquisa:

1. Que normas constam da memória da gramática eletrônica em relação à

Concordância Nominal? Seguem o modelo tradicional ou não?

E também para responder às questões auxiliares:

1. Por que a descrição gramatical do revisor eletrônico não diz respeito à

verificação de grande parte das estruturas usuais do português do Brasil em

relação às regras de Concordância Nominal?

14

2. Que gramática subjaz ao revisor gramatical eletrônico? Trata-se de uma

gramática casuística, composta de um elenco de frases, que considera

caso a caso? Trata-se de uma gramática que vê a língua como um conjunto

de enunciados pré-estabelecidos?

Nosso universo de pesquisa abrangeu a gramática eletrônica do Word e as gramáticas de Napoleão Mendes de Almeida: Gramática metódica da língua

portuguesa, numa edição de 1975, a Moderna gramática portuguesa, edição 1999,

de Evanildo Bechara, e a Gramática de usos do português, publicada em 2000, de

Maria Helena Moura Neves.

Esses autores foram escolhidos por suas abordagens bem diversas no trabalho

com a gramática normativa da Língua Portuguesa, além da distância temporal

existente entre as publicações de seus estudos gramaticais, principalmente entre

Napoleão e Bechara. O primeiro, de cunho purista; o segundo, um gramático

tradicional de formação lingüística mais recente, tradutor de um dos maiores

pensadores da lingüística moderna, Coseriu; e Moura Neves, de tradição filosófica,

que distingue o que é prescrição e o que é uso na língua, servindo como

contraponto a Napoleão e Bechara.

O procedimento de coleta consistiu na verificação e extração de sentenças

fornecidas como exemplos das regras de concordância nominal encontradas nas

gramáticas dos autores citados no parágrafo anterior. Para isso, os capítulos, de

cada uma das gramáticas dedicados ao tema, foram redigitados por nós para que

as próprias regras de concordância fossem submetidas ao crivo do revisor

gramatical. Os textos redigitados encontram-se no capítulo III.

A cada vez que, na redigitação, aparecia a sublinha verde, o revisor era

consultado. As telas com a amostragem da marcação verde do revisor e as

sugestões e explicações gramaticais fornecidas por ele encontram-se nos corpos

dos capítulos escolhidos, imediatamente após a regra de concordância explicitada e

não reconhecida e/ou aceita pelo revisor.

O mesmo procedimento descrito acima foi feito durante a redação deste

trabalho, com as telas impressas servindo como “prova”. Alguns exemplos não são

especificamente de problemas de concordância nominal, porém achamos

interessante mostrá-los porque nos auxiliaram na análise do que chamamos de

15

“humores da F7”, a tecla de atalho para a janela de Ferramentas: Ortografia e

Gramática.

Para conseguirmos as telas impressas, aprendemos que devemos proceder

aos seguintes passos:

1º) selecionar a palavra/expressão/frase;

2º) apertar a tecla F7 (atalho, mais rápido);

3º) apertar a tecla Print Screen SysRq, à direita, superior, do teclado alfabético;

4º) posicionar o cursor em um documento do Word e, então, “colar” por meio

de CtrlC ou do botão direito do mouse. Depois, apenas redimensionar tamanhos, de

acordo com a necessidade.

O procedimento de análise consistiu em colher as sugestões fornecidas pelo

revisor gramatical eletrônico - ou não fornecidas, pois, às vezes, ele sublinha, mas

não tem sugestões a dar (vide exemplo na tela abaixo) -, além de colher as

explicações gramaticais (regras e “dicas”) que o revisor apresenta para, no final,

comparar quais concordâncias, exemplificadas nas gramáticas, o revisor reconhece

ou não como corretas.

16

Interessante explicar que algumas sentenças são detectadas pelo revisor,

outras não, conforme a configuração do computador no qual se está trabalhando.

Por isso, serão encontradas telas neste trabalho com cores diferentes, pois foram

copiadas de máquinas diferentes em configuração.

As telas que aparecem na cor cinza, como esta acima, e principalmente as que

se encontram nos capítulos redigitados de Napoleão Mendes de Almeida e Maria

Helena Moura Neves respectivamente, foram retiradas de uma máquina com a

seguinte configuração:

Microsoft Office Word 2000 Sistema Windows XP Home Versão 2002 – Service Pack 2

Computador: Intel® Celeron ™ processador 1100 MHz, 128 MB de RAM

Itautec/Philco S.A., 2001.

Já as telas em cor azul, maioria, foram copiadas do nosso computador pessoal,

que traz as seguintes informações de configuração:

Microsoft Office Word 2003 Sistema Windows XP Professional Edição 2003 Versão 2002 – Service Pack 2

Computador: AMD Duron™ processador 950 MHz, 248 MB de RAM

Itautec/Philco S.A., 2001.

É importante a observação de que as duas máquinas trazem tanto o Revisor

Ortográfico quanto o Revisor Gramatical para Língua Portuguesa na sua versão 7.

Já foi lançado, pela Microsoft, para download inclusive, o Office 2007, porém não o

quisemos conhecê-lo ainda, nem analisá-lo, porque acreditamos que seriam

necessárias algumas reformulações neste texto, para o que não há mais tempo

hábil, além do que recebemos a informação de especialistas no assunto de que o

novo programa necessita, para funcionar bem, de um computador com mais

recursos, mais potência para suportar as novas ferramentas. O que também não é o

caso do computador com o qual estamos trabalhando.

Em resumo, nosso universo de pesquisa foi extraído das gramáticas dos

autores mencionados acima e da gramática encontrada no revisor eletrônico do

17

Word. Trabalhamos com um critério de análise que passou pelo método

comparativo para encontrar respostas às nossas questões de pesquisa, porém essa

pesquisa teve caráter predominantemente qualitativo.

Este, enfim, é um trabalho que requereu muito esforço, principalmente pela

ausência de similares no tema. Resta de bom o conhecimento adquirido e a

tentativa de abordagem inicial para futuros outros estudos.

No capítulo a seguir, considerações sobre lingüística e sintaxe computacionais

e, também, como foi criado e como funciona o revisor gramatical eletrônico do Word,

ou revisor gramatical automático, como o chamam seus criadores.

Capítulo II – O advento do revisor gramatical eletrônico

Escrita, leitura, visão, audição, criação, aprendizagem são capturados por uma informática cada vez mais avançada. (...) Emerge, neste final do século XX, um conhecimento por simulação que os epistemologistas ainda não inventariaram.

Pierre Lévy

A primeira impressão é sempre aquela que fica, como se costuma ouvir por aí? Pensamos que não, pois cada um de nós já teve, certamente, oportunidade para

refazer uma primeira impressão. Se não naturalmente, pelo próprio repensar uma

opinião, ao menos forçosamente, pela contingência de algum fato cotidiano.

É estranho, para dizer o mínimo, para pessoas como nós – estudantes,

professores, escritores, letrados, cidadãos conscientes e participativos do/no atual

momento histórico, globalizado, por que passa o mundo moderno – pensar que

alguém ainda não saiba tudo, ou quase tudo, sobre computadores. Afinal, já fazem

parte do nosso viver, já não sabemos trabalhar sem eles. No entanto, quando

deixamos nossa prepotência de lado, vemos que muitos ainda não conseguem ter

um relacionamento harmonioso e satisfatório com esta ferramenta tecnológica. O

senso comum costuma afirmar que tudo que é novo provoca certo medo, até se

conhecer e dominar o novo.

A verdade é que se ouve, ainda hoje, alguém afirmando, saudosamente, que

com sua máquina de datilografia era feliz e não sabia. E muitas reclamações sobre

o PC são ouvidas: “É lento!”, “Trava sempre!”, “È caro para comprar e para

consertar.”, “Quero escrever de um jeito, ele muda automaticamente.”, É para

enlouquecer qualquer cristão!”.

Só que os computadores vieram para ficar, e a cada dia se aperfeiçoam,

ultrapassam todas as idéias pré-concebidas sobre si e nos fazem engolir em seco,

uma vez que somos nós a ter que nos adaptar a ele, e não o contrário, sonho de

todo usuário.

Para entendermos melhor como funciona um revisor, quer seja ele

ortográfico, quer seja ele gramatical, precisamos conhecer como é feito um

programa para a criação da gramática eletrônica que o subsidia. E, então, entramos

na seara da lingüística computacional, ciência que, se comparada a outras, é bem

jovenzinha ainda. E, ao entrarmos nesse campo, nos deparamos com a sintaxe

19

computacional e seus termos diferentes, como parser/parsing, Prolog etc. É o que

pretendemos mostrar nos próximos subcapítulos.

2.1 A Lingüística Computacional

De acordo com o pesquisador Ray Kurzweil, pioneiro em inteligência artificial, em 2029 um computador com o preço de um PC de nossos dias (aproximadamente U$ 800) terá a capacidade

de computação equivalente à do cérebro humano. E, ainda segundo Kurzweil, em 2060 uma máquina que custe em torno de U$ 1.000 terá a capacidade de todos os cérebros humanos somados, o que nos levaria a atingir um progresso de vinte milênios em apenas cem anos!

(Othero e Menuzzi, 2005:16)

Pierre Levy (s/d), em um artigo publicado no site www.faced.ufba.br , afirma

que uma tecnologia intelectual não precisa ser efetivamente utilizada por uma

maioria estatística de indivíduos para ser considerada dominante. Diz ele que até o

começo do século XIX, a maior parte dos franceses não sabia ler, mas mesmo

assim a escrita era, havia muito, a tecnologia intelectual motriz no plano tanto

imaginário como religioso, científico ou estético. “Durante séculos a verdade foi

escrita, bem como o destino. O mundo desenrolava uma imensa página coberta de

sinais a serem interpretados.”.

Para Levy, assim como a escrita, a informática, por sua dimensão empírica,

deve ser analisada como tecnologia intelectual, mas essas máquinas de calcular, essas telas, esses programas não são apenas objetos de experiência. Enquanto tecnologia intelectual, contribuem para determinar o modo de percepção e intelecção pelo qual conhecemos os objetos. Fornecem modelos teóricos para as nossas tentativas de conceber, racionalmente, a realidade. Enquanto interfaces, por seu intermédio é que agimos, por eles é que recebemos de retorno a informação sobre os resultados de nossas ações. Os sistemas de informação efetuam a mediação prática de nossas interações com o universo.

Este subcapítulo será dedicado a considerações acerca de um assunto extremamente complexo ainda, muito mais desconhecido, para a maioria das

pessoas. A incursão aos domínios da lingüística computacional se dará de forma

bastante simples, até mesmo infantil, uma vez que não há espaço, neste trabalho,

para aprofundamento desse conhecimento. Porém, é necessária esta abordagem,

mesmo que deficitária, por estar esse conhecimento intrinsecamente relacionado às

perguntas que norteiam o nosso pensar e para as quais buscamos respostas.

20

A referida incursão será breve, porque sabemos não haver condições

temporais e cognitivas para um aprofundamento nesse tema. Pretendemos apenas

compreender melhor como se processa a linguagem que o computador utiliza para

reconhecer como gramaticais sentenças de línguas naturais. Em melhores termos,

como um programador consegue introduzir regras gramaticais para o uso efetivo do

corretor eletrônico. Nesse quesito, trabalharemos principalmente com Othero &

Menuzzi (2005) e suas orientações na construção de um parser lingüístico, além de

suas reflexões acerca da gramática e das programações de máquinas para

responder a comandos de usuários em sua própria língua.

Comecemos, então, pela definição desta nova ciência, dada por Othero e

Menuzzi (2005): Lingüística computacional é a área da ciência lingüística preocupada com o tratamento computacional da linguagem e das línguas naturais. Ela pode ser dividida em duas linhas de pesquisa distintas: a Lingüística de Corpus e o Processamento da Linguagem Natural.

A Lingüística de corpus é a parte que estuda diferentes fenômenos das línguas com base em corpora eletrônicos. Conforme Berber Sardinha (2000c:2), ela

“se ocupa da coleta e exploração de corpora, ou conjunto da dados lingüísticos

textuais que foram coletados criteriosamente com o propósito de servirem para a

pesquisa de uma língua ou variedade lingüística”.

Já o Processamento de Linguagem Natural (PLN) é a área de estudo da

linguagem voltada diretamente para a construção de softwares e sistemas

computacionais específicos. Alguns resultados desse tipo de estudo são a criação e

desenvolvimento de programas de tradutores automáticos, chatterbots, parsers,

reconhecedores automáticos de voz, dentre outros. Cabe à área de PLN desenvolver programas capazes de processar (leia-se compreender e produzir) informações em LINGUAGEM NATURAL. Esses programas podem envolver diferentes áreas da lingüística, como a fonologia, a fonética, a semântica, a sintaxe, a pragmática etc. (Othero & Menuzzi, 2005:124).

Ainda segundo Othero & Menuzzi (2005:11), as máquinas estão sendo

programadas, cada vez mais, para responder a comandos do usuário em sua língua

materna, qualquer que seja ela. Isto é resultado da busca por uma melhor interação

entre humanos e máquinas, o que está se dando através da linguagem natural, ou

seja, da linguagem do homem.

21

Por trás desse tipo de trabalho, deve estar o dedo do lingüista: afinal, é ele o cientista da linguagem, o cientista que busca compreender coisas como as nuances semânticas de uma expressão, as regras sintáticas de uma língua ou os detalhes de funcionamento de seus sons. E é preciso “ensinar” essas coisas a um computador – ou melhor, programar esse conhecimento na “máquina binária”, dos “zeros” e dos “uns”, isto é, do sim e do não - se quisermos que essa máquina esteja pronta a interagir naturalmente conosco. (Othero e Menuzzi, 2005:12)

É claro que desenvolver computadores com capacidade de interagir de forma

natural com humanos ainda está distante da realidade atual, mas é um dos objetivos

da lingüística computacional, que se ocupa do tratamento computacional da

linguagem para diversas finalidades práticas.

Os autores acima (2005:18) acreditam que, antes de tentar fazer com que

uma máquina interaja efetivamente com humanos e os compreenda, é

inevitavelmente necessário fazer com que ela aprenda a se comunicar com um ser

humano, e a maneira mais fácil de este tipo de comunicação ocorrer é através da

própria língua materna da pessoa usuária de um computador. E completam: Por isso, muitos pesquisadores vêm trabalhando com o tratamento computacional da linguagem humana (ou das línguas humanas), isto é, com maneiras de simular, no computador, aquilo que fazemos naturalmente quando conversamos com alguém. Isso exige, no entanto, que se avance no estudo do funcionamento das línguas naturais e na descrição formal dos sistemas lingüísticos, e é aí que começamos a falar da lingüística computacional.

Uzskoreit (apud Othero & Menuzzi, 2005:18), pesquisador da área da

informática, afirma que: Ainda que os sistemas existentes em TL [tecnologias lingüísticas] estejam longe de alcançar a habilidade humana, eles têm diversas aplicações possíveis. O objetivo é criar softwares que tenham algum conhecimento da linguagem humana. (...) Há necessidade urgente deles para que se possa melhorar a interação humano-máquina, já que o obstáculo principal na interação entre um humano e um computador é simplesmente um problema de comunicação. Os computadores de hoje não entendem nossa língua, e as linguagens de computação, por outro lado, são difíceis de se aprender e não correspondem à estrutura do pensamento humano. (Uzskoreit, sd:2).

Percebe-se, agora, a dificuldade – talvez até o ceticismo de alguns – em se

encontrar respostas para questões como: O que se deve fazer para que o

computador “compreenda” uma língua natural? Como fazer para que uma máquina

consiga produzir textos ou falas em uma língua natural? Chegará o dia em que uma

22

máquina poderá ser capaz de dominar a sintaxe, o sistema fonológico, as nuanças

semânticas e o uso pragmático, entre outros conhecimentos, de uma língua natural?

Os autores com os quais estamos trabalhando neste capítulo (dentre inúmeros

outros) acreditam que, algum dia, os computadores serão capazes sim de dominar a

linguagem natural de maneira satisfatória e, assim, interagir de tal modo com os

humanos, em uma determinada língua natural, que não se conseguirá distinguir as

respostas da máquina das de um outro ser humano.

Porém, voltemos ao que realmente nos interessa: o estudo computacional da

sintaxe da língua portuguesa, ou seja, com o modo como as frases da nossa língua

se organizam e o modo como esta organização é reconhecida pelo computador.

Além da fonética e da fonologia, é indiscutível a importância dos estudos da

morfossintaxe e da semântica para o desenvolvimento de programas de PLN

[Processamento da Linguagem Natural], pois esses estudos são fundamentais para

sistemas que envolvam a compreensão ou a geração automática de frases de uma

língua. Este é o caso, por exemplo, dos chatterbots, programas desenvolvidos para

interagir com usuários humanos através de diálogos em linguagem natural, na

modalidade escrita. “O primeiro chatterbot desenvolvido foi ELIZA, criado pelo

pesquisador Joseph Weinzenbaum, no MIT, em 1966”. (Othero e Menuzzi,

2005:31).

ELIZA era um programa de conversação que se utilizava de um sistema

baseado em “moldes” (templates, em inglês) para construir suas frases, e que,

como todos os chatterbots baseados em moldes, tinha, como uma de suas

limitações, a repetição eventual de suas próprias frases e as de seu interlocutor,

apresentando, freqüentemente, contradição em suas “opiniões”. Por isso, acreditamos que as próximas gerações de chatterbots devem exigir dos programadores um profundo conhecimento da sintaxe (que permitirá que desenvolvam no programa a capacidade de gerar infinitas sentenças da língua combinando um número finito de regras e elementos lexicais) e de semântica (o que tornará possível fazer com que o programa seja capaz de interpretar o significado do input lingüístico fornecido pelo usuário humano). (Othero & Menuzzi, 2005:35).

Além dos chatterbots e dos tradutores automáticos, conhecimentos em

sintaxe e semântica são fundamentais, também, para outros aplicativos, como

parsers, geradores automáticos de resumos, corretores ortográficos e gramaticais,

classificadores automáticos de documentos digitais etc.

23

O termo parsing vem da expressão latina pars orationes (partes do discurso)

e tem suas raízes na tradição clássica. “De acordo com Mateus & Xavier

(1992:886), parsing pode ser entendido como o ‘processo de atribuição de uma

estrutura e de uma interpretação a uma seqüência lingüística’.”. (apud Othero &

Menuzzi, 2005: 39) Um parser, no contexto da lingüística computacional, é um analisador automático (ou semi-automático) de sentenças. Esse tipo de programa é capaz de analisar uma sentença com base em uma gramática preestabelecida de uma determinada língua, verificando se as sentenças fazem parte ou não da língua, de acordo com o que autoriza a sua gramática. (...) também analisa sintaticamente as sentenças, decompondo-as em uma série de unidades menores, primeiramente em nódulos não-terminais (os sintagmas), até chegar a nódulos terminais (os itens lexicais) atribuindo-lhes uma estrutura de constituintes. Essa estrutura de constituintes, que representa a organização hierárquica e sintática da frase, é apresentada comumente através de árvores sintáticas ou através de colchetes rotulados. (Othero & Menuzzi, 2005:49).

E de acordo com Covington (1994:42, apud Othero & Menuzzi, 2005:40),

fazer o parsing de uma sentença é “determinar, por um processamento algorítmico,

se a sentença é gerada por determinada gramática, e se for, que estrutura a

gramática atribui a ela”.

Bons exemplos de um simples algoritmo que pode fazer uma medida

analítica da linguagem são os corretores ortográficos e gramaticais. Porém, uma

das armadilhas dos corretores ortográficos está na leitura de uma determinada

palavra dentro de um contexto. O computador não pode encontrar um erro ortográfico se a palavra estiver correta para um outro contexto (por exemplo, conserto e concerto). A habilidade da mente humana em analisar e reconhecer corretamente falas, estilos e gramática não é reproduzida satisfatoriamente pelos computadores, porque mentes e computadores trabalham diferentemente. [http://labbi.uesc.br/apostila]

Mesmo assim, o poder dos computadores é inegável. Hoje, escrever um texto

utilizando um processador de textos, por exemplo, se tornou tão mais fácil e tão

popular, que, para milhões de usuários, é uma ferramenta considerada

indispensável.

24

2.2 A Sintaxe Computacional

Para compor o início deste subcapítulo serão utilizadas informações

disponibilizadas pelo programa de pós-graduação em computação do Instituto de

Informática da Universidade Federal do Rio Grande do Sul [www.inf.ufrgs.br],

especialmente de um trabalho feito para a disciplina de Arquiteturas Especiais de

Computadores, assinado por Fábio Abreu Dias de Oliveira, intitulado

“Processamento de linguagem natural: princípios básicos e a implementação de um

analisador sintático de sentenças da língua portuguesa”. A escolha recaiu nesses

dados em virtude de sua linguagem acessível, simples e clara. Porém, também

continuaremos atentos ao que Othero & Menuzzi (2005) ensinam sobre o assunto.

Para que um sistema computacional interprete uma sentença em linguagem

natural, é necessário manter informações morfológicas, sintáticas e semânticas,

armazenadas em um dicionário, juntamente com as palavras que o sistema

compreende.

A primeira etapa do processamento dessa linguagem natural passa,

obrigatoriamente, pelo analisador morfológico, que identifica palavras ou expressões

isoladas em uma sentença. Esse processo é auxiliado por delimitadores (pontuação

e espaços em branco). As palavras identificadas são classificadas de acordo com

seu tipo de uso, ou, em linguagem natural, categoria gramatical.

Assim, uma instância de uma palavra em uma sentença gramaticalmente

válida pode ser substituída por outra do mesmo tipo, configurando uma sentença

ainda válida (exemplo: substantivos, pronomes, verbos, etc.). Dentro de um mesmo

tipo de palavra, existem grupos de regras que caracterizam o comportamento de um

subconjunto de vocábulos da linguagem, como, por exemplo, a formação do plural

de substantivos terminados em “ão” e as flexões dos verbos regulares terminados

em “ar”, dentre outros. Assim, a morfologia cuida das palavras quanto a sua

estrutura, forma, flexão e classificação, no que se refere a cada um dos tipos de

palavras.

Para Rich & Knight (1993) o “emprego do analisador morfológico é

fundamental para a compreensão de uma frase, pois para formar uma estrutura

coerente de uma sentença, é necessário compreender o significado de cada uma

das palavras componentes.”

25

Já o analisador sintático, através da gramática da linguagem a ser analisada

e das informações do analisador morfológico, procura construir árvores de derivação

para cada sentença, mostrando como as palavras estão relacionadas entre si.

Durante a construção da árvore de derivação, é verificada a adequação das

seqüências de palavras às regras de construção impostas pela linguagem na

composição de frases, períodos ou orações. Dentre estas regras, a concordância e

a regência nominal e/ou verbal, assim como o posicionamento de termos na frase.

Um termo corresponde a um elemento de informação (palavra ou expressão), e é

tratado como unidade funcional da oração, participando da estrutura como um de

seus constituintes, denominados sintagmas.

Como sabemos, a análise sintática de uma oração em português deve levar

em conta os seguintes sintagmas: termos essenciais (sujeito e predicado), termos

integrantes (complementos verbal e nominal) e termos acessórios (adjuntos

adverbial e nominal, e aposto). A análise do período, por sua vez, deve considerar o

tipo de período (simples ou composto), sua composição (por coordenação ou

subordinação) e a classificação das orações (absoluta, principal, coordenada ou

subordinada).

Nos sistemas de processamento de linguagem natural, o maior problema é a

transformação de uma frase potencialmente ambígua em uma não-ambígua, a qual

será utilizada pelo sistema. Esta transformação é conhecida como parsing, termo já

explicado anteriormente.

As abordagens de linguagens formais são utilizadas com muito sucesso no

estudo da análise sintática em PLN. Dentre as principais, temos:

• Gramáticas Regulares: para o processamento sintático da linguagem natural, estas gramáticas são bastante simples e facilmente reconhecidas, porém

apresentam um poder de expressão limitado (equivalente ao poder de expressão de

um autômato finito, reconhecedor utilizado para a análise morfológica).

• Gramáticas Livres de Contexto: são muito úteis no que tange à descrição de gramáticas em linguagem natural e, em geral, são mais poderosas que as

regulares já que permitem a representação de linguagens com um certo grau de

complexidade. No entanto, a dificuldade em expressar dependências simples, como

por exemplo a concordância entre verbo e sintagma nominal, constitui um dos

maiores problemas para sua utilização no tratamento da língua natural. O autor

mencionado como fonte principal dessas informações, afirma que abordagens

26

puramente livres de contexto não são suficientemente poderosas para captar a

descrição adequada deste gênero de linguagem. Mas que, ainda assim, é utilizada

uma notação denominada com Definite Clause Grammar (DCG), disponível em

Prolog, para definir gramáticas livres de contexto e analisar sentenças, ou seja,

realizar o parsing.

• Gramáticas Sensíveis ao Contexto: os problemas de dependência expressos anteriormente são resolvidos nesta classe de gramática. Porém,

conforme Rich & Knight (1993), ainda assim as gramáticas sensíveis ao contexto

não abordam satisfatoriamente o tratamento de restrições gramaticais. O

impedimento para seu uso reside na questão do reconhecimento. O problema de decidir se uma sentença pertence a uma gramática sensível ao contexto é uma função exponencial sobre o tamanho da sentença, o que torna a implementação do procedimento de verificação uma questão complexa, do ponto de vista computacional. (idem)

Vale lembrar a existência de gramáticas irrestritas, também presentes na

hierarquia de Chomsky, as quais não são utilizadas para a construção de interfaces

em linguagem natural.

O artigo-base desses dados informa que a maioria das pesquisas atuais

propõe trabalhar em modelos que se situem em um nível intermediário entre as

gramáticas livres de contexto e as sensíveis ao contexto, aliando boa capacidade de

representação, incluindo construções que permitam modelar dependências, e um

modelo computacional viável.

Com relação à gramática, ainda, Othero & Menuzzi (2005:44) alertam para

fato de que a maioria das versões recentes do Prolog vem equipada com uma extensão nocional conhecida como DCG, ou Gramática de Cláusula Definida (do inglês Definite Clause Grammar), que facilita a implementação de regras formais de parsing. A DCG é um formalismo de representação de gramáticas livres de contexto.

Ela torna muito mais fácil implementar uma gramática e desenvolver um

parser em Prolog, já que “uma gramática descrita em uma DCG é diretamente

executada pelo Prolog com um analisador sintático” (Bratko, 1997:431, apud Othero

& Menuzzi, idem).

Prolog - PROgramming in LOGic - é uma linguagem de programação

baseada na lógica. Ao contrário da maioria das linguagens de programação, que

27

são de natureza “procedural”, o Prolog é uma linguagem “declarativa”, conforme

ensinam Othero & Menuzzi (2005:42). (...) outras linguagens de programação, como o Basic e o Pascal, apresentam ao computador uma solução para um problema na forma de uma série de instruções para que a máquina as execute estritamente na ordem em que foram especificadas. Programar com Prolog (...) deve ser declarativo, um programa deve simplesmente ser o enunciado do problema. A maneira como o problema é solucionado e a seqüência de instruções por que o computador deve passar para resolvê-lo são decididas pelo sistema. (McDonald & Yazdani, 1990:ix, apud Othero & Menuzzi, 2005:44)

Porém, mesmo após todas essas informações do mundo computacional, como entender o processo de criação de uma gramática eletrônica? A obra que nos

tem servido como base primeira, para este capítulo, escrita por Gabriel Othero e

Sérgio Menuzzi, trata justamente desse ponto. Eles ensinam como desenvolver um

aplicativo computacional para o tratamento da linguagem natural, com exemplo de

uma aplicação prática de conhecimentos da sintaxe no desenvolvimento de um

sistema de análise das frases do português – um “parser sintático” programado em

linguagem Prolog. (Vide definição de parser por Othero & Menuzzi disposta no final

do subcapítulo 2.1).

Othero & Menuzzi simulam a criação de um parser para o reconhecimento

automático de sentenças em língua portuguesa. Um parser que deverá reconhecer

as sentenças gramaticais – e somente elas – e atribuir-lhes uma estrutura de

constituintes.

Não é possível, aqui, naturalmente, reproduzir o passo-a-passo dos

procedimentos que os autores ensinam, pois envolvem teorias e metodologias

diversas, tornando-se inviável uma demonstração fiel. Contudo, decidimos resumir

algumas das várias etapas que constituem o trabalho, apenas para que se tenha

uma idéia, mesmo que distante, de como uma gramática “se forma no interior de

uma máquina”.

• começa com o reconhecimento e distinção de frases consideradas

gramaticais/agramaticais;

• faz representações delas em diagramas arbóreos (com divisão das

frases em “blocos”, ou sintagmas, até os itens lexicais);

28

• pode ter que realizar diferentes “testes” para identificar um

constituinte/sintagma (testes de coordenação, interpolação, anáfora,

entre outros);

• nas regras de reescrita (ou regras sintagmáticas) utiliza-se dos

símbolos usados por Chomsky (S,SN, SV, Det., N, V), e são elas que

validam as sentenças;

• há, ainda, as regras de inserção lexical, as responsáveis por introduzir

as palavras abaixo de cada símbolo respectivo. Obs.: Essas regras (de

reescrever e de inserção) são chamadas de gerativas, pois elas geram

sentenças gramaticais a partir de instruções precisas e explícitas. Após

a aplicação dessas regras, obtém-se a estrutura de uma frase válida, ou

gramatical na língua definida pela gramática escolhida;

• finalmente é estruturada a árvore sintática da frase a partir das regras,

trabalhando como um parser top-down (que constrói uma sentença a

partir de seu topo, até chegar ao nível das palavras);

Os autores ressalvam, porém, que “é sabido que a gramática sintagmática

apresenta uma série de limitações e precisa ser enriquecida com recursos

adicionais” (idem:64). Isso se deve ao fato de a gramática criada poder gerar

também sentenças claramente agramaticais, principalmente se algumas palavras

forem expandidas para outra categoria. Por isso, no exemplo que dão, eles

precisam adicionar alguns recursos às regras sintagmáticas e trabalhar com a

descrição e classificação do léxico para implementar o tipo de gramática na

linguagem Prolog.

Como, na maioria dos casos, o Prolog está tentando descobrir se uma

afirmação é verdadeira ou falsa, ou está tentando encontrar alguma combinação de

variáveis que torne uma afirmação verdadeira, para executar um programa em

Prolog é preciso fazer uma consulta à sua base de dados. “E uma consulta nada

mais é do que uma chamada de uma cláusula do programa, equivalendo a uma

solicitação para provar se o que pedimos é verdadeiro de acordo com a base de

dados do programa “ (ibid: 66).

Há basicamente dois tipos de perguntas que podemos fazer ao Prolog:

perguntas sim/não (envolvendo respostas sim ou não), e perguntas QU (wh-

29

questions en inglês, envolvendo pronomes interrogativos: quem, qual, quando, onde

etc.).

Voltando à criação do parser, começa, então, a etapa de escrever um

programa, que deve ser aberto em um editor de textos, como o bloco de notas,

presente em todas as versões do MS Windows disponíveis no mercado. É no editor

que serão desenvolvidos os programas que mais tarde serão rodados na plataforma

do Prolog. Tudo deve ser escrito em letras minúsculas e sempre haver um ponto

final no fim de cada linha. As letras maiúsculas serão usadas para as variáveis.

Como exemplo de um programa simples, Othero e Menuzzi (2005:67) dão o

seguinte:

Sócrates é homem.

O homem é mortal.

Em notação Prolog, deve-se escrever:

homem(socrates).

mortal(X) :- homem(X).

Em PROLOG Em PORTUGUÊS

homem(socrates). Sócrates é homem.

mortal(X) :- homem(X). O homem é mortal. Tradução – PROLOG x PORTUGUÊS

A primeira premissa (homem(socrates).) é chamada em Prolog de fato. Os fatos são regras que, de certa forma, se auto-satisfazem, ou seja, são dados

sempre verdadeiros, nunca apresentando variáveis. A segunda premissa (mortal(X) :- homem(X).) é uma regra em Prolog: ela apresenta uma variável e uma relação de condicionalidade, expressa pelo operador “:-“ . Ao contrário dos fatos, as regras consistem sempre de duas partes: a cabeça e o corpo:

mortal(X) :- homem(X) Cabeça Corpo

Para que a cabeça da regra seja verdadeira, as condições expressas em seu

corpo devem ser satisfeitas. A interpretação de uma regra desse estilo é bastante

simples:

a :- b. “a” é verdadeiro se “b” é verdadeiro

a :- b, c, d. “a” é verdadeiro se “b”, “c” e “d” forem verdadeiros

30

E, então, depois desse processo (extremamente resumido e simplificado,

aqui), o programador utiliza-se do recurso de DCG (já conceituado anteriormente).

Com esse recurso, as regras de reescrita podem ser convertidas de maneira

bastante simples e transparente para a notação em Prolog. “Grosso modo, a DCG

pode ser entendida como um recurso que torna mais fácil ao lingüista a

implementação de regras sintagmáticas em Prolog”. (Othero e Menuzzi, 2005:77)

Em resumo, para o desenvolvimento de uma gramática em Prolog, deve-se:

a) implementar regras sintagmáticas relativas à descrição sintática do português

(por exemplo, a regra: S SN SV); b) a partir dessa regra, elaborar outras para o

SN e para o SV, ou conferir o que consta na literatura pertinente. (Exemplo:

SN Det N; SV V SN; c) implementar itens lexicais (Exemplo: Det o,a:

N João, Maria; V ama; d) implementar na gramática do parser algumas

regras consagradas na literatura; e) a partir delas, pode-se usar exemplos

apresentados na literatura que servem para ilustrar ou testar a regra; f) por último,

trabalhar com as dificuldades encontradas para implementar uma regra em Prolog

da melhor maneira possível.

Os autores consultados deixam claro que há diferentes maneiras de se

trabalhar com parsers sintáticos, e diversas têm sido as alternativas de

desenvolvimento de ferramentas de linguagem natural que tratem da sintaxe de

uma língua.

Esperamos ter conseguido aclarar um pouco o que seja uma linguagem de

programação, principalmente no que concerne ao desenvolvimento de uma

gramática, que é um dos principais aspectos que nos interessam neste trabalho.

2.3 - O Revisor Gramatical Eletrônico A maneira mais simples e rápida de escrever corretamente. Com o Revisor

Gramatical você revisa os seus textos corrigindo erros de concordância verbal e

nominal, erros de ortografia, acentuação, conjugação de verbos, colocação de

pronomes, dúvidas do dia-a-dia e muito mais! Também apresenta regras

gramaticais que esclarecem suas dúvidas, otimizando o seu trabalho.

O excerto acima faz parte de um texto on-line [www.amigomouse.com.br], na

seção de oferta de compra de produtos de informática. Achamos apropriado

31

utilizarmo-nos dessa propaganda para começar este capítulo, pois há informações

interessantes, muitas, talvez, não do conhecimento da maioria dos usuários de

computador. Deixando de lado o objetivo de publicidade que o texto tem, vamos

apresentar essas informações porque elas nos servirão, mais além, para provar

nossa tese de que os revisores ainda precisam ser melhorados, e muito, em vários

aspectos. Como principais características do Revisor Gramatical, aparecem:

• Possui um dicionário ortográfico com mais de 2 milhões de palavras na

língua portuguesa;

• Revisa a gramática e a ortografia;

• Possui explicação gramatical dos erros encontrados (para todo erro

gramatical encontrado pelo Revisor, basta clicar no botão “Ajuda”, que o

mesmo apresenta as regras gramaticais.);

• Acentuador automático (reconhece palavras de uma única grafia

acentuadas incorretamente e, automaticamente, corrige a acentuação,

facilitando e agilizando o processo de correção ortográfica.);

• Informa a existência de palavras homógrafas (as palavras homógrafas

perfeitas se escrevem e se pronunciam da mesma forma. As

homógrafas imperfeitas diferenciam-se entre si por um detalhe apenas

(a acentuação, por exemplo). O Revisor Gramatical aponta as palavras

que têm homógrafas imperfeitas para que se possa conferir se seu uso

está correto.);

• Corretor automático inteligente (durante a digitação, se o usuário

cometer o mesmo erro ortográfico por 03 (três) vezes num mesmo

documento, o Revisor Gramatical permite ao usuário inserir este erro no

Dicionário Inteligente. Depois de inserto, o Revisor irá corrigir o erro

automaticamente, agilizando a correção.);

• Conjugador verbal (conjuga verbos em todos os tempos e modos da

língua portuguesa de modo simples e fácil. Reconhece inclusive verbos

impessoais como “chover”, “ventar”, etc., destacando as formas mais

usuais).

Este Revisor anunciado serve para aplicativos como Microsoft Word

Compatíveis, Microsoft Word 2000 (Português/Inglês) versão 9.0, Microsoft Word 97

(Português/Inglês) versão 8.0 e Microsoft Word 95 (Português/Inglês) versão 7.0.

32

Como requisitos mínimos de funcionamento precisa de um PC 486 ou superior, 16

MB de RAM, 2 MB de espaço livre no disco rígido, drive de CD-ROM, Windows 95

ou superior previamente instalado, rede: NT & Novell.

Decidimos testar partes dele, apenas para servir como exemplos de sua

funcionalidade efetiva.

A palavra “conjugador”, por exemplo, que aparece no último item das

características do Revisor, não faz parte dos 2 milhões do dicionário do mesmo, e

aparece sublinhada em vermelho. O mesmo ocorre com a palavra “acentuador”, no

4º item. A sugestão de ortografia correta para “conjugador” encontra-se na tela 1,

copiada na página seguinte. Estas, então, são palavras que precisaríamos

acrescentar ao dicionário do nosso PC.

Com relação ao reconhecimento das homógrafas imperfeitas (da forma como

apresentado neste texto), como por exemplo, “Ela esta bem.” e “Ela está bem.” , o

revisor gramatical do computador que estamos utilizando não apontou nenhum

problema, tanto com uma como com a outra forma. Assim, se não soubermos que a

primeira frase torna-se inadequada, sem o acento em “esta”, também não teremos

como o saber, pois o revisor não nos avisa disso. Em “Ele para, olha e fica

pensando...” e “Ele para mim é um anjo.” , também não há manifestação contrária

por parte do revisor quanto à acentuação que deveria existir no verbo “para” na

primeira frase. Em: “Fizeram boa viajem?”, pensamos que o revisor distinguiria o

verbo “viajem” do substantivo “viagem”. Isso não aconteceu. Ele sublinhou em verde

“fizeram boa” e sugeriu o que aparece na tela 2. Concluindo: o revisor NÂO aponta

as homógrafas imperfeitas para conferência de sua correção.

Quanto ao reconhecimento e correção automática, por parte do revisor, de

palavras de grafia única acentuadas incorretamente, em alguns casos isso se

mostra verdadeiro, em outros, não. Vejamos:

“Vocé”, digitada propositalmente por nós, foi realmente corrigida

imediatamente, aparecendo “Você”. Se se utilizar a tecla F7 (ortografia e gramática),

a sugestão de grafia “Você” aparecerá. Mas quando digitamos a palavra “pêrola”,

ele apresentou 25 sugestões de escritura de diferentes palavras, mas não a grafia

“pérola” .(Vide tela 3.)

33

Tela 1

Tela 2

34

Tela 3

O teste agora é da conjugação de verbos em todos os tempos e modos,

inclusive os impessoais. Somente alguns exemplos:

“Chove chuva, chove sem parar...”

“Amaram-no mais que tudo neste mundo.”

“Fazer silêncio, por favor.”

Mas, em:

“(...) Se me ainda amas, por amor não ames:

Trairias-me comigo.” (Já sobre a fronte – Poesia Completa. Ricardo Reis/Fernando Pessoa)

35

Tela 4

A ênclise na forma verbal “trairias-me” não foi reconhecida como correta pelo

revisor, que apresentou a sugestão de ortografia conforme tela acima.

Por pura curiosidade, decidimos reescrever o trecho não aceito antepondo o

pronome oblíquo ao verbo, e o revisor, após mostrar a sublinha verde, manifestou-

se assim:

Se me ainda amas, por amor não ames:

Me trairias comigo.

36

Tela 5

Como se pôde perceber até agora, o revisor gramatical tem lá seus humores.

Não são de admirar, então, as inúmeras reclamações dos mais diversos tipos de

usuários quando se utilizam do editor de textos do Word e pedem “ajuda” ao revisor

eletrônico para verificar a correção de seus textos. Algumas sugestões do revisor

tornam-se engraçadas, porque completamente ilógicas para qualquer falante

razoável da língua portuguesa.

Dílson Catarino, professor, em um de seus textos de dicas de gramática no

site do uol/vestibulares, quando mostra como se deve usar os pronomes

demonstrativos em textos, faz a seguinte advertência: Somente mais um

comentário, sem ligação alguma com os estudos de hoje: ao escrever um texto em

seu computador, nunca confie no corretor do Word, pois ele apresenta falhas

clamorosas. E cita como exemplo, uma das frases do próprio texto que ele

escreveu naquele dia.: Onde escrevi: Não se deve andar com os vidros do automóvel abertos nas grandes cidades brasileiras, o sinistro Word diz: Não se deve andar com os vidros do automóvel aberto nas grandes cidades brasileira ou Não se deve andar com os vidros dos automóveis abertos nas grandes cidades brasileiros. (grifos do autor)

37

E termina com um desabafo revoltado: Que é isso, meu santo protetor dos professores de Português?! Como deixam acontecer isso? Será que nossa Língua é tão desprezada assim? Será que nenhum dos nossos ilustres imortais usa computador? Ou será que eles escrevem como o Word quer?

Quanto à “acusação” aos imortais não podemos nos pronunciar, uma vez que

não dispomos de informações confiáveis de que eles se comportem ou não como

supõe o autor acima.

Quanto à reclamação do referido professor, redigitamos a frase mencionada

e acionamos a tecla F7. O revisor nada acusou. Porém, este é um dado sobre o

qual já alertamos anteriormente: a configuração de cada computador pessoal

interfere quanto às manifestações do revisor eletrônico, seja o ortográfico, seja o

gramatical. Acreditamos que o PC de Catarino não dispunha, à época, da mesma

configuração deste que estamos utilizando agora.

Quanto à confiança cega que alguns usuários depositam no revisor

eletrônico, o Jornal do Brasil publicou matéria, em 27/09/2001, cujo título era

Viciados em F7. (Imediatamente o revisor sublinhou em verde o título. A tela com a

sugestão ortográfica e a explicação gramatical está mais à frente). O articulista

começa explicando o que é a tecla F7 e diz que Para quem se garante nos quesitos ortografia e gramática, o corretor automático é um chato que fica sublinhando, em verde ou vermelho (conforme o caso), nomes de pessoas, palavras que não estão no dicionário e erros que não existem – como segue regras rígidas, muitas vezes ele aponta como erro formas que na verdade são opcionais ou licenças poéticas.

Mais adiante, o texto fala sobre a tábua de salvação que é a tecla F7 para os

não “tão craques” em português, impedindo que não sejam entregues trabalhos

repletos de “erros ortográficos constrangedores”, uma vez que os possíveis erros

são apontados pelo revisor, que oferece soluções para os problemas. Afirma o JB, Assim, formou-se uma verdadeira legião de viciados em F7. Indiferentes à discussão sobre qual é o melhor dicionário, eles dispensam cuidados ao digitar e não se preocupam com a ortografia. O relaxamento pode chegar a tal ponto de a pessoa repetir o mesmo erro diversas vezes, ignorando a possibilidade de aprender a grafia correta.

O artigo termina com uma fala do exemplo citado pelo jornal, um “ex-

dependente” nas palavras do articulista, e que hoje tira suas dúvidas no dicionário,

38

em vez de continuar confiando apenas no corretor eletrônico: O mercado de

trabalho exige que se escreva corretamente, e eu pretendo acompanhar o mercado.

Tela relativa à página anterior. O revisor considera inadequada a concordância feita no título.

Como era de se esperar, o artigo no Jornal do Brasil suscitou respostas em

defesa do uso do revisor eletrônico. Duas leitoras de Belo Horizonte, Carla Viana

Coscarelli e Else Martins, enviaram carta ao jornal, intitulada Viciados em F7? Nossa resposta ao JB (27/09/2001), que foi publicada em outubro de 2001. Assim

começa o texto: A informática entrou em nossa vida – isso não tem retorno - e sua influência na escrita é inevitável. De pouco adianta torcer o nariz ou fechar os olhos para as conseqüências que o uso do teclado e dos programas de texto provocam na escrita das pessoas. Necessário se faz estudar essas modificações e, sem pré-conceitos, analisar até onde isso é bom ou não. (...) A crítica que mais se faz ao uso dos corretores de texto e das comunicações sincrônicas (chats) e assincrônicas (e-mail) é o fato de que eles levam o indivíduo a escrever errado. No primeiro caso, inclusive, dizem até que “vicia”!

As autoras da resposta ao JB defendem que é preciso entender que alguns

aspectos da escrita merecem mais atenção do que ortografia e separação de

sílabas, entre outras “questões menores”, na visão delas. Afirmam que língua não

39

se resume a ortografia. Há muito além disso, a sintaxe, a semântica, a textualidade,

os fatores pragmáticos, a discursividade, e ninguém discute isso na imprensa. A

ortografia é sempre a grande vedete. O que elas propõem é a desnecessidade de

perder tempo com questões ortográficas, e deixar sua resolução por conta do

corretor ortográfico. Acreditam que quanto menos tivermos de nos preocupar com

isso no momento da criação, melhor, pois sobrará tempo e recursos cognitivos para

as atividades de planejamento e organização das idéias no texto, para escolher

melhor os recursos lingüísticos a serem usados e as estratégias textuais que melhor

seduzirão o leitor. (sic)

Acrescentam ainda, as duas leitoras, que não há programa de computador

que consiga substituir as escolhas semânticas e estruturas frasais de cada produtor.

Além disso, pelo fato de seguir normas rígidas, o recurso de correção sintática e

ortográfica não exclui a participação do usuário: Apareceu o risquinho verde no texto

e, imediatamente, vai-se verificar o que está acontecendo, que tipo de correção é

sugerida. Apareceu o risquinho vermelho e vai-se verificar o erro ortográfico

cometido.

E concluem, em sua resposta: Que diferença faz tirar dúvidas no dicionário de papel ou no eletrônico? Muita. Enquanto o rapaz do nosso exemplo está a consultar um dicionário, o colega ao lado já analisou e aceitou ou não a correção proposta e produziu infinitamente mais. (...) o texto produzido em computador vai aos poucos instalando um texto novo, criativo, ágil e que exige um leitor que domine os recursos de produção desse texto, para melhor entendê-lo.

À parte acusações ou defesas, o corretor eletrônico permanece impassível

diante de tudo isso. As considerações anteriores, sobre os textos publicados no

Jornal do Brasil, foram feitas no intuito de servirem de exemplos, dentre os tantos

encontrados por nós, principalmente na Internet, das opiniões favoráveis ou

contrárias ao uso do revisor eletrônico do Word.

Hélio Consolaro, professor de português e coordenador do site

www.portrasdasletras.com.br, num artigo intitulado “Revisor do Word”, afirma que

“Os limites do revisor são dois: a qualidade do conhecimento lingüístico de quem

abasteceu o seu léxico (o dicionário) e a limitação do programa”. E continua: As nuanças de concordância, regência. Exemplo: Juliana era as esperanças do time. O revisor aponta erro de concordância, porque não distingue que Juliana se trata de nome de pessoa, nesse caso o verbo SER concorda com ele.

40

Grifamos, em verde, o que estava sublinhado pelo corretor, na citação acima,

para comprovar a afirmação de Consolaro.

Tela 6

Mais uma surpresa: a sugestão vem na forma de “era as esperança”,

concordando “esperança”, provavelmente, com “do time”, termo subseqüente, mais

próximo. Quando digitada a frase “era as esperança”, o corretor permaneceu em

silêncio.

Consolaro, como tantos outros, não necessariamente professores de

português apenas, aconselha levar a sério os apontamentos que o Word apresenta,

verificando se há razão ou não dos mesmos estarem sendo feitos, não deixando de

pesquisar em gramáticas ou dicionários quando houver dúvidas. E termina o

conselho com uma advertência: “Erra mais quem tem muita certeza”.

41

2.3.1 Como “nasceu” o Revisor

Não nos foi fácil, nem rápido, conseguir informações sobre a criação e os

criadores do revisor gramatical do Word, mesmo tendo a Internet e o site da

Microsoft à nossa disposição. Os e-mails enviados, solicitando ajuda, ficaram sem

respostas.

Tínhamos, em mãos, um único texto - um artigo de divulgação - encontrado

num site e que falava sobre um revisor gramatical chamado ReGra, da Itautec.

Porém, como ignorávamos completamente o significado do ícone da Itautec-Philco,

que vem, conforme a configuração de algumas máquinas, na tela de iniciação do

computador, não conseguíamos aliar uma coisa à outra. Após inúmeras buscas,

conseguimos encontrar uma fonte fidedigna sobre a origem do revisor que temos

em nossas máquinas de sistema do Windows: um texto escrito pelos próprios

pesquisadores/criadores do ReGra, conseguido via Internet, e apresentado em São

Paulo, em 2002, num encontro de Estudos Lingüísticos.

Restou-nos, dessa forma, trabalhar com apenas duas fontes e a impressão de

que não há dados suficientes e satisfatórios para compor esse subcapítulo. No

entanto, disponibilizaremos o que conseguimos mesmo correndo o risco de serem

insuficientes as informações sobre como surgiu o revisor que utilizamos

rotineiramente.

No site http://inventabrasilnet.t5.com.br/revgram.htm há um artigo intitulado

Revisor Gramatical falando sobre a Itautec, empresa brasileira de computadores e

softwares, que precisou desenvolver, em 1993, um revisor ortográfico para um

processador de texto utilizado nos computadores fabricados por ela. A empresa

procurou o Núcleo Interinstitucional de Lingüística Computacional (NILC), formado

por pesquisadores dos Institutos de Ciências Matemáticas e de Computação e de

Física da USP de São Carlos e da Faculdade de Letras da Universidade Paulista

(Unesp), de Araraquara.

Esse grupo, composto de alunos e professores, pesquisava, à época, um

software de processamento da língua portuguesa. A Itautec-Philco, que já possuía

um revisor ortográfico de textos, interessou-se pela pesquisa, pois pretendia

aprimorar seu revisor ortográfico, incluindo um revisor gramatical capaz de detectar

e corrigir erros de concordância e de regência verbal e nominal, entre outros.

42

Em 1994, Maria das Graças Volpe Nunes, pesquisadora-responsável pelo

NILC, e seus colaboradores apresentaram o Revisor Gramatical Automático para o

Português. A princípio, o revisor deveria apenas se preocupar com os erros mais

comuns das secretárias, devido ao perfil corporativo dos clientes Itautec-Philco, mas

o produto acabou posteriormente incorporado ao Word da Microsoft.

O projeto foi aprovado no PITE, em 1996, e contou também com a

colaboração dos professores Cláudio Lucchesi, Tomas Kowaltowski e Jorge Stolfi,

do Instituto de Computação da Unicamp. Em São Carlos, sob a coordenação da

professora Maria das Graças Volpe Nunes, foram desenhados os algoritmos e

formado o banco de base de palavras e, em Campinas, desenvolveu-se a

compactação do sistema e a diminuição do tempo de resposta do programa.

Em 1997, a empresa começou a vender, no varejo, a primeira versão do

revisor gráfico e gramatical, em caixas próprias, como um produto de prateleira. No

final desse ano, a Microsoft procurou a empresa para incorporar o revisor no

programa Office, o mais vendido no Brasil e em todo o mundo. O antigo revisor

criado em Portugal para a língua portuguesa comportava 200 mil palavras; o da

Itautec já dispunha de 1,5 milhão de palavras. O revisor foi incorporado ao Office

2000. A empresa brasileira licenciou o produto por um período de três anos e, pelo

trabalho desenvolvido, o professor Lucchesi recebeu o Prêmio Santista de

Informática, em 1999.

Anunciava o artigo: Com as funções de revisão licenciadas, o usuário de qualquer um dos aplicativos que compõem o Microsoft Office poderá ter seus erros gramaticais e ortográficos corrigidos automaticamente, desde erros de concordância verbal, uso de crase, regência, colocação pronominal até a grafia correta das palavras em português. Além de todos esses recursos, o Microsoft Office contará também com um dicionário de sinônimos e antônimos (thesaurus), como recurso extra de consulta. As demais funções do Revisor Word não licenciadas pela Microsoft continuarão a ser comercializadas pela Itautec sob o nome de Revisor Plus. Constarão do Revisor Plus os recursos de conjugação de verbos, consulta à gramática da língua portuguesa, acentuação automática de documentos, consulta a verbetes semelhantes, dicas sobre erros mais freqüentes, consulta a brocardos jurídicos e dicionários português/português, português/inglês e inglês/português. Também farão parte do produto dicionários temáticos nas áreas de Medicina, Direito, Administração e Informática. O Revisor Plus estará disponível para comercialização simultaneamente com o lançamento da próxima versão do Microsoft Office em português. (grifo nosso)

43

Afirma o artigo ainda que, apesar de as pesquisas em processamento de

linguagem natural (PLN) de português terem se iniciado muito antes da década de

1990, praticamente nada havia sido feito que visasse à criação de uma ferramenta

robusta e de uso genérico requerendo recursos lingüísticos e computacionais de

grande monta.

O PLN trata do processamento envolvendo análise, interpretação e produção

de uma linguagem humana por uma máquina, sendo uma área da inteligência

artificial voltada para os estudos e desenvolvimento de sistemas que permitam

interpretar e gerar linguagem natural. “O processamento de linguagem natural

ainda é coisa nova. (...) Além das limitações do PLN, tínhamos o limite da falta de

experiência em produção de produtos comerciais”, afirma Maria das Graças Volpe

Nunes, no citado artigo.

O sistema de correção gramatical foi chamado de ReGra, não incluindo as

rotinas para detecção de erros ortográficos, embora a base lexical que suporta o

corretor ortográfico tenha sido compilada para o projeto de correção gramatical.

O ReGra é constituído por três módulos principais:

i) o módulo estatístico – realiza uma série de cálculos, fornecendo parâmetros

físicos de um texto sob análise, com o número total de parágrafos, de sentenças, de

palavras, de caracteres, etc. O componente mais importante desse módulo, entretanto, é o que fornece o “índice de legibilidade”, uma indicação do grau de dificuldade da leitura do texto. O conceito de índice de legibilidade surgiu a partir do trabalho de Flesch, de 1948, para a língua inglesa e busca uma correlação entre tamanhos médios de palavras e sentenças e a facilidade de leitura. Não inclui aspectos de compreensão do texto, que requereriam tratamento de mecanismos complexos de natureza lingüística, cognitiva e pragmática. O índice Flesch, assim como outros similares, tem sido empregado para uma grande variedade de línguas, mas o trabalho do NILC foi o primeiro para o português. Através de um estudo comparativo de textos originais em inglês e traduzidos para o português, verificou-se que a equação que fornece o índice Flesch precisaria ter seus parâmetros adaptados para o português, pois as palavras desta língua são em média mais longas, em termos de número de sílabas, do que em inglês. (artigo supra)

ii) o módulo mecânico – detecta erros facilmente identificáveis que não são

percebidos por um corretor ortográfico, como, por exemplo, palavras e símbolos de

pontuação repetidos; presença de símbolos de pontuação isolados; uso não

balanceado de símbolos delimitadores, como parênteses e aspas; capitalização

44

inadequada, como o início da sentença com letra minúscula; e ausência de

pontuação no final da sentença.

iii) o módulo gramatical – contém mais de dez mil regras de correção, realiza

inclusive a análise sintática automática das sentenças. As regras foram testadas em

textos reais não corrigidos, como cartas comerciais, redações de vestibulares e

teses, e em textos editados, como os de livros e revistas. O banco de textos

empregado nestes testes contém mais de 37 milhões de palavras. A última versão

(não se pode saber com certeza qual é, pois não há sua datação) conta ainda com

uma minigramática eletrônica, disponível ao usuário através de hipertexto, que

explica as principais regras gramaticais da língua portuguesa. Possui também um

dicionário de sinônimos e antônimos.

Dizem os pesquisadores do NILC que o primeiro passo para a elaboração do

módulo gramatical foi o levantamento de erros (ou inadequações) mais comuns

entre usuários de nível médio, como secretárias e profissionais de escritório em

geral, e alunos cursando o ensino médio ou ingressando na universidade. O termo

“erro”, aqui, frisam eles, refere-se ao que os gramáticos normativos consideram

como forma desviante da norma culta.

Cita o artigo que Nas primeiras versões do ReGra, os erros eram detectados através de regras heurísticas implementadas na forma de redes de transição estendidas (augmented transition networks), numa abordagem que se poderia chamar de “error-driven”. As primeiras versões do ReGra apresentavam vários benefícios do ponto de vista da implementação computacional: agilidade, especificidade, rapidez, portabilidade, e disponibilidade de memória. Entretanto, seu escopo de atuação era muito limitado: problemas envolvendo itens lexicais não contíguos e estruturas recursivas não podem ser atingidos pelas estratégias heurísticas normalmente desenhadas por abordagens error-driven. Para prover a essas insuficiências, optou-se por analisar sintaticamente as sentenças do usuário, antes de operar a revisão propriamente dita. Isso permite aplicar regras que apontam desvios nas relações entre núcleos e adjuntos, entre núcleos e modificadores, entre regentes e regidos. A realização de análise sintática automática obviamente requer que todos os itens lexicais estejam categorizados apropriadamente. Para tanto, realizou-se em paralelo a construção do léxico, que envolveu a compilação exaustiva das palavras da língua portuguesa e a hierarquização das categorias dos itens lexicais morfologicamente ambíguos. Uma vez que alguns erros em contextos lingüísticos específicos ocorrem in

A CONCORDÂNCIA NOMINAL E O REVISOR GRAMATICAL … › livros › pt › cp036943.pdfsoftwares de...

Documents

Transcript of A CONCORDÂNCIA NOMINAL E O REVISOR GRAMATICAL … › livros › pt › cp036943.pdfsoftwares de...