A CONCORDÂNCIA NOMINAL E O REVISOR GRAMATICAL … › livros › pt › cp036943.pdfsoftwares de...
Transcript of A CONCORDÂNCIA NOMINAL E O REVISOR GRAMATICAL … › livros › pt › cp036943.pdfsoftwares de...
-
HENRIETTE MARCEY ZANINI
A CONCORDÂNCIA NOMINAL E O REVISOR GRAMATICAL ELETRÔNICO DO WORD
Cuiabá 2007
-
HENRIETTE MARCEY ZANINI
A CONCORDÂNCIA NOMINAL E O
REVISOR GRAMATICAL ELETRÔNICO DO WORD
Dissertação apresentada ao Programa de Mestrado em Estudos de Linguagem da Universidade Federal de Mato Grosso – UFMT, como requisito parcial para obtenção do título de Mestre em Estudos de Linguagem. Área de concentração: Estudos Lingüísticos
Orientadora: Profª. Drª. Alice Maria Teixeira Saboia
Instituto de Linguagens da UFMT Cuiabá 2007
-
Dedico e agradeço...
A Wendy e Tayná, amores e razões primeiras de todo meu viver.
A minha mãe, Marley, guerreira que, entre outras coisas, me ensinou a nunca desistir, por mais árdua, longa e acidentada se mostrasse a minha trilha.
A meu pai, Toni, onde quer que ele se encontre depois de ter partido para os Campos Elíseos. Demorou, mas hoje eu sei que ele realmente acreditava que eu podia realizar qualquer coisa que me propusesse a fazer.
A minha irmã Andréa, que, uma semana antes da minha defesa, foi levada para trabalhar no departamento dos anjos de Deus. Minha maior incentivadora, em tudo!
Aos meus irmãos, Luiz Francisco, Jeancarlo e Thiago (e suas famílias), por terem, principalmente, “agüentado” minhas reclamações, meu cansaço, muitas vezes meu desânimo, e porque sem eles, ao meu lado, sou menos gente.
Ao Toninho, que de um modo muito especial também me acompanhou nessa jornada.
A minha avó, Natalina Ellert, que aos 91 anos teima em dizer a todos com quem conversa que, agora, eu sou “doutora”; a minha tia Sirley, que soube entender minhas angústias e acalmar meu coração; a minha tia Leda, com quem aprendi a amar os livros e a música.
A minha amiga-irmã Vera Lúcia Eilert, por seu incentivo constante e fé absoluta no “meu poder”, e pelos fichamentos que me ajudou a fazer.
Às minhas amigas do coração, Tereza Sartori, Terezinha Konopaktzi, Irene Cajal, Luzia Guimarães, Vera Lúcia Lopes, Mariângela Sola López Díaz, Sônia Zaramella, Ana Maria de Souza e Maura Guimarães. Cada uma, à sua maneira, me apoiou, me ajudou, me “empurrou”, iluminando meu caminhar.
Aos amigos queridos, Lívio Wogel, Delarim Martins Gomes e Javier Eduardo López Díaz, pelo “ombro” e pela ajuda incondicional sempre que precisei.
À minha turma do Mestrado, amigos inesquecíveis, meus Professores de Vida: Carmen Hornick, Caroline Akie, Degmar dos Anjos, Edsônia Melo, Marcelo Silvestrim, Neusa Phillipsen, Paula Jeorgea, Rodney Mendes de Arruda e Ruth Dourado.
A meus professores, formadores de mais um pouco de mim: Denise Dal’Bello, Lúcia Helena Vendrúsculo Possari, Manoel Mourivaldo, Marcos Moura Vieira, Maria Inês Pagliarini Cox, Maria Rosa Petroni e Marieta Prata.
À minha professora-orientadora Profª. Drª. Alice Maria Teixeira Sabóia que, sem me conhecer e contra todas as probabilidades, acreditou firmemente que eu pudesse fazer um trabalho de qualidade.
Agradeço, em especial, à banca de avaliação: Profª. Drª. Maria Inês Pagliarini Cox e Prof. Dr. Cláudio Cezar Henriques, por tão generosamente despenderem seu tempo para compartilharem comigo uma parte do seu imenso conhecimento.
Henriette Marcey Zanini
-
Os limites da minha linguagem são os limites do meu mundo.
Wittgenstein
-
RESUMO
ZANINI, Henriette Marcey. A concordância nominal e o revisor gramatical eletrônico
do Word
Resumo: Esta dissertação aborda o revisor gramatical eletrônico do “Microsoft Office
Word” para o português. Recorta-se em especial a aplicação da regra de
concordância nominal, testada esta em exemplos extraídos de três gramáticas
diferenciadas entre si, pelo modelo teórico-metodológico utilizado no tratamento da
linguagem verbal, para detectar o modelo gramatical subjacente ao revisor estudado.
Neste trabalho busca-se entender como se comporta o revisor gramatical quanto às
regras de concordância nominal contidas em sua gramática, comparando-as às da
gramática normativa e às dos usos cotidianos do português brasileiro padrão. Os
resultados da análise do material permitem inferir que o modelo adotado pela
referida ferramenta computacional assenta-se, em parte, na gramática tradicional, no
que tange à regra geral, deixando, todavia, de observar as regras excepcionais
prescritas.
Palavras-chave: revisor gramatical eletrônico, concordância nominal, norma
lingüística
Abstract: This paper approaches the automatic grammar checker of the Microsoft
Office Word for Portuguese Language. It observes especially the use of the nominal
concordance rulers, tested themselves through examples from three diferent
grammar books, by a theoretical and methodological model used in the treatment of
verbal language, in order to detect the grammatical model that underlies the focused
checker. Here, we search to understand how the grammar checker behaves itself
facing nominal concordance rulers in its grammar, compare them with those into the
normative grammar and the daily uses of standard Brazilian Portuguese. The results
of the analysed material take us to grasp that the adopted model by the automatic
grammar checker settling is based partly on the traditional grammar, relating to
general rule, but it doesn’t observe the excepcional rules prescribed by that grammar.
Key-words: automatic grammar checker, nominal concordance, linguistic rule
-
SUMÁRIO Dedicatória e agradecimentos................................................................................ iii
Epígrafe.................................................................................................................. iv
Resumo/Abstract.....................................................................................................v
INTRODUÇÃO ......................................................................................................07 Capítulo I – METODOLOGIA ................................................................................13
Capítulo II – O ADVENTO DO REVISOR GRAMATICAL ELETRÔNICO .............18
2.1 A Lingüística Computacional................................................................19
2.2 A Sintaxe Computacional .....................................................................24
2.3 O Revisor Gramatical Eletrônico ..........................................................30
2.3.1 Como “nasceu” o Revisor ......................................................41
2.3.2 Como funciona o revisor gramatical do Word........................49
Capítulo III – A CONCORDÂNCIA NOMINAL.......................................................55
3.1 Em Napoleão Mendes de Almeida.......................................................57
3.2 Em Evanildo Bechara...........................................................................66
3.3 Em Maria Helena Moura Neves ...........................................................78
Capítulo IV – O (DES)COMPASSO ENTRE AS NORMAS DE CONCORDÃNCIA NOMINAL CONSTANTES NAS TRÊS GRAMÁTICAS E NO REVISOR ELETRÔNICO ...................84
Capítulo V – CONCLUSÃO.................................................................................101
REFERÊNCIAS BIBLIOGRÁFICAS ....................................................................108 ANEXO A - Informática: símbolos digitais e glossários.......................................111
ANEXO B - O ReGra: Revisor Gramatical do Word ............................................116
ANEXO C - Telas de Aconselhamento da gramática eletrônica do Word ...........120
-
Introdução
As línguas são de certo modo seres que nos rodeiam e nos iluminam como grandes arcanjos viventes: é necessário lhes dar um espaço interior de acolhida e estar dispostos a escutá-los e a lhes prestar atenção.
Ivonne Bordelois (1934-), lingüista argentina.
Desde o começo dos primeiros estudos lingüísticos a preocupação com a
norma, a preocupação no sentido de fixar o “bom uso” e a correção estão dentre as
motivações mais fortes que levaram os estudiosos a descrever as línguas,
resultando na seleção de uma determinada modalidade lingüística em detrimento de
outras consideradas vulgares, impuras, incorretas, ilegítimas. Apoiada nesse
pressuposto, toda a tradição lingüística ocidental atribuiu duas funções básicas ao
gramático: dizer o que a língua é, descrevendo-a, e, simultaneamente, dizer o que
ela deve ser.
Desta forma, não é de se estranhar a ênfase no fato de a linguagem ser
considerada um procedimento importantíssimo, que qualifica ou desqualifica, pela
forma utilizada, o que é dito e quem o diz.
Essa preocupação com o bom, com o adequado uso da linguagem
encontra-se vividamente dentro de empresas, de órgãos públicos, nas redações de
grandes jornais, para citar apenas alguns exemplos, e tem suscitado o
aparecimento de programas de aperfeiçoamento, fazendo surgir um número
considerável de manuais de cultura idiomática. Com a Internet, vários passaram a
ser disponibilizados para consulta on-line, na tentativa de agilizar a vida do usuário
que não dispõe, no momento em que precisa, de material impresso para tirar suas
dúvidas em relação ao uso considerado correto do seu idioma.
Hoje, usuários que necessitam redigir um texto, e que não são tão
proficientes na escrita da língua portuguesa, encontram à sua disposição alguns
softwares de correção gramatical desenvolvidos para auxiliá-los no momento de
escritura de seus textos.
Interessa-nos, aqui, particularmente, falar sobre o revisor gramatical
eletrônico do Microsoft Word, o programa de edição de textos mais utilizado no
mundo, e objeto de nossa pesquisa.
-
8
A idéia de trabalhar com este tema nasceu da observação de inadequações
sintáticas no que diz respeito às concordâncias verbal e/ou nominal, apresentadas,
principalmente, em textos de alunos de graduação. Inicialmente nos parecia que
eles não procediam a uma revisão gramatical de seus escritos, porém como
asseguravam que “pediam ajuda ao computador”, mais especificamente à tecla F7, percebemos a necessidade de averiguar o que se passava.
Não costumávamos utilizar o recurso de clicar em Ferramentas: ortografia e
gramática (desconhecíamos, ainda, que o atalho era a tecla F7) por dois simples
motivos: primeiro, pelo conhecimento razoavelmente bom do idioma, e por
recorrermos constantemente ao dicionário e à gramática; segundo, a quase total
falta de intimidade com a maioria dos recursos computacionais, ou seja, a não
utilização nem de 1/3 dos recursos que o computador oferece, entre eles como
procurar a ajuda do revisor, quer ortográfico, quer gramatical.
Então, ao começarmos a expor ao revisor eletrônico do Word alguns
problemas lingüísticos apresentados pelos alunos, acabamos nos deparando com
outros problemas que ele nos apresentava. Parecia analisar e sugerir alterações
aleatoriamente, como se não houvesse um padrão que seguisse. Referimo-nos a
padrão, aqui, como regras ditadas pela gramática normativa da língua portuguesa. E
o mais preocupante é que para os usuários do revisor, ou seja, para as pessoas que
não têm um conhecimento maior de estruturas sintáticas e regras de concordância,
ele é tido como um instrumento confiável de colaboração para a correção gramatical
de seus escritos.
Vale uma ressalva, aqui: o termo “corretor” tem como sinônimos “revisor” e
“verificador”. Optamos por utilizar com maior freqüência o termo revisor, primeiro por
achá-lo, particularmente, mais adequado e, em segundo, porque é esse termo que
aparece na configuração do Microsoft Office Word, presente em cada PC, tanto para
Revisor Ortográfico quanto para Revisor Gramatical.
Assim, é natural que, em virtude das tentativas vãs em entender a lógica com
que o revisor operava, algumas interrogações começaram a nos atiçar a
curiosidade, tais como: por que a descrição gramatical do revisor eletrônico não diz
respeito à verificação de grande parte das estruturas usuais do português do Brasil
em relação às regras de Concordância Nominal? Que gramática subjaz ao revisor
gramatical eletrônico? Trata-se de uma gramática casuística, composta de um
-
9
elenco de frases, que considera caso a caso? Trata-se de uma gramática que vê a
língua como um conjunto de enunciados pré-estabelecidos?
Destes questionamentos originou-se a pergunta principal de nossa pesquisa:
quais normas constam da memória da gramática eletrônica em relação à
concordância nominal? Seguem o modelo tradicional ou não?
E, sem respostas imediatas a essas e outras questões, principalmente no
retorno das correções feitas nos textos dos alunos, surgiu, então, o desejo de
procurar essas respostas por meio de uma investigação científica que desse
respaldo às nossas discussões com os alunos quando eles se deparassem com as
correções feitas em seus textos e os pedidos para não confiarem tanto no revisor
eletrônico, mas, sim, nas velhas e boas regras encontradas nas gramáticas
impressas que, sabemos, a maioria não gosta de, ou não sabe como, pesquisar.
Aliás, essa confiança no revisor gramatical é um dos aspectos que precisa ser
debatido, pois realmente chama a atenção ver como usuários comuns se apóiam no
que lhes aconselha o revisor como correção. Confiança não compartilhada com os
homens de letras - aqui representados por pessoas com conhecimento maior das
normas gramaticais em relação àqueles -, como se pôde perceber, por exemplo,
nas opiniões de professores de português, dispostas no subcapítulo dedicado ao
funcionamento do revisor.
Desta forma, pensamos realizar um trabalho que pretende, por meio da
investigação científica, demonstrar qual o grau de (in)adequação da gramática
eletrônica, no que diz respeito às regras de Concordância Nominal apresentadas
pelo revisor do Word, com relação às regras da gramática normativa e aos usos
cotidianos da língua portuguesa.
Para saber mais e conseguir chegar a conclusões claras e consistentes para a
composição do texto, como um todo, optamos escolher traçar um caminho que, a
nosso ver, nos embasaria teoricamente e nos forneceria dados para a compreensão
buscada.
No primeiro capítulo encontra-se a metodologia, desenhada por nós, uma vez
que não conseguimos encontrar no gênero algo com o qual pudéssemos trabalhar.
Considerações sobre o revisor gramatical eletrônico estão dispostas no
segundo capítulo, bem como considerações acerca da lingüística computacional e
da sintaxe computacional. Acerca do revisor, dispusemos as informações que
conseguimos (a maioria pela Internet) e que consideramos ainda um pouco
-
10
inconsistentes para compreender bem a complexidade desta ferramenta de trabalho
de que dispõe um usuário de computador quando utiliza um editor de textos. Há
testes que fizemos com um anúncio de venda de um revisor gramatical, infelizmente
sem nome e sem datação, mas de grande ajuda para o início das reflexões acerca
de algo que não conhecíamos ainda. Informações de como proceder – apenas
algumas dentre as diversas orientações fornecidas pelo programa - para utilizar o
revisor estão no primeiro subcapítulo e, no segundo, quem esteve e está por trás da
criação, do desenvolvimento e do aprimoramento dos revisores ortográfico e
gramatical para a língua portuguesa utilizados pela Microsoft Word nos
computadores que se utilizam do sistema Office Word.
O terceiro capítulo é dedicado às noções de concordância – ênfase na
concordância nominal - prescritas para o uso do português culto, bem como os
capítulos destinados ao assunto pelos três gramáticos escolhidos por nós, com as
respectivas telas copiadas quando o revisor detectava um problema com alguma
regra.
No quarto capítulo, as análises contrastivas entre as normas de concordância
nominal constantes nas três gramáticas e no revisor gramatical. Também as
respostas para as perguntas iniciais de pesquisa, com as análises julgadas
pertinentes.
No quinto capítulo, as conclusões a que chegamos.
Como anexos, disponibilizamos algumas telas de aconselhamento ofertadas
pelo revisor gramatical eletrônico sobre outros tópicos gramaticais, que não apenas a concordância nominal, com os quais nos deparamos, durante a digitação do texto
desta pesquisa, sublinhados com a linha ondulada verde. Servem a título de
ilustração e também de exemplificação de alguns dos aspectos que ainda precisam
ser melhorados pelos pesquisadores/idealizadores do revisor. Há, também, outros
dois anexos: do universo da informática retiramos informações sobre o que são
símbolos digitais e dois glossários de termos; e a transcrição de um artigo publicado
pelo NILC quando da apresentação da última versão do ReGra – Revisor
Gramatical.
Por ter trabalhado com Napoleão Mendes de Almeida, Evanildo Bechara e
Maria Helena Moura Neves, pensamos ser relevante a observação disposta no
próximo parágrafo, o que também já nos serve de fecho para esta apresentação.
-
11
No contraponto entre a gramática eletrônica e as gramáticas citadas acima há
um conhecimento que se faz necessário e, para obtê-lo, fizemos no segundo
capítulo deste trabalho uma breve incursão aos domínios da lingüística
computacional. Breve incursão porque sabemos não haver condições temporais e
cognitivas para um aprofundamento nesse tema. Pretendemos apenas
compreender melhor como se processa a linguagem que o computador utiliza para
reconhecer como gramaticais sentenças de línguas naturais. Em melhores termos,
como um programador consegue introduzir regras gramaticais para o uso efetivo do
revisor eletrônico.
Nesse quesito, trabalhamos principalmente com Othero e Menuzzi (2005) e
suas orientações na construção de um parser lingüístico, além de suas reflexões
acerca da gramática e das programações de máquinas para responder a comandos
de usuários em sua própria língua. Com relação ao trabalho do lingüista, dizem no
comentário de orelha do livro: Por trás desse tipo de trabalho, deve estar o lingüista: ele é o cientista que busca compreender coisas como as nuances semânticas de uma expressão, as regras sintáticas de uma língua ou os detalhes de funcionamento de seus sons. É preciso “ensinar” essas coisas ao computador, se quisermos que essa máquina venha a interagir conosco.
Pensamos que ensinar, ou reensinar, coisas ao computador depende de
estudos como o que pretendemos levar a cabo. Aí reside a importância social que
acreditamos ter uma pesquisa como a nossa. Alguns problemas com a gramática
eletrônica serão detectados, outros, provavelmente, ficarão “sem sugestões”, haja
vista a dificuldade que encontramos com o “humor” da tecla F7: às vezes, aparece a
sublinha verde sob uma estrutura frasal e, às vezes, quando a mesma sentença é
exposta novamente ao corretor, não aparece sublinhada em verde. Em outras,
ainda, o revisor sublinha o texto, mas na janela de ortografia e gramática surge a
expressão “(sem sugestão)”, ainda que seja oferecida uma explicação gramatical.
(Vide tela na página seguinte.)
De qualquer modo, temos a intenção de contribuir, mesmo que timidamente,
para que novos estudos sejam realizados no intuito de se melhorar o desempenho
da gramática eletrônica do Word, ao menos quanto às regras de concordância
nominal contidas nela.
-
12
-
Capítulo I - Metodologia
Em virtude de não conseguirmos encontrar um modelo metodológico o qual
servisse à nossa intenção de demonstrar a adequação ou a inadequação do revisor
gramatical eletrônico do Microsoft Office Word, houve a necessidade de desenhar
um método próprio, sem a mínima pretensão ou ilusão de que seja algo
inteiramente novo.
Para buscar e encontrar respostas às dúvidas suscitadas e relatadas na parte
introdutória deste trabalho, a pesquisa objetivou alcançar:
• um inventário dos critérios utilizados para a organização do revisor
gramatical do Word;
• as normas (ou pelo menos uma boa parte delas) de Concordância
Nominal constantes da memória gramatical eletrônica, verificando se
seguem ou não o modelo tradicional;
• exemplos de quais sentenças, dentre as submetidas e consideradas
gramaticais, são reconhecidas pelo revisor, como também de sentenças
tidas como corretas gramaticalmente, usuais, e que não são
reconhecidas por ele;
• e, ainda, a identificação de qual(is) nível(is) de linguagem é(são)
contemplado(s) pela gramática do revisor do Word e pelas gramáticas
utilizadas para retirada de exemplos para o corpus da pesquisa,
aproximando-os ou afastando-os, conforme resultados obtidos.
Alcançar estes objetivos nos auxiliará a encontrar resposta para a pergunta
principal de nossa pesquisa:
1. Que normas constam da memória da gramática eletrônica em relação à
Concordância Nominal? Seguem o modelo tradicional ou não?
E também para responder às questões auxiliares:
1. Por que a descrição gramatical do revisor eletrônico não diz respeito à
verificação de grande parte das estruturas usuais do português do Brasil em
relação às regras de Concordância Nominal?
-
14
2. Que gramática subjaz ao revisor gramatical eletrônico? Trata-se de uma
gramática casuística, composta de um elenco de frases, que considera
caso a caso? Trata-se de uma gramática que vê a língua como um conjunto
de enunciados pré-estabelecidos?
Nosso universo de pesquisa abrangeu a gramática eletrônica do Word e as gramáticas de Napoleão Mendes de Almeida: Gramática metódica da língua
portuguesa, numa edição de 1975, a Moderna gramática portuguesa, edição 1999,
de Evanildo Bechara, e a Gramática de usos do português, publicada em 2000, de
Maria Helena Moura Neves.
Esses autores foram escolhidos por suas abordagens bem diversas no trabalho
com a gramática normativa da Língua Portuguesa, além da distância temporal
existente entre as publicações de seus estudos gramaticais, principalmente entre
Napoleão e Bechara. O primeiro, de cunho purista; o segundo, um gramático
tradicional de formação lingüística mais recente, tradutor de um dos maiores
pensadores da lingüística moderna, Coseriu; e Moura Neves, de tradição filosófica,
que distingue o que é prescrição e o que é uso na língua, servindo como
contraponto a Napoleão e Bechara.
O procedimento de coleta consistiu na verificação e extração de sentenças
fornecidas como exemplos das regras de concordância nominal encontradas nas
gramáticas dos autores citados no parágrafo anterior. Para isso, os capítulos, de
cada uma das gramáticas dedicados ao tema, foram redigitados por nós para que
as próprias regras de concordância fossem submetidas ao crivo do revisor
gramatical. Os textos redigitados encontram-se no capítulo III.
A cada vez que, na redigitação, aparecia a sublinha verde, o revisor era
consultado. As telas com a amostragem da marcação verde do revisor e as
sugestões e explicações gramaticais fornecidas por ele encontram-se nos corpos
dos capítulos escolhidos, imediatamente após a regra de concordância explicitada e
não reconhecida e/ou aceita pelo revisor.
O mesmo procedimento descrito acima foi feito durante a redação deste
trabalho, com as telas impressas servindo como “prova”. Alguns exemplos não são
especificamente de problemas de concordância nominal, porém achamos
interessante mostrá-los porque nos auxiliaram na análise do que chamamos de
-
15
“humores da F7”, a tecla de atalho para a janela de Ferramentas: Ortografia e
Gramática.
Para conseguirmos as telas impressas, aprendemos que devemos proceder
aos seguintes passos:
1º) selecionar a palavra/expressão/frase;
2º) apertar a tecla F7 (atalho, mais rápido);
3º) apertar a tecla Print Screen SysRq, à direita, superior, do teclado alfabético;
4º) posicionar o cursor em um documento do Word e, então, “colar” por meio
de CtrlC ou do botão direito do mouse. Depois, apenas redimensionar tamanhos, de
acordo com a necessidade.
O procedimento de análise consistiu em colher as sugestões fornecidas pelo
revisor gramatical eletrônico - ou não fornecidas, pois, às vezes, ele sublinha, mas
não tem sugestões a dar (vide exemplo na tela abaixo) -, além de colher as
explicações gramaticais (regras e “dicas”) que o revisor apresenta para, no final,
comparar quais concordâncias, exemplificadas nas gramáticas, o revisor reconhece
ou não como corretas.
-
16
Interessante explicar que algumas sentenças são detectadas pelo revisor,
outras não, conforme a configuração do computador no qual se está trabalhando.
Por isso, serão encontradas telas neste trabalho com cores diferentes, pois foram
copiadas de máquinas diferentes em configuração.
As telas que aparecem na cor cinza, como esta acima, e principalmente as que
se encontram nos capítulos redigitados de Napoleão Mendes de Almeida e Maria
Helena Moura Neves respectivamente, foram retiradas de uma máquina com a
seguinte configuração:
Microsoft Office Word 2000 Sistema Windows XP Home Versão 2002 – Service Pack 2
Computador: Intel® Celeron ™ processador 1100 MHz, 128 MB de RAM
Itautec/Philco S.A., 2001.
Já as telas em cor azul, maioria, foram copiadas do nosso computador pessoal,
que traz as seguintes informações de configuração:
Microsoft Office Word 2003 Sistema Windows XP Professional Edição 2003 Versão 2002 – Service Pack 2
Computador: AMD Duron™ processador 950 MHz, 248 MB de RAM
Itautec/Philco S.A., 2001.
É importante a observação de que as duas máquinas trazem tanto o Revisor
Ortográfico quanto o Revisor Gramatical para Língua Portuguesa na sua versão 7.
Já foi lançado, pela Microsoft, para download inclusive, o Office 2007, porém não o
quisemos conhecê-lo ainda, nem analisá-lo, porque acreditamos que seriam
necessárias algumas reformulações neste texto, para o que não há mais tempo
hábil, além do que recebemos a informação de especialistas no assunto de que o
novo programa necessita, para funcionar bem, de um computador com mais
recursos, mais potência para suportar as novas ferramentas. O que também não é o
caso do computador com o qual estamos trabalhando.
Em resumo, nosso universo de pesquisa foi extraído das gramáticas dos
autores mencionados acima e da gramática encontrada no revisor eletrônico do
-
17
Word. Trabalhamos com um critério de análise que passou pelo método
comparativo para encontrar respostas às nossas questões de pesquisa, porém essa
pesquisa teve caráter predominantemente qualitativo.
Este, enfim, é um trabalho que requereu muito esforço, principalmente pela
ausência de similares no tema. Resta de bom o conhecimento adquirido e a
tentativa de abordagem inicial para futuros outros estudos.
No capítulo a seguir, considerações sobre lingüística e sintaxe computacionais
e, também, como foi criado e como funciona o revisor gramatical eletrônico do Word,
ou revisor gramatical automático, como o chamam seus criadores.
-
Capítulo II – O advento do revisor gramatical eletrônico
Escrita, leitura, visão, audição, criação, aprendizagem são capturados por uma informática cada vez mais avançada. (...) Emerge, neste final do século XX, um conhecimento por simulação que os epistemologistas ainda não inventariaram.
Pierre Lévy
A primeira impressão é sempre aquela que fica, como se costuma ouvir por aí? Pensamos que não, pois cada um de nós já teve, certamente, oportunidade para
refazer uma primeira impressão. Se não naturalmente, pelo próprio repensar uma
opinião, ao menos forçosamente, pela contingência de algum fato cotidiano.
É estranho, para dizer o mínimo, para pessoas como nós – estudantes,
professores, escritores, letrados, cidadãos conscientes e participativos do/no atual
momento histórico, globalizado, por que passa o mundo moderno – pensar que
alguém ainda não saiba tudo, ou quase tudo, sobre computadores. Afinal, já fazem
parte do nosso viver, já não sabemos trabalhar sem eles. No entanto, quando
deixamos nossa prepotência de lado, vemos que muitos ainda não conseguem ter
um relacionamento harmonioso e satisfatório com esta ferramenta tecnológica. O
senso comum costuma afirmar que tudo que é novo provoca certo medo, até se
conhecer e dominar o novo.
A verdade é que se ouve, ainda hoje, alguém afirmando, saudosamente, que
com sua máquina de datilografia era feliz e não sabia. E muitas reclamações sobre
o PC são ouvidas: “É lento!”, “Trava sempre!”, “È caro para comprar e para
consertar.”, “Quero escrever de um jeito, ele muda automaticamente.”, É para
enlouquecer qualquer cristão!”.
Só que os computadores vieram para ficar, e a cada dia se aperfeiçoam,
ultrapassam todas as idéias pré-concebidas sobre si e nos fazem engolir em seco,
uma vez que somos nós a ter que nos adaptar a ele, e não o contrário, sonho de
todo usuário.
Para entendermos melhor como funciona um revisor, quer seja ele
ortográfico, quer seja ele gramatical, precisamos conhecer como é feito um
programa para a criação da gramática eletrônica que o subsidia. E, então, entramos
na seara da lingüística computacional, ciência que, se comparada a outras, é bem
jovenzinha ainda. E, ao entrarmos nesse campo, nos deparamos com a sintaxe
-
19
computacional e seus termos diferentes, como parser/parsing, Prolog etc. É o que
pretendemos mostrar nos próximos subcapítulos.
2.1 A Lingüística Computacional
De acordo com o pesquisador Ray Kurzweil, pioneiro em inteligência artificial, em 2029 um computador com o preço de um PC de nossos dias (aproximadamente U$ 800) terá a capacidade
de computação equivalente à do cérebro humano. E, ainda segundo Kurzweil, em 2060 uma máquina que custe em torno de U$ 1.000 terá a capacidade de todos os cérebros humanos somados, o que nos levaria a atingir um progresso de vinte milênios em apenas cem anos!
(Othero e Menuzzi, 2005:16)
Pierre Levy (s/d), em um artigo publicado no site www.faced.ufba.br , afirma
que uma tecnologia intelectual não precisa ser efetivamente utilizada por uma
maioria estatística de indivíduos para ser considerada dominante. Diz ele que até o
começo do século XIX, a maior parte dos franceses não sabia ler, mas mesmo
assim a escrita era, havia muito, a tecnologia intelectual motriz no plano tanto
imaginário como religioso, científico ou estético. “Durante séculos a verdade foi
escrita, bem como o destino. O mundo desenrolava uma imensa página coberta de
sinais a serem interpretados.”.
Para Levy, assim como a escrita, a informática, por sua dimensão empírica,
deve ser analisada como tecnologia intelectual, mas essas máquinas de calcular, essas telas, esses programas não são apenas objetos de experiência. Enquanto tecnologia intelectual, contribuem para determinar o modo de percepção e intelecção pelo qual conhecemos os objetos. Fornecem modelos teóricos para as nossas tentativas de conceber, racionalmente, a realidade. Enquanto interfaces, por seu intermédio é que agimos, por eles é que recebemos de retorno a informação sobre os resultados de nossas ações. Os sistemas de informação efetuam a mediação prática de nossas interações com o universo.
Este subcapítulo será dedicado a considerações acerca de um assunto extremamente complexo ainda, muito mais desconhecido, para a maioria das
pessoas. A incursão aos domínios da lingüística computacional se dará de forma
bastante simples, até mesmo infantil, uma vez que não há espaço, neste trabalho,
para aprofundamento desse conhecimento. Porém, é necessária esta abordagem,
mesmo que deficitária, por estar esse conhecimento intrinsecamente relacionado às
perguntas que norteiam o nosso pensar e para as quais buscamos respostas.
-
20
A referida incursão será breve, porque sabemos não haver condições
temporais e cognitivas para um aprofundamento nesse tema. Pretendemos apenas
compreender melhor como se processa a linguagem que o computador utiliza para
reconhecer como gramaticais sentenças de línguas naturais. Em melhores termos,
como um programador consegue introduzir regras gramaticais para o uso efetivo do
corretor eletrônico. Nesse quesito, trabalharemos principalmente com Othero &
Menuzzi (2005) e suas orientações na construção de um parser lingüístico, além de
suas reflexões acerca da gramática e das programações de máquinas para
responder a comandos de usuários em sua própria língua.
Comecemos, então, pela definição desta nova ciência, dada por Othero e
Menuzzi (2005): Lingüística computacional é a área da ciência lingüística preocupada com o tratamento computacional da linguagem e das línguas naturais. Ela pode ser dividida em duas linhas de pesquisa distintas: a Lingüística de Corpus e o Processamento da Linguagem Natural.
A Lingüística de corpus é a parte que estuda diferentes fenômenos das línguas com base em corpora eletrônicos. Conforme Berber Sardinha (2000c:2), ela
“se ocupa da coleta e exploração de corpora, ou conjunto da dados lingüísticos
textuais que foram coletados criteriosamente com o propósito de servirem para a
pesquisa de uma língua ou variedade lingüística”.
Já o Processamento de Linguagem Natural (PLN) é a área de estudo da
linguagem voltada diretamente para a construção de softwares e sistemas
computacionais específicos. Alguns resultados desse tipo de estudo são a criação e
desenvolvimento de programas de tradutores automáticos, chatterbots, parsers,
reconhecedores automáticos de voz, dentre outros. Cabe à área de PLN desenvolver programas capazes de processar (leia-se compreender e produzir) informações em LINGUAGEM NATURAL. Esses programas podem envolver diferentes áreas da lingüística, como a fonologia, a fonética, a semântica, a sintaxe, a pragmática etc. (Othero & Menuzzi, 2005:124).
Ainda segundo Othero & Menuzzi (2005:11), as máquinas estão sendo
programadas, cada vez mais, para responder a comandos do usuário em sua língua
materna, qualquer que seja ela. Isto é resultado da busca por uma melhor interação
entre humanos e máquinas, o que está se dando através da linguagem natural, ou
seja, da linguagem do homem.
-
21
Por trás desse tipo de trabalho, deve estar o dedo do lingüista: afinal, é ele o cientista da linguagem, o cientista que busca compreender coisas como as nuances semânticas de uma expressão, as regras sintáticas de uma língua ou os detalhes de funcionamento de seus sons. E é preciso “ensinar” essas coisas a um computador – ou melhor, programar esse conhecimento na “máquina binária”, dos “zeros” e dos “uns”, isto é, do sim e do não - se quisermos que essa máquina esteja pronta a interagir naturalmente conosco. (Othero e Menuzzi, 2005:12)
É claro que desenvolver computadores com capacidade de interagir de forma
natural com humanos ainda está distante da realidade atual, mas é um dos objetivos
da lingüística computacional, que se ocupa do tratamento computacional da
linguagem para diversas finalidades práticas.
Os autores acima (2005:18) acreditam que, antes de tentar fazer com que
uma máquina interaja efetivamente com humanos e os compreenda, é
inevitavelmente necessário fazer com que ela aprenda a se comunicar com um ser
humano, e a maneira mais fácil de este tipo de comunicação ocorrer é através da
própria língua materna da pessoa usuária de um computador. E completam: Por isso, muitos pesquisadores vêm trabalhando com o tratamento computacional da linguagem humana (ou das línguas humanas), isto é, com maneiras de simular, no computador, aquilo que fazemos naturalmente quando conversamos com alguém. Isso exige, no entanto, que se avance no estudo do funcionamento das línguas naturais e na descrição formal dos sistemas lingüísticos, e é aí que começamos a falar da lingüística computacional.
Uzskoreit (apud Othero & Menuzzi, 2005:18), pesquisador da área da
informática, afirma que: Ainda que os sistemas existentes em TL [tecnologias lingüísticas] estejam longe de alcançar a habilidade humana, eles têm diversas aplicações possíveis. O objetivo é criar softwares que tenham algum conhecimento da linguagem humana. (...) Há necessidade urgente deles para que se possa melhorar a interação humano-máquina, já que o obstáculo principal na interação entre um humano e um computador é simplesmente um problema de comunicação. Os computadores de hoje não entendem nossa língua, e as linguagens de computação, por outro lado, são difíceis de se aprender e não correspondem à estrutura do pensamento humano. (Uzskoreit, sd:2).
Percebe-se, agora, a dificuldade – talvez até o ceticismo de alguns – em se
encontrar respostas para questões como: O que se deve fazer para que o
computador “compreenda” uma língua natural? Como fazer para que uma máquina
consiga produzir textos ou falas em uma língua natural? Chegará o dia em que uma
-
22
máquina poderá ser capaz de dominar a sintaxe, o sistema fonológico, as nuanças
semânticas e o uso pragmático, entre outros conhecimentos, de uma língua natural?
Os autores com os quais estamos trabalhando neste capítulo (dentre inúmeros
outros) acreditam que, algum dia, os computadores serão capazes sim de dominar a
linguagem natural de maneira satisfatória e, assim, interagir de tal modo com os
humanos, em uma determinada língua natural, que não se conseguirá distinguir as
respostas da máquina das de um outro ser humano.
Porém, voltemos ao que realmente nos interessa: o estudo computacional da
sintaxe da língua portuguesa, ou seja, com o modo como as frases da nossa língua
se organizam e o modo como esta organização é reconhecida pelo computador.
Além da fonética e da fonologia, é indiscutível a importância dos estudos da
morfossintaxe e da semântica para o desenvolvimento de programas de PLN
[Processamento da Linguagem Natural], pois esses estudos são fundamentais para
sistemas que envolvam a compreensão ou a geração automática de frases de uma
língua. Este é o caso, por exemplo, dos chatterbots, programas desenvolvidos para
interagir com usuários humanos através de diálogos em linguagem natural, na
modalidade escrita. “O primeiro chatterbot desenvolvido foi ELIZA, criado pelo
pesquisador Joseph Weinzenbaum, no MIT, em 1966”. (Othero e Menuzzi,
2005:31).
ELIZA era um programa de conversação que se utilizava de um sistema
baseado em “moldes” (templates, em inglês) para construir suas frases, e que,
como todos os chatterbots baseados em moldes, tinha, como uma de suas
limitações, a repetição eventual de suas próprias frases e as de seu interlocutor,
apresentando, freqüentemente, contradição em suas “opiniões”. Por isso, acreditamos que as próximas gerações de chatterbots devem exigir dos programadores um profundo conhecimento da sintaxe (que permitirá que desenvolvam no programa a capacidade de gerar infinitas sentenças da língua combinando um número finito de regras e elementos lexicais) e de semântica (o que tornará possível fazer com que o programa seja capaz de interpretar o significado do input lingüístico fornecido pelo usuário humano). (Othero & Menuzzi, 2005:35).
Além dos chatterbots e dos tradutores automáticos, conhecimentos em
sintaxe e semântica são fundamentais, também, para outros aplicativos, como
parsers, geradores automáticos de resumos, corretores ortográficos e gramaticais,
classificadores automáticos de documentos digitais etc.
-
23
O termo parsing vem da expressão latina pars orationes (partes do discurso)
e tem suas raízes na tradição clássica. “De acordo com Mateus & Xavier
(1992:886), parsing pode ser entendido como o ‘processo de atribuição de uma
estrutura e de uma interpretação a uma seqüência lingüística’.”. (apud Othero &
Menuzzi, 2005: 39) Um parser, no contexto da lingüística computacional, é um analisador automático (ou semi-automático) de sentenças. Esse tipo de programa é capaz de analisar uma sentença com base em uma gramática preestabelecida de uma determinada língua, verificando se as sentenças fazem parte ou não da língua, de acordo com o que autoriza a sua gramática. (...) também analisa sintaticamente as sentenças, decompondo-as em uma série de unidades menores, primeiramente em nódulos não-terminais (os sintagmas), até chegar a nódulos terminais (os itens lexicais) atribuindo-lhes uma estrutura de constituintes. Essa estrutura de constituintes, que representa a organização hierárquica e sintática da frase, é apresentada comumente através de árvores sintáticas ou através de colchetes rotulados. (Othero & Menuzzi, 2005:49).
E de acordo com Covington (1994:42, apud Othero & Menuzzi, 2005:40),
fazer o parsing de uma sentença é “determinar, por um processamento algorítmico,
se a sentença é gerada por determinada gramática, e se for, que estrutura a
gramática atribui a ela”.
Bons exemplos de um simples algoritmo que pode fazer uma medida
analítica da linguagem são os corretores ortográficos e gramaticais. Porém, uma
das armadilhas dos corretores ortográficos está na leitura de uma determinada
palavra dentro de um contexto. O computador não pode encontrar um erro ortográfico se a palavra estiver correta para um outro contexto (por exemplo, conserto e concerto). A habilidade da mente humana em analisar e reconhecer corretamente falas, estilos e gramática não é reproduzida satisfatoriamente pelos computadores, porque mentes e computadores trabalham diferentemente. [http://labbi.uesc.br/apostila]
Mesmo assim, o poder dos computadores é inegável. Hoje, escrever um texto
utilizando um processador de textos, por exemplo, se tornou tão mais fácil e tão
popular, que, para milhões de usuários, é uma ferramenta considerada
indispensável.
-
24
2.2 A Sintaxe Computacional
Para compor o início deste subcapítulo serão utilizadas informações
disponibilizadas pelo programa de pós-graduação em computação do Instituto de
Informática da Universidade Federal do Rio Grande do Sul [www.inf.ufrgs.br],
especialmente de um trabalho feito para a disciplina de Arquiteturas Especiais de
Computadores, assinado por Fábio Abreu Dias de Oliveira, intitulado
“Processamento de linguagem natural: princípios básicos e a implementação de um
analisador sintático de sentenças da língua portuguesa”. A escolha recaiu nesses
dados em virtude de sua linguagem acessível, simples e clara. Porém, também
continuaremos atentos ao que Othero & Menuzzi (2005) ensinam sobre o assunto.
Para que um sistema computacional interprete uma sentença em linguagem
natural, é necessário manter informações morfológicas, sintáticas e semânticas,
armazenadas em um dicionário, juntamente com as palavras que o sistema
compreende.
A primeira etapa do processamento dessa linguagem natural passa,
obrigatoriamente, pelo analisador morfológico, que identifica palavras ou expressões
isoladas em uma sentença. Esse processo é auxiliado por delimitadores (pontuação
e espaços em branco). As palavras identificadas são classificadas de acordo com
seu tipo de uso, ou, em linguagem natural, categoria gramatical.
Assim, uma instância de uma palavra em uma sentença gramaticalmente
válida pode ser substituída por outra do mesmo tipo, configurando uma sentença
ainda válida (exemplo: substantivos, pronomes, verbos, etc.). Dentro de um mesmo
tipo de palavra, existem grupos de regras que caracterizam o comportamento de um
subconjunto de vocábulos da linguagem, como, por exemplo, a formação do plural
de substantivos terminados em “ão” e as flexões dos verbos regulares terminados
em “ar”, dentre outros. Assim, a morfologia cuida das palavras quanto a sua
estrutura, forma, flexão e classificação, no que se refere a cada um dos tipos de
palavras.
Para Rich & Knight (1993) o “emprego do analisador morfológico é
fundamental para a compreensão de uma frase, pois para formar uma estrutura
coerente de uma sentença, é necessário compreender o significado de cada uma
das palavras componentes.”
-
25
Já o analisador sintático, através da gramática da linguagem a ser analisada
e das informações do analisador morfológico, procura construir árvores de derivação
para cada sentença, mostrando como as palavras estão relacionadas entre si.
Durante a construção da árvore de derivação, é verificada a adequação das
seqüências de palavras às regras de construção impostas pela linguagem na
composição de frases, períodos ou orações. Dentre estas regras, a concordância e
a regência nominal e/ou verbal, assim como o posicionamento de termos na frase.
Um termo corresponde a um elemento de informação (palavra ou expressão), e é
tratado como unidade funcional da oração, participando da estrutura como um de
seus constituintes, denominados sintagmas.
Como sabemos, a análise sintática de uma oração em português deve levar
em conta os seguintes sintagmas: termos essenciais (sujeito e predicado), termos
integrantes (complementos verbal e nominal) e termos acessórios (adjuntos
adverbial e nominal, e aposto). A análise do período, por sua vez, deve considerar o
tipo de período (simples ou composto), sua composição (por coordenação ou
subordinação) e a classificação das orações (absoluta, principal, coordenada ou
subordinada).
Nos sistemas de processamento de linguagem natural, o maior problema é a
transformação de uma frase potencialmente ambígua em uma não-ambígua, a qual
será utilizada pelo sistema. Esta transformação é conhecida como parsing, termo já
explicado anteriormente.
As abordagens de linguagens formais são utilizadas com muito sucesso no
estudo da análise sintática em PLN. Dentre as principais, temos:
• Gramáticas Regulares: para o processamento sintático da linguagem natural, estas gramáticas são bastante simples e facilmente reconhecidas, porém
apresentam um poder de expressão limitado (equivalente ao poder de expressão de
um autômato finito, reconhecedor utilizado para a análise morfológica).
• Gramáticas Livres de Contexto: são muito úteis no que tange à descrição de gramáticas em linguagem natural e, em geral, são mais poderosas que as
regulares já que permitem a representação de linguagens com um certo grau de
complexidade. No entanto, a dificuldade em expressar dependências simples, como
por exemplo a concordância entre verbo e sintagma nominal, constitui um dos
maiores problemas para sua utilização no tratamento da língua natural. O autor
mencionado como fonte principal dessas informações, afirma que abordagens
-
26
puramente livres de contexto não são suficientemente poderosas para captar a
descrição adequada deste gênero de linguagem. Mas que, ainda assim, é utilizada
uma notação denominada com Definite Clause Grammar (DCG), disponível em
Prolog, para definir gramáticas livres de contexto e analisar sentenças, ou seja,
realizar o parsing.
• Gramáticas Sensíveis ao Contexto: os problemas de dependência expressos anteriormente são resolvidos nesta classe de gramática. Porém,
conforme Rich & Knight (1993), ainda assim as gramáticas sensíveis ao contexto
não abordam satisfatoriamente o tratamento de restrições gramaticais. O
impedimento para seu uso reside na questão do reconhecimento. O problema de decidir se uma sentença pertence a uma gramática sensível ao contexto é uma função exponencial sobre o tamanho da sentença, o que torna a implementação do procedimento de verificação uma questão complexa, do ponto de vista computacional. (idem)
Vale lembrar a existência de gramáticas irrestritas, também presentes na
hierarquia de Chomsky, as quais não são utilizadas para a construção de interfaces
em linguagem natural.
O artigo-base desses dados informa que a maioria das pesquisas atuais
propõe trabalhar em modelos que se situem em um nível intermediário entre as
gramáticas livres de contexto e as sensíveis ao contexto, aliando boa capacidade de
representação, incluindo construções que permitam modelar dependências, e um
modelo computacional viável.
Com relação à gramática, ainda, Othero & Menuzzi (2005:44) alertam para
fato de que a maioria das versões recentes do Prolog vem equipada com uma extensão nocional conhecida como DCG, ou Gramática de Cláusula Definida (do inglês Definite Clause Grammar), que facilita a implementação de regras formais de parsing. A DCG é um formalismo de representação de gramáticas livres de contexto.
Ela torna muito mais fácil implementar uma gramática e desenvolver um
parser em Prolog, já que “uma gramática descrita em uma DCG é diretamente
executada pelo Prolog com um analisador sintático” (Bratko, 1997:431, apud Othero
& Menuzzi, idem).
Prolog - PROgramming in LOGic - é uma linguagem de programação
baseada na lógica. Ao contrário da maioria das linguagens de programação, que
-
27
são de natureza “procedural”, o Prolog é uma linguagem “declarativa”, conforme
ensinam Othero & Menuzzi (2005:42). (...) outras linguagens de programação, como o Basic e o Pascal, apresentam ao computador uma solução para um problema na forma de uma série de instruções para que a máquina as execute estritamente na ordem em que foram especificadas. Programar com Prolog (...) deve ser declarativo, um programa deve simplesmente ser o enunciado do problema. A maneira como o problema é solucionado e a seqüência de instruções por que o computador deve passar para resolvê-lo são decididas pelo sistema. (McDonald & Yazdani, 1990:ix, apud Othero & Menuzzi, 2005:44)
Porém, mesmo após todas essas informações do mundo computacional, como entender o processo de criação de uma gramática eletrônica? A obra que nos
tem servido como base primeira, para este capítulo, escrita por Gabriel Othero e
Sérgio Menuzzi, trata justamente desse ponto. Eles ensinam como desenvolver um
aplicativo computacional para o tratamento da linguagem natural, com exemplo de
uma aplicação prática de conhecimentos da sintaxe no desenvolvimento de um
sistema de análise das frases do português – um “parser sintático” programado em
linguagem Prolog. (Vide definição de parser por Othero & Menuzzi disposta no final
do subcapítulo 2.1).
Othero & Menuzzi simulam a criação de um parser para o reconhecimento
automático de sentenças em língua portuguesa. Um parser que deverá reconhecer
as sentenças gramaticais – e somente elas – e atribuir-lhes uma estrutura de
constituintes.
Não é possível, aqui, naturalmente, reproduzir o passo-a-passo dos
procedimentos que os autores ensinam, pois envolvem teorias e metodologias
diversas, tornando-se inviável uma demonstração fiel. Contudo, decidimos resumir
algumas das várias etapas que constituem o trabalho, apenas para que se tenha
uma idéia, mesmo que distante, de como uma gramática “se forma no interior de
uma máquina”.
• começa com o reconhecimento e distinção de frases consideradas
gramaticais/agramaticais;
• faz representações delas em diagramas arbóreos (com divisão das
frases em “blocos”, ou sintagmas, até os itens lexicais);
-
28
• pode ter que realizar diferentes “testes” para identificar um
constituinte/sintagma (testes de coordenação, interpolação, anáfora,
entre outros);
• nas regras de reescrita (ou regras sintagmáticas) utiliza-se dos
símbolos usados por Chomsky (S,SN, SV, Det., N, V), e são elas que
validam as sentenças;
• há, ainda, as regras de inserção lexical, as responsáveis por introduzir
as palavras abaixo de cada símbolo respectivo. Obs.: Essas regras (de
reescrever e de inserção) são chamadas de gerativas, pois elas geram
sentenças gramaticais a partir de instruções precisas e explícitas. Após
a aplicação dessas regras, obtém-se a estrutura de uma frase válida, ou
gramatical na língua definida pela gramática escolhida;
• finalmente é estruturada a árvore sintática da frase a partir das regras,
trabalhando como um parser top-down (que constrói uma sentença a
partir de seu topo, até chegar ao nível das palavras);
Os autores ressalvam, porém, que “é sabido que a gramática sintagmática
apresenta uma série de limitações e precisa ser enriquecida com recursos
adicionais” (idem:64). Isso se deve ao fato de a gramática criada poder gerar
também sentenças claramente agramaticais, principalmente se algumas palavras
forem expandidas para outra categoria. Por isso, no exemplo que dão, eles
precisam adicionar alguns recursos às regras sintagmáticas e trabalhar com a
descrição e classificação do léxico para implementar o tipo de gramática na
linguagem Prolog.
Como, na maioria dos casos, o Prolog está tentando descobrir se uma
afirmação é verdadeira ou falsa, ou está tentando encontrar alguma combinação de
variáveis que torne uma afirmação verdadeira, para executar um programa em
Prolog é preciso fazer uma consulta à sua base de dados. “E uma consulta nada
mais é do que uma chamada de uma cláusula do programa, equivalendo a uma
solicitação para provar se o que pedimos é verdadeiro de acordo com a base de
dados do programa “ (ibid: 66).
Há basicamente dois tipos de perguntas que podemos fazer ao Prolog:
perguntas sim/não (envolvendo respostas sim ou não), e perguntas QU (wh-
-
29
questions en inglês, envolvendo pronomes interrogativos: quem, qual, quando, onde
etc.).
Voltando à criação do parser, começa, então, a etapa de escrever um
programa, que deve ser aberto em um editor de textos, como o bloco de notas,
presente em todas as versões do MS Windows disponíveis no mercado. É no editor
que serão desenvolvidos os programas que mais tarde serão rodados na plataforma
do Prolog. Tudo deve ser escrito em letras minúsculas e sempre haver um ponto
final no fim de cada linha. As letras maiúsculas serão usadas para as variáveis.
Como exemplo de um programa simples, Othero e Menuzzi (2005:67) dão o
seguinte:
Sócrates é homem.
O homem é mortal.
Em notação Prolog, deve-se escrever:
homem(socrates).
mortal(X) :- homem(X).
Em PROLOG Em PORTUGUÊS
homem(socrates). Sócrates é homem.
mortal(X) :- homem(X). O homem é mortal. Tradução – PROLOG x PORTUGUÊS
A primeira premissa (homem(socrates).) é chamada em Prolog de fato. Os fatos são regras que, de certa forma, se auto-satisfazem, ou seja, são dados
sempre verdadeiros, nunca apresentando variáveis. A segunda premissa (mortal(X) :- homem(X).) é uma regra em Prolog: ela apresenta uma variável e uma relação de condicionalidade, expressa pelo operador “:-“ . Ao contrário dos fatos, as regras consistem sempre de duas partes: a cabeça e o corpo:
mortal(X) :- homem(X) Cabeça Corpo
Para que a cabeça da regra seja verdadeira, as condições expressas em seu
corpo devem ser satisfeitas. A interpretação de uma regra desse estilo é bastante
simples:
a :- b. “a” é verdadeiro se “b” é verdadeiro
a :- b, c, d. “a” é verdadeiro se “b”, “c” e “d” forem verdadeiros
-
30
E, então, depois desse processo (extremamente resumido e simplificado,
aqui), o programador utiliza-se do recurso de DCG (já conceituado anteriormente).
Com esse recurso, as regras de reescrita podem ser convertidas de maneira
bastante simples e transparente para a notação em Prolog. “Grosso modo, a DCG
pode ser entendida como um recurso que torna mais fácil ao lingüista a
implementação de regras sintagmáticas em Prolog”. (Othero e Menuzzi, 2005:77)
Em resumo, para o desenvolvimento de uma gramática em Prolog, deve-se:
a) implementar regras sintagmáticas relativas à descrição sintática do português
(por exemplo, a regra: S SN SV); b) a partir dessa regra, elaborar outras para o
SN e para o SV, ou conferir o que consta na literatura pertinente. (Exemplo:
SN Det N; SV V SN; c) implementar itens lexicais (Exemplo: Det o,a:
N João, Maria; V ama; d) implementar na gramática do parser algumas
regras consagradas na literatura; e) a partir delas, pode-se usar exemplos
apresentados na literatura que servem para ilustrar ou testar a regra; f) por último,
trabalhar com as dificuldades encontradas para implementar uma regra em Prolog
da melhor maneira possível.
Os autores consultados deixam claro que há diferentes maneiras de se
trabalhar com parsers sintáticos, e diversas têm sido as alternativas de
desenvolvimento de ferramentas de linguagem natural que tratem da sintaxe de
uma língua.
Esperamos ter conseguido aclarar um pouco o que seja uma linguagem de
programação, principalmente no que concerne ao desenvolvimento de uma
gramática, que é um dos principais aspectos que nos interessam neste trabalho.
2.3 - O Revisor Gramatical Eletrônico A maneira mais simples e rápida de escrever corretamente. Com o Revisor
Gramatical você revisa os seus textos corrigindo erros de concordância verbal e
nominal, erros de ortografia, acentuação, conjugação de verbos, colocação de
pronomes, dúvidas do dia-a-dia e muito mais! Também apresenta regras
gramaticais que esclarecem suas dúvidas, otimizando o seu trabalho.
O excerto acima faz parte de um texto on-line [www.amigomouse.com.br], na
seção de oferta de compra de produtos de informática. Achamos apropriado
-
31
utilizarmo-nos dessa propaganda para começar este capítulo, pois há informações
interessantes, muitas, talvez, não do conhecimento da maioria dos usuários de
computador. Deixando de lado o objetivo de publicidade que o texto tem, vamos
apresentar essas informações porque elas nos servirão, mais além, para provar
nossa tese de que os revisores ainda precisam ser melhorados, e muito, em vários
aspectos. Como principais características do Revisor Gramatical, aparecem:
• Possui um dicionário ortográfico com mais de 2 milhões de palavras na
língua portuguesa;
• Revisa a gramática e a ortografia;
• Possui explicação gramatical dos erros encontrados (para todo erro
gramatical encontrado pelo Revisor, basta clicar no botão “Ajuda”, que o
mesmo apresenta as regras gramaticais.);
• Acentuador automático (reconhece palavras de uma única grafia
acentuadas incorretamente e, automaticamente, corrige a acentuação,
facilitando e agilizando o processo de correção ortográfica.);
• Informa a existência de palavras homógrafas (as palavras homógrafas
perfeitas se escrevem e se pronunciam da mesma forma. As
homógrafas imperfeitas diferenciam-se entre si por um detalhe apenas
(a acentuação, por exemplo). O Revisor Gramatical aponta as palavras
que têm homógrafas imperfeitas para que se possa conferir se seu uso
está correto.);
• Corretor automático inteligente (durante a digitação, se o usuário
cometer o mesmo erro ortográfico por 03 (três) vezes num mesmo
documento, o Revisor Gramatical permite ao usuário inserir este erro no
Dicionário Inteligente. Depois de inserto, o Revisor irá corrigir o erro
automaticamente, agilizando a correção.);
• Conjugador verbal (conjuga verbos em todos os tempos e modos da
língua portuguesa de modo simples e fácil. Reconhece inclusive verbos
impessoais como “chover”, “ventar”, etc., destacando as formas mais
usuais).
Este Revisor anunciado serve para aplicativos como Microsoft Word
Compatíveis, Microsoft Word 2000 (Português/Inglês) versão 9.0, Microsoft Word 97
(Português/Inglês) versão 8.0 e Microsoft Word 95 (Português/Inglês) versão 7.0.
-
32
Como requisitos mínimos de funcionamento precisa de um PC 486 ou superior, 16
MB de RAM, 2 MB de espaço livre no disco rígido, drive de CD-ROM, Windows 95
ou superior previamente instalado, rede: NT & Novell.
Decidimos testar partes dele, apenas para servir como exemplos de sua
funcionalidade efetiva.
A palavra “conjugador”, por exemplo, que aparece no último item das
características do Revisor, não faz parte dos 2 milhões do dicionário do mesmo, e
aparece sublinhada em vermelho. O mesmo ocorre com a palavra “acentuador”, no
4º item. A sugestão de ortografia correta para “conjugador” encontra-se na tela 1,
copiada na página seguinte. Estas, então, são palavras que precisaríamos
acrescentar ao dicionário do nosso PC.
Com relação ao reconhecimento das homógrafas imperfeitas (da forma como
apresentado neste texto), como por exemplo, “Ela esta bem.” e “Ela está bem.” , o
revisor gramatical do computador que estamos utilizando não apontou nenhum
problema, tanto com uma como com a outra forma. Assim, se não soubermos que a
primeira frase torna-se inadequada, sem o acento em “esta”, também não teremos
como o saber, pois o revisor não nos avisa disso. Em “Ele para, olha e fica
pensando...” e “Ele para mim é um anjo.” , também não há manifestação contrária
por parte do revisor quanto à acentuação que deveria existir no verbo “para” na
primeira frase. Em: “Fizeram boa viajem?”, pensamos que o revisor distinguiria o
verbo “viajem” do substantivo “viagem”. Isso não aconteceu. Ele sublinhou em verde
“fizeram boa” e sugeriu o que aparece na tela 2. Concluindo: o revisor NÂO aponta
as homógrafas imperfeitas para conferência de sua correção.
Quanto ao reconhecimento e correção automática, por parte do revisor, de
palavras de grafia única acentuadas incorretamente, em alguns casos isso se
mostra verdadeiro, em outros, não. Vejamos:
“Vocé”, digitada propositalmente por nós, foi realmente corrigida
imediatamente, aparecendo “Você”. Se se utilizar a tecla F7 (ortografia e gramática),
a sugestão de grafia “Você” aparecerá. Mas quando digitamos a palavra “pêrola”,
ele apresentou 25 sugestões de escritura de diferentes palavras, mas não a grafia
“pérola” .(Vide tela 3.)
-
33
Tela 1
Tela 2
-
34
Tela 3
O teste agora é da conjugação de verbos em todos os tempos e modos,
inclusive os impessoais. Somente alguns exemplos:
“Chove chuva, chove sem parar...”
“Amaram-no mais que tudo neste mundo.”
“Fazer silêncio, por favor.”
Mas, em:
“(...) Se me ainda amas, por amor não ames:
Trairias-me comigo.” (Já sobre a fronte – Poesia Completa. Ricardo Reis/Fernando Pessoa)
-
35
Tela 4
A ênclise na forma verbal “trairias-me” não foi reconhecida como correta pelo
revisor, que apresentou a sugestão de ortografia conforme tela acima.
Por pura curiosidade, decidimos reescrever o trecho não aceito antepondo o
pronome oblíquo ao verbo, e o revisor, após mostrar a sublinha verde, manifestou-
se assim:
Se me ainda amas, por amor não ames:
Me trairias comigo.
-
36
Tela 5
Como se pôde perceber até agora, o revisor gramatical tem lá seus humores.
Não são de admirar, então, as inúmeras reclamações dos mais diversos tipos de
usuários quando se utilizam do editor de textos do Word e pedem “ajuda” ao revisor
eletrônico para verificar a correção de seus textos. Algumas sugestões do revisor
tornam-se engraçadas, porque completamente ilógicas para qualquer falante
razoável da língua portuguesa.
Dílson Catarino, professor, em um de seus textos de dicas de gramática no
site do uol/vestibulares, quando mostra como se deve usar os pronomes
demonstrativos em textos, faz a seguinte advertência: Somente mais um
comentário, sem ligação alguma com os estudos de hoje: ao escrever um texto em
seu computador, nunca confie no corretor do Word, pois ele apresenta falhas
clamorosas. E cita como exemplo, uma das frases do próprio texto que ele
escreveu naquele dia.: Onde escrevi: Não se deve andar com os vidros do automóvel abertos nas grandes cidades brasileiras, o sinistro Word diz: Não se deve andar com os vidros do automóvel aberto nas grandes cidades brasileira ou Não se deve andar com os vidros dos automóveis abertos nas grandes cidades brasileiros. (grifos do autor)
-
37
E termina com um desabafo revoltado: Que é isso, meu santo protetor dos professores de Português?! Como deixam acontecer isso? Será que nossa Língua é tão desprezada assim? Será que nenhum dos nossos ilustres imortais usa computador? Ou será que eles escrevem como o Word quer?
Quanto à “acusação” aos imortais não podemos nos pronunciar, uma vez que
não dispomos de informações confiáveis de que eles se comportem ou não como
supõe o autor acima.
Quanto à reclamação do referido professor, redigitamos a frase mencionada
e acionamos a tecla F7. O revisor nada acusou. Porém, este é um dado sobre o
qual já alertamos anteriormente: a configuração de cada computador pessoal
interfere quanto às manifestações do revisor eletrônico, seja o ortográfico, seja o
gramatical. Acreditamos que o PC de Catarino não dispunha, à época, da mesma
configuração deste que estamos utilizando agora.
Quanto à confiança cega que alguns usuários depositam no revisor
eletrônico, o Jornal do Brasil publicou matéria, em 27/09/2001, cujo título era
Viciados em F7. (Imediatamente o revisor sublinhou em verde o título. A tela com a
sugestão ortográfica e a explicação gramatical está mais à frente). O articulista
começa explicando o que é a tecla F7 e diz que Para quem se garante nos quesitos ortografia e gramática, o corretor automático é um chato que fica sublinhando, em verde ou vermelho (conforme o caso), nomes de pessoas, palavras que não estão no dicionário e erros que não existem – como segue regras rígidas, muitas vezes ele aponta como erro formas que na verdade são opcionais ou licenças poéticas.
Mais adiante, o texto fala sobre a tábua de salvação que é a tecla F7 para os
não “tão craques” em português, impedindo que não sejam entregues trabalhos
repletos de “erros ortográficos constrangedores”, uma vez que os possíveis erros
são apontados pelo revisor, que oferece soluções para os problemas. Afirma o JB, Assim, formou-se uma verdadeira legião de viciados em F7. Indiferentes à discussão sobre qual é o melhor dicionário, eles dispensam cuidados ao digitar e não se preocupam com a ortografia. O relaxamento pode chegar a tal ponto de a pessoa repetir o mesmo erro diversas vezes, ignorando a possibilidade de aprender a grafia correta.
O artigo termina com uma fala do exemplo citado pelo jornal, um “ex-
dependente” nas palavras do articulista, e que hoje tira suas dúvidas no dicionário,
-
38
em vez de continuar confiando apenas no corretor eletrônico: O mercado de
trabalho exige que se escreva corretamente, e eu pretendo acompanhar o mercado.
Tela relativa à página anterior. O revisor considera inadequada a concordância feita no título.
Como era de se esperar, o artigo no Jornal do Brasil suscitou respostas em
defesa do uso do revisor eletrônico. Duas leitoras de Belo Horizonte, Carla Viana
Coscarelli e Else Martins, enviaram carta ao jornal, intitulada Viciados em F7? Nossa resposta ao JB (27/09/2001), que foi publicada em outubro de 2001. Assim
começa o texto: A informática entrou em nossa vida – isso não tem retorno - e sua influência na escrita é inevitável. De pouco adianta torcer o nariz ou fechar os olhos para as conseqüências que o uso do teclado e dos programas de texto provocam na escrita das pessoas. Necessário se faz estudar essas modificações e, sem pré-conceitos, analisar até onde isso é bom ou não. (...) A crítica que mais se faz ao uso dos corretores de texto e das comunicações sincrônicas (chats) e assincrônicas (e-mail) é o fato de que eles levam o indivíduo a escrever errado. No primeiro caso, inclusive, dizem até que “vicia”!
As autoras da resposta ao JB defendem que é preciso entender que alguns
aspectos da escrita merecem mais atenção do que ortografia e separação de
sílabas, entre outras “questões menores”, na visão delas. Afirmam que língua não
-
39
se resume a ortografia. Há muito além disso, a sintaxe, a semântica, a textualidade,
os fatores pragmáticos, a discursividade, e ninguém discute isso na imprensa. A
ortografia é sempre a grande vedete. O que elas propõem é a desnecessidade de
perder tempo com questões ortográficas, e deixar sua resolução por conta do
corretor ortográfico. Acreditam que quanto menos tivermos de nos preocupar com
isso no momento da criação, melhor, pois sobrará tempo e recursos cognitivos para
as atividades de planejamento e organização das idéias no texto, para escolher
melhor os recursos lingüísticos a serem usados e as estratégias textuais que melhor
seduzirão o leitor. (sic)
Acrescentam ainda, as duas leitoras, que não há programa de computador
que consiga substituir as escolhas semânticas e estruturas frasais de cada produtor.
Além disso, pelo fato de seguir normas rígidas, o recurso de correção sintática e
ortográfica não exclui a participação do usuário: Apareceu o risquinho verde no texto
e, imediatamente, vai-se verificar o que está acontecendo, que tipo de correção é
sugerida. Apareceu o risquinho vermelho e vai-se verificar o erro ortográfico
cometido.
E concluem, em sua resposta: Que diferença faz tirar dúvidas no dicionário de papel ou no eletrônico? Muita. Enquanto o rapaz do nosso exemplo está a consultar um dicionário, o colega ao lado já analisou e aceitou ou não a correção proposta e produziu infinitamente mais. (...) o texto produzido em computador vai aos poucos instalando um texto novo, criativo, ágil e que exige um leitor que domine os recursos de produção desse texto, para melhor entendê-lo.
À parte acusações ou defesas, o corretor eletrônico permanece impassível
diante de tudo isso. As considerações anteriores, sobre os textos publicados no
Jornal do Brasil, foram feitas no intuito de servirem de exemplos, dentre os tantos
encontrados por nós, principalmente na Internet, das opiniões favoráveis ou
contrárias ao uso do revisor eletrônico do Word.
Hélio Consolaro, professor de português e coordenador do site
www.portrasdasletras.com.br, num artigo intitulado “Revisor do Word”, afirma que
“Os limites do revisor são dois: a qualidade do conhecimento lingüístico de quem
abasteceu o seu léxico (o dicionário) e a limitação do programa”. E continua: As nuanças de concordância, regência. Exemplo: Juliana era as esperanças do time. O revisor aponta erro de concordância, porque não distingue que Juliana se trata de nome de pessoa, nesse caso o verbo SER concorda com ele.
-
40
Grifamos, em verde, o que estava sublinhado pelo corretor, na citação acima,
para comprovar a afirmação de Consolaro.
Tela 6
Mais uma surpresa: a sugestão vem na forma de “era as esperança”,
concordando “esperança”, provavelmente, com “do time”, termo subseqüente, mais
próximo. Quando digitada a frase “era as esperança”, o corretor permaneceu em
silêncio.
Consolaro, como tantos outros, não necessariamente professores de
português apenas, aconselha levar a sério os apontamentos que o Word apresenta,
verificando se há razão ou não dos mesmos estarem sendo feitos, não deixando de
pesquisar em gramáticas ou dicionários quando houver dúvidas. E termina o
conselho com uma advertência: “Erra mais quem tem muita certeza”.
-
41
2.3.1 Como “nasceu” o Revisor
Não nos foi fácil, nem rápido, conseguir informações sobre a criação e os
criadores do revisor gramatical do Word, mesmo tendo a Internet e o site da
Microsoft à nossa disposição. Os e-mails enviados, solicitando ajuda, ficaram sem
respostas.
Tínhamos, em mãos, um único texto - um artigo de divulgação - encontrado
num site e que falava sobre um revisor gramatical chamado ReGra, da Itautec.
Porém, como ignorávamos completamente o significado do ícone da Itautec-Philco,
que vem, conforme a configuração de algumas máquinas, na tela de iniciação do
computador, não conseguíamos aliar uma coisa à outra. Após inúmeras buscas,
conseguimos encontrar uma fonte fidedigna sobre a origem do revisor que temos
em nossas máquinas de sistema do Windows: um texto escrito pelos próprios
pesquisadores/criadores do ReGra, conseguido via Internet, e apresentado em São
Paulo, em 2002, num encontro de Estudos Lingüísticos.
Restou-nos, dessa forma, trabalhar com apenas duas fontes e a impressão de
que não há dados suficientes e satisfatórios para compor esse subcapítulo. No
entanto, disponibilizaremos o que conseguimos mesmo correndo o risco de serem
insuficientes as informações sobre como surgiu o revisor que utilizamos
rotineiramente.
No site http://inventabrasilnet.t5.com.br/revgram.htm há um artigo intitulado
Revisor Gramatical falando sobre a Itautec, empresa brasileira de computadores e
softwares, que precisou desenvolver, em 1993, um revisor ortográfico para um
processador de texto utilizado nos computadores fabricados por ela. A empresa
procurou o Núcleo Interinstitucional de Lingüística Computacional (NILC), formado
por pesquisadores dos Institutos de Ciências Matemáticas e de Computação e de
Física da USP de São Carlos e da Faculdade de Letras da Universidade Paulista
(Unesp), de Araraquara.
Esse grupo, composto de alunos e professores, pesquisava, à época, um
software de processamento da língua portuguesa. A Itautec-Philco, que já possuía
um revisor ortográfico de textos, interessou-se pela pesquisa, pois pretendia
aprimorar seu revisor ortográfico, incluindo um revisor gramatical capaz de detectar
e corrigir erros de concordância e de regência verbal e nominal, entre outros.
-
42
Em 1994, Maria das Graças Volpe Nunes, pesquisadora-responsável pelo
NILC, e seus colaboradores apresentaram o Revisor Gramatical Automático para o
Português. A princípio, o revisor deveria apenas se preocupar com os erros mais
comuns das secretárias, devido ao perfil corporativo dos clientes Itautec-Philco, mas
o produto acabou posteriormente incorporado ao Word da Microsoft.
O projeto foi aprovado no PITE, em 1996, e contou também com a
colaboração dos professores Cláudio Lucchesi, Tomas Kowaltowski e Jorge Stolfi,
do Instituto de Computação da Unicamp. Em São Carlos, sob a coordenação da
professora Maria das Graças Volpe Nunes, foram desenhados os algoritmos e
formado o banco de base de palavras e, em Campinas, desenvolveu-se a
compactação do sistema e a diminuição do tempo de resposta do programa.
Em 1997, a empresa começou a vender, no varejo, a primeira versão do
revisor gráfico e gramatical, em caixas próprias, como um produto de prateleira. No
final desse ano, a Microsoft procurou a empresa para incorporar o revisor no
programa Office, o mais vendido no Brasil e em todo o mundo. O antigo revisor
criado em Portugal para a língua portuguesa comportava 200 mil palavras; o da
Itautec já dispunha de 1,5 milhão de palavras. O revisor foi incorporado ao Office
2000. A empresa brasileira licenciou o produto por um período de três anos e, pelo
trabalho desenvolvido, o professor Lucchesi recebeu o Prêmio Santista de
Informática, em 1999.
Anunciava o artigo: Com as funções de revisão licenciadas, o usuário de qualquer um dos aplicativos que compõem o Microsoft Office poderá ter seus erros gramaticais e ortográficos corrigidos automaticamente, desde erros de concordância verbal, uso de crase, regência, colocação pronominal até a grafia correta das palavras em português. Além de todos esses recursos, o Microsoft Office contará também com um dicionário de sinônimos e antônimos (thesaurus), como recurso extra de consulta. As demais funções do Revisor Word não licenciadas pela Microsoft continuarão a ser comercializadas pela Itautec sob o nome de Revisor Plus. Constarão do Revisor Plus os recursos de conjugação de verbos, consulta à gramática da língua portuguesa, acentuação automática de documentos, consulta a verbetes semelhantes, dicas sobre erros mais freqüentes, consulta a brocardos jurídicos e dicionários português/português, português/inglês e inglês/português. Também farão parte do produto dicionários temáticos nas áreas de Medicina, Direito, Administração e Informática. O Revisor Plus estará disponível para comercialização simultaneamente com o lançamento da próxima versão do Microsoft Office em português. (grifo nosso)
-
43
Afirma o artigo ainda que, apesar de as pesquisas em processamento de
linguagem natural (PLN) de português terem se iniciado muito antes da década de
1990, praticamente nada havia sido feito que visasse à criação de uma ferramenta
robusta e de uso genérico requerendo recursos lingüísticos e computacionais de
grande monta.
O PLN trata do processamento envolvendo análise, interpretação e produção
de uma linguagem humana por uma máquina, sendo uma área da inteligência
artificial voltada para os estudos e desenvolvimento de sistemas que permitam
interpretar e gerar linguagem natural. “O processamento de linguagem natural
ainda é coisa nova. (...) Além das limitações do PLN, tínhamos o limite da falta de
experiência em produção de produtos comerciais”, afirma Maria das Graças Volpe
Nunes, no citado artigo.
O sistema de correção gramatical foi chamado de ReGra, não incluindo as
rotinas para detecção de erros ortográficos, embora a base lexical que suporta o
corretor ortográfico tenha sido compilada para o projeto de correção gramatical.
O ReGra é constituído por três módulos principais:
i) o módulo estatístico – realiza uma série de cálculos, fornecendo parâmetros
físicos de um texto sob análise, com o número total de parágrafos, de sentenças, de
palavras, de caracteres, etc. O componente mais importante desse módulo, entretanto, é o que fornece o “índice de legibilidade”, uma indicação do grau de dificuldade da leitura do texto. O conceito de índice de legibilidade surgiu a partir do trabalho de Flesch, de 1948, para a língua inglesa e busca uma correlação entre tamanhos médios de palavras e sentenças e a facilidade de leitura. Não inclui aspectos de compreensão do texto, que requereriam tratamento de mecanismos complexos de natureza lingüística, cognitiva e pragmática. O índice Flesch, assim como outros similares, tem sido empregado para uma grande variedade de línguas, mas o trabalho do NILC foi o primeiro para o português. Através de um estudo comparativo de textos originais em inglês e traduzidos para o português, verificou-se que a equação que fornece o índice Flesch precisaria ter seus parâmetros adaptados para o português, pois as palavras desta língua são em média mais longas, em termos de número de sílabas, do que em inglês. (artigo supra)
ii) o módulo mecânico – detecta erros facilmente identificáveis que não são
percebidos por um corretor ortográfico, como, por exemplo, palavras e símbolos de
pontuação repetidos; presença de símbolos de pontuação isolados; uso não
balanceado de símbolos delimitadores, como parênteses e aspas; capitalização
-
44
inadequada, como o início da sentença com letra minúscula; e ausência de
pontuação no final da sentença.
iii) o módulo gramatical – contém mais de dez mil regras de correção, realiza
inclusive a análise sintática automática das sentenças. As regras foram testadas em
textos reais não corrigidos, como cartas comerciais, redações de vestibulares e
teses, e em textos editados, como os de livros e revistas. O banco de textos
empregado nestes testes contém mais de 37 milhões de palavras. A última versão
(não se pode saber com certeza qual é, pois não há sua datação) conta ainda com
uma minigramática eletrônica, disponível ao usuário através de hipertexto, que
explica as principais regras gramaticais da língua portuguesa. Possui também um
dicionário de sinônimos e antônimos.
Dizem os pesquisadores do NILC que o primeiro passo para a elaboração do
módulo gramatical foi o levantamento de erros (ou inadequações) mais comuns
entre usuários de nível médio, como secretárias e profissionais de escritório em
geral, e alunos cursando o ensino médio ou ingressando na universidade. O termo
“erro”, aqui, frisam eles, refere-se ao que os gramáticos normativos consideram
como forma desviante da norma culta.
Cita o artigo que Nas primeiras versões do ReGra, os erros eram detectados através de regras heurísticas implementadas na forma de redes de transição estendidas (augmented transition networks), numa abordagem que se poderia chamar de “error-driven”. As primeiras versões do ReGra apresentavam vários benefícios do ponto de vista da implementação computacional: agilidade, especificidade, rapidez, portabilidade, e disponibilidade de memória. Entretanto, seu escopo de atuação era muito limitado: problemas envolvendo itens lexicais não contíguos e estruturas recursivas não podem ser atingidos pelas estratégias heurísticas normalmente desenhadas por abordagens error-driven. Para prover a essas insuficiências, optou-se por analisar sintaticamente as sentenças do usuário, antes de operar a revisão propriamente dita. Isso permite aplicar regras que apontam desvios nas relações entre núcleos e adjuntos, entre núcleos e modificadores, entre regentes e regidos. A realização de análise sintática automática obviamente requer que todos os itens lexicais estejam categorizados apropriadamente. Para tanto, realizou-se em paralelo a construção do léxico, que envolveu a compilação exaustiva das palavras da língua portuguesa e a hierarquização das categorias dos itens lexicais morfologicamente ambíguos. Uma vez que alguns erros em contextos lingüísticos específicos ocorrem in