DOMÍNIOS DE LINGU@GEM - ileel.ufu.br · (português e inglês), com a finalidade de alimentar um...
-
Upload
nguyenkhuong -
Category
Documents
-
view
220 -
download
0
Transcript of DOMÍNIOS DE LINGU@GEM - ileel.ufu.br · (português e inglês), com a finalidade de alimentar um...
DOMIacuteNIOS DE LINGUGEM
Revista Eletrocircnica de Linguumliacutestica (wwwdominiosdelinguagemorgbr) Ano 2 nordm 1 ndash 1ordm Semestre de 2008 ndash ISSN 1980-5799
A CONSTRUCcedilAtildeO E ANAacuteLISE DE CORPORA PARA ALIMENTACcedilAtildeO DE UM
BANCO DE DADOS TERMINOGRAacuteFICO UM EXEMPLO
Guilherme Fromm
Resumo o presente artigo pretende demonstrar a criaccedilatildeo de corpora teacutecnicos biliacutenguumles (portuguecircs e inglecircs) com a finalidade de alimentar um banco de dados de caraacuteter terminograacutefico Para tanto foram construiacutedos dois corpora biliacutenguumles nas aacutereas de Informaacutetica e Linguumliacutestica retirados da Internet com aproximadamente um milhatildeo de palavras cada um Os corpora resultantes foram usados para levantamento de candidatos a termos nas duas aacutereas citadas (atraveacutes do uso do software WordSmith Tools) e forneceram dados para a construccedilatildeo da microestrutura de verbetes teacutecnicos atraveacutes de exemplos reais de uso de liacutengua e dados morfo- sintaacutetico- semacircnticos
Abstract the following article intends to show the creation of bilingual (English and Portuguese) technical corpora aiming the feeding of a terminographical data bank Two corpora were built in Information Technology and Linguistics areas and both were taken from the Internet with around one million words each The resulting corpora were used to find term candidates in both areas (using the software WordSmith Tools) and they offer data to build the microstructure of technical dictionaries entries which show real examples of language usage and grammatical data
O que eacute um corpus
Um corpus segundo Tagnin (2004) eacute ldquo[] uma coletacircnea de textos em formato
eletrocircnico compilada segundo criteacuterios especiacuteficos considerada representativa de uma
liacutengua (ou da parte que se pretende estudar) destinada agrave pesquisardquo Bidermann (2001 p
79) coloca como corpus um conjunto homogecircneo de amostras de liacutengua de qualquer
tipo que deve possibilitar mediante anaacutelise linguumliacutestica a ampliaccedilatildeo do conhecimento
das estruturas linguumliacutesticas da liacutengua que ele representa A aacuterea da Linguumliacutestica que trata
dos estudos sobre corpora (assim como de suas compilaccedilotildees) eacute a Linguumliacutestica de
Corpus Para Berber Sardinha
A Linguumliacutestica de Corpus ocupa-se da coleta e da exploraccedilatildeo de corpora ou conjuntos de dados linguumliacutesticos textuais coletados criteriosamente com o propoacutesito de servirem para a pesquisa de uma liacutengua ou variedade linguumliacutestica Como tal dedica-se agrave exploraccedilatildeo da linguagem por meio de evidecircncias empiacutericas extraiacutedas por computador (2004 p 3)
Doutor em Liacutengua Inglesa pela FFLCHUSP Professor Adjunto da UNIBAN
2
Ainda segundo Berber Sardinha (p 2021) quanto agrave tipologia os corpora
podem ser de diferentes
a modos falados (transcriccedilotildees) ou escritos
b tempos sincrocircnicos ou diacrocircnicos contemporacircneos ou histoacutericos
c seleccedilotildees por amostragem (estaacutetico amostra finita da linguagem como um todo)
monitor (dinacircmico reciclaacutevel) balanceado (textos distribuiacutedos em quantidades
semelhantes)
d conteuacutedos especializados (gecircneros ou registros definidos) regionais ou dialetais
multiliacutenguumles
e autorias de aprendiz (falantes natildeo-nativos) ou de liacutengua nativa (falantes nativos)
f disposiccedilotildees internas paralelos (original e traduccedilatildeo) e alinhados1
g finalidades de estudo (corpus a ser descrito) de referecircncia (para contrastar com o
corpus de estudo) e de treinamento (para desenvolvimento de aplicaccedilotildees e ferramentas
de anaacutelise)
Os corpora construiacutedos
A construccedilatildeo do corpus para a alimentaccedilatildeo do banco de dados passou por vaacuterias
fases Pensou-se o uso de corpora biliacutenguumles comparaacuteveis jaacute prontos adotando o
princiacutepio da reusabilidade Esses corpora seriam buscados num dos vaacuterios projetos do
COMET o CORTEC Segundo o site do COMET (wwwfflchuspbrdlmcomet) o
CORTEC ldquo[]eacute um corpus comparaacutevel de textos teacutecnicos eou cientiacuteficos
originalmente escritos em portuguecircs brasileiro e em inglecircsrdquo As aacutereas iniciais abrangidas
pelo projeto satildeo Direito Contratual Informaacutetica Hipertensatildeo Arterial Culinaacuteria e
Ecoturismo O projeto prevecirc a inserccedilatildeo contiacutenua de corpora em novas aacutereas e a
complementaccedilatildeo tambeacutem contiacutenua dos corpora jaacute existentes
Apoacutes conseguir os corpora completos do CORTEC verificou-se que para o
projeto de levantamento da macroestrutura e construccedilatildeo da microestrutura de um
dicionaacuterio teacutecnico os mesmos natildeo apresentavam alguns aspectos essenciais
1 natildeo havia aacutervores ou mapas conceituais para todos os campos envolvidos o que
eacute essencial para verificar se todas as aacutereas foram contempladas na construccedilatildeo
1 Utiliza-se neste artigo e nos trabalhos propostos pelo projeto COMET a oposiccedilatildeo entre corpora paralelos (textos originais e suas traduccedilotildees) e comparaacuteveis (textos equivalentes em liacutenguas diferentes) diferente portanto dessa apresentada por Berber Sardinha
3
2 o balanceamento desses corpora estava bastante irregular
3 o planejamento original dos mesmos natildeo previa um fim
lexicograacuteficoterminograacutefico de modo que nem sempre incluiacutea textos que
permitissem a construccedilatildeo de definiccedilotildees para o banco de dados
4 o tamanho de cada corpus de aproximadamente duzentas mil palavras tambeacutem
natildeo se mostrou suficiente para selecionar uma quantidade de termos em todas as
aacutereas eou a possibilidade de criar suas respectivas definiccedilotildees
Verificada a necessidade de novos corpora partiu-se em primeiro lugar para a
reconstruccedilatildeo do corpus de Informaacutetica (ou Computaccedilatildeo) Embora jaacute houvesse um
corpus semelhante organizado durante o mestrado de Fromm (2002) o mesmo era
monoliacutenguumle (portuguecircs) Decidiu-se entatildeo pela ampliaccedilatildeo dos corpora desenvolvidos
para o CORTEC aproveitando o que jaacute havia sido levantado A estruturaccedilatildeo final
desses corpora ficou assim delineada escritos sincrocircnicos de amostragem (embora
exista a possibilidade de se transformarem em monitor) especializados biliacutenguumles de
liacutengua nativa comparaacuteveis (segundo os criteacuterios do COMET) e de estudo
OntologiaTaxonomia a aacutervore de campo
Um dos pontos baacutesicos para a elaboraccedilatildeo de um banco de dados eacute a criaccedilatildeo de
uma estrutura para organizar a informaccedilatildeo a ser coletada Vaacuterios tipos de estruturas
podem ser elaboradas de acordo com o objetivo final Segundo Almeida e Bax (2003 p
7)
[e]struturas que se organizam a partir da utilizaccedilatildeo de termos satildeo os arquivos de autoridade glossaacuterios e dicionaacuterios Estruturas que se organizam com a classificaccedilatildeo e a criaccedilatildeo de categorias satildeo os cabeccedilalhos de assunto e os esquemas de classificaccedilatildeo (ou taxonomias) As estruturas que se organizam a partir de conceitos e de seus relacionamentos satildeo as ontologias os tesaurus e as redes semacircnticas (grifos dos autores)
Embora essa classificaccedilatildeo dos autores pareccedila bastante clara haacute diversos
problemas em tornaacute-la universal Sowa (1999) por exemplo defende uma ideacuteia de
categorizaccedilatildeo para ontologias ao colocar que
4
O assunto da ontologia eacute o estudo das categorias de coisas que existem ou podem vir a existir em algum domiacutenio O produto de tal estudo chamado ontologia eacute um cataacutelogo de tipos de coisas que se pressupotildee existirem em um domiacutenio de interesse D da perspectiva de uma pessoa que usa uma liacutengua L para o propoacutesito de falar sobre D2
(grifos do autor minha traduccedilatildeo)
Tendo em vista esses diferentes conceitos para denominar o que eacute uma ontologia
e uma taxonomia (teacutecnica de classificaccedilatildeo segundo Hoauiss) para o presente trabalho
foi escolhido o termo taxonomia para indicar a construccedilatildeo da aacutervore do campo
pesquisada para a construccedilatildeo do corpus No site desenvolvido para a inserccedilatildeo dos dados
do banco (httpjricmcscuspbr~cometdic acesso restrito) no entanto optou-se pelo
uso do termo ontologia para designar essa mesma aacutervore O termo ontologia cada vez
mais estaacute associado ao uso de ferramentas computacionais para diversos tipos de
anaacutelise o que se prova pertinente para o presente caso
O modelo tomado como base para a construccedilatildeo de uma aacutervore de campo foi
aquele apresentado por Marinotto (1995) para a aacuterea de Aeronaacuteutica e a divisatildeo
hieraacuterquica proposta para o saber humano campo aacuterea domiacutenio subdomiacutenio e outros
A aacutervore do campo da computaccedilatildeo jaacute havia sido previamente desenvolvida por Fromm
(2002) para a informaacutetica3 em geral aquela no entanto natildeo mais representa um estado
da arte do campo em questatildeo o extremo dinamismo desse campo na criaccedilatildeo de novas
tecnologias e produtos requer uma atualizaccedilatildeo constante da mesma A construccedilatildeo de
uma taxonomia no entanto natildeo eacute infaliacutevel haacute sempre controveacutersias por parte dos
especialistas quanto agrave sua montagem
2 The subject of ontology is the study of the categories of things that exist or may exist in some domain The product of such a study called an ontology is a catalog of the types of things that are assumed to exist in a domain of interest D from the perspective of a person who uses a language L for the purpose of talking about D
3 Embora os termos informaacutetica e computaccedilatildeo natildeo se apresentem como sinocircnimos para Houaiss eles pertencem ao mesmo campo Tomo aqui esses termos como sinocircnimos
5
Figura 1 Aacutervore do Campo da Computaccedilatildeo Cada cor representa um novo niacutevel
A aacutervore acima (figura 1) representa o consenso entre a opiniatildeo de alguns
professores especialistas na aacuterea o que natildeo quer dizer que seja unanimidade Aleacutem
disso ainda que a Aacutervore de Campo (tambeacutem designada Aacutervore de Domiacutenio4) seja uma
das possiacuteveis formas de representar uma taxonomia uma outra forma bastante comum eacute
aquela apresentada na sequumlecircncia abaixo quando da inserccedilatildeo das aacutereas feita pelo
administrador no banco de dados
4 ldquoAacutervore de domiacutenio diagrama ou estrutura que organiza de modo funcional os conceitos de uma aacuterea temaacutetica Tal aacutervore natildeo representa uma classificaccedilatildeo cientiacutefica mas uma maneira funcional de agrupar os conceitos de acordo com seu parentescordquo DUBUC R Manual praacutectico de terminologiacutea 3ed corr atualiz trad de Ileana Cabrera Santiago de Chile Unioacuten Latina Ril Ed (1999 apud Lara Taacutelamo 2007)
6
Grandes Aacutereas
o Computaccedilatildeo
o Hardware
o Componentes Internos
o Computadores
o Perifeacutericos
o Armazenagem
o Cartatildeo Flash
o Discos Oacuteticos
o HD
o Pen-Drive
o Drives Diversos
o Impressoras
o Monitores
o Mouses
o Multifuncionais
o Multimiacutedia
o Placas Diversas
o Scanner
o Teclados
o Rede
o Software
A coleta dos textos
Estabelecida a aacutervore o passo seguinte foi a captura de uma quantidade de
textos em todas as aacutereas suficiente para exibir contextos que pudessem criar definiccedilotildees
para os termos Jaacute existem programas que fazem a coleta e extraccedilatildeo de termos
automaticamente como o BootCaT e ambientes de criaccedilatildeo armazenamento e anaacutelise
de corpora como o Corpoacutegrafo (bem detalhados por ALMEIDA OLIVEIRA
ALUIacuteSIO 2006) Preferiu-se aqui no entanto natildeo utilizar essas e outras ferramentas
disponiacuteveis pois muitas ainda estatildeo em fase de testes e natildeo garantem o balanceamento
de corpus exigido pelo trabalho a coleta foi feita manualmente e depois os textos foram
processados de acordo com as necessidades aqui propostas
Segundo Aubert (1996) as fontes de busca para a definiccedilatildeo de um termo podem
apresentar trecircs tipos de contextos possiacuteveis
O contexto associativo apresenta o termo como pertinente ao tema objeto da pesquisa mas natildeo indica os traccedilos conceptuais especiacuteficos destes termos [] Jaacute os contextos explicativos apresentam alguns traccedilos conceptuais pertinentes especiacuteficos do termo sob observaccedilatildeo frequumlentemente relativos agrave materialidade finalidade funcionamento e
7
similares [] Talvez mais desejaacuteveis mas certamente menos encontradiccedilos os contextos definitoacuterios proporcionam um conjunto completo dos traccedilos conceptuais distintivos do termo Tal distintividade no entanto representa frequumlentemente um certo niacutevel de abstraccedilatildeo sem indiacutecios claros da gama efetiva de usos em situaccedilatildeo do termo (p 66-67)
A busca por contextos associativos no caso da presente pesquisa pode ser
automatizada atraveacutes dos programas de anaacutelise lexical (como o WordSmith Tools que
seraacute explicado adiante) Os contextos explicativos e definitoacuterios por outro lado exigem
certo conhecimento do terminograacutefo sobre como localizaacute-los
A necessidade de refazer os corpora e natildeo apenas reutilizar os que jaacute existiam
deveu-se justamente agrave falta de contextos explicativos e definitoacuterios Verificou-se que ao
proceder agrave anaacutelise computadorizada dos textos previamente selecionados havia lacunas
em alguns subdomiacutenios Mesmo nos subdomiacutenios com vaacuterios textos jaacute coletados o
levantamento dos contextos foi insatisfatoacuterio
Levando tudo isso em conta ao comeccedilar uma nova coleta de textos foi
estabelecido um nuacutemero miacutenimo de vinte mil palavras para cada subdomiacutenio da aacutervore
quantidade que se acreditou razoaacutevel (e que se mostrou acertada apoacutes alguns testes
iniciais com um dos subdomiacutenios disponiacuteveis e a construccedilatildeo de alguns termos como
teste) para o levantamento dos termos e um bom balanceamento entre esses
subdomiacutenios Notou-se poreacutem que jaacute havia mais de um milhatildeo de palavras em cada
liacutengua quando do teacutermino da primeira aacuterea da aacutervore (hardware) Decidiu-se entatildeo
limitar os corpora a esse tamanho para o desenvolvimento da pesquisa Como o
objetivo da construccedilatildeo do banco natildeo era fazer um levantamento completo de um campo
teacutecnico e sim coletar alguns exemplos de termos e seus contextos para posterior anaacutelise
o nuacutemero obtido foi julgado suficiente inclusive por abranger uma aacuterea completa
A coleta dos corpora
Os textos coletados para os corpora de anaacutelise no campo da computaccedilatildeo foram
totalmente levantados pela Internet em sites especializados muitos de caraacuteter
enciclopeacutedico A escolha se deveu agrave facilidade de encontrar textos do campo na rede
(isso eacute uma caracteriacutestica marcante jaacute que nem todos os campos do saber estatildeo bem
representados em termo de quantidade e qualidade na Internet) e a velocidade com que
os mesmos podem ser resgatados Embora existam muito mais sites em inglecircs sobre o
8
campo da computaccedilatildeo natildeo houve dificuldade para achar sites semelhantes (ou ateacute
mesmo traduzidos como o How Stuff Works5) em portuguecircs Foi dada preferecircncia aos
sites de revistas especializadas acadecircmicos ou aqueles especializados em determinado
assunto para o levantamento da pesquisa Um site enciclopeacutedico no entanto foi deixado
de lado a Wikipedia A razatildeo eacute que os termos apresentados pela mesma satildeo
disponibilizados na iacutentegra no site que daacute acesso ao banco de dados
(httpjricmcscuspbr~cometdic)
Para coletar os corpora criou-se um diretoacuterio no computador que exibia pastas
na mesma estrutura da aacutervore de campo (figura 1) O mesmo foi subdividido entre as
liacutenguas (inglecircs e portuguecircs) e todas as aacutereas domiacutenios e subdomiacutenios Novos textos
coletados e aqueles remanescentes do projeto original de Informaacutetica do CORTEC na
aacuterea de hardware jaacute foram distribuiacutedos dentro de suas respectivas pastas Os textos
remanescentes das aacutereas software e rede foram alocados tambeacutem nas respectivas
pastas Embora somente na aacuterea de hardware novos textos tenham sido coletados todos
aqueles jaacute coletados para o CORTEC foram aproveitados para o estudo
Figura 2 Diretoacuterio com pastas na forma da aacutervore de campo aacuterea hardware
Figura 3 Idem aacutereas software e rede
5 lt httphswuolcombrgt O endereccedilo desta e de todas as outras paacuteginas consultadas estaacute disponiacutevel no banco de dados
9
A anaacutelise dos corpora
Para verificar se a quantidade de textos alocados a cada pasta obedecia ao
criteacuterio de vinte mil palavras por subdomiacutenio6 foi usada a ferramenta Wordlist
(listagem de palavras) do programa de Anaacutelise Lexical WordSmith Tools versatildeo 4 de
Scott (2007) para fazer a contagem (veja figura 4 no destaque) Embora haja vaacuterios
programas de anaacutelise computadorizada conforme estudos anteriores (FROMM 2004)
o WordSmith Tools eacute o mais indicado para grande quantidade de dados e para os tipos
de anaacutelise que seratildeo demonstrados a seguir
O volume total de palavras para o corpus de computaccedilatildeo foi de 1029187
palavras em inglecircs e 1055375 palavras em portuguecircs Segundo Berber Sardinha (2004
p26) esses corpora seriam classificados de acordo com a quantidade de palavras
como meacutedios (de 250 mil a um milhatildeo de palavras)
Figura 4 A subaacuterea componentes diversos (em portuguecircs) apresenta uma quantidade de 36324 palavras no total (em destaque)
6 Verificada atraveacutes da quantidade de tokens que a listagem apresenta Os tokens representam a quantidade total de palavras nos textos os types representam a quantidade de palavras natildeo repetidas (distintas) nos textos
10
A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas
subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil
palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume
maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER
SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da
extensatildeo do corpus (no caso a Impressioniacutestica)
Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)
As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados
de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um
arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre
que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e
foram portanto descartados) Os arquivos em formato pdf normalmente estudos
acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma
quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para
o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools
4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o
maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia
repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior
anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de
coleta (figura 5)
Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist
partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes
de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos
chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em
anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs
foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)
totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de
palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American
7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997
11
National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora
de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de
referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha
(2004 p102) como o tamanho recomendado
Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)
Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as
listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de
anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia
correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados
para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os
explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo
natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de
partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a
8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado
12
tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as
palavras-chave em portuguecircs agora numa listagem em Excel
Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs
As palavras na primeira coluna indicam as palavras mais frequumlentes que assim
indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na
primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade
(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de
anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa
compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela
apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de
referecircncia ela eacute incluiacuteda na lista)
13
WordSmith Tools 40 -- 2762007
N Key word Freq RC Freq RC Keyness P
1
COMPUTADOR
3380
03203
28792
2230223
7E-23
2
IMPRESSORA
1812
01717
2526
1761062
1E-22
3
CLIQUE
1553
01472
2491
1476042
3E-22
4
PLACA
2104
01994
19180
136139
3E-22
5
WINDOWS
1603
01519
11497
1108675
6E-22
6
PROCESSADOR
1212
01148
2901
1073848
7E-22
7
BITS
1183
01121
2547
1068828
7E-22
8
USB
913
00865
326
1041225
7E-22
9
IMPRESSAtildeO
1617
01532
19473
9616599
9E-22
10
BARRAMENTO
815
00772
344
9159807
1E-21
11
PLACAS
1514
01435
17867
9061677
1E-21
12
MEMOacuteRIA
1964
01861
49114
8969695
1E-21
13
GEFORCE
672
00637
2
8686718
1E-21
14
SELECIONE
755
00715
496
81116
2E-21
15
PCI
782
00741
1351
7341269
2E-21
16
VIacuteDEO
1379
01307
25009
713415
2E-21
17
TELA
1241
01176
20775
660795
3E-21
18
CONTROLADOR
874
00828
4499
6575389
3E-21
19
DVD
755
00715
2026
6544251
3E-21
20
VOCEcirc
2539
02406
193135
0028
6410745
3E-21
21
RADEON
491
00465
0
6366831
3E-21
22
CONSULTE
630
00597
701
6330112
3E-21
23
HARDWARE
684
00648
1707
6012326
4E-21
24
PALM
700
00663
2140
5911728
4E-21
25
TECLADO
692
00656
2275
5757233
4E-21
26
DISCO
1345
01274
39388
5742442
4E-21
27
MOUSE
750
00711
3769
5675047
4E-21
28
MONITOR
796
00754
6107
5405326
5E-21
29
XP
558
00529
862
5335347
5E-21
30
MB
781
0074
6179
5258846
6E-21
31
BOTAtildeO
693
00657
3595
5203829
6E-21
32
EAX
388
00368
9
4945257
7E-21
33
MEMORIA
480
00455
466
4914386
7E-21
Planilha 1 Palavras-chave em portuguecircs
Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais
deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da
expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo
equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo
bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos
14
satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados
indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a
obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes
(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo
o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato
grande o termo corrente em portuguecircs neste caso eacute disco)
Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em
Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua
Ordem
Portuguecircs
Ordem
Inglecircs
1
COMPUTADOR
23
COMPUTER
2
IMPRESSORA
65
PRINTER
4
PLACA
782
BOARD
6
PROCESSADOR
31
PROCESSOR
8
USB
13
USB
10
BARRAMENTO
71
BUS
12
MEMOacuteRIA
2
MEMORY
15
PCI
8
PCI
18
CONTROLADOR
46
CONTROLLER
25
TECLADO
11
KEYBOARD
26
DISCO
132
PLATTERS
36
MHZ
203
MHZ
37
APLICATIVOS
88
APPLICATIONS
38
TECLA
199
KEY
45
AGP
237
AGP
47
DADOS
3
DATA
57
DISPOSITIVO
25
DEVICE
64
SERVIDOR
26
SERVER
67
INSTALAR
194
INSTALL
68
DRIVE
5
DRIVE
72
SCSI
45
SCSI
77
HTTP
82
HTTP
81
INTERFACE
18
INTERFACE
83
ROM
53
ROM
90
CHIP
142
CHIP
92
RIacuteGIDO
30
HARD
102
DRIVER
499
DRIVER
107
CONFIGURACcedilOtildeES
181
SETTINGS
108
FIREWIRE
330
FIREWIRE
110
MAINFRAME
157
MAINFRAME
113
RAID
684
RAID
Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas
15
A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles
apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do
banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique
tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos
explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos
nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros
(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para
haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos
candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das
legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados
nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma
das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons
de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim
como na planilha 2 indicam sua ordem de chavicidade
Portuguecircs Inglecircs
Legenda
1 COMPUTADOR 23 COMPUTER
definiccedilatildeo encontrada nas duas liacutenguas
2 IMPRESSORA 65 PRINTER
definiccedilatildeo natildeo encontrada nas duas liacutenguas
4 PLACA 782
BOARD
definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs
6 PROCESSADOR 31 PROCESSOR
definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs
8 USB 13 USB
10 BARRAMENTO 71 BUS
adicionado ao banco de dados
12 MEMOacuteRIA 2 MEMORY
natildeo adicionado ao banco de dados
15 PCI 8 PCI
18 CONTROLADOR 46 CONTROLLER
25 TECLADO 11 KEYBOARD
26 DISCO 132
PLATTERS
36 MHZ 203
MHZ
37 APLICATIVOS 88 APPLICATIONS
38 TECLA 199
KEY
45 AGP 237
AGP
47 DADOS 3 DATA
57 DISPOSITIVO 25 DEVICE
64 SERVIDOR 26 SERVER
67 INSTALAR 194
INSTALL
68 DRIVE 5 DRIVE
10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos
16
72 SCSI 45 SCSI
77 HTTP 82 HTTP
81 INTERFACE 18 INTERFACE
83 ROM 53 ROM
90 CHIP 142
CHIP
92 RIacuteGIDO 30 HARD
102
DRIVER 499
DRIVER
107
CONFIGURACcedilOtildeES 181
SETTINGS
108
FIREWIRE 330
FIREWIRE
110
MAINFRAME 157
MAINFRAME
113
RAID 684
RAID
Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos
Para obter os contextos de cada termo utilizamos uma terceira ferramenta do
WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na
listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela
com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)
mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na
linha desejada na coluna File para que o texto seja mostrado por completo
Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha
de um texto) podem nos fornecer os contextos desejados foram usados basicamente
dois artifiacutecios
1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente
uma busca usando os paracircmetros de
(dois pontos) (
(parecircnteses) ou
(viacutergula) A
ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou
como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio
acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo
acima a busca seria realizada como computador computador ( ou
computador
17
Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas
2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta
frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro
termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas
Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito
colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna
R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no
original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e
destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha
quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo
computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)
Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre
uma nova tela (figura 10)
11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo
18
Figura 8 Lista de colocaccedilotildees do termo computador
Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo
19
Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)
A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios
que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras
colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar
uma definiccedilatildeo
Mais corpora
Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez
no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos
pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era
que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida
sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site
bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora
se fez necessaacuteria
Todos os passos descritos nos itens anteriores foram realizados novamente e
uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
2
Ainda segundo Berber Sardinha (p 2021) quanto agrave tipologia os corpora
podem ser de diferentes
a modos falados (transcriccedilotildees) ou escritos
b tempos sincrocircnicos ou diacrocircnicos contemporacircneos ou histoacutericos
c seleccedilotildees por amostragem (estaacutetico amostra finita da linguagem como um todo)
monitor (dinacircmico reciclaacutevel) balanceado (textos distribuiacutedos em quantidades
semelhantes)
d conteuacutedos especializados (gecircneros ou registros definidos) regionais ou dialetais
multiliacutenguumles
e autorias de aprendiz (falantes natildeo-nativos) ou de liacutengua nativa (falantes nativos)
f disposiccedilotildees internas paralelos (original e traduccedilatildeo) e alinhados1
g finalidades de estudo (corpus a ser descrito) de referecircncia (para contrastar com o
corpus de estudo) e de treinamento (para desenvolvimento de aplicaccedilotildees e ferramentas
de anaacutelise)
Os corpora construiacutedos
A construccedilatildeo do corpus para a alimentaccedilatildeo do banco de dados passou por vaacuterias
fases Pensou-se o uso de corpora biliacutenguumles comparaacuteveis jaacute prontos adotando o
princiacutepio da reusabilidade Esses corpora seriam buscados num dos vaacuterios projetos do
COMET o CORTEC Segundo o site do COMET (wwwfflchuspbrdlmcomet) o
CORTEC ldquo[]eacute um corpus comparaacutevel de textos teacutecnicos eou cientiacuteficos
originalmente escritos em portuguecircs brasileiro e em inglecircsrdquo As aacutereas iniciais abrangidas
pelo projeto satildeo Direito Contratual Informaacutetica Hipertensatildeo Arterial Culinaacuteria e
Ecoturismo O projeto prevecirc a inserccedilatildeo contiacutenua de corpora em novas aacutereas e a
complementaccedilatildeo tambeacutem contiacutenua dos corpora jaacute existentes
Apoacutes conseguir os corpora completos do CORTEC verificou-se que para o
projeto de levantamento da macroestrutura e construccedilatildeo da microestrutura de um
dicionaacuterio teacutecnico os mesmos natildeo apresentavam alguns aspectos essenciais
1 natildeo havia aacutervores ou mapas conceituais para todos os campos envolvidos o que
eacute essencial para verificar se todas as aacutereas foram contempladas na construccedilatildeo
1 Utiliza-se neste artigo e nos trabalhos propostos pelo projeto COMET a oposiccedilatildeo entre corpora paralelos (textos originais e suas traduccedilotildees) e comparaacuteveis (textos equivalentes em liacutenguas diferentes) diferente portanto dessa apresentada por Berber Sardinha
3
2 o balanceamento desses corpora estava bastante irregular
3 o planejamento original dos mesmos natildeo previa um fim
lexicograacuteficoterminograacutefico de modo que nem sempre incluiacutea textos que
permitissem a construccedilatildeo de definiccedilotildees para o banco de dados
4 o tamanho de cada corpus de aproximadamente duzentas mil palavras tambeacutem
natildeo se mostrou suficiente para selecionar uma quantidade de termos em todas as
aacutereas eou a possibilidade de criar suas respectivas definiccedilotildees
Verificada a necessidade de novos corpora partiu-se em primeiro lugar para a
reconstruccedilatildeo do corpus de Informaacutetica (ou Computaccedilatildeo) Embora jaacute houvesse um
corpus semelhante organizado durante o mestrado de Fromm (2002) o mesmo era
monoliacutenguumle (portuguecircs) Decidiu-se entatildeo pela ampliaccedilatildeo dos corpora desenvolvidos
para o CORTEC aproveitando o que jaacute havia sido levantado A estruturaccedilatildeo final
desses corpora ficou assim delineada escritos sincrocircnicos de amostragem (embora
exista a possibilidade de se transformarem em monitor) especializados biliacutenguumles de
liacutengua nativa comparaacuteveis (segundo os criteacuterios do COMET) e de estudo
OntologiaTaxonomia a aacutervore de campo
Um dos pontos baacutesicos para a elaboraccedilatildeo de um banco de dados eacute a criaccedilatildeo de
uma estrutura para organizar a informaccedilatildeo a ser coletada Vaacuterios tipos de estruturas
podem ser elaboradas de acordo com o objetivo final Segundo Almeida e Bax (2003 p
7)
[e]struturas que se organizam a partir da utilizaccedilatildeo de termos satildeo os arquivos de autoridade glossaacuterios e dicionaacuterios Estruturas que se organizam com a classificaccedilatildeo e a criaccedilatildeo de categorias satildeo os cabeccedilalhos de assunto e os esquemas de classificaccedilatildeo (ou taxonomias) As estruturas que se organizam a partir de conceitos e de seus relacionamentos satildeo as ontologias os tesaurus e as redes semacircnticas (grifos dos autores)
Embora essa classificaccedilatildeo dos autores pareccedila bastante clara haacute diversos
problemas em tornaacute-la universal Sowa (1999) por exemplo defende uma ideacuteia de
categorizaccedilatildeo para ontologias ao colocar que
4
O assunto da ontologia eacute o estudo das categorias de coisas que existem ou podem vir a existir em algum domiacutenio O produto de tal estudo chamado ontologia eacute um cataacutelogo de tipos de coisas que se pressupotildee existirem em um domiacutenio de interesse D da perspectiva de uma pessoa que usa uma liacutengua L para o propoacutesito de falar sobre D2
(grifos do autor minha traduccedilatildeo)
Tendo em vista esses diferentes conceitos para denominar o que eacute uma ontologia
e uma taxonomia (teacutecnica de classificaccedilatildeo segundo Hoauiss) para o presente trabalho
foi escolhido o termo taxonomia para indicar a construccedilatildeo da aacutervore do campo
pesquisada para a construccedilatildeo do corpus No site desenvolvido para a inserccedilatildeo dos dados
do banco (httpjricmcscuspbr~cometdic acesso restrito) no entanto optou-se pelo
uso do termo ontologia para designar essa mesma aacutervore O termo ontologia cada vez
mais estaacute associado ao uso de ferramentas computacionais para diversos tipos de
anaacutelise o que se prova pertinente para o presente caso
O modelo tomado como base para a construccedilatildeo de uma aacutervore de campo foi
aquele apresentado por Marinotto (1995) para a aacuterea de Aeronaacuteutica e a divisatildeo
hieraacuterquica proposta para o saber humano campo aacuterea domiacutenio subdomiacutenio e outros
A aacutervore do campo da computaccedilatildeo jaacute havia sido previamente desenvolvida por Fromm
(2002) para a informaacutetica3 em geral aquela no entanto natildeo mais representa um estado
da arte do campo em questatildeo o extremo dinamismo desse campo na criaccedilatildeo de novas
tecnologias e produtos requer uma atualizaccedilatildeo constante da mesma A construccedilatildeo de
uma taxonomia no entanto natildeo eacute infaliacutevel haacute sempre controveacutersias por parte dos
especialistas quanto agrave sua montagem
2 The subject of ontology is the study of the categories of things that exist or may exist in some domain The product of such a study called an ontology is a catalog of the types of things that are assumed to exist in a domain of interest D from the perspective of a person who uses a language L for the purpose of talking about D
3 Embora os termos informaacutetica e computaccedilatildeo natildeo se apresentem como sinocircnimos para Houaiss eles pertencem ao mesmo campo Tomo aqui esses termos como sinocircnimos
5
Figura 1 Aacutervore do Campo da Computaccedilatildeo Cada cor representa um novo niacutevel
A aacutervore acima (figura 1) representa o consenso entre a opiniatildeo de alguns
professores especialistas na aacuterea o que natildeo quer dizer que seja unanimidade Aleacutem
disso ainda que a Aacutervore de Campo (tambeacutem designada Aacutervore de Domiacutenio4) seja uma
das possiacuteveis formas de representar uma taxonomia uma outra forma bastante comum eacute
aquela apresentada na sequumlecircncia abaixo quando da inserccedilatildeo das aacutereas feita pelo
administrador no banco de dados
4 ldquoAacutervore de domiacutenio diagrama ou estrutura que organiza de modo funcional os conceitos de uma aacuterea temaacutetica Tal aacutervore natildeo representa uma classificaccedilatildeo cientiacutefica mas uma maneira funcional de agrupar os conceitos de acordo com seu parentescordquo DUBUC R Manual praacutectico de terminologiacutea 3ed corr atualiz trad de Ileana Cabrera Santiago de Chile Unioacuten Latina Ril Ed (1999 apud Lara Taacutelamo 2007)
6
Grandes Aacutereas
o Computaccedilatildeo
o Hardware
o Componentes Internos
o Computadores
o Perifeacutericos
o Armazenagem
o Cartatildeo Flash
o Discos Oacuteticos
o HD
o Pen-Drive
o Drives Diversos
o Impressoras
o Monitores
o Mouses
o Multifuncionais
o Multimiacutedia
o Placas Diversas
o Scanner
o Teclados
o Rede
o Software
A coleta dos textos
Estabelecida a aacutervore o passo seguinte foi a captura de uma quantidade de
textos em todas as aacutereas suficiente para exibir contextos que pudessem criar definiccedilotildees
para os termos Jaacute existem programas que fazem a coleta e extraccedilatildeo de termos
automaticamente como o BootCaT e ambientes de criaccedilatildeo armazenamento e anaacutelise
de corpora como o Corpoacutegrafo (bem detalhados por ALMEIDA OLIVEIRA
ALUIacuteSIO 2006) Preferiu-se aqui no entanto natildeo utilizar essas e outras ferramentas
disponiacuteveis pois muitas ainda estatildeo em fase de testes e natildeo garantem o balanceamento
de corpus exigido pelo trabalho a coleta foi feita manualmente e depois os textos foram
processados de acordo com as necessidades aqui propostas
Segundo Aubert (1996) as fontes de busca para a definiccedilatildeo de um termo podem
apresentar trecircs tipos de contextos possiacuteveis
O contexto associativo apresenta o termo como pertinente ao tema objeto da pesquisa mas natildeo indica os traccedilos conceptuais especiacuteficos destes termos [] Jaacute os contextos explicativos apresentam alguns traccedilos conceptuais pertinentes especiacuteficos do termo sob observaccedilatildeo frequumlentemente relativos agrave materialidade finalidade funcionamento e
7
similares [] Talvez mais desejaacuteveis mas certamente menos encontradiccedilos os contextos definitoacuterios proporcionam um conjunto completo dos traccedilos conceptuais distintivos do termo Tal distintividade no entanto representa frequumlentemente um certo niacutevel de abstraccedilatildeo sem indiacutecios claros da gama efetiva de usos em situaccedilatildeo do termo (p 66-67)
A busca por contextos associativos no caso da presente pesquisa pode ser
automatizada atraveacutes dos programas de anaacutelise lexical (como o WordSmith Tools que
seraacute explicado adiante) Os contextos explicativos e definitoacuterios por outro lado exigem
certo conhecimento do terminograacutefo sobre como localizaacute-los
A necessidade de refazer os corpora e natildeo apenas reutilizar os que jaacute existiam
deveu-se justamente agrave falta de contextos explicativos e definitoacuterios Verificou-se que ao
proceder agrave anaacutelise computadorizada dos textos previamente selecionados havia lacunas
em alguns subdomiacutenios Mesmo nos subdomiacutenios com vaacuterios textos jaacute coletados o
levantamento dos contextos foi insatisfatoacuterio
Levando tudo isso em conta ao comeccedilar uma nova coleta de textos foi
estabelecido um nuacutemero miacutenimo de vinte mil palavras para cada subdomiacutenio da aacutervore
quantidade que se acreditou razoaacutevel (e que se mostrou acertada apoacutes alguns testes
iniciais com um dos subdomiacutenios disponiacuteveis e a construccedilatildeo de alguns termos como
teste) para o levantamento dos termos e um bom balanceamento entre esses
subdomiacutenios Notou-se poreacutem que jaacute havia mais de um milhatildeo de palavras em cada
liacutengua quando do teacutermino da primeira aacuterea da aacutervore (hardware) Decidiu-se entatildeo
limitar os corpora a esse tamanho para o desenvolvimento da pesquisa Como o
objetivo da construccedilatildeo do banco natildeo era fazer um levantamento completo de um campo
teacutecnico e sim coletar alguns exemplos de termos e seus contextos para posterior anaacutelise
o nuacutemero obtido foi julgado suficiente inclusive por abranger uma aacuterea completa
A coleta dos corpora
Os textos coletados para os corpora de anaacutelise no campo da computaccedilatildeo foram
totalmente levantados pela Internet em sites especializados muitos de caraacuteter
enciclopeacutedico A escolha se deveu agrave facilidade de encontrar textos do campo na rede
(isso eacute uma caracteriacutestica marcante jaacute que nem todos os campos do saber estatildeo bem
representados em termo de quantidade e qualidade na Internet) e a velocidade com que
os mesmos podem ser resgatados Embora existam muito mais sites em inglecircs sobre o
8
campo da computaccedilatildeo natildeo houve dificuldade para achar sites semelhantes (ou ateacute
mesmo traduzidos como o How Stuff Works5) em portuguecircs Foi dada preferecircncia aos
sites de revistas especializadas acadecircmicos ou aqueles especializados em determinado
assunto para o levantamento da pesquisa Um site enciclopeacutedico no entanto foi deixado
de lado a Wikipedia A razatildeo eacute que os termos apresentados pela mesma satildeo
disponibilizados na iacutentegra no site que daacute acesso ao banco de dados
(httpjricmcscuspbr~cometdic)
Para coletar os corpora criou-se um diretoacuterio no computador que exibia pastas
na mesma estrutura da aacutervore de campo (figura 1) O mesmo foi subdividido entre as
liacutenguas (inglecircs e portuguecircs) e todas as aacutereas domiacutenios e subdomiacutenios Novos textos
coletados e aqueles remanescentes do projeto original de Informaacutetica do CORTEC na
aacuterea de hardware jaacute foram distribuiacutedos dentro de suas respectivas pastas Os textos
remanescentes das aacutereas software e rede foram alocados tambeacutem nas respectivas
pastas Embora somente na aacuterea de hardware novos textos tenham sido coletados todos
aqueles jaacute coletados para o CORTEC foram aproveitados para o estudo
Figura 2 Diretoacuterio com pastas na forma da aacutervore de campo aacuterea hardware
Figura 3 Idem aacutereas software e rede
5 lt httphswuolcombrgt O endereccedilo desta e de todas as outras paacuteginas consultadas estaacute disponiacutevel no banco de dados
9
A anaacutelise dos corpora
Para verificar se a quantidade de textos alocados a cada pasta obedecia ao
criteacuterio de vinte mil palavras por subdomiacutenio6 foi usada a ferramenta Wordlist
(listagem de palavras) do programa de Anaacutelise Lexical WordSmith Tools versatildeo 4 de
Scott (2007) para fazer a contagem (veja figura 4 no destaque) Embora haja vaacuterios
programas de anaacutelise computadorizada conforme estudos anteriores (FROMM 2004)
o WordSmith Tools eacute o mais indicado para grande quantidade de dados e para os tipos
de anaacutelise que seratildeo demonstrados a seguir
O volume total de palavras para o corpus de computaccedilatildeo foi de 1029187
palavras em inglecircs e 1055375 palavras em portuguecircs Segundo Berber Sardinha (2004
p26) esses corpora seriam classificados de acordo com a quantidade de palavras
como meacutedios (de 250 mil a um milhatildeo de palavras)
Figura 4 A subaacuterea componentes diversos (em portuguecircs) apresenta uma quantidade de 36324 palavras no total (em destaque)
6 Verificada atraveacutes da quantidade de tokens que a listagem apresenta Os tokens representam a quantidade total de palavras nos textos os types representam a quantidade de palavras natildeo repetidas (distintas) nos textos
10
A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas
subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil
palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume
maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER
SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da
extensatildeo do corpus (no caso a Impressioniacutestica)
Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)
As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados
de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um
arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre
que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e
foram portanto descartados) Os arquivos em formato pdf normalmente estudos
acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma
quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para
o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools
4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o
maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia
repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior
anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de
coleta (figura 5)
Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist
partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes
de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos
chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em
anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs
foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)
totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de
palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American
7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997
11
National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora
de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de
referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha
(2004 p102) como o tamanho recomendado
Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)
Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as
listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de
anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia
correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados
para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os
explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo
natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de
partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a
8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado
12
tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as
palavras-chave em portuguecircs agora numa listagem em Excel
Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs
As palavras na primeira coluna indicam as palavras mais frequumlentes que assim
indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na
primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade
(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de
anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa
compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela
apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de
referecircncia ela eacute incluiacuteda na lista)
13
WordSmith Tools 40 -- 2762007
N Key word Freq RC Freq RC Keyness P
1
COMPUTADOR
3380
03203
28792
2230223
7E-23
2
IMPRESSORA
1812
01717
2526
1761062
1E-22
3
CLIQUE
1553
01472
2491
1476042
3E-22
4
PLACA
2104
01994
19180
136139
3E-22
5
WINDOWS
1603
01519
11497
1108675
6E-22
6
PROCESSADOR
1212
01148
2901
1073848
7E-22
7
BITS
1183
01121
2547
1068828
7E-22
8
USB
913
00865
326
1041225
7E-22
9
IMPRESSAtildeO
1617
01532
19473
9616599
9E-22
10
BARRAMENTO
815
00772
344
9159807
1E-21
11
PLACAS
1514
01435
17867
9061677
1E-21
12
MEMOacuteRIA
1964
01861
49114
8969695
1E-21
13
GEFORCE
672
00637
2
8686718
1E-21
14
SELECIONE
755
00715
496
81116
2E-21
15
PCI
782
00741
1351
7341269
2E-21
16
VIacuteDEO
1379
01307
25009
713415
2E-21
17
TELA
1241
01176
20775
660795
3E-21
18
CONTROLADOR
874
00828
4499
6575389
3E-21
19
DVD
755
00715
2026
6544251
3E-21
20
VOCEcirc
2539
02406
193135
0028
6410745
3E-21
21
RADEON
491
00465
0
6366831
3E-21
22
CONSULTE
630
00597
701
6330112
3E-21
23
HARDWARE
684
00648
1707
6012326
4E-21
24
PALM
700
00663
2140
5911728
4E-21
25
TECLADO
692
00656
2275
5757233
4E-21
26
DISCO
1345
01274
39388
5742442
4E-21
27
MOUSE
750
00711
3769
5675047
4E-21
28
MONITOR
796
00754
6107
5405326
5E-21
29
XP
558
00529
862
5335347
5E-21
30
MB
781
0074
6179
5258846
6E-21
31
BOTAtildeO
693
00657
3595
5203829
6E-21
32
EAX
388
00368
9
4945257
7E-21
33
MEMORIA
480
00455
466
4914386
7E-21
Planilha 1 Palavras-chave em portuguecircs
Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais
deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da
expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo
equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo
bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos
14
satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados
indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a
obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes
(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo
o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato
grande o termo corrente em portuguecircs neste caso eacute disco)
Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em
Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua
Ordem
Portuguecircs
Ordem
Inglecircs
1
COMPUTADOR
23
COMPUTER
2
IMPRESSORA
65
PRINTER
4
PLACA
782
BOARD
6
PROCESSADOR
31
PROCESSOR
8
USB
13
USB
10
BARRAMENTO
71
BUS
12
MEMOacuteRIA
2
MEMORY
15
PCI
8
PCI
18
CONTROLADOR
46
CONTROLLER
25
TECLADO
11
KEYBOARD
26
DISCO
132
PLATTERS
36
MHZ
203
MHZ
37
APLICATIVOS
88
APPLICATIONS
38
TECLA
199
KEY
45
AGP
237
AGP
47
DADOS
3
DATA
57
DISPOSITIVO
25
DEVICE
64
SERVIDOR
26
SERVER
67
INSTALAR
194
INSTALL
68
DRIVE
5
DRIVE
72
SCSI
45
SCSI
77
HTTP
82
HTTP
81
INTERFACE
18
INTERFACE
83
ROM
53
ROM
90
CHIP
142
CHIP
92
RIacuteGIDO
30
HARD
102
DRIVER
499
DRIVER
107
CONFIGURACcedilOtildeES
181
SETTINGS
108
FIREWIRE
330
FIREWIRE
110
MAINFRAME
157
MAINFRAME
113
RAID
684
RAID
Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas
15
A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles
apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do
banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique
tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos
explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos
nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros
(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para
haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos
candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das
legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados
nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma
das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons
de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim
como na planilha 2 indicam sua ordem de chavicidade
Portuguecircs Inglecircs
Legenda
1 COMPUTADOR 23 COMPUTER
definiccedilatildeo encontrada nas duas liacutenguas
2 IMPRESSORA 65 PRINTER
definiccedilatildeo natildeo encontrada nas duas liacutenguas
4 PLACA 782
BOARD
definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs
6 PROCESSADOR 31 PROCESSOR
definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs
8 USB 13 USB
10 BARRAMENTO 71 BUS
adicionado ao banco de dados
12 MEMOacuteRIA 2 MEMORY
natildeo adicionado ao banco de dados
15 PCI 8 PCI
18 CONTROLADOR 46 CONTROLLER
25 TECLADO 11 KEYBOARD
26 DISCO 132
PLATTERS
36 MHZ 203
MHZ
37 APLICATIVOS 88 APPLICATIONS
38 TECLA 199
KEY
45 AGP 237
AGP
47 DADOS 3 DATA
57 DISPOSITIVO 25 DEVICE
64 SERVIDOR 26 SERVER
67 INSTALAR 194
INSTALL
68 DRIVE 5 DRIVE
10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos
16
72 SCSI 45 SCSI
77 HTTP 82 HTTP
81 INTERFACE 18 INTERFACE
83 ROM 53 ROM
90 CHIP 142
CHIP
92 RIacuteGIDO 30 HARD
102
DRIVER 499
DRIVER
107
CONFIGURACcedilOtildeES 181
SETTINGS
108
FIREWIRE 330
FIREWIRE
110
MAINFRAME 157
MAINFRAME
113
RAID 684
RAID
Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos
Para obter os contextos de cada termo utilizamos uma terceira ferramenta do
WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na
listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela
com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)
mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na
linha desejada na coluna File para que o texto seja mostrado por completo
Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha
de um texto) podem nos fornecer os contextos desejados foram usados basicamente
dois artifiacutecios
1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente
uma busca usando os paracircmetros de
(dois pontos) (
(parecircnteses) ou
(viacutergula) A
ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou
como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio
acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo
acima a busca seria realizada como computador computador ( ou
computador
17
Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas
2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta
frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro
termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas
Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito
colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna
R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no
original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e
destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha
quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo
computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)
Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre
uma nova tela (figura 10)
11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo
18
Figura 8 Lista de colocaccedilotildees do termo computador
Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo
19
Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)
A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios
que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras
colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar
uma definiccedilatildeo
Mais corpora
Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez
no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos
pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era
que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida
sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site
bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora
se fez necessaacuteria
Todos os passos descritos nos itens anteriores foram realizados novamente e
uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
3
2 o balanceamento desses corpora estava bastante irregular
3 o planejamento original dos mesmos natildeo previa um fim
lexicograacuteficoterminograacutefico de modo que nem sempre incluiacutea textos que
permitissem a construccedilatildeo de definiccedilotildees para o banco de dados
4 o tamanho de cada corpus de aproximadamente duzentas mil palavras tambeacutem
natildeo se mostrou suficiente para selecionar uma quantidade de termos em todas as
aacutereas eou a possibilidade de criar suas respectivas definiccedilotildees
Verificada a necessidade de novos corpora partiu-se em primeiro lugar para a
reconstruccedilatildeo do corpus de Informaacutetica (ou Computaccedilatildeo) Embora jaacute houvesse um
corpus semelhante organizado durante o mestrado de Fromm (2002) o mesmo era
monoliacutenguumle (portuguecircs) Decidiu-se entatildeo pela ampliaccedilatildeo dos corpora desenvolvidos
para o CORTEC aproveitando o que jaacute havia sido levantado A estruturaccedilatildeo final
desses corpora ficou assim delineada escritos sincrocircnicos de amostragem (embora
exista a possibilidade de se transformarem em monitor) especializados biliacutenguumles de
liacutengua nativa comparaacuteveis (segundo os criteacuterios do COMET) e de estudo
OntologiaTaxonomia a aacutervore de campo
Um dos pontos baacutesicos para a elaboraccedilatildeo de um banco de dados eacute a criaccedilatildeo de
uma estrutura para organizar a informaccedilatildeo a ser coletada Vaacuterios tipos de estruturas
podem ser elaboradas de acordo com o objetivo final Segundo Almeida e Bax (2003 p
7)
[e]struturas que se organizam a partir da utilizaccedilatildeo de termos satildeo os arquivos de autoridade glossaacuterios e dicionaacuterios Estruturas que se organizam com a classificaccedilatildeo e a criaccedilatildeo de categorias satildeo os cabeccedilalhos de assunto e os esquemas de classificaccedilatildeo (ou taxonomias) As estruturas que se organizam a partir de conceitos e de seus relacionamentos satildeo as ontologias os tesaurus e as redes semacircnticas (grifos dos autores)
Embora essa classificaccedilatildeo dos autores pareccedila bastante clara haacute diversos
problemas em tornaacute-la universal Sowa (1999) por exemplo defende uma ideacuteia de
categorizaccedilatildeo para ontologias ao colocar que
4
O assunto da ontologia eacute o estudo das categorias de coisas que existem ou podem vir a existir em algum domiacutenio O produto de tal estudo chamado ontologia eacute um cataacutelogo de tipos de coisas que se pressupotildee existirem em um domiacutenio de interesse D da perspectiva de uma pessoa que usa uma liacutengua L para o propoacutesito de falar sobre D2
(grifos do autor minha traduccedilatildeo)
Tendo em vista esses diferentes conceitos para denominar o que eacute uma ontologia
e uma taxonomia (teacutecnica de classificaccedilatildeo segundo Hoauiss) para o presente trabalho
foi escolhido o termo taxonomia para indicar a construccedilatildeo da aacutervore do campo
pesquisada para a construccedilatildeo do corpus No site desenvolvido para a inserccedilatildeo dos dados
do banco (httpjricmcscuspbr~cometdic acesso restrito) no entanto optou-se pelo
uso do termo ontologia para designar essa mesma aacutervore O termo ontologia cada vez
mais estaacute associado ao uso de ferramentas computacionais para diversos tipos de
anaacutelise o que se prova pertinente para o presente caso
O modelo tomado como base para a construccedilatildeo de uma aacutervore de campo foi
aquele apresentado por Marinotto (1995) para a aacuterea de Aeronaacuteutica e a divisatildeo
hieraacuterquica proposta para o saber humano campo aacuterea domiacutenio subdomiacutenio e outros
A aacutervore do campo da computaccedilatildeo jaacute havia sido previamente desenvolvida por Fromm
(2002) para a informaacutetica3 em geral aquela no entanto natildeo mais representa um estado
da arte do campo em questatildeo o extremo dinamismo desse campo na criaccedilatildeo de novas
tecnologias e produtos requer uma atualizaccedilatildeo constante da mesma A construccedilatildeo de
uma taxonomia no entanto natildeo eacute infaliacutevel haacute sempre controveacutersias por parte dos
especialistas quanto agrave sua montagem
2 The subject of ontology is the study of the categories of things that exist or may exist in some domain The product of such a study called an ontology is a catalog of the types of things that are assumed to exist in a domain of interest D from the perspective of a person who uses a language L for the purpose of talking about D
3 Embora os termos informaacutetica e computaccedilatildeo natildeo se apresentem como sinocircnimos para Houaiss eles pertencem ao mesmo campo Tomo aqui esses termos como sinocircnimos
5
Figura 1 Aacutervore do Campo da Computaccedilatildeo Cada cor representa um novo niacutevel
A aacutervore acima (figura 1) representa o consenso entre a opiniatildeo de alguns
professores especialistas na aacuterea o que natildeo quer dizer que seja unanimidade Aleacutem
disso ainda que a Aacutervore de Campo (tambeacutem designada Aacutervore de Domiacutenio4) seja uma
das possiacuteveis formas de representar uma taxonomia uma outra forma bastante comum eacute
aquela apresentada na sequumlecircncia abaixo quando da inserccedilatildeo das aacutereas feita pelo
administrador no banco de dados
4 ldquoAacutervore de domiacutenio diagrama ou estrutura que organiza de modo funcional os conceitos de uma aacuterea temaacutetica Tal aacutervore natildeo representa uma classificaccedilatildeo cientiacutefica mas uma maneira funcional de agrupar os conceitos de acordo com seu parentescordquo DUBUC R Manual praacutectico de terminologiacutea 3ed corr atualiz trad de Ileana Cabrera Santiago de Chile Unioacuten Latina Ril Ed (1999 apud Lara Taacutelamo 2007)
6
Grandes Aacutereas
o Computaccedilatildeo
o Hardware
o Componentes Internos
o Computadores
o Perifeacutericos
o Armazenagem
o Cartatildeo Flash
o Discos Oacuteticos
o HD
o Pen-Drive
o Drives Diversos
o Impressoras
o Monitores
o Mouses
o Multifuncionais
o Multimiacutedia
o Placas Diversas
o Scanner
o Teclados
o Rede
o Software
A coleta dos textos
Estabelecida a aacutervore o passo seguinte foi a captura de uma quantidade de
textos em todas as aacutereas suficiente para exibir contextos que pudessem criar definiccedilotildees
para os termos Jaacute existem programas que fazem a coleta e extraccedilatildeo de termos
automaticamente como o BootCaT e ambientes de criaccedilatildeo armazenamento e anaacutelise
de corpora como o Corpoacutegrafo (bem detalhados por ALMEIDA OLIVEIRA
ALUIacuteSIO 2006) Preferiu-se aqui no entanto natildeo utilizar essas e outras ferramentas
disponiacuteveis pois muitas ainda estatildeo em fase de testes e natildeo garantem o balanceamento
de corpus exigido pelo trabalho a coleta foi feita manualmente e depois os textos foram
processados de acordo com as necessidades aqui propostas
Segundo Aubert (1996) as fontes de busca para a definiccedilatildeo de um termo podem
apresentar trecircs tipos de contextos possiacuteveis
O contexto associativo apresenta o termo como pertinente ao tema objeto da pesquisa mas natildeo indica os traccedilos conceptuais especiacuteficos destes termos [] Jaacute os contextos explicativos apresentam alguns traccedilos conceptuais pertinentes especiacuteficos do termo sob observaccedilatildeo frequumlentemente relativos agrave materialidade finalidade funcionamento e
7
similares [] Talvez mais desejaacuteveis mas certamente menos encontradiccedilos os contextos definitoacuterios proporcionam um conjunto completo dos traccedilos conceptuais distintivos do termo Tal distintividade no entanto representa frequumlentemente um certo niacutevel de abstraccedilatildeo sem indiacutecios claros da gama efetiva de usos em situaccedilatildeo do termo (p 66-67)
A busca por contextos associativos no caso da presente pesquisa pode ser
automatizada atraveacutes dos programas de anaacutelise lexical (como o WordSmith Tools que
seraacute explicado adiante) Os contextos explicativos e definitoacuterios por outro lado exigem
certo conhecimento do terminograacutefo sobre como localizaacute-los
A necessidade de refazer os corpora e natildeo apenas reutilizar os que jaacute existiam
deveu-se justamente agrave falta de contextos explicativos e definitoacuterios Verificou-se que ao
proceder agrave anaacutelise computadorizada dos textos previamente selecionados havia lacunas
em alguns subdomiacutenios Mesmo nos subdomiacutenios com vaacuterios textos jaacute coletados o
levantamento dos contextos foi insatisfatoacuterio
Levando tudo isso em conta ao comeccedilar uma nova coleta de textos foi
estabelecido um nuacutemero miacutenimo de vinte mil palavras para cada subdomiacutenio da aacutervore
quantidade que se acreditou razoaacutevel (e que se mostrou acertada apoacutes alguns testes
iniciais com um dos subdomiacutenios disponiacuteveis e a construccedilatildeo de alguns termos como
teste) para o levantamento dos termos e um bom balanceamento entre esses
subdomiacutenios Notou-se poreacutem que jaacute havia mais de um milhatildeo de palavras em cada
liacutengua quando do teacutermino da primeira aacuterea da aacutervore (hardware) Decidiu-se entatildeo
limitar os corpora a esse tamanho para o desenvolvimento da pesquisa Como o
objetivo da construccedilatildeo do banco natildeo era fazer um levantamento completo de um campo
teacutecnico e sim coletar alguns exemplos de termos e seus contextos para posterior anaacutelise
o nuacutemero obtido foi julgado suficiente inclusive por abranger uma aacuterea completa
A coleta dos corpora
Os textos coletados para os corpora de anaacutelise no campo da computaccedilatildeo foram
totalmente levantados pela Internet em sites especializados muitos de caraacuteter
enciclopeacutedico A escolha se deveu agrave facilidade de encontrar textos do campo na rede
(isso eacute uma caracteriacutestica marcante jaacute que nem todos os campos do saber estatildeo bem
representados em termo de quantidade e qualidade na Internet) e a velocidade com que
os mesmos podem ser resgatados Embora existam muito mais sites em inglecircs sobre o
8
campo da computaccedilatildeo natildeo houve dificuldade para achar sites semelhantes (ou ateacute
mesmo traduzidos como o How Stuff Works5) em portuguecircs Foi dada preferecircncia aos
sites de revistas especializadas acadecircmicos ou aqueles especializados em determinado
assunto para o levantamento da pesquisa Um site enciclopeacutedico no entanto foi deixado
de lado a Wikipedia A razatildeo eacute que os termos apresentados pela mesma satildeo
disponibilizados na iacutentegra no site que daacute acesso ao banco de dados
(httpjricmcscuspbr~cometdic)
Para coletar os corpora criou-se um diretoacuterio no computador que exibia pastas
na mesma estrutura da aacutervore de campo (figura 1) O mesmo foi subdividido entre as
liacutenguas (inglecircs e portuguecircs) e todas as aacutereas domiacutenios e subdomiacutenios Novos textos
coletados e aqueles remanescentes do projeto original de Informaacutetica do CORTEC na
aacuterea de hardware jaacute foram distribuiacutedos dentro de suas respectivas pastas Os textos
remanescentes das aacutereas software e rede foram alocados tambeacutem nas respectivas
pastas Embora somente na aacuterea de hardware novos textos tenham sido coletados todos
aqueles jaacute coletados para o CORTEC foram aproveitados para o estudo
Figura 2 Diretoacuterio com pastas na forma da aacutervore de campo aacuterea hardware
Figura 3 Idem aacutereas software e rede
5 lt httphswuolcombrgt O endereccedilo desta e de todas as outras paacuteginas consultadas estaacute disponiacutevel no banco de dados
9
A anaacutelise dos corpora
Para verificar se a quantidade de textos alocados a cada pasta obedecia ao
criteacuterio de vinte mil palavras por subdomiacutenio6 foi usada a ferramenta Wordlist
(listagem de palavras) do programa de Anaacutelise Lexical WordSmith Tools versatildeo 4 de
Scott (2007) para fazer a contagem (veja figura 4 no destaque) Embora haja vaacuterios
programas de anaacutelise computadorizada conforme estudos anteriores (FROMM 2004)
o WordSmith Tools eacute o mais indicado para grande quantidade de dados e para os tipos
de anaacutelise que seratildeo demonstrados a seguir
O volume total de palavras para o corpus de computaccedilatildeo foi de 1029187
palavras em inglecircs e 1055375 palavras em portuguecircs Segundo Berber Sardinha (2004
p26) esses corpora seriam classificados de acordo com a quantidade de palavras
como meacutedios (de 250 mil a um milhatildeo de palavras)
Figura 4 A subaacuterea componentes diversos (em portuguecircs) apresenta uma quantidade de 36324 palavras no total (em destaque)
6 Verificada atraveacutes da quantidade de tokens que a listagem apresenta Os tokens representam a quantidade total de palavras nos textos os types representam a quantidade de palavras natildeo repetidas (distintas) nos textos
10
A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas
subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil
palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume
maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER
SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da
extensatildeo do corpus (no caso a Impressioniacutestica)
Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)
As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados
de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um
arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre
que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e
foram portanto descartados) Os arquivos em formato pdf normalmente estudos
acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma
quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para
o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools
4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o
maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia
repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior
anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de
coleta (figura 5)
Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist
partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes
de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos
chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em
anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs
foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)
totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de
palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American
7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997
11
National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora
de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de
referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha
(2004 p102) como o tamanho recomendado
Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)
Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as
listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de
anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia
correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados
para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os
explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo
natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de
partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a
8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado
12
tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as
palavras-chave em portuguecircs agora numa listagem em Excel
Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs
As palavras na primeira coluna indicam as palavras mais frequumlentes que assim
indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na
primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade
(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de
anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa
compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela
apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de
referecircncia ela eacute incluiacuteda na lista)
13
WordSmith Tools 40 -- 2762007
N Key word Freq RC Freq RC Keyness P
1
COMPUTADOR
3380
03203
28792
2230223
7E-23
2
IMPRESSORA
1812
01717
2526
1761062
1E-22
3
CLIQUE
1553
01472
2491
1476042
3E-22
4
PLACA
2104
01994
19180
136139
3E-22
5
WINDOWS
1603
01519
11497
1108675
6E-22
6
PROCESSADOR
1212
01148
2901
1073848
7E-22
7
BITS
1183
01121
2547
1068828
7E-22
8
USB
913
00865
326
1041225
7E-22
9
IMPRESSAtildeO
1617
01532
19473
9616599
9E-22
10
BARRAMENTO
815
00772
344
9159807
1E-21
11
PLACAS
1514
01435
17867
9061677
1E-21
12
MEMOacuteRIA
1964
01861
49114
8969695
1E-21
13
GEFORCE
672
00637
2
8686718
1E-21
14
SELECIONE
755
00715
496
81116
2E-21
15
PCI
782
00741
1351
7341269
2E-21
16
VIacuteDEO
1379
01307
25009
713415
2E-21
17
TELA
1241
01176
20775
660795
3E-21
18
CONTROLADOR
874
00828
4499
6575389
3E-21
19
DVD
755
00715
2026
6544251
3E-21
20
VOCEcirc
2539
02406
193135
0028
6410745
3E-21
21
RADEON
491
00465
0
6366831
3E-21
22
CONSULTE
630
00597
701
6330112
3E-21
23
HARDWARE
684
00648
1707
6012326
4E-21
24
PALM
700
00663
2140
5911728
4E-21
25
TECLADO
692
00656
2275
5757233
4E-21
26
DISCO
1345
01274
39388
5742442
4E-21
27
MOUSE
750
00711
3769
5675047
4E-21
28
MONITOR
796
00754
6107
5405326
5E-21
29
XP
558
00529
862
5335347
5E-21
30
MB
781
0074
6179
5258846
6E-21
31
BOTAtildeO
693
00657
3595
5203829
6E-21
32
EAX
388
00368
9
4945257
7E-21
33
MEMORIA
480
00455
466
4914386
7E-21
Planilha 1 Palavras-chave em portuguecircs
Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais
deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da
expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo
equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo
bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos
14
satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados
indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a
obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes
(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo
o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato
grande o termo corrente em portuguecircs neste caso eacute disco)
Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em
Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua
Ordem
Portuguecircs
Ordem
Inglecircs
1
COMPUTADOR
23
COMPUTER
2
IMPRESSORA
65
PRINTER
4
PLACA
782
BOARD
6
PROCESSADOR
31
PROCESSOR
8
USB
13
USB
10
BARRAMENTO
71
BUS
12
MEMOacuteRIA
2
MEMORY
15
PCI
8
PCI
18
CONTROLADOR
46
CONTROLLER
25
TECLADO
11
KEYBOARD
26
DISCO
132
PLATTERS
36
MHZ
203
MHZ
37
APLICATIVOS
88
APPLICATIONS
38
TECLA
199
KEY
45
AGP
237
AGP
47
DADOS
3
DATA
57
DISPOSITIVO
25
DEVICE
64
SERVIDOR
26
SERVER
67
INSTALAR
194
INSTALL
68
DRIVE
5
DRIVE
72
SCSI
45
SCSI
77
HTTP
82
HTTP
81
INTERFACE
18
INTERFACE
83
ROM
53
ROM
90
CHIP
142
CHIP
92
RIacuteGIDO
30
HARD
102
DRIVER
499
DRIVER
107
CONFIGURACcedilOtildeES
181
SETTINGS
108
FIREWIRE
330
FIREWIRE
110
MAINFRAME
157
MAINFRAME
113
RAID
684
RAID
Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas
15
A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles
apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do
banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique
tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos
explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos
nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros
(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para
haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos
candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das
legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados
nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma
das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons
de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim
como na planilha 2 indicam sua ordem de chavicidade
Portuguecircs Inglecircs
Legenda
1 COMPUTADOR 23 COMPUTER
definiccedilatildeo encontrada nas duas liacutenguas
2 IMPRESSORA 65 PRINTER
definiccedilatildeo natildeo encontrada nas duas liacutenguas
4 PLACA 782
BOARD
definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs
6 PROCESSADOR 31 PROCESSOR
definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs
8 USB 13 USB
10 BARRAMENTO 71 BUS
adicionado ao banco de dados
12 MEMOacuteRIA 2 MEMORY
natildeo adicionado ao banco de dados
15 PCI 8 PCI
18 CONTROLADOR 46 CONTROLLER
25 TECLADO 11 KEYBOARD
26 DISCO 132
PLATTERS
36 MHZ 203
MHZ
37 APLICATIVOS 88 APPLICATIONS
38 TECLA 199
KEY
45 AGP 237
AGP
47 DADOS 3 DATA
57 DISPOSITIVO 25 DEVICE
64 SERVIDOR 26 SERVER
67 INSTALAR 194
INSTALL
68 DRIVE 5 DRIVE
10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos
16
72 SCSI 45 SCSI
77 HTTP 82 HTTP
81 INTERFACE 18 INTERFACE
83 ROM 53 ROM
90 CHIP 142
CHIP
92 RIacuteGIDO 30 HARD
102
DRIVER 499
DRIVER
107
CONFIGURACcedilOtildeES 181
SETTINGS
108
FIREWIRE 330
FIREWIRE
110
MAINFRAME 157
MAINFRAME
113
RAID 684
RAID
Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos
Para obter os contextos de cada termo utilizamos uma terceira ferramenta do
WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na
listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela
com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)
mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na
linha desejada na coluna File para que o texto seja mostrado por completo
Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha
de um texto) podem nos fornecer os contextos desejados foram usados basicamente
dois artifiacutecios
1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente
uma busca usando os paracircmetros de
(dois pontos) (
(parecircnteses) ou
(viacutergula) A
ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou
como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio
acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo
acima a busca seria realizada como computador computador ( ou
computador
17
Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas
2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta
frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro
termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas
Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito
colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna
R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no
original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e
destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha
quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo
computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)
Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre
uma nova tela (figura 10)
11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo
18
Figura 8 Lista de colocaccedilotildees do termo computador
Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo
19
Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)
A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios
que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras
colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar
uma definiccedilatildeo
Mais corpora
Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez
no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos
pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era
que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida
sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site
bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora
se fez necessaacuteria
Todos os passos descritos nos itens anteriores foram realizados novamente e
uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
4
O assunto da ontologia eacute o estudo das categorias de coisas que existem ou podem vir a existir em algum domiacutenio O produto de tal estudo chamado ontologia eacute um cataacutelogo de tipos de coisas que se pressupotildee existirem em um domiacutenio de interesse D da perspectiva de uma pessoa que usa uma liacutengua L para o propoacutesito de falar sobre D2
(grifos do autor minha traduccedilatildeo)
Tendo em vista esses diferentes conceitos para denominar o que eacute uma ontologia
e uma taxonomia (teacutecnica de classificaccedilatildeo segundo Hoauiss) para o presente trabalho
foi escolhido o termo taxonomia para indicar a construccedilatildeo da aacutervore do campo
pesquisada para a construccedilatildeo do corpus No site desenvolvido para a inserccedilatildeo dos dados
do banco (httpjricmcscuspbr~cometdic acesso restrito) no entanto optou-se pelo
uso do termo ontologia para designar essa mesma aacutervore O termo ontologia cada vez
mais estaacute associado ao uso de ferramentas computacionais para diversos tipos de
anaacutelise o que se prova pertinente para o presente caso
O modelo tomado como base para a construccedilatildeo de uma aacutervore de campo foi
aquele apresentado por Marinotto (1995) para a aacuterea de Aeronaacuteutica e a divisatildeo
hieraacuterquica proposta para o saber humano campo aacuterea domiacutenio subdomiacutenio e outros
A aacutervore do campo da computaccedilatildeo jaacute havia sido previamente desenvolvida por Fromm
(2002) para a informaacutetica3 em geral aquela no entanto natildeo mais representa um estado
da arte do campo em questatildeo o extremo dinamismo desse campo na criaccedilatildeo de novas
tecnologias e produtos requer uma atualizaccedilatildeo constante da mesma A construccedilatildeo de
uma taxonomia no entanto natildeo eacute infaliacutevel haacute sempre controveacutersias por parte dos
especialistas quanto agrave sua montagem
2 The subject of ontology is the study of the categories of things that exist or may exist in some domain The product of such a study called an ontology is a catalog of the types of things that are assumed to exist in a domain of interest D from the perspective of a person who uses a language L for the purpose of talking about D
3 Embora os termos informaacutetica e computaccedilatildeo natildeo se apresentem como sinocircnimos para Houaiss eles pertencem ao mesmo campo Tomo aqui esses termos como sinocircnimos
5
Figura 1 Aacutervore do Campo da Computaccedilatildeo Cada cor representa um novo niacutevel
A aacutervore acima (figura 1) representa o consenso entre a opiniatildeo de alguns
professores especialistas na aacuterea o que natildeo quer dizer que seja unanimidade Aleacutem
disso ainda que a Aacutervore de Campo (tambeacutem designada Aacutervore de Domiacutenio4) seja uma
das possiacuteveis formas de representar uma taxonomia uma outra forma bastante comum eacute
aquela apresentada na sequumlecircncia abaixo quando da inserccedilatildeo das aacutereas feita pelo
administrador no banco de dados
4 ldquoAacutervore de domiacutenio diagrama ou estrutura que organiza de modo funcional os conceitos de uma aacuterea temaacutetica Tal aacutervore natildeo representa uma classificaccedilatildeo cientiacutefica mas uma maneira funcional de agrupar os conceitos de acordo com seu parentescordquo DUBUC R Manual praacutectico de terminologiacutea 3ed corr atualiz trad de Ileana Cabrera Santiago de Chile Unioacuten Latina Ril Ed (1999 apud Lara Taacutelamo 2007)
6
Grandes Aacutereas
o Computaccedilatildeo
o Hardware
o Componentes Internos
o Computadores
o Perifeacutericos
o Armazenagem
o Cartatildeo Flash
o Discos Oacuteticos
o HD
o Pen-Drive
o Drives Diversos
o Impressoras
o Monitores
o Mouses
o Multifuncionais
o Multimiacutedia
o Placas Diversas
o Scanner
o Teclados
o Rede
o Software
A coleta dos textos
Estabelecida a aacutervore o passo seguinte foi a captura de uma quantidade de
textos em todas as aacutereas suficiente para exibir contextos que pudessem criar definiccedilotildees
para os termos Jaacute existem programas que fazem a coleta e extraccedilatildeo de termos
automaticamente como o BootCaT e ambientes de criaccedilatildeo armazenamento e anaacutelise
de corpora como o Corpoacutegrafo (bem detalhados por ALMEIDA OLIVEIRA
ALUIacuteSIO 2006) Preferiu-se aqui no entanto natildeo utilizar essas e outras ferramentas
disponiacuteveis pois muitas ainda estatildeo em fase de testes e natildeo garantem o balanceamento
de corpus exigido pelo trabalho a coleta foi feita manualmente e depois os textos foram
processados de acordo com as necessidades aqui propostas
Segundo Aubert (1996) as fontes de busca para a definiccedilatildeo de um termo podem
apresentar trecircs tipos de contextos possiacuteveis
O contexto associativo apresenta o termo como pertinente ao tema objeto da pesquisa mas natildeo indica os traccedilos conceptuais especiacuteficos destes termos [] Jaacute os contextos explicativos apresentam alguns traccedilos conceptuais pertinentes especiacuteficos do termo sob observaccedilatildeo frequumlentemente relativos agrave materialidade finalidade funcionamento e
7
similares [] Talvez mais desejaacuteveis mas certamente menos encontradiccedilos os contextos definitoacuterios proporcionam um conjunto completo dos traccedilos conceptuais distintivos do termo Tal distintividade no entanto representa frequumlentemente um certo niacutevel de abstraccedilatildeo sem indiacutecios claros da gama efetiva de usos em situaccedilatildeo do termo (p 66-67)
A busca por contextos associativos no caso da presente pesquisa pode ser
automatizada atraveacutes dos programas de anaacutelise lexical (como o WordSmith Tools que
seraacute explicado adiante) Os contextos explicativos e definitoacuterios por outro lado exigem
certo conhecimento do terminograacutefo sobre como localizaacute-los
A necessidade de refazer os corpora e natildeo apenas reutilizar os que jaacute existiam
deveu-se justamente agrave falta de contextos explicativos e definitoacuterios Verificou-se que ao
proceder agrave anaacutelise computadorizada dos textos previamente selecionados havia lacunas
em alguns subdomiacutenios Mesmo nos subdomiacutenios com vaacuterios textos jaacute coletados o
levantamento dos contextos foi insatisfatoacuterio
Levando tudo isso em conta ao comeccedilar uma nova coleta de textos foi
estabelecido um nuacutemero miacutenimo de vinte mil palavras para cada subdomiacutenio da aacutervore
quantidade que se acreditou razoaacutevel (e que se mostrou acertada apoacutes alguns testes
iniciais com um dos subdomiacutenios disponiacuteveis e a construccedilatildeo de alguns termos como
teste) para o levantamento dos termos e um bom balanceamento entre esses
subdomiacutenios Notou-se poreacutem que jaacute havia mais de um milhatildeo de palavras em cada
liacutengua quando do teacutermino da primeira aacuterea da aacutervore (hardware) Decidiu-se entatildeo
limitar os corpora a esse tamanho para o desenvolvimento da pesquisa Como o
objetivo da construccedilatildeo do banco natildeo era fazer um levantamento completo de um campo
teacutecnico e sim coletar alguns exemplos de termos e seus contextos para posterior anaacutelise
o nuacutemero obtido foi julgado suficiente inclusive por abranger uma aacuterea completa
A coleta dos corpora
Os textos coletados para os corpora de anaacutelise no campo da computaccedilatildeo foram
totalmente levantados pela Internet em sites especializados muitos de caraacuteter
enciclopeacutedico A escolha se deveu agrave facilidade de encontrar textos do campo na rede
(isso eacute uma caracteriacutestica marcante jaacute que nem todos os campos do saber estatildeo bem
representados em termo de quantidade e qualidade na Internet) e a velocidade com que
os mesmos podem ser resgatados Embora existam muito mais sites em inglecircs sobre o
8
campo da computaccedilatildeo natildeo houve dificuldade para achar sites semelhantes (ou ateacute
mesmo traduzidos como o How Stuff Works5) em portuguecircs Foi dada preferecircncia aos
sites de revistas especializadas acadecircmicos ou aqueles especializados em determinado
assunto para o levantamento da pesquisa Um site enciclopeacutedico no entanto foi deixado
de lado a Wikipedia A razatildeo eacute que os termos apresentados pela mesma satildeo
disponibilizados na iacutentegra no site que daacute acesso ao banco de dados
(httpjricmcscuspbr~cometdic)
Para coletar os corpora criou-se um diretoacuterio no computador que exibia pastas
na mesma estrutura da aacutervore de campo (figura 1) O mesmo foi subdividido entre as
liacutenguas (inglecircs e portuguecircs) e todas as aacutereas domiacutenios e subdomiacutenios Novos textos
coletados e aqueles remanescentes do projeto original de Informaacutetica do CORTEC na
aacuterea de hardware jaacute foram distribuiacutedos dentro de suas respectivas pastas Os textos
remanescentes das aacutereas software e rede foram alocados tambeacutem nas respectivas
pastas Embora somente na aacuterea de hardware novos textos tenham sido coletados todos
aqueles jaacute coletados para o CORTEC foram aproveitados para o estudo
Figura 2 Diretoacuterio com pastas na forma da aacutervore de campo aacuterea hardware
Figura 3 Idem aacutereas software e rede
5 lt httphswuolcombrgt O endereccedilo desta e de todas as outras paacuteginas consultadas estaacute disponiacutevel no banco de dados
9
A anaacutelise dos corpora
Para verificar se a quantidade de textos alocados a cada pasta obedecia ao
criteacuterio de vinte mil palavras por subdomiacutenio6 foi usada a ferramenta Wordlist
(listagem de palavras) do programa de Anaacutelise Lexical WordSmith Tools versatildeo 4 de
Scott (2007) para fazer a contagem (veja figura 4 no destaque) Embora haja vaacuterios
programas de anaacutelise computadorizada conforme estudos anteriores (FROMM 2004)
o WordSmith Tools eacute o mais indicado para grande quantidade de dados e para os tipos
de anaacutelise que seratildeo demonstrados a seguir
O volume total de palavras para o corpus de computaccedilatildeo foi de 1029187
palavras em inglecircs e 1055375 palavras em portuguecircs Segundo Berber Sardinha (2004
p26) esses corpora seriam classificados de acordo com a quantidade de palavras
como meacutedios (de 250 mil a um milhatildeo de palavras)
Figura 4 A subaacuterea componentes diversos (em portuguecircs) apresenta uma quantidade de 36324 palavras no total (em destaque)
6 Verificada atraveacutes da quantidade de tokens que a listagem apresenta Os tokens representam a quantidade total de palavras nos textos os types representam a quantidade de palavras natildeo repetidas (distintas) nos textos
10
A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas
subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil
palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume
maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER
SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da
extensatildeo do corpus (no caso a Impressioniacutestica)
Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)
As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados
de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um
arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre
que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e
foram portanto descartados) Os arquivos em formato pdf normalmente estudos
acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma
quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para
o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools
4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o
maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia
repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior
anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de
coleta (figura 5)
Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist
partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes
de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos
chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em
anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs
foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)
totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de
palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American
7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997
11
National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora
de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de
referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha
(2004 p102) como o tamanho recomendado
Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)
Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as
listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de
anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia
correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados
para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os
explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo
natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de
partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a
8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado
12
tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as
palavras-chave em portuguecircs agora numa listagem em Excel
Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs
As palavras na primeira coluna indicam as palavras mais frequumlentes que assim
indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na
primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade
(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de
anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa
compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela
apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de
referecircncia ela eacute incluiacuteda na lista)
13
WordSmith Tools 40 -- 2762007
N Key word Freq RC Freq RC Keyness P
1
COMPUTADOR
3380
03203
28792
2230223
7E-23
2
IMPRESSORA
1812
01717
2526
1761062
1E-22
3
CLIQUE
1553
01472
2491
1476042
3E-22
4
PLACA
2104
01994
19180
136139
3E-22
5
WINDOWS
1603
01519
11497
1108675
6E-22
6
PROCESSADOR
1212
01148
2901
1073848
7E-22
7
BITS
1183
01121
2547
1068828
7E-22
8
USB
913
00865
326
1041225
7E-22
9
IMPRESSAtildeO
1617
01532
19473
9616599
9E-22
10
BARRAMENTO
815
00772
344
9159807
1E-21
11
PLACAS
1514
01435
17867
9061677
1E-21
12
MEMOacuteRIA
1964
01861
49114
8969695
1E-21
13
GEFORCE
672
00637
2
8686718
1E-21
14
SELECIONE
755
00715
496
81116
2E-21
15
PCI
782
00741
1351
7341269
2E-21
16
VIacuteDEO
1379
01307
25009
713415
2E-21
17
TELA
1241
01176
20775
660795
3E-21
18
CONTROLADOR
874
00828
4499
6575389
3E-21
19
DVD
755
00715
2026
6544251
3E-21
20
VOCEcirc
2539
02406
193135
0028
6410745
3E-21
21
RADEON
491
00465
0
6366831
3E-21
22
CONSULTE
630
00597
701
6330112
3E-21
23
HARDWARE
684
00648
1707
6012326
4E-21
24
PALM
700
00663
2140
5911728
4E-21
25
TECLADO
692
00656
2275
5757233
4E-21
26
DISCO
1345
01274
39388
5742442
4E-21
27
MOUSE
750
00711
3769
5675047
4E-21
28
MONITOR
796
00754
6107
5405326
5E-21
29
XP
558
00529
862
5335347
5E-21
30
MB
781
0074
6179
5258846
6E-21
31
BOTAtildeO
693
00657
3595
5203829
6E-21
32
EAX
388
00368
9
4945257
7E-21
33
MEMORIA
480
00455
466
4914386
7E-21
Planilha 1 Palavras-chave em portuguecircs
Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais
deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da
expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo
equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo
bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos
14
satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados
indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a
obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes
(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo
o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato
grande o termo corrente em portuguecircs neste caso eacute disco)
Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em
Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua
Ordem
Portuguecircs
Ordem
Inglecircs
1
COMPUTADOR
23
COMPUTER
2
IMPRESSORA
65
PRINTER
4
PLACA
782
BOARD
6
PROCESSADOR
31
PROCESSOR
8
USB
13
USB
10
BARRAMENTO
71
BUS
12
MEMOacuteRIA
2
MEMORY
15
PCI
8
PCI
18
CONTROLADOR
46
CONTROLLER
25
TECLADO
11
KEYBOARD
26
DISCO
132
PLATTERS
36
MHZ
203
MHZ
37
APLICATIVOS
88
APPLICATIONS
38
TECLA
199
KEY
45
AGP
237
AGP
47
DADOS
3
DATA
57
DISPOSITIVO
25
DEVICE
64
SERVIDOR
26
SERVER
67
INSTALAR
194
INSTALL
68
DRIVE
5
DRIVE
72
SCSI
45
SCSI
77
HTTP
82
HTTP
81
INTERFACE
18
INTERFACE
83
ROM
53
ROM
90
CHIP
142
CHIP
92
RIacuteGIDO
30
HARD
102
DRIVER
499
DRIVER
107
CONFIGURACcedilOtildeES
181
SETTINGS
108
FIREWIRE
330
FIREWIRE
110
MAINFRAME
157
MAINFRAME
113
RAID
684
RAID
Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas
15
A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles
apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do
banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique
tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos
explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos
nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros
(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para
haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos
candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das
legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados
nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma
das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons
de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim
como na planilha 2 indicam sua ordem de chavicidade
Portuguecircs Inglecircs
Legenda
1 COMPUTADOR 23 COMPUTER
definiccedilatildeo encontrada nas duas liacutenguas
2 IMPRESSORA 65 PRINTER
definiccedilatildeo natildeo encontrada nas duas liacutenguas
4 PLACA 782
BOARD
definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs
6 PROCESSADOR 31 PROCESSOR
definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs
8 USB 13 USB
10 BARRAMENTO 71 BUS
adicionado ao banco de dados
12 MEMOacuteRIA 2 MEMORY
natildeo adicionado ao banco de dados
15 PCI 8 PCI
18 CONTROLADOR 46 CONTROLLER
25 TECLADO 11 KEYBOARD
26 DISCO 132
PLATTERS
36 MHZ 203
MHZ
37 APLICATIVOS 88 APPLICATIONS
38 TECLA 199
KEY
45 AGP 237
AGP
47 DADOS 3 DATA
57 DISPOSITIVO 25 DEVICE
64 SERVIDOR 26 SERVER
67 INSTALAR 194
INSTALL
68 DRIVE 5 DRIVE
10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos
16
72 SCSI 45 SCSI
77 HTTP 82 HTTP
81 INTERFACE 18 INTERFACE
83 ROM 53 ROM
90 CHIP 142
CHIP
92 RIacuteGIDO 30 HARD
102
DRIVER 499
DRIVER
107
CONFIGURACcedilOtildeES 181
SETTINGS
108
FIREWIRE 330
FIREWIRE
110
MAINFRAME 157
MAINFRAME
113
RAID 684
RAID
Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos
Para obter os contextos de cada termo utilizamos uma terceira ferramenta do
WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na
listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela
com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)
mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na
linha desejada na coluna File para que o texto seja mostrado por completo
Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha
de um texto) podem nos fornecer os contextos desejados foram usados basicamente
dois artifiacutecios
1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente
uma busca usando os paracircmetros de
(dois pontos) (
(parecircnteses) ou
(viacutergula) A
ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou
como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio
acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo
acima a busca seria realizada como computador computador ( ou
computador
17
Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas
2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta
frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro
termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas
Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito
colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna
R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no
original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e
destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha
quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo
computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)
Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre
uma nova tela (figura 10)
11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo
18
Figura 8 Lista de colocaccedilotildees do termo computador
Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo
19
Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)
A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios
que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras
colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar
uma definiccedilatildeo
Mais corpora
Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez
no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos
pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era
que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida
sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site
bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora
se fez necessaacuteria
Todos os passos descritos nos itens anteriores foram realizados novamente e
uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
5
Figura 1 Aacutervore do Campo da Computaccedilatildeo Cada cor representa um novo niacutevel
A aacutervore acima (figura 1) representa o consenso entre a opiniatildeo de alguns
professores especialistas na aacuterea o que natildeo quer dizer que seja unanimidade Aleacutem
disso ainda que a Aacutervore de Campo (tambeacutem designada Aacutervore de Domiacutenio4) seja uma
das possiacuteveis formas de representar uma taxonomia uma outra forma bastante comum eacute
aquela apresentada na sequumlecircncia abaixo quando da inserccedilatildeo das aacutereas feita pelo
administrador no banco de dados
4 ldquoAacutervore de domiacutenio diagrama ou estrutura que organiza de modo funcional os conceitos de uma aacuterea temaacutetica Tal aacutervore natildeo representa uma classificaccedilatildeo cientiacutefica mas uma maneira funcional de agrupar os conceitos de acordo com seu parentescordquo DUBUC R Manual praacutectico de terminologiacutea 3ed corr atualiz trad de Ileana Cabrera Santiago de Chile Unioacuten Latina Ril Ed (1999 apud Lara Taacutelamo 2007)
6
Grandes Aacutereas
o Computaccedilatildeo
o Hardware
o Componentes Internos
o Computadores
o Perifeacutericos
o Armazenagem
o Cartatildeo Flash
o Discos Oacuteticos
o HD
o Pen-Drive
o Drives Diversos
o Impressoras
o Monitores
o Mouses
o Multifuncionais
o Multimiacutedia
o Placas Diversas
o Scanner
o Teclados
o Rede
o Software
A coleta dos textos
Estabelecida a aacutervore o passo seguinte foi a captura de uma quantidade de
textos em todas as aacutereas suficiente para exibir contextos que pudessem criar definiccedilotildees
para os termos Jaacute existem programas que fazem a coleta e extraccedilatildeo de termos
automaticamente como o BootCaT e ambientes de criaccedilatildeo armazenamento e anaacutelise
de corpora como o Corpoacutegrafo (bem detalhados por ALMEIDA OLIVEIRA
ALUIacuteSIO 2006) Preferiu-se aqui no entanto natildeo utilizar essas e outras ferramentas
disponiacuteveis pois muitas ainda estatildeo em fase de testes e natildeo garantem o balanceamento
de corpus exigido pelo trabalho a coleta foi feita manualmente e depois os textos foram
processados de acordo com as necessidades aqui propostas
Segundo Aubert (1996) as fontes de busca para a definiccedilatildeo de um termo podem
apresentar trecircs tipos de contextos possiacuteveis
O contexto associativo apresenta o termo como pertinente ao tema objeto da pesquisa mas natildeo indica os traccedilos conceptuais especiacuteficos destes termos [] Jaacute os contextos explicativos apresentam alguns traccedilos conceptuais pertinentes especiacuteficos do termo sob observaccedilatildeo frequumlentemente relativos agrave materialidade finalidade funcionamento e
7
similares [] Talvez mais desejaacuteveis mas certamente menos encontradiccedilos os contextos definitoacuterios proporcionam um conjunto completo dos traccedilos conceptuais distintivos do termo Tal distintividade no entanto representa frequumlentemente um certo niacutevel de abstraccedilatildeo sem indiacutecios claros da gama efetiva de usos em situaccedilatildeo do termo (p 66-67)
A busca por contextos associativos no caso da presente pesquisa pode ser
automatizada atraveacutes dos programas de anaacutelise lexical (como o WordSmith Tools que
seraacute explicado adiante) Os contextos explicativos e definitoacuterios por outro lado exigem
certo conhecimento do terminograacutefo sobre como localizaacute-los
A necessidade de refazer os corpora e natildeo apenas reutilizar os que jaacute existiam
deveu-se justamente agrave falta de contextos explicativos e definitoacuterios Verificou-se que ao
proceder agrave anaacutelise computadorizada dos textos previamente selecionados havia lacunas
em alguns subdomiacutenios Mesmo nos subdomiacutenios com vaacuterios textos jaacute coletados o
levantamento dos contextos foi insatisfatoacuterio
Levando tudo isso em conta ao comeccedilar uma nova coleta de textos foi
estabelecido um nuacutemero miacutenimo de vinte mil palavras para cada subdomiacutenio da aacutervore
quantidade que se acreditou razoaacutevel (e que se mostrou acertada apoacutes alguns testes
iniciais com um dos subdomiacutenios disponiacuteveis e a construccedilatildeo de alguns termos como
teste) para o levantamento dos termos e um bom balanceamento entre esses
subdomiacutenios Notou-se poreacutem que jaacute havia mais de um milhatildeo de palavras em cada
liacutengua quando do teacutermino da primeira aacuterea da aacutervore (hardware) Decidiu-se entatildeo
limitar os corpora a esse tamanho para o desenvolvimento da pesquisa Como o
objetivo da construccedilatildeo do banco natildeo era fazer um levantamento completo de um campo
teacutecnico e sim coletar alguns exemplos de termos e seus contextos para posterior anaacutelise
o nuacutemero obtido foi julgado suficiente inclusive por abranger uma aacuterea completa
A coleta dos corpora
Os textos coletados para os corpora de anaacutelise no campo da computaccedilatildeo foram
totalmente levantados pela Internet em sites especializados muitos de caraacuteter
enciclopeacutedico A escolha se deveu agrave facilidade de encontrar textos do campo na rede
(isso eacute uma caracteriacutestica marcante jaacute que nem todos os campos do saber estatildeo bem
representados em termo de quantidade e qualidade na Internet) e a velocidade com que
os mesmos podem ser resgatados Embora existam muito mais sites em inglecircs sobre o
8
campo da computaccedilatildeo natildeo houve dificuldade para achar sites semelhantes (ou ateacute
mesmo traduzidos como o How Stuff Works5) em portuguecircs Foi dada preferecircncia aos
sites de revistas especializadas acadecircmicos ou aqueles especializados em determinado
assunto para o levantamento da pesquisa Um site enciclopeacutedico no entanto foi deixado
de lado a Wikipedia A razatildeo eacute que os termos apresentados pela mesma satildeo
disponibilizados na iacutentegra no site que daacute acesso ao banco de dados
(httpjricmcscuspbr~cometdic)
Para coletar os corpora criou-se um diretoacuterio no computador que exibia pastas
na mesma estrutura da aacutervore de campo (figura 1) O mesmo foi subdividido entre as
liacutenguas (inglecircs e portuguecircs) e todas as aacutereas domiacutenios e subdomiacutenios Novos textos
coletados e aqueles remanescentes do projeto original de Informaacutetica do CORTEC na
aacuterea de hardware jaacute foram distribuiacutedos dentro de suas respectivas pastas Os textos
remanescentes das aacutereas software e rede foram alocados tambeacutem nas respectivas
pastas Embora somente na aacuterea de hardware novos textos tenham sido coletados todos
aqueles jaacute coletados para o CORTEC foram aproveitados para o estudo
Figura 2 Diretoacuterio com pastas na forma da aacutervore de campo aacuterea hardware
Figura 3 Idem aacutereas software e rede
5 lt httphswuolcombrgt O endereccedilo desta e de todas as outras paacuteginas consultadas estaacute disponiacutevel no banco de dados
9
A anaacutelise dos corpora
Para verificar se a quantidade de textos alocados a cada pasta obedecia ao
criteacuterio de vinte mil palavras por subdomiacutenio6 foi usada a ferramenta Wordlist
(listagem de palavras) do programa de Anaacutelise Lexical WordSmith Tools versatildeo 4 de
Scott (2007) para fazer a contagem (veja figura 4 no destaque) Embora haja vaacuterios
programas de anaacutelise computadorizada conforme estudos anteriores (FROMM 2004)
o WordSmith Tools eacute o mais indicado para grande quantidade de dados e para os tipos
de anaacutelise que seratildeo demonstrados a seguir
O volume total de palavras para o corpus de computaccedilatildeo foi de 1029187
palavras em inglecircs e 1055375 palavras em portuguecircs Segundo Berber Sardinha (2004
p26) esses corpora seriam classificados de acordo com a quantidade de palavras
como meacutedios (de 250 mil a um milhatildeo de palavras)
Figura 4 A subaacuterea componentes diversos (em portuguecircs) apresenta uma quantidade de 36324 palavras no total (em destaque)
6 Verificada atraveacutes da quantidade de tokens que a listagem apresenta Os tokens representam a quantidade total de palavras nos textos os types representam a quantidade de palavras natildeo repetidas (distintas) nos textos
10
A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas
subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil
palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume
maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER
SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da
extensatildeo do corpus (no caso a Impressioniacutestica)
Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)
As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados
de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um
arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre
que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e
foram portanto descartados) Os arquivos em formato pdf normalmente estudos
acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma
quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para
o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools
4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o
maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia
repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior
anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de
coleta (figura 5)
Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist
partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes
de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos
chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em
anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs
foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)
totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de
palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American
7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997
11
National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora
de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de
referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha
(2004 p102) como o tamanho recomendado
Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)
Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as
listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de
anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia
correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados
para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os
explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo
natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de
partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a
8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado
12
tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as
palavras-chave em portuguecircs agora numa listagem em Excel
Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs
As palavras na primeira coluna indicam as palavras mais frequumlentes que assim
indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na
primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade
(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de
anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa
compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela
apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de
referecircncia ela eacute incluiacuteda na lista)
13
WordSmith Tools 40 -- 2762007
N Key word Freq RC Freq RC Keyness P
1
COMPUTADOR
3380
03203
28792
2230223
7E-23
2
IMPRESSORA
1812
01717
2526
1761062
1E-22
3
CLIQUE
1553
01472
2491
1476042
3E-22
4
PLACA
2104
01994
19180
136139
3E-22
5
WINDOWS
1603
01519
11497
1108675
6E-22
6
PROCESSADOR
1212
01148
2901
1073848
7E-22
7
BITS
1183
01121
2547
1068828
7E-22
8
USB
913
00865
326
1041225
7E-22
9
IMPRESSAtildeO
1617
01532
19473
9616599
9E-22
10
BARRAMENTO
815
00772
344
9159807
1E-21
11
PLACAS
1514
01435
17867
9061677
1E-21
12
MEMOacuteRIA
1964
01861
49114
8969695
1E-21
13
GEFORCE
672
00637
2
8686718
1E-21
14
SELECIONE
755
00715
496
81116
2E-21
15
PCI
782
00741
1351
7341269
2E-21
16
VIacuteDEO
1379
01307
25009
713415
2E-21
17
TELA
1241
01176
20775
660795
3E-21
18
CONTROLADOR
874
00828
4499
6575389
3E-21
19
DVD
755
00715
2026
6544251
3E-21
20
VOCEcirc
2539
02406
193135
0028
6410745
3E-21
21
RADEON
491
00465
0
6366831
3E-21
22
CONSULTE
630
00597
701
6330112
3E-21
23
HARDWARE
684
00648
1707
6012326
4E-21
24
PALM
700
00663
2140
5911728
4E-21
25
TECLADO
692
00656
2275
5757233
4E-21
26
DISCO
1345
01274
39388
5742442
4E-21
27
MOUSE
750
00711
3769
5675047
4E-21
28
MONITOR
796
00754
6107
5405326
5E-21
29
XP
558
00529
862
5335347
5E-21
30
MB
781
0074
6179
5258846
6E-21
31
BOTAtildeO
693
00657
3595
5203829
6E-21
32
EAX
388
00368
9
4945257
7E-21
33
MEMORIA
480
00455
466
4914386
7E-21
Planilha 1 Palavras-chave em portuguecircs
Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais
deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da
expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo
equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo
bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos
14
satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados
indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a
obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes
(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo
o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato
grande o termo corrente em portuguecircs neste caso eacute disco)
Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em
Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua
Ordem
Portuguecircs
Ordem
Inglecircs
1
COMPUTADOR
23
COMPUTER
2
IMPRESSORA
65
PRINTER
4
PLACA
782
BOARD
6
PROCESSADOR
31
PROCESSOR
8
USB
13
USB
10
BARRAMENTO
71
BUS
12
MEMOacuteRIA
2
MEMORY
15
PCI
8
PCI
18
CONTROLADOR
46
CONTROLLER
25
TECLADO
11
KEYBOARD
26
DISCO
132
PLATTERS
36
MHZ
203
MHZ
37
APLICATIVOS
88
APPLICATIONS
38
TECLA
199
KEY
45
AGP
237
AGP
47
DADOS
3
DATA
57
DISPOSITIVO
25
DEVICE
64
SERVIDOR
26
SERVER
67
INSTALAR
194
INSTALL
68
DRIVE
5
DRIVE
72
SCSI
45
SCSI
77
HTTP
82
HTTP
81
INTERFACE
18
INTERFACE
83
ROM
53
ROM
90
CHIP
142
CHIP
92
RIacuteGIDO
30
HARD
102
DRIVER
499
DRIVER
107
CONFIGURACcedilOtildeES
181
SETTINGS
108
FIREWIRE
330
FIREWIRE
110
MAINFRAME
157
MAINFRAME
113
RAID
684
RAID
Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas
15
A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles
apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do
banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique
tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos
explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos
nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros
(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para
haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos
candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das
legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados
nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma
das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons
de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim
como na planilha 2 indicam sua ordem de chavicidade
Portuguecircs Inglecircs
Legenda
1 COMPUTADOR 23 COMPUTER
definiccedilatildeo encontrada nas duas liacutenguas
2 IMPRESSORA 65 PRINTER
definiccedilatildeo natildeo encontrada nas duas liacutenguas
4 PLACA 782
BOARD
definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs
6 PROCESSADOR 31 PROCESSOR
definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs
8 USB 13 USB
10 BARRAMENTO 71 BUS
adicionado ao banco de dados
12 MEMOacuteRIA 2 MEMORY
natildeo adicionado ao banco de dados
15 PCI 8 PCI
18 CONTROLADOR 46 CONTROLLER
25 TECLADO 11 KEYBOARD
26 DISCO 132
PLATTERS
36 MHZ 203
MHZ
37 APLICATIVOS 88 APPLICATIONS
38 TECLA 199
KEY
45 AGP 237
AGP
47 DADOS 3 DATA
57 DISPOSITIVO 25 DEVICE
64 SERVIDOR 26 SERVER
67 INSTALAR 194
INSTALL
68 DRIVE 5 DRIVE
10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos
16
72 SCSI 45 SCSI
77 HTTP 82 HTTP
81 INTERFACE 18 INTERFACE
83 ROM 53 ROM
90 CHIP 142
CHIP
92 RIacuteGIDO 30 HARD
102
DRIVER 499
DRIVER
107
CONFIGURACcedilOtildeES 181
SETTINGS
108
FIREWIRE 330
FIREWIRE
110
MAINFRAME 157
MAINFRAME
113
RAID 684
RAID
Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos
Para obter os contextos de cada termo utilizamos uma terceira ferramenta do
WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na
listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela
com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)
mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na
linha desejada na coluna File para que o texto seja mostrado por completo
Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha
de um texto) podem nos fornecer os contextos desejados foram usados basicamente
dois artifiacutecios
1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente
uma busca usando os paracircmetros de
(dois pontos) (
(parecircnteses) ou
(viacutergula) A
ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou
como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio
acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo
acima a busca seria realizada como computador computador ( ou
computador
17
Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas
2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta
frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro
termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas
Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito
colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna
R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no
original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e
destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha
quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo
computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)
Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre
uma nova tela (figura 10)
11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo
18
Figura 8 Lista de colocaccedilotildees do termo computador
Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo
19
Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)
A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios
que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras
colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar
uma definiccedilatildeo
Mais corpora
Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez
no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos
pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era
que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida
sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site
bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora
se fez necessaacuteria
Todos os passos descritos nos itens anteriores foram realizados novamente e
uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
6
Grandes Aacutereas
o Computaccedilatildeo
o Hardware
o Componentes Internos
o Computadores
o Perifeacutericos
o Armazenagem
o Cartatildeo Flash
o Discos Oacuteticos
o HD
o Pen-Drive
o Drives Diversos
o Impressoras
o Monitores
o Mouses
o Multifuncionais
o Multimiacutedia
o Placas Diversas
o Scanner
o Teclados
o Rede
o Software
A coleta dos textos
Estabelecida a aacutervore o passo seguinte foi a captura de uma quantidade de
textos em todas as aacutereas suficiente para exibir contextos que pudessem criar definiccedilotildees
para os termos Jaacute existem programas que fazem a coleta e extraccedilatildeo de termos
automaticamente como o BootCaT e ambientes de criaccedilatildeo armazenamento e anaacutelise
de corpora como o Corpoacutegrafo (bem detalhados por ALMEIDA OLIVEIRA
ALUIacuteSIO 2006) Preferiu-se aqui no entanto natildeo utilizar essas e outras ferramentas
disponiacuteveis pois muitas ainda estatildeo em fase de testes e natildeo garantem o balanceamento
de corpus exigido pelo trabalho a coleta foi feita manualmente e depois os textos foram
processados de acordo com as necessidades aqui propostas
Segundo Aubert (1996) as fontes de busca para a definiccedilatildeo de um termo podem
apresentar trecircs tipos de contextos possiacuteveis
O contexto associativo apresenta o termo como pertinente ao tema objeto da pesquisa mas natildeo indica os traccedilos conceptuais especiacuteficos destes termos [] Jaacute os contextos explicativos apresentam alguns traccedilos conceptuais pertinentes especiacuteficos do termo sob observaccedilatildeo frequumlentemente relativos agrave materialidade finalidade funcionamento e
7
similares [] Talvez mais desejaacuteveis mas certamente menos encontradiccedilos os contextos definitoacuterios proporcionam um conjunto completo dos traccedilos conceptuais distintivos do termo Tal distintividade no entanto representa frequumlentemente um certo niacutevel de abstraccedilatildeo sem indiacutecios claros da gama efetiva de usos em situaccedilatildeo do termo (p 66-67)
A busca por contextos associativos no caso da presente pesquisa pode ser
automatizada atraveacutes dos programas de anaacutelise lexical (como o WordSmith Tools que
seraacute explicado adiante) Os contextos explicativos e definitoacuterios por outro lado exigem
certo conhecimento do terminograacutefo sobre como localizaacute-los
A necessidade de refazer os corpora e natildeo apenas reutilizar os que jaacute existiam
deveu-se justamente agrave falta de contextos explicativos e definitoacuterios Verificou-se que ao
proceder agrave anaacutelise computadorizada dos textos previamente selecionados havia lacunas
em alguns subdomiacutenios Mesmo nos subdomiacutenios com vaacuterios textos jaacute coletados o
levantamento dos contextos foi insatisfatoacuterio
Levando tudo isso em conta ao comeccedilar uma nova coleta de textos foi
estabelecido um nuacutemero miacutenimo de vinte mil palavras para cada subdomiacutenio da aacutervore
quantidade que se acreditou razoaacutevel (e que se mostrou acertada apoacutes alguns testes
iniciais com um dos subdomiacutenios disponiacuteveis e a construccedilatildeo de alguns termos como
teste) para o levantamento dos termos e um bom balanceamento entre esses
subdomiacutenios Notou-se poreacutem que jaacute havia mais de um milhatildeo de palavras em cada
liacutengua quando do teacutermino da primeira aacuterea da aacutervore (hardware) Decidiu-se entatildeo
limitar os corpora a esse tamanho para o desenvolvimento da pesquisa Como o
objetivo da construccedilatildeo do banco natildeo era fazer um levantamento completo de um campo
teacutecnico e sim coletar alguns exemplos de termos e seus contextos para posterior anaacutelise
o nuacutemero obtido foi julgado suficiente inclusive por abranger uma aacuterea completa
A coleta dos corpora
Os textos coletados para os corpora de anaacutelise no campo da computaccedilatildeo foram
totalmente levantados pela Internet em sites especializados muitos de caraacuteter
enciclopeacutedico A escolha se deveu agrave facilidade de encontrar textos do campo na rede
(isso eacute uma caracteriacutestica marcante jaacute que nem todos os campos do saber estatildeo bem
representados em termo de quantidade e qualidade na Internet) e a velocidade com que
os mesmos podem ser resgatados Embora existam muito mais sites em inglecircs sobre o
8
campo da computaccedilatildeo natildeo houve dificuldade para achar sites semelhantes (ou ateacute
mesmo traduzidos como o How Stuff Works5) em portuguecircs Foi dada preferecircncia aos
sites de revistas especializadas acadecircmicos ou aqueles especializados em determinado
assunto para o levantamento da pesquisa Um site enciclopeacutedico no entanto foi deixado
de lado a Wikipedia A razatildeo eacute que os termos apresentados pela mesma satildeo
disponibilizados na iacutentegra no site que daacute acesso ao banco de dados
(httpjricmcscuspbr~cometdic)
Para coletar os corpora criou-se um diretoacuterio no computador que exibia pastas
na mesma estrutura da aacutervore de campo (figura 1) O mesmo foi subdividido entre as
liacutenguas (inglecircs e portuguecircs) e todas as aacutereas domiacutenios e subdomiacutenios Novos textos
coletados e aqueles remanescentes do projeto original de Informaacutetica do CORTEC na
aacuterea de hardware jaacute foram distribuiacutedos dentro de suas respectivas pastas Os textos
remanescentes das aacutereas software e rede foram alocados tambeacutem nas respectivas
pastas Embora somente na aacuterea de hardware novos textos tenham sido coletados todos
aqueles jaacute coletados para o CORTEC foram aproveitados para o estudo
Figura 2 Diretoacuterio com pastas na forma da aacutervore de campo aacuterea hardware
Figura 3 Idem aacutereas software e rede
5 lt httphswuolcombrgt O endereccedilo desta e de todas as outras paacuteginas consultadas estaacute disponiacutevel no banco de dados
9
A anaacutelise dos corpora
Para verificar se a quantidade de textos alocados a cada pasta obedecia ao
criteacuterio de vinte mil palavras por subdomiacutenio6 foi usada a ferramenta Wordlist
(listagem de palavras) do programa de Anaacutelise Lexical WordSmith Tools versatildeo 4 de
Scott (2007) para fazer a contagem (veja figura 4 no destaque) Embora haja vaacuterios
programas de anaacutelise computadorizada conforme estudos anteriores (FROMM 2004)
o WordSmith Tools eacute o mais indicado para grande quantidade de dados e para os tipos
de anaacutelise que seratildeo demonstrados a seguir
O volume total de palavras para o corpus de computaccedilatildeo foi de 1029187
palavras em inglecircs e 1055375 palavras em portuguecircs Segundo Berber Sardinha (2004
p26) esses corpora seriam classificados de acordo com a quantidade de palavras
como meacutedios (de 250 mil a um milhatildeo de palavras)
Figura 4 A subaacuterea componentes diversos (em portuguecircs) apresenta uma quantidade de 36324 palavras no total (em destaque)
6 Verificada atraveacutes da quantidade de tokens que a listagem apresenta Os tokens representam a quantidade total de palavras nos textos os types representam a quantidade de palavras natildeo repetidas (distintas) nos textos
10
A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas
subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil
palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume
maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER
SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da
extensatildeo do corpus (no caso a Impressioniacutestica)
Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)
As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados
de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um
arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre
que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e
foram portanto descartados) Os arquivos em formato pdf normalmente estudos
acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma
quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para
o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools
4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o
maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia
repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior
anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de
coleta (figura 5)
Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist
partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes
de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos
chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em
anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs
foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)
totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de
palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American
7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997
11
National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora
de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de
referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha
(2004 p102) como o tamanho recomendado
Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)
Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as
listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de
anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia
correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados
para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os
explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo
natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de
partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a
8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado
12
tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as
palavras-chave em portuguecircs agora numa listagem em Excel
Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs
As palavras na primeira coluna indicam as palavras mais frequumlentes que assim
indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na
primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade
(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de
anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa
compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela
apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de
referecircncia ela eacute incluiacuteda na lista)
13
WordSmith Tools 40 -- 2762007
N Key word Freq RC Freq RC Keyness P
1
COMPUTADOR
3380
03203
28792
2230223
7E-23
2
IMPRESSORA
1812
01717
2526
1761062
1E-22
3
CLIQUE
1553
01472
2491
1476042
3E-22
4
PLACA
2104
01994
19180
136139
3E-22
5
WINDOWS
1603
01519
11497
1108675
6E-22
6
PROCESSADOR
1212
01148
2901
1073848
7E-22
7
BITS
1183
01121
2547
1068828
7E-22
8
USB
913
00865
326
1041225
7E-22
9
IMPRESSAtildeO
1617
01532
19473
9616599
9E-22
10
BARRAMENTO
815
00772
344
9159807
1E-21
11
PLACAS
1514
01435
17867
9061677
1E-21
12
MEMOacuteRIA
1964
01861
49114
8969695
1E-21
13
GEFORCE
672
00637
2
8686718
1E-21
14
SELECIONE
755
00715
496
81116
2E-21
15
PCI
782
00741
1351
7341269
2E-21
16
VIacuteDEO
1379
01307
25009
713415
2E-21
17
TELA
1241
01176
20775
660795
3E-21
18
CONTROLADOR
874
00828
4499
6575389
3E-21
19
DVD
755
00715
2026
6544251
3E-21
20
VOCEcirc
2539
02406
193135
0028
6410745
3E-21
21
RADEON
491
00465
0
6366831
3E-21
22
CONSULTE
630
00597
701
6330112
3E-21
23
HARDWARE
684
00648
1707
6012326
4E-21
24
PALM
700
00663
2140
5911728
4E-21
25
TECLADO
692
00656
2275
5757233
4E-21
26
DISCO
1345
01274
39388
5742442
4E-21
27
MOUSE
750
00711
3769
5675047
4E-21
28
MONITOR
796
00754
6107
5405326
5E-21
29
XP
558
00529
862
5335347
5E-21
30
MB
781
0074
6179
5258846
6E-21
31
BOTAtildeO
693
00657
3595
5203829
6E-21
32
EAX
388
00368
9
4945257
7E-21
33
MEMORIA
480
00455
466
4914386
7E-21
Planilha 1 Palavras-chave em portuguecircs
Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais
deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da
expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo
equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo
bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos
14
satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados
indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a
obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes
(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo
o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato
grande o termo corrente em portuguecircs neste caso eacute disco)
Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em
Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua
Ordem
Portuguecircs
Ordem
Inglecircs
1
COMPUTADOR
23
COMPUTER
2
IMPRESSORA
65
PRINTER
4
PLACA
782
BOARD
6
PROCESSADOR
31
PROCESSOR
8
USB
13
USB
10
BARRAMENTO
71
BUS
12
MEMOacuteRIA
2
MEMORY
15
PCI
8
PCI
18
CONTROLADOR
46
CONTROLLER
25
TECLADO
11
KEYBOARD
26
DISCO
132
PLATTERS
36
MHZ
203
MHZ
37
APLICATIVOS
88
APPLICATIONS
38
TECLA
199
KEY
45
AGP
237
AGP
47
DADOS
3
DATA
57
DISPOSITIVO
25
DEVICE
64
SERVIDOR
26
SERVER
67
INSTALAR
194
INSTALL
68
DRIVE
5
DRIVE
72
SCSI
45
SCSI
77
HTTP
82
HTTP
81
INTERFACE
18
INTERFACE
83
ROM
53
ROM
90
CHIP
142
CHIP
92
RIacuteGIDO
30
HARD
102
DRIVER
499
DRIVER
107
CONFIGURACcedilOtildeES
181
SETTINGS
108
FIREWIRE
330
FIREWIRE
110
MAINFRAME
157
MAINFRAME
113
RAID
684
RAID
Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas
15
A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles
apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do
banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique
tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos
explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos
nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros
(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para
haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos
candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das
legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados
nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma
das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons
de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim
como na planilha 2 indicam sua ordem de chavicidade
Portuguecircs Inglecircs
Legenda
1 COMPUTADOR 23 COMPUTER
definiccedilatildeo encontrada nas duas liacutenguas
2 IMPRESSORA 65 PRINTER
definiccedilatildeo natildeo encontrada nas duas liacutenguas
4 PLACA 782
BOARD
definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs
6 PROCESSADOR 31 PROCESSOR
definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs
8 USB 13 USB
10 BARRAMENTO 71 BUS
adicionado ao banco de dados
12 MEMOacuteRIA 2 MEMORY
natildeo adicionado ao banco de dados
15 PCI 8 PCI
18 CONTROLADOR 46 CONTROLLER
25 TECLADO 11 KEYBOARD
26 DISCO 132
PLATTERS
36 MHZ 203
MHZ
37 APLICATIVOS 88 APPLICATIONS
38 TECLA 199
KEY
45 AGP 237
AGP
47 DADOS 3 DATA
57 DISPOSITIVO 25 DEVICE
64 SERVIDOR 26 SERVER
67 INSTALAR 194
INSTALL
68 DRIVE 5 DRIVE
10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos
16
72 SCSI 45 SCSI
77 HTTP 82 HTTP
81 INTERFACE 18 INTERFACE
83 ROM 53 ROM
90 CHIP 142
CHIP
92 RIacuteGIDO 30 HARD
102
DRIVER 499
DRIVER
107
CONFIGURACcedilOtildeES 181
SETTINGS
108
FIREWIRE 330
FIREWIRE
110
MAINFRAME 157
MAINFRAME
113
RAID 684
RAID
Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos
Para obter os contextos de cada termo utilizamos uma terceira ferramenta do
WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na
listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela
com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)
mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na
linha desejada na coluna File para que o texto seja mostrado por completo
Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha
de um texto) podem nos fornecer os contextos desejados foram usados basicamente
dois artifiacutecios
1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente
uma busca usando os paracircmetros de
(dois pontos) (
(parecircnteses) ou
(viacutergula) A
ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou
como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio
acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo
acima a busca seria realizada como computador computador ( ou
computador
17
Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas
2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta
frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro
termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas
Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito
colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna
R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no
original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e
destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha
quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo
computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)
Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre
uma nova tela (figura 10)
11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo
18
Figura 8 Lista de colocaccedilotildees do termo computador
Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo
19
Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)
A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios
que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras
colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar
uma definiccedilatildeo
Mais corpora
Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez
no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos
pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era
que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida
sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site
bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora
se fez necessaacuteria
Todos os passos descritos nos itens anteriores foram realizados novamente e
uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
7
similares [] Talvez mais desejaacuteveis mas certamente menos encontradiccedilos os contextos definitoacuterios proporcionam um conjunto completo dos traccedilos conceptuais distintivos do termo Tal distintividade no entanto representa frequumlentemente um certo niacutevel de abstraccedilatildeo sem indiacutecios claros da gama efetiva de usos em situaccedilatildeo do termo (p 66-67)
A busca por contextos associativos no caso da presente pesquisa pode ser
automatizada atraveacutes dos programas de anaacutelise lexical (como o WordSmith Tools que
seraacute explicado adiante) Os contextos explicativos e definitoacuterios por outro lado exigem
certo conhecimento do terminograacutefo sobre como localizaacute-los
A necessidade de refazer os corpora e natildeo apenas reutilizar os que jaacute existiam
deveu-se justamente agrave falta de contextos explicativos e definitoacuterios Verificou-se que ao
proceder agrave anaacutelise computadorizada dos textos previamente selecionados havia lacunas
em alguns subdomiacutenios Mesmo nos subdomiacutenios com vaacuterios textos jaacute coletados o
levantamento dos contextos foi insatisfatoacuterio
Levando tudo isso em conta ao comeccedilar uma nova coleta de textos foi
estabelecido um nuacutemero miacutenimo de vinte mil palavras para cada subdomiacutenio da aacutervore
quantidade que se acreditou razoaacutevel (e que se mostrou acertada apoacutes alguns testes
iniciais com um dos subdomiacutenios disponiacuteveis e a construccedilatildeo de alguns termos como
teste) para o levantamento dos termos e um bom balanceamento entre esses
subdomiacutenios Notou-se poreacutem que jaacute havia mais de um milhatildeo de palavras em cada
liacutengua quando do teacutermino da primeira aacuterea da aacutervore (hardware) Decidiu-se entatildeo
limitar os corpora a esse tamanho para o desenvolvimento da pesquisa Como o
objetivo da construccedilatildeo do banco natildeo era fazer um levantamento completo de um campo
teacutecnico e sim coletar alguns exemplos de termos e seus contextos para posterior anaacutelise
o nuacutemero obtido foi julgado suficiente inclusive por abranger uma aacuterea completa
A coleta dos corpora
Os textos coletados para os corpora de anaacutelise no campo da computaccedilatildeo foram
totalmente levantados pela Internet em sites especializados muitos de caraacuteter
enciclopeacutedico A escolha se deveu agrave facilidade de encontrar textos do campo na rede
(isso eacute uma caracteriacutestica marcante jaacute que nem todos os campos do saber estatildeo bem
representados em termo de quantidade e qualidade na Internet) e a velocidade com que
os mesmos podem ser resgatados Embora existam muito mais sites em inglecircs sobre o
8
campo da computaccedilatildeo natildeo houve dificuldade para achar sites semelhantes (ou ateacute
mesmo traduzidos como o How Stuff Works5) em portuguecircs Foi dada preferecircncia aos
sites de revistas especializadas acadecircmicos ou aqueles especializados em determinado
assunto para o levantamento da pesquisa Um site enciclopeacutedico no entanto foi deixado
de lado a Wikipedia A razatildeo eacute que os termos apresentados pela mesma satildeo
disponibilizados na iacutentegra no site que daacute acesso ao banco de dados
(httpjricmcscuspbr~cometdic)
Para coletar os corpora criou-se um diretoacuterio no computador que exibia pastas
na mesma estrutura da aacutervore de campo (figura 1) O mesmo foi subdividido entre as
liacutenguas (inglecircs e portuguecircs) e todas as aacutereas domiacutenios e subdomiacutenios Novos textos
coletados e aqueles remanescentes do projeto original de Informaacutetica do CORTEC na
aacuterea de hardware jaacute foram distribuiacutedos dentro de suas respectivas pastas Os textos
remanescentes das aacutereas software e rede foram alocados tambeacutem nas respectivas
pastas Embora somente na aacuterea de hardware novos textos tenham sido coletados todos
aqueles jaacute coletados para o CORTEC foram aproveitados para o estudo
Figura 2 Diretoacuterio com pastas na forma da aacutervore de campo aacuterea hardware
Figura 3 Idem aacutereas software e rede
5 lt httphswuolcombrgt O endereccedilo desta e de todas as outras paacuteginas consultadas estaacute disponiacutevel no banco de dados
9
A anaacutelise dos corpora
Para verificar se a quantidade de textos alocados a cada pasta obedecia ao
criteacuterio de vinte mil palavras por subdomiacutenio6 foi usada a ferramenta Wordlist
(listagem de palavras) do programa de Anaacutelise Lexical WordSmith Tools versatildeo 4 de
Scott (2007) para fazer a contagem (veja figura 4 no destaque) Embora haja vaacuterios
programas de anaacutelise computadorizada conforme estudos anteriores (FROMM 2004)
o WordSmith Tools eacute o mais indicado para grande quantidade de dados e para os tipos
de anaacutelise que seratildeo demonstrados a seguir
O volume total de palavras para o corpus de computaccedilatildeo foi de 1029187
palavras em inglecircs e 1055375 palavras em portuguecircs Segundo Berber Sardinha (2004
p26) esses corpora seriam classificados de acordo com a quantidade de palavras
como meacutedios (de 250 mil a um milhatildeo de palavras)
Figura 4 A subaacuterea componentes diversos (em portuguecircs) apresenta uma quantidade de 36324 palavras no total (em destaque)
6 Verificada atraveacutes da quantidade de tokens que a listagem apresenta Os tokens representam a quantidade total de palavras nos textos os types representam a quantidade de palavras natildeo repetidas (distintas) nos textos
10
A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas
subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil
palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume
maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER
SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da
extensatildeo do corpus (no caso a Impressioniacutestica)
Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)
As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados
de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um
arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre
que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e
foram portanto descartados) Os arquivos em formato pdf normalmente estudos
acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma
quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para
o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools
4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o
maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia
repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior
anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de
coleta (figura 5)
Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist
partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes
de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos
chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em
anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs
foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)
totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de
palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American
7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997
11
National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora
de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de
referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha
(2004 p102) como o tamanho recomendado
Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)
Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as
listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de
anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia
correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados
para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os
explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo
natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de
partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a
8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado
12
tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as
palavras-chave em portuguecircs agora numa listagem em Excel
Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs
As palavras na primeira coluna indicam as palavras mais frequumlentes que assim
indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na
primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade
(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de
anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa
compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela
apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de
referecircncia ela eacute incluiacuteda na lista)
13
WordSmith Tools 40 -- 2762007
N Key word Freq RC Freq RC Keyness P
1
COMPUTADOR
3380
03203
28792
2230223
7E-23
2
IMPRESSORA
1812
01717
2526
1761062
1E-22
3
CLIQUE
1553
01472
2491
1476042
3E-22
4
PLACA
2104
01994
19180
136139
3E-22
5
WINDOWS
1603
01519
11497
1108675
6E-22
6
PROCESSADOR
1212
01148
2901
1073848
7E-22
7
BITS
1183
01121
2547
1068828
7E-22
8
USB
913
00865
326
1041225
7E-22
9
IMPRESSAtildeO
1617
01532
19473
9616599
9E-22
10
BARRAMENTO
815
00772
344
9159807
1E-21
11
PLACAS
1514
01435
17867
9061677
1E-21
12
MEMOacuteRIA
1964
01861
49114
8969695
1E-21
13
GEFORCE
672
00637
2
8686718
1E-21
14
SELECIONE
755
00715
496
81116
2E-21
15
PCI
782
00741
1351
7341269
2E-21
16
VIacuteDEO
1379
01307
25009
713415
2E-21
17
TELA
1241
01176
20775
660795
3E-21
18
CONTROLADOR
874
00828
4499
6575389
3E-21
19
DVD
755
00715
2026
6544251
3E-21
20
VOCEcirc
2539
02406
193135
0028
6410745
3E-21
21
RADEON
491
00465
0
6366831
3E-21
22
CONSULTE
630
00597
701
6330112
3E-21
23
HARDWARE
684
00648
1707
6012326
4E-21
24
PALM
700
00663
2140
5911728
4E-21
25
TECLADO
692
00656
2275
5757233
4E-21
26
DISCO
1345
01274
39388
5742442
4E-21
27
MOUSE
750
00711
3769
5675047
4E-21
28
MONITOR
796
00754
6107
5405326
5E-21
29
XP
558
00529
862
5335347
5E-21
30
MB
781
0074
6179
5258846
6E-21
31
BOTAtildeO
693
00657
3595
5203829
6E-21
32
EAX
388
00368
9
4945257
7E-21
33
MEMORIA
480
00455
466
4914386
7E-21
Planilha 1 Palavras-chave em portuguecircs
Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais
deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da
expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo
equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo
bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos
14
satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados
indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a
obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes
(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo
o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato
grande o termo corrente em portuguecircs neste caso eacute disco)
Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em
Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua
Ordem
Portuguecircs
Ordem
Inglecircs
1
COMPUTADOR
23
COMPUTER
2
IMPRESSORA
65
PRINTER
4
PLACA
782
BOARD
6
PROCESSADOR
31
PROCESSOR
8
USB
13
USB
10
BARRAMENTO
71
BUS
12
MEMOacuteRIA
2
MEMORY
15
PCI
8
PCI
18
CONTROLADOR
46
CONTROLLER
25
TECLADO
11
KEYBOARD
26
DISCO
132
PLATTERS
36
MHZ
203
MHZ
37
APLICATIVOS
88
APPLICATIONS
38
TECLA
199
KEY
45
AGP
237
AGP
47
DADOS
3
DATA
57
DISPOSITIVO
25
DEVICE
64
SERVIDOR
26
SERVER
67
INSTALAR
194
INSTALL
68
DRIVE
5
DRIVE
72
SCSI
45
SCSI
77
HTTP
82
HTTP
81
INTERFACE
18
INTERFACE
83
ROM
53
ROM
90
CHIP
142
CHIP
92
RIacuteGIDO
30
HARD
102
DRIVER
499
DRIVER
107
CONFIGURACcedilOtildeES
181
SETTINGS
108
FIREWIRE
330
FIREWIRE
110
MAINFRAME
157
MAINFRAME
113
RAID
684
RAID
Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas
15
A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles
apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do
banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique
tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos
explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos
nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros
(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para
haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos
candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das
legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados
nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma
das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons
de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim
como na planilha 2 indicam sua ordem de chavicidade
Portuguecircs Inglecircs
Legenda
1 COMPUTADOR 23 COMPUTER
definiccedilatildeo encontrada nas duas liacutenguas
2 IMPRESSORA 65 PRINTER
definiccedilatildeo natildeo encontrada nas duas liacutenguas
4 PLACA 782
BOARD
definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs
6 PROCESSADOR 31 PROCESSOR
definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs
8 USB 13 USB
10 BARRAMENTO 71 BUS
adicionado ao banco de dados
12 MEMOacuteRIA 2 MEMORY
natildeo adicionado ao banco de dados
15 PCI 8 PCI
18 CONTROLADOR 46 CONTROLLER
25 TECLADO 11 KEYBOARD
26 DISCO 132
PLATTERS
36 MHZ 203
MHZ
37 APLICATIVOS 88 APPLICATIONS
38 TECLA 199
KEY
45 AGP 237
AGP
47 DADOS 3 DATA
57 DISPOSITIVO 25 DEVICE
64 SERVIDOR 26 SERVER
67 INSTALAR 194
INSTALL
68 DRIVE 5 DRIVE
10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos
16
72 SCSI 45 SCSI
77 HTTP 82 HTTP
81 INTERFACE 18 INTERFACE
83 ROM 53 ROM
90 CHIP 142
CHIP
92 RIacuteGIDO 30 HARD
102
DRIVER 499
DRIVER
107
CONFIGURACcedilOtildeES 181
SETTINGS
108
FIREWIRE 330
FIREWIRE
110
MAINFRAME 157
MAINFRAME
113
RAID 684
RAID
Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos
Para obter os contextos de cada termo utilizamos uma terceira ferramenta do
WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na
listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela
com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)
mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na
linha desejada na coluna File para que o texto seja mostrado por completo
Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha
de um texto) podem nos fornecer os contextos desejados foram usados basicamente
dois artifiacutecios
1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente
uma busca usando os paracircmetros de
(dois pontos) (
(parecircnteses) ou
(viacutergula) A
ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou
como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio
acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo
acima a busca seria realizada como computador computador ( ou
computador
17
Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas
2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta
frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro
termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas
Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito
colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna
R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no
original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e
destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha
quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo
computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)
Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre
uma nova tela (figura 10)
11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo
18
Figura 8 Lista de colocaccedilotildees do termo computador
Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo
19
Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)
A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios
que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras
colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar
uma definiccedilatildeo
Mais corpora
Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez
no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos
pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era
que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida
sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site
bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora
se fez necessaacuteria
Todos os passos descritos nos itens anteriores foram realizados novamente e
uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
8
campo da computaccedilatildeo natildeo houve dificuldade para achar sites semelhantes (ou ateacute
mesmo traduzidos como o How Stuff Works5) em portuguecircs Foi dada preferecircncia aos
sites de revistas especializadas acadecircmicos ou aqueles especializados em determinado
assunto para o levantamento da pesquisa Um site enciclopeacutedico no entanto foi deixado
de lado a Wikipedia A razatildeo eacute que os termos apresentados pela mesma satildeo
disponibilizados na iacutentegra no site que daacute acesso ao banco de dados
(httpjricmcscuspbr~cometdic)
Para coletar os corpora criou-se um diretoacuterio no computador que exibia pastas
na mesma estrutura da aacutervore de campo (figura 1) O mesmo foi subdividido entre as
liacutenguas (inglecircs e portuguecircs) e todas as aacutereas domiacutenios e subdomiacutenios Novos textos
coletados e aqueles remanescentes do projeto original de Informaacutetica do CORTEC na
aacuterea de hardware jaacute foram distribuiacutedos dentro de suas respectivas pastas Os textos
remanescentes das aacutereas software e rede foram alocados tambeacutem nas respectivas
pastas Embora somente na aacuterea de hardware novos textos tenham sido coletados todos
aqueles jaacute coletados para o CORTEC foram aproveitados para o estudo
Figura 2 Diretoacuterio com pastas na forma da aacutervore de campo aacuterea hardware
Figura 3 Idem aacutereas software e rede
5 lt httphswuolcombrgt O endereccedilo desta e de todas as outras paacuteginas consultadas estaacute disponiacutevel no banco de dados
9
A anaacutelise dos corpora
Para verificar se a quantidade de textos alocados a cada pasta obedecia ao
criteacuterio de vinte mil palavras por subdomiacutenio6 foi usada a ferramenta Wordlist
(listagem de palavras) do programa de Anaacutelise Lexical WordSmith Tools versatildeo 4 de
Scott (2007) para fazer a contagem (veja figura 4 no destaque) Embora haja vaacuterios
programas de anaacutelise computadorizada conforme estudos anteriores (FROMM 2004)
o WordSmith Tools eacute o mais indicado para grande quantidade de dados e para os tipos
de anaacutelise que seratildeo demonstrados a seguir
O volume total de palavras para o corpus de computaccedilatildeo foi de 1029187
palavras em inglecircs e 1055375 palavras em portuguecircs Segundo Berber Sardinha (2004
p26) esses corpora seriam classificados de acordo com a quantidade de palavras
como meacutedios (de 250 mil a um milhatildeo de palavras)
Figura 4 A subaacuterea componentes diversos (em portuguecircs) apresenta uma quantidade de 36324 palavras no total (em destaque)
6 Verificada atraveacutes da quantidade de tokens que a listagem apresenta Os tokens representam a quantidade total de palavras nos textos os types representam a quantidade de palavras natildeo repetidas (distintas) nos textos
10
A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas
subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil
palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume
maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER
SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da
extensatildeo do corpus (no caso a Impressioniacutestica)
Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)
As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados
de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um
arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre
que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e
foram portanto descartados) Os arquivos em formato pdf normalmente estudos
acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma
quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para
o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools
4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o
maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia
repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior
anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de
coleta (figura 5)
Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist
partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes
de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos
chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em
anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs
foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)
totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de
palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American
7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997
11
National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora
de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de
referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha
(2004 p102) como o tamanho recomendado
Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)
Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as
listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de
anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia
correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados
para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os
explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo
natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de
partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a
8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado
12
tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as
palavras-chave em portuguecircs agora numa listagem em Excel
Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs
As palavras na primeira coluna indicam as palavras mais frequumlentes que assim
indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na
primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade
(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de
anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa
compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela
apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de
referecircncia ela eacute incluiacuteda na lista)
13
WordSmith Tools 40 -- 2762007
N Key word Freq RC Freq RC Keyness P
1
COMPUTADOR
3380
03203
28792
2230223
7E-23
2
IMPRESSORA
1812
01717
2526
1761062
1E-22
3
CLIQUE
1553
01472
2491
1476042
3E-22
4
PLACA
2104
01994
19180
136139
3E-22
5
WINDOWS
1603
01519
11497
1108675
6E-22
6
PROCESSADOR
1212
01148
2901
1073848
7E-22
7
BITS
1183
01121
2547
1068828
7E-22
8
USB
913
00865
326
1041225
7E-22
9
IMPRESSAtildeO
1617
01532
19473
9616599
9E-22
10
BARRAMENTO
815
00772
344
9159807
1E-21
11
PLACAS
1514
01435
17867
9061677
1E-21
12
MEMOacuteRIA
1964
01861
49114
8969695
1E-21
13
GEFORCE
672
00637
2
8686718
1E-21
14
SELECIONE
755
00715
496
81116
2E-21
15
PCI
782
00741
1351
7341269
2E-21
16
VIacuteDEO
1379
01307
25009
713415
2E-21
17
TELA
1241
01176
20775
660795
3E-21
18
CONTROLADOR
874
00828
4499
6575389
3E-21
19
DVD
755
00715
2026
6544251
3E-21
20
VOCEcirc
2539
02406
193135
0028
6410745
3E-21
21
RADEON
491
00465
0
6366831
3E-21
22
CONSULTE
630
00597
701
6330112
3E-21
23
HARDWARE
684
00648
1707
6012326
4E-21
24
PALM
700
00663
2140
5911728
4E-21
25
TECLADO
692
00656
2275
5757233
4E-21
26
DISCO
1345
01274
39388
5742442
4E-21
27
MOUSE
750
00711
3769
5675047
4E-21
28
MONITOR
796
00754
6107
5405326
5E-21
29
XP
558
00529
862
5335347
5E-21
30
MB
781
0074
6179
5258846
6E-21
31
BOTAtildeO
693
00657
3595
5203829
6E-21
32
EAX
388
00368
9
4945257
7E-21
33
MEMORIA
480
00455
466
4914386
7E-21
Planilha 1 Palavras-chave em portuguecircs
Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais
deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da
expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo
equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo
bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos
14
satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados
indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a
obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes
(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo
o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato
grande o termo corrente em portuguecircs neste caso eacute disco)
Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em
Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua
Ordem
Portuguecircs
Ordem
Inglecircs
1
COMPUTADOR
23
COMPUTER
2
IMPRESSORA
65
PRINTER
4
PLACA
782
BOARD
6
PROCESSADOR
31
PROCESSOR
8
USB
13
USB
10
BARRAMENTO
71
BUS
12
MEMOacuteRIA
2
MEMORY
15
PCI
8
PCI
18
CONTROLADOR
46
CONTROLLER
25
TECLADO
11
KEYBOARD
26
DISCO
132
PLATTERS
36
MHZ
203
MHZ
37
APLICATIVOS
88
APPLICATIONS
38
TECLA
199
KEY
45
AGP
237
AGP
47
DADOS
3
DATA
57
DISPOSITIVO
25
DEVICE
64
SERVIDOR
26
SERVER
67
INSTALAR
194
INSTALL
68
DRIVE
5
DRIVE
72
SCSI
45
SCSI
77
HTTP
82
HTTP
81
INTERFACE
18
INTERFACE
83
ROM
53
ROM
90
CHIP
142
CHIP
92
RIacuteGIDO
30
HARD
102
DRIVER
499
DRIVER
107
CONFIGURACcedilOtildeES
181
SETTINGS
108
FIREWIRE
330
FIREWIRE
110
MAINFRAME
157
MAINFRAME
113
RAID
684
RAID
Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas
15
A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles
apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do
banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique
tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos
explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos
nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros
(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para
haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos
candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das
legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados
nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma
das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons
de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim
como na planilha 2 indicam sua ordem de chavicidade
Portuguecircs Inglecircs
Legenda
1 COMPUTADOR 23 COMPUTER
definiccedilatildeo encontrada nas duas liacutenguas
2 IMPRESSORA 65 PRINTER
definiccedilatildeo natildeo encontrada nas duas liacutenguas
4 PLACA 782
BOARD
definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs
6 PROCESSADOR 31 PROCESSOR
definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs
8 USB 13 USB
10 BARRAMENTO 71 BUS
adicionado ao banco de dados
12 MEMOacuteRIA 2 MEMORY
natildeo adicionado ao banco de dados
15 PCI 8 PCI
18 CONTROLADOR 46 CONTROLLER
25 TECLADO 11 KEYBOARD
26 DISCO 132
PLATTERS
36 MHZ 203
MHZ
37 APLICATIVOS 88 APPLICATIONS
38 TECLA 199
KEY
45 AGP 237
AGP
47 DADOS 3 DATA
57 DISPOSITIVO 25 DEVICE
64 SERVIDOR 26 SERVER
67 INSTALAR 194
INSTALL
68 DRIVE 5 DRIVE
10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos
16
72 SCSI 45 SCSI
77 HTTP 82 HTTP
81 INTERFACE 18 INTERFACE
83 ROM 53 ROM
90 CHIP 142
CHIP
92 RIacuteGIDO 30 HARD
102
DRIVER 499
DRIVER
107
CONFIGURACcedilOtildeES 181
SETTINGS
108
FIREWIRE 330
FIREWIRE
110
MAINFRAME 157
MAINFRAME
113
RAID 684
RAID
Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos
Para obter os contextos de cada termo utilizamos uma terceira ferramenta do
WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na
listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela
com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)
mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na
linha desejada na coluna File para que o texto seja mostrado por completo
Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha
de um texto) podem nos fornecer os contextos desejados foram usados basicamente
dois artifiacutecios
1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente
uma busca usando os paracircmetros de
(dois pontos) (
(parecircnteses) ou
(viacutergula) A
ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou
como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio
acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo
acima a busca seria realizada como computador computador ( ou
computador
17
Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas
2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta
frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro
termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas
Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito
colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna
R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no
original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e
destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha
quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo
computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)
Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre
uma nova tela (figura 10)
11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo
18
Figura 8 Lista de colocaccedilotildees do termo computador
Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo
19
Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)
A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios
que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras
colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar
uma definiccedilatildeo
Mais corpora
Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez
no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos
pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era
que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida
sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site
bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora
se fez necessaacuteria
Todos os passos descritos nos itens anteriores foram realizados novamente e
uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
9
A anaacutelise dos corpora
Para verificar se a quantidade de textos alocados a cada pasta obedecia ao
criteacuterio de vinte mil palavras por subdomiacutenio6 foi usada a ferramenta Wordlist
(listagem de palavras) do programa de Anaacutelise Lexical WordSmith Tools versatildeo 4 de
Scott (2007) para fazer a contagem (veja figura 4 no destaque) Embora haja vaacuterios
programas de anaacutelise computadorizada conforme estudos anteriores (FROMM 2004)
o WordSmith Tools eacute o mais indicado para grande quantidade de dados e para os tipos
de anaacutelise que seratildeo demonstrados a seguir
O volume total de palavras para o corpus de computaccedilatildeo foi de 1029187
palavras em inglecircs e 1055375 palavras em portuguecircs Segundo Berber Sardinha (2004
p26) esses corpora seriam classificados de acordo com a quantidade de palavras
como meacutedios (de 250 mil a um milhatildeo de palavras)
Figura 4 A subaacuterea componentes diversos (em portuguecircs) apresenta uma quantidade de 36324 palavras no total (em destaque)
6 Verificada atraveacutes da quantidade de tokens que a listagem apresenta Os tokens representam a quantidade total de palavras nos textos os types representam a quantidade de palavras natildeo repetidas (distintas) nos textos
10
A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas
subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil
palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume
maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER
SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da
extensatildeo do corpus (no caso a Impressioniacutestica)
Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)
As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados
de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um
arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre
que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e
foram portanto descartados) Os arquivos em formato pdf normalmente estudos
acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma
quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para
o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools
4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o
maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia
repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior
anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de
coleta (figura 5)
Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist
partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes
de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos
chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em
anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs
foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)
totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de
palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American
7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997
11
National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora
de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de
referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha
(2004 p102) como o tamanho recomendado
Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)
Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as
listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de
anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia
correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados
para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os
explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo
natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de
partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a
8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado
12
tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as
palavras-chave em portuguecircs agora numa listagem em Excel
Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs
As palavras na primeira coluna indicam as palavras mais frequumlentes que assim
indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na
primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade
(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de
anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa
compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela
apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de
referecircncia ela eacute incluiacuteda na lista)
13
WordSmith Tools 40 -- 2762007
N Key word Freq RC Freq RC Keyness P
1
COMPUTADOR
3380
03203
28792
2230223
7E-23
2
IMPRESSORA
1812
01717
2526
1761062
1E-22
3
CLIQUE
1553
01472
2491
1476042
3E-22
4
PLACA
2104
01994
19180
136139
3E-22
5
WINDOWS
1603
01519
11497
1108675
6E-22
6
PROCESSADOR
1212
01148
2901
1073848
7E-22
7
BITS
1183
01121
2547
1068828
7E-22
8
USB
913
00865
326
1041225
7E-22
9
IMPRESSAtildeO
1617
01532
19473
9616599
9E-22
10
BARRAMENTO
815
00772
344
9159807
1E-21
11
PLACAS
1514
01435
17867
9061677
1E-21
12
MEMOacuteRIA
1964
01861
49114
8969695
1E-21
13
GEFORCE
672
00637
2
8686718
1E-21
14
SELECIONE
755
00715
496
81116
2E-21
15
PCI
782
00741
1351
7341269
2E-21
16
VIacuteDEO
1379
01307
25009
713415
2E-21
17
TELA
1241
01176
20775
660795
3E-21
18
CONTROLADOR
874
00828
4499
6575389
3E-21
19
DVD
755
00715
2026
6544251
3E-21
20
VOCEcirc
2539
02406
193135
0028
6410745
3E-21
21
RADEON
491
00465
0
6366831
3E-21
22
CONSULTE
630
00597
701
6330112
3E-21
23
HARDWARE
684
00648
1707
6012326
4E-21
24
PALM
700
00663
2140
5911728
4E-21
25
TECLADO
692
00656
2275
5757233
4E-21
26
DISCO
1345
01274
39388
5742442
4E-21
27
MOUSE
750
00711
3769
5675047
4E-21
28
MONITOR
796
00754
6107
5405326
5E-21
29
XP
558
00529
862
5335347
5E-21
30
MB
781
0074
6179
5258846
6E-21
31
BOTAtildeO
693
00657
3595
5203829
6E-21
32
EAX
388
00368
9
4945257
7E-21
33
MEMORIA
480
00455
466
4914386
7E-21
Planilha 1 Palavras-chave em portuguecircs
Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais
deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da
expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo
equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo
bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos
14
satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados
indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a
obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes
(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo
o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato
grande o termo corrente em portuguecircs neste caso eacute disco)
Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em
Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua
Ordem
Portuguecircs
Ordem
Inglecircs
1
COMPUTADOR
23
COMPUTER
2
IMPRESSORA
65
PRINTER
4
PLACA
782
BOARD
6
PROCESSADOR
31
PROCESSOR
8
USB
13
USB
10
BARRAMENTO
71
BUS
12
MEMOacuteRIA
2
MEMORY
15
PCI
8
PCI
18
CONTROLADOR
46
CONTROLLER
25
TECLADO
11
KEYBOARD
26
DISCO
132
PLATTERS
36
MHZ
203
MHZ
37
APLICATIVOS
88
APPLICATIONS
38
TECLA
199
KEY
45
AGP
237
AGP
47
DADOS
3
DATA
57
DISPOSITIVO
25
DEVICE
64
SERVIDOR
26
SERVER
67
INSTALAR
194
INSTALL
68
DRIVE
5
DRIVE
72
SCSI
45
SCSI
77
HTTP
82
HTTP
81
INTERFACE
18
INTERFACE
83
ROM
53
ROM
90
CHIP
142
CHIP
92
RIacuteGIDO
30
HARD
102
DRIVER
499
DRIVER
107
CONFIGURACcedilOtildeES
181
SETTINGS
108
FIREWIRE
330
FIREWIRE
110
MAINFRAME
157
MAINFRAME
113
RAID
684
RAID
Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas
15
A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles
apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do
banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique
tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos
explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos
nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros
(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para
haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos
candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das
legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados
nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma
das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons
de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim
como na planilha 2 indicam sua ordem de chavicidade
Portuguecircs Inglecircs
Legenda
1 COMPUTADOR 23 COMPUTER
definiccedilatildeo encontrada nas duas liacutenguas
2 IMPRESSORA 65 PRINTER
definiccedilatildeo natildeo encontrada nas duas liacutenguas
4 PLACA 782
BOARD
definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs
6 PROCESSADOR 31 PROCESSOR
definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs
8 USB 13 USB
10 BARRAMENTO 71 BUS
adicionado ao banco de dados
12 MEMOacuteRIA 2 MEMORY
natildeo adicionado ao banco de dados
15 PCI 8 PCI
18 CONTROLADOR 46 CONTROLLER
25 TECLADO 11 KEYBOARD
26 DISCO 132
PLATTERS
36 MHZ 203
MHZ
37 APLICATIVOS 88 APPLICATIONS
38 TECLA 199
KEY
45 AGP 237
AGP
47 DADOS 3 DATA
57 DISPOSITIVO 25 DEVICE
64 SERVIDOR 26 SERVER
67 INSTALAR 194
INSTALL
68 DRIVE 5 DRIVE
10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos
16
72 SCSI 45 SCSI
77 HTTP 82 HTTP
81 INTERFACE 18 INTERFACE
83 ROM 53 ROM
90 CHIP 142
CHIP
92 RIacuteGIDO 30 HARD
102
DRIVER 499
DRIVER
107
CONFIGURACcedilOtildeES 181
SETTINGS
108
FIREWIRE 330
FIREWIRE
110
MAINFRAME 157
MAINFRAME
113
RAID 684
RAID
Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos
Para obter os contextos de cada termo utilizamos uma terceira ferramenta do
WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na
listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela
com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)
mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na
linha desejada na coluna File para que o texto seja mostrado por completo
Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha
de um texto) podem nos fornecer os contextos desejados foram usados basicamente
dois artifiacutecios
1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente
uma busca usando os paracircmetros de
(dois pontos) (
(parecircnteses) ou
(viacutergula) A
ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou
como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio
acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo
acima a busca seria realizada como computador computador ( ou
computador
17
Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas
2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta
frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro
termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas
Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito
colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna
R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no
original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e
destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha
quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo
computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)
Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre
uma nova tela (figura 10)
11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo
18
Figura 8 Lista de colocaccedilotildees do termo computador
Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo
19
Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)
A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios
que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras
colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar
uma definiccedilatildeo
Mais corpora
Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez
no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos
pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era
que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida
sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site
bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora
se fez necessaacuteria
Todos os passos descritos nos itens anteriores foram realizados novamente e
uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
10
A cada vinte mil palavras levantadas partia-se para uma nova subaacuterea Algumas
subaacutereas no entanto tecircm um valor bastante superior a esse O limite de vinte mil
palavras portanto foi o miacutenimo a ser levantado natildeo houve preocupaccedilatildeo com o volume
maacuteximo Berber Sardinha ao citar Sinclair7 (1997 p27-39 apud BERBER
SARDINHA 2004 p26) comenta uma entre as possiacuteveis abordagens a respeito da
extensatildeo do corpus (no caso a Impressioniacutestica)
Sinclair [] postula que o corpus deva ser tatildeo grande quanto a tecnologia permitir para a eacutepoca deixando subentender que a extensatildeo de um corpus deva variar de acordo com o padratildeo corrente nos grandes centros de pesquisa que possuem equipamentos de uacuteltima geraccedilatildeordquo (p 26)
As variaccedilotildees de tamanho deram-se em virtude dos tipos de arquivos baixados
de algumas paacuteginas o texto foi retirado no formato html copiado e colado para um
arquivo formato txt outras paacuteginas forneceram arquivos no formato pdf que sempre
que possiacutevel foram copiados para txt tambeacutem (alguns natildeo puderam ser copiados e
foram portanto descartados) Os arquivos em formato pdf normalmente estudos
acadecircmicos sobre a aacuterea manuais de instruccedilatildeo ou propaganda dos fabricantes tecircm uma
quantidade maior de palavras Essa preocupaccedilatildeo em transformar todos os arquivos para
o formato txt daacute-se por causa da velocidade de anaacutelise do programa WordSmith Tools
4 Embora ele tambeacutem leia arquivos salvos em outros formatos eacute no txt que ele tem o
maacuteximo de desempenho Os arquivos foram salvos com o tiacutetulo do texto (quando havia
repeticcedilatildeo dos tiacutetulos foram acrescentados nuacutemeros sequumlenciais) e para fins de posterior
anaacutelise depois de copiados os textos foram incluiacutedos o endereccedilo do site e a data de
coleta (figura 5)
Ao teacutermino da coleta e primeira anaacutelise dos corpora em forma de Wordlist
partiu-se para o segundo passo que eacute a criaccedilatildeo das palavras-chave (Keywords) Antes
de iniciar a ferramenta Keywords do WordSmith Tools eacute necessaacuteria a criaccedilatildeo dos
chamados corpora de referecircncia que satildeo grandes corpora de textos gerais da liacutengua em
anaacutelise e que servem como paracircmetro de comparaccedilatildeo para a ferramenta Em portuguecircs
foi usada a versatildeo beta do Banco de Portuguecircs (BERBER SARDINHA 2007)
totalizando 689294592 palavras em inglecircs usou-se uma combinaccedilatildeo das listas de
palavras do BNC (British National Corpus) e de uma versatildeo beta do ANC (American
7 SINCLAIR J Corpus evidence in language description In WICHMANN A S et al Teaching and language corpora LondresNova Iorque Longman 1997
11
National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora
de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de
referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha
(2004 p102) como o tamanho recomendado
Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)
Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as
listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de
anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia
correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados
para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os
explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo
natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de
partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a
8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado
12
tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as
palavras-chave em portuguecircs agora numa listagem em Excel
Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs
As palavras na primeira coluna indicam as palavras mais frequumlentes que assim
indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na
primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade
(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de
anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa
compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela
apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de
referecircncia ela eacute incluiacuteda na lista)
13
WordSmith Tools 40 -- 2762007
N Key word Freq RC Freq RC Keyness P
1
COMPUTADOR
3380
03203
28792
2230223
7E-23
2
IMPRESSORA
1812
01717
2526
1761062
1E-22
3
CLIQUE
1553
01472
2491
1476042
3E-22
4
PLACA
2104
01994
19180
136139
3E-22
5
WINDOWS
1603
01519
11497
1108675
6E-22
6
PROCESSADOR
1212
01148
2901
1073848
7E-22
7
BITS
1183
01121
2547
1068828
7E-22
8
USB
913
00865
326
1041225
7E-22
9
IMPRESSAtildeO
1617
01532
19473
9616599
9E-22
10
BARRAMENTO
815
00772
344
9159807
1E-21
11
PLACAS
1514
01435
17867
9061677
1E-21
12
MEMOacuteRIA
1964
01861
49114
8969695
1E-21
13
GEFORCE
672
00637
2
8686718
1E-21
14
SELECIONE
755
00715
496
81116
2E-21
15
PCI
782
00741
1351
7341269
2E-21
16
VIacuteDEO
1379
01307
25009
713415
2E-21
17
TELA
1241
01176
20775
660795
3E-21
18
CONTROLADOR
874
00828
4499
6575389
3E-21
19
DVD
755
00715
2026
6544251
3E-21
20
VOCEcirc
2539
02406
193135
0028
6410745
3E-21
21
RADEON
491
00465
0
6366831
3E-21
22
CONSULTE
630
00597
701
6330112
3E-21
23
HARDWARE
684
00648
1707
6012326
4E-21
24
PALM
700
00663
2140
5911728
4E-21
25
TECLADO
692
00656
2275
5757233
4E-21
26
DISCO
1345
01274
39388
5742442
4E-21
27
MOUSE
750
00711
3769
5675047
4E-21
28
MONITOR
796
00754
6107
5405326
5E-21
29
XP
558
00529
862
5335347
5E-21
30
MB
781
0074
6179
5258846
6E-21
31
BOTAtildeO
693
00657
3595
5203829
6E-21
32
EAX
388
00368
9
4945257
7E-21
33
MEMORIA
480
00455
466
4914386
7E-21
Planilha 1 Palavras-chave em portuguecircs
Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais
deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da
expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo
equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo
bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos
14
satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados
indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a
obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes
(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo
o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato
grande o termo corrente em portuguecircs neste caso eacute disco)
Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em
Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua
Ordem
Portuguecircs
Ordem
Inglecircs
1
COMPUTADOR
23
COMPUTER
2
IMPRESSORA
65
PRINTER
4
PLACA
782
BOARD
6
PROCESSADOR
31
PROCESSOR
8
USB
13
USB
10
BARRAMENTO
71
BUS
12
MEMOacuteRIA
2
MEMORY
15
PCI
8
PCI
18
CONTROLADOR
46
CONTROLLER
25
TECLADO
11
KEYBOARD
26
DISCO
132
PLATTERS
36
MHZ
203
MHZ
37
APLICATIVOS
88
APPLICATIONS
38
TECLA
199
KEY
45
AGP
237
AGP
47
DADOS
3
DATA
57
DISPOSITIVO
25
DEVICE
64
SERVIDOR
26
SERVER
67
INSTALAR
194
INSTALL
68
DRIVE
5
DRIVE
72
SCSI
45
SCSI
77
HTTP
82
HTTP
81
INTERFACE
18
INTERFACE
83
ROM
53
ROM
90
CHIP
142
CHIP
92
RIacuteGIDO
30
HARD
102
DRIVER
499
DRIVER
107
CONFIGURACcedilOtildeES
181
SETTINGS
108
FIREWIRE
330
FIREWIRE
110
MAINFRAME
157
MAINFRAME
113
RAID
684
RAID
Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas
15
A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles
apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do
banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique
tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos
explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos
nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros
(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para
haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos
candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das
legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados
nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma
das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons
de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim
como na planilha 2 indicam sua ordem de chavicidade
Portuguecircs Inglecircs
Legenda
1 COMPUTADOR 23 COMPUTER
definiccedilatildeo encontrada nas duas liacutenguas
2 IMPRESSORA 65 PRINTER
definiccedilatildeo natildeo encontrada nas duas liacutenguas
4 PLACA 782
BOARD
definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs
6 PROCESSADOR 31 PROCESSOR
definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs
8 USB 13 USB
10 BARRAMENTO 71 BUS
adicionado ao banco de dados
12 MEMOacuteRIA 2 MEMORY
natildeo adicionado ao banco de dados
15 PCI 8 PCI
18 CONTROLADOR 46 CONTROLLER
25 TECLADO 11 KEYBOARD
26 DISCO 132
PLATTERS
36 MHZ 203
MHZ
37 APLICATIVOS 88 APPLICATIONS
38 TECLA 199
KEY
45 AGP 237
AGP
47 DADOS 3 DATA
57 DISPOSITIVO 25 DEVICE
64 SERVIDOR 26 SERVER
67 INSTALAR 194
INSTALL
68 DRIVE 5 DRIVE
10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos
16
72 SCSI 45 SCSI
77 HTTP 82 HTTP
81 INTERFACE 18 INTERFACE
83 ROM 53 ROM
90 CHIP 142
CHIP
92 RIacuteGIDO 30 HARD
102
DRIVER 499
DRIVER
107
CONFIGURACcedilOtildeES 181
SETTINGS
108
FIREWIRE 330
FIREWIRE
110
MAINFRAME 157
MAINFRAME
113
RAID 684
RAID
Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos
Para obter os contextos de cada termo utilizamos uma terceira ferramenta do
WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na
listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela
com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)
mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na
linha desejada na coluna File para que o texto seja mostrado por completo
Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha
de um texto) podem nos fornecer os contextos desejados foram usados basicamente
dois artifiacutecios
1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente
uma busca usando os paracircmetros de
(dois pontos) (
(parecircnteses) ou
(viacutergula) A
ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou
como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio
acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo
acima a busca seria realizada como computador computador ( ou
computador
17
Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas
2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta
frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro
termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas
Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito
colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna
R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no
original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e
destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha
quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo
computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)
Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre
uma nova tela (figura 10)
11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo
18
Figura 8 Lista de colocaccedilotildees do termo computador
Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo
19
Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)
A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios
que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras
colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar
uma definiccedilatildeo
Mais corpora
Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez
no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos
pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era
que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida
sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site
bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora
se fez necessaacuteria
Todos os passos descritos nos itens anteriores foram realizados novamente e
uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
11
National Corpus)8 totalizando 122224832 palavras Em ambos os casos os corpora
de referecircncia satildeo bem maiores do que a proporccedilatildeo de cinco para um (o corpus de
referecircncia eacute cinco vezes maior que o corpus de anaacutelise) proposta por Berber-Sardinha
(2004 p102) como o tamanho recomendado
Figura 5 Arquivo txt do corpus com data de coleta e endereccedilo na Internet (final da paacutegina)
Com a ferramenta Keywords do WordSmtih Tools foram criadas entatildeo as
listagens de palavras-chave em cada liacutengua Essas palavras escolhidas por meio de
anaacutelises estatiacutesticas (log likelihood) entre o corpus de estudo e o corpus de referecircncia
correspondem aos contextos associativos jaacute citados9 Esses contextos natildeo foram usados
para a construccedilatildeo das definiccedilotildees na presente pesquisa apenas os
explicativosdefinitoacuterios Em outros tipos de estudo no entanto quando o terminoacutegrafo
natildeo conhece a aacuterea os contextos associativos podem se configurar como um ponto de
partida para anaacutelises preliminares sobre os candidatos a termos Na figura 6 temos a
8 A listagem do BNC foi obtida no site do programa Wordsmith Tools A listagem do ANC foi elaborada tendo a segunda versatildeo do CD como corpus e o programa Wordsmith Tools como ferramenta de anaacutelise 9 O programa faz uma anaacutelise contrastiva entre os dois corpora e verifica as palavras que se destacam pela frequumlecircncia de uso no corpus de especialidade As palavras apresentadas na listagem fazem parte portanto do campo que estaacute sendo estudado
12
tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as
palavras-chave em portuguecircs agora numa listagem em Excel
Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs
As palavras na primeira coluna indicam as palavras mais frequumlentes que assim
indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na
primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade
(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de
anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa
compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela
apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de
referecircncia ela eacute incluiacuteda na lista)
13
WordSmith Tools 40 -- 2762007
N Key word Freq RC Freq RC Keyness P
1
COMPUTADOR
3380
03203
28792
2230223
7E-23
2
IMPRESSORA
1812
01717
2526
1761062
1E-22
3
CLIQUE
1553
01472
2491
1476042
3E-22
4
PLACA
2104
01994
19180
136139
3E-22
5
WINDOWS
1603
01519
11497
1108675
6E-22
6
PROCESSADOR
1212
01148
2901
1073848
7E-22
7
BITS
1183
01121
2547
1068828
7E-22
8
USB
913
00865
326
1041225
7E-22
9
IMPRESSAtildeO
1617
01532
19473
9616599
9E-22
10
BARRAMENTO
815
00772
344
9159807
1E-21
11
PLACAS
1514
01435
17867
9061677
1E-21
12
MEMOacuteRIA
1964
01861
49114
8969695
1E-21
13
GEFORCE
672
00637
2
8686718
1E-21
14
SELECIONE
755
00715
496
81116
2E-21
15
PCI
782
00741
1351
7341269
2E-21
16
VIacuteDEO
1379
01307
25009
713415
2E-21
17
TELA
1241
01176
20775
660795
3E-21
18
CONTROLADOR
874
00828
4499
6575389
3E-21
19
DVD
755
00715
2026
6544251
3E-21
20
VOCEcirc
2539
02406
193135
0028
6410745
3E-21
21
RADEON
491
00465
0
6366831
3E-21
22
CONSULTE
630
00597
701
6330112
3E-21
23
HARDWARE
684
00648
1707
6012326
4E-21
24
PALM
700
00663
2140
5911728
4E-21
25
TECLADO
692
00656
2275
5757233
4E-21
26
DISCO
1345
01274
39388
5742442
4E-21
27
MOUSE
750
00711
3769
5675047
4E-21
28
MONITOR
796
00754
6107
5405326
5E-21
29
XP
558
00529
862
5335347
5E-21
30
MB
781
0074
6179
5258846
6E-21
31
BOTAtildeO
693
00657
3595
5203829
6E-21
32
EAX
388
00368
9
4945257
7E-21
33
MEMORIA
480
00455
466
4914386
7E-21
Planilha 1 Palavras-chave em portuguecircs
Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais
deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da
expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo
equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo
bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos
14
satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados
indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a
obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes
(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo
o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato
grande o termo corrente em portuguecircs neste caso eacute disco)
Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em
Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua
Ordem
Portuguecircs
Ordem
Inglecircs
1
COMPUTADOR
23
COMPUTER
2
IMPRESSORA
65
PRINTER
4
PLACA
782
BOARD
6
PROCESSADOR
31
PROCESSOR
8
USB
13
USB
10
BARRAMENTO
71
BUS
12
MEMOacuteRIA
2
MEMORY
15
PCI
8
PCI
18
CONTROLADOR
46
CONTROLLER
25
TECLADO
11
KEYBOARD
26
DISCO
132
PLATTERS
36
MHZ
203
MHZ
37
APLICATIVOS
88
APPLICATIONS
38
TECLA
199
KEY
45
AGP
237
AGP
47
DADOS
3
DATA
57
DISPOSITIVO
25
DEVICE
64
SERVIDOR
26
SERVER
67
INSTALAR
194
INSTALL
68
DRIVE
5
DRIVE
72
SCSI
45
SCSI
77
HTTP
82
HTTP
81
INTERFACE
18
INTERFACE
83
ROM
53
ROM
90
CHIP
142
CHIP
92
RIacuteGIDO
30
HARD
102
DRIVER
499
DRIVER
107
CONFIGURACcedilOtildeES
181
SETTINGS
108
FIREWIRE
330
FIREWIRE
110
MAINFRAME
157
MAINFRAME
113
RAID
684
RAID
Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas
15
A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles
apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do
banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique
tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos
explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos
nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros
(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para
haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos
candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das
legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados
nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma
das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons
de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim
como na planilha 2 indicam sua ordem de chavicidade
Portuguecircs Inglecircs
Legenda
1 COMPUTADOR 23 COMPUTER
definiccedilatildeo encontrada nas duas liacutenguas
2 IMPRESSORA 65 PRINTER
definiccedilatildeo natildeo encontrada nas duas liacutenguas
4 PLACA 782
BOARD
definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs
6 PROCESSADOR 31 PROCESSOR
definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs
8 USB 13 USB
10 BARRAMENTO 71 BUS
adicionado ao banco de dados
12 MEMOacuteRIA 2 MEMORY
natildeo adicionado ao banco de dados
15 PCI 8 PCI
18 CONTROLADOR 46 CONTROLLER
25 TECLADO 11 KEYBOARD
26 DISCO 132
PLATTERS
36 MHZ 203
MHZ
37 APLICATIVOS 88 APPLICATIONS
38 TECLA 199
KEY
45 AGP 237
AGP
47 DADOS 3 DATA
57 DISPOSITIVO 25 DEVICE
64 SERVIDOR 26 SERVER
67 INSTALAR 194
INSTALL
68 DRIVE 5 DRIVE
10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos
16
72 SCSI 45 SCSI
77 HTTP 82 HTTP
81 INTERFACE 18 INTERFACE
83 ROM 53 ROM
90 CHIP 142
CHIP
92 RIacuteGIDO 30 HARD
102
DRIVER 499
DRIVER
107
CONFIGURACcedilOtildeES 181
SETTINGS
108
FIREWIRE 330
FIREWIRE
110
MAINFRAME 157
MAINFRAME
113
RAID 684
RAID
Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos
Para obter os contextos de cada termo utilizamos uma terceira ferramenta do
WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na
listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela
com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)
mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na
linha desejada na coluna File para que o texto seja mostrado por completo
Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha
de um texto) podem nos fornecer os contextos desejados foram usados basicamente
dois artifiacutecios
1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente
uma busca usando os paracircmetros de
(dois pontos) (
(parecircnteses) ou
(viacutergula) A
ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou
como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio
acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo
acima a busca seria realizada como computador computador ( ou
computador
17
Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas
2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta
frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro
termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas
Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito
colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna
R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no
original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e
destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha
quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo
computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)
Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre
uma nova tela (figura 10)
11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo
18
Figura 8 Lista de colocaccedilotildees do termo computador
Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo
19
Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)
A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios
que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras
colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar
uma definiccedilatildeo
Mais corpora
Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez
no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos
pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era
que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida
sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site
bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora
se fez necessaacuteria
Todos os passos descritos nos itens anteriores foram realizados novamente e
uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
12
tela do programa com as palavras-chave em inglecircs na planilha 1 a tela com as
palavras-chave em portuguecircs agora numa listagem em Excel
Figura 6 Palavras-chave na aacuterea de computaccedilatildeo em inglecircs
As palavras na primeira coluna indicam as palavras mais frequumlentes que assim
indicam os candidatos provaacuteveis a termos naquela aacuterea a ordem de palavras na
primeirasegunda colunas leva em conta a seacutetima coluna ou seja sua chavicidade
(keyness) que significa o quanto a palavra em destaque na relaccedilatildeo entre o corpus de
anaacutelise e o corpus de referecircncia eacute representativa na frequumlecircncia relativa (o programa
compara estatisticamente a frequumlecircncia desta palavra em ambos os corpora se ela
apresenta um uso mais [ou menos] destacado no corpus de anaacutelise do que no de
referecircncia ela eacute incluiacuteda na lista)
13
WordSmith Tools 40 -- 2762007
N Key word Freq RC Freq RC Keyness P
1
COMPUTADOR
3380
03203
28792
2230223
7E-23
2
IMPRESSORA
1812
01717
2526
1761062
1E-22
3
CLIQUE
1553
01472
2491
1476042
3E-22
4
PLACA
2104
01994
19180
136139
3E-22
5
WINDOWS
1603
01519
11497
1108675
6E-22
6
PROCESSADOR
1212
01148
2901
1073848
7E-22
7
BITS
1183
01121
2547
1068828
7E-22
8
USB
913
00865
326
1041225
7E-22
9
IMPRESSAtildeO
1617
01532
19473
9616599
9E-22
10
BARRAMENTO
815
00772
344
9159807
1E-21
11
PLACAS
1514
01435
17867
9061677
1E-21
12
MEMOacuteRIA
1964
01861
49114
8969695
1E-21
13
GEFORCE
672
00637
2
8686718
1E-21
14
SELECIONE
755
00715
496
81116
2E-21
15
PCI
782
00741
1351
7341269
2E-21
16
VIacuteDEO
1379
01307
25009
713415
2E-21
17
TELA
1241
01176
20775
660795
3E-21
18
CONTROLADOR
874
00828
4499
6575389
3E-21
19
DVD
755
00715
2026
6544251
3E-21
20
VOCEcirc
2539
02406
193135
0028
6410745
3E-21
21
RADEON
491
00465
0
6366831
3E-21
22
CONSULTE
630
00597
701
6330112
3E-21
23
HARDWARE
684
00648
1707
6012326
4E-21
24
PALM
700
00663
2140
5911728
4E-21
25
TECLADO
692
00656
2275
5757233
4E-21
26
DISCO
1345
01274
39388
5742442
4E-21
27
MOUSE
750
00711
3769
5675047
4E-21
28
MONITOR
796
00754
6107
5405326
5E-21
29
XP
558
00529
862
5335347
5E-21
30
MB
781
0074
6179
5258846
6E-21
31
BOTAtildeO
693
00657
3595
5203829
6E-21
32
EAX
388
00368
9
4945257
7E-21
33
MEMORIA
480
00455
466
4914386
7E-21
Planilha 1 Palavras-chave em portuguecircs
Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais
deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da
expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo
equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo
bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos
14
satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados
indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a
obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes
(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo
o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato
grande o termo corrente em portuguecircs neste caso eacute disco)
Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em
Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua
Ordem
Portuguecircs
Ordem
Inglecircs
1
COMPUTADOR
23
COMPUTER
2
IMPRESSORA
65
PRINTER
4
PLACA
782
BOARD
6
PROCESSADOR
31
PROCESSOR
8
USB
13
USB
10
BARRAMENTO
71
BUS
12
MEMOacuteRIA
2
MEMORY
15
PCI
8
PCI
18
CONTROLADOR
46
CONTROLLER
25
TECLADO
11
KEYBOARD
26
DISCO
132
PLATTERS
36
MHZ
203
MHZ
37
APLICATIVOS
88
APPLICATIONS
38
TECLA
199
KEY
45
AGP
237
AGP
47
DADOS
3
DATA
57
DISPOSITIVO
25
DEVICE
64
SERVIDOR
26
SERVER
67
INSTALAR
194
INSTALL
68
DRIVE
5
DRIVE
72
SCSI
45
SCSI
77
HTTP
82
HTTP
81
INTERFACE
18
INTERFACE
83
ROM
53
ROM
90
CHIP
142
CHIP
92
RIacuteGIDO
30
HARD
102
DRIVER
499
DRIVER
107
CONFIGURACcedilOtildeES
181
SETTINGS
108
FIREWIRE
330
FIREWIRE
110
MAINFRAME
157
MAINFRAME
113
RAID
684
RAID
Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas
15
A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles
apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do
banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique
tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos
explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos
nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros
(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para
haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos
candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das
legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados
nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma
das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons
de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim
como na planilha 2 indicam sua ordem de chavicidade
Portuguecircs Inglecircs
Legenda
1 COMPUTADOR 23 COMPUTER
definiccedilatildeo encontrada nas duas liacutenguas
2 IMPRESSORA 65 PRINTER
definiccedilatildeo natildeo encontrada nas duas liacutenguas
4 PLACA 782
BOARD
definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs
6 PROCESSADOR 31 PROCESSOR
definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs
8 USB 13 USB
10 BARRAMENTO 71 BUS
adicionado ao banco de dados
12 MEMOacuteRIA 2 MEMORY
natildeo adicionado ao banco de dados
15 PCI 8 PCI
18 CONTROLADOR 46 CONTROLLER
25 TECLADO 11 KEYBOARD
26 DISCO 132
PLATTERS
36 MHZ 203
MHZ
37 APLICATIVOS 88 APPLICATIONS
38 TECLA 199
KEY
45 AGP 237
AGP
47 DADOS 3 DATA
57 DISPOSITIVO 25 DEVICE
64 SERVIDOR 26 SERVER
67 INSTALAR 194
INSTALL
68 DRIVE 5 DRIVE
10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos
16
72 SCSI 45 SCSI
77 HTTP 82 HTTP
81 INTERFACE 18 INTERFACE
83 ROM 53 ROM
90 CHIP 142
CHIP
92 RIacuteGIDO 30 HARD
102
DRIVER 499
DRIVER
107
CONFIGURACcedilOtildeES 181
SETTINGS
108
FIREWIRE 330
FIREWIRE
110
MAINFRAME 157
MAINFRAME
113
RAID 684
RAID
Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos
Para obter os contextos de cada termo utilizamos uma terceira ferramenta do
WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na
listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela
com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)
mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na
linha desejada na coluna File para que o texto seja mostrado por completo
Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha
de um texto) podem nos fornecer os contextos desejados foram usados basicamente
dois artifiacutecios
1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente
uma busca usando os paracircmetros de
(dois pontos) (
(parecircnteses) ou
(viacutergula) A
ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou
como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio
acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo
acima a busca seria realizada como computador computador ( ou
computador
17
Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas
2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta
frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro
termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas
Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito
colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna
R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no
original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e
destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha
quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo
computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)
Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre
uma nova tela (figura 10)
11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo
18
Figura 8 Lista de colocaccedilotildees do termo computador
Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo
19
Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)
A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios
que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras
colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar
uma definiccedilatildeo
Mais corpora
Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez
no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos
pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era
que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida
sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site
bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora
se fez necessaacuteria
Todos os passos descritos nos itens anteriores foram realizados novamente e
uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
13
WordSmith Tools 40 -- 2762007
N Key word Freq RC Freq RC Keyness P
1
COMPUTADOR
3380
03203
28792
2230223
7E-23
2
IMPRESSORA
1812
01717
2526
1761062
1E-22
3
CLIQUE
1553
01472
2491
1476042
3E-22
4
PLACA
2104
01994
19180
136139
3E-22
5
WINDOWS
1603
01519
11497
1108675
6E-22
6
PROCESSADOR
1212
01148
2901
1073848
7E-22
7
BITS
1183
01121
2547
1068828
7E-22
8
USB
913
00865
326
1041225
7E-22
9
IMPRESSAtildeO
1617
01532
19473
9616599
9E-22
10
BARRAMENTO
815
00772
344
9159807
1E-21
11
PLACAS
1514
01435
17867
9061677
1E-21
12
MEMOacuteRIA
1964
01861
49114
8969695
1E-21
13
GEFORCE
672
00637
2
8686718
1E-21
14
SELECIONE
755
00715
496
81116
2E-21
15
PCI
782
00741
1351
7341269
2E-21
16
VIacuteDEO
1379
01307
25009
713415
2E-21
17
TELA
1241
01176
20775
660795
3E-21
18
CONTROLADOR
874
00828
4499
6575389
3E-21
19
DVD
755
00715
2026
6544251
3E-21
20
VOCEcirc
2539
02406
193135
0028
6410745
3E-21
21
RADEON
491
00465
0
6366831
3E-21
22
CONSULTE
630
00597
701
6330112
3E-21
23
HARDWARE
684
00648
1707
6012326
4E-21
24
PALM
700
00663
2140
5911728
4E-21
25
TECLADO
692
00656
2275
5757233
4E-21
26
DISCO
1345
01274
39388
5742442
4E-21
27
MOUSE
750
00711
3769
5675047
4E-21
28
MONITOR
796
00754
6107
5405326
5E-21
29
XP
558
00529
862
5335347
5E-21
30
MB
781
0074
6179
5258846
6E-21
31
BOTAtildeO
693
00657
3595
5203829
6E-21
32
EAX
388
00368
9
4945257
7E-21
33
MEMORIA
480
00455
466
4914386
7E-21
Planilha 1 Palavras-chave em portuguecircs
Identificados os candidatos a termos nas duas liacutenguas eacute preciso verificar quais
deles estatildeo presentes em ambas as listas Nesse momento eacute necessaacuterio um pouco da
expertise (conhecimento sobre a aacuterea) do pesquisador para delimitar quais termos satildeo
equivalentes nas duas liacutenguas Alguns satildeo empreacutestimos (nessa aacuterea em especial satildeo
bastante numerosos como por exemplo mainframe) ou decalques (em que os verbos
14
satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados
indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a
obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes
(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo
o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato
grande o termo corrente em portuguecircs neste caso eacute disco)
Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em
Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua
Ordem
Portuguecircs
Ordem
Inglecircs
1
COMPUTADOR
23
COMPUTER
2
IMPRESSORA
65
PRINTER
4
PLACA
782
BOARD
6
PROCESSADOR
31
PROCESSOR
8
USB
13
USB
10
BARRAMENTO
71
BUS
12
MEMOacuteRIA
2
MEMORY
15
PCI
8
PCI
18
CONTROLADOR
46
CONTROLLER
25
TECLADO
11
KEYBOARD
26
DISCO
132
PLATTERS
36
MHZ
203
MHZ
37
APLICATIVOS
88
APPLICATIONS
38
TECLA
199
KEY
45
AGP
237
AGP
47
DADOS
3
DATA
57
DISPOSITIVO
25
DEVICE
64
SERVIDOR
26
SERVER
67
INSTALAR
194
INSTALL
68
DRIVE
5
DRIVE
72
SCSI
45
SCSI
77
HTTP
82
HTTP
81
INTERFACE
18
INTERFACE
83
ROM
53
ROM
90
CHIP
142
CHIP
92
RIacuteGIDO
30
HARD
102
DRIVER
499
DRIVER
107
CONFIGURACcedilOtildeES
181
SETTINGS
108
FIREWIRE
330
FIREWIRE
110
MAINFRAME
157
MAINFRAME
113
RAID
684
RAID
Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas
15
A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles
apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do
banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique
tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos
explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos
nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros
(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para
haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos
candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das
legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados
nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma
das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons
de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim
como na planilha 2 indicam sua ordem de chavicidade
Portuguecircs Inglecircs
Legenda
1 COMPUTADOR 23 COMPUTER
definiccedilatildeo encontrada nas duas liacutenguas
2 IMPRESSORA 65 PRINTER
definiccedilatildeo natildeo encontrada nas duas liacutenguas
4 PLACA 782
BOARD
definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs
6 PROCESSADOR 31 PROCESSOR
definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs
8 USB 13 USB
10 BARRAMENTO 71 BUS
adicionado ao banco de dados
12 MEMOacuteRIA 2 MEMORY
natildeo adicionado ao banco de dados
15 PCI 8 PCI
18 CONTROLADOR 46 CONTROLLER
25 TECLADO 11 KEYBOARD
26 DISCO 132
PLATTERS
36 MHZ 203
MHZ
37 APLICATIVOS 88 APPLICATIONS
38 TECLA 199
KEY
45 AGP 237
AGP
47 DADOS 3 DATA
57 DISPOSITIVO 25 DEVICE
64 SERVIDOR 26 SERVER
67 INSTALAR 194
INSTALL
68 DRIVE 5 DRIVE
10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos
16
72 SCSI 45 SCSI
77 HTTP 82 HTTP
81 INTERFACE 18 INTERFACE
83 ROM 53 ROM
90 CHIP 142
CHIP
92 RIacuteGIDO 30 HARD
102
DRIVER 499
DRIVER
107
CONFIGURACcedilOtildeES 181
SETTINGS
108
FIREWIRE 330
FIREWIRE
110
MAINFRAME 157
MAINFRAME
113
RAID 684
RAID
Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos
Para obter os contextos de cada termo utilizamos uma terceira ferramenta do
WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na
listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela
com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)
mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na
linha desejada na coluna File para que o texto seja mostrado por completo
Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha
de um texto) podem nos fornecer os contextos desejados foram usados basicamente
dois artifiacutecios
1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente
uma busca usando os paracircmetros de
(dois pontos) (
(parecircnteses) ou
(viacutergula) A
ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou
como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio
acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo
acima a busca seria realizada como computador computador ( ou
computador
17
Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas
2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta
frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro
termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas
Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito
colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna
R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no
original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e
destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha
quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo
computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)
Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre
uma nova tela (figura 10)
11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo
18
Figura 8 Lista de colocaccedilotildees do termo computador
Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo
19
Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)
A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios
que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras
colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar
uma definiccedilatildeo
Mais corpora
Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez
no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos
pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era
que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida
sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site
bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora
se fez necessaacuteria
Todos os passos descritos nos itens anteriores foram realizados novamente e
uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
14
satildeo destaque deletar chipar etc) outros satildeo acrocircnimos ou abreviaccedilotildees usados
indistintamente nas duas liacutenguas (como AGP) outros ainda requerem uma consulta a
obras biliacutenguumles jaacute existentes para verificar num primeiro momento se satildeo equivalentes
(Platters ndash Discos componentes do disco riacutegido a primeira acepccedilatildeo de platter segundo
o American Heritage Dictionary eacute o equivalente em portuguecircs a travessa ou prato
grande o termo corrente em portuguecircs neste caso eacute disco)
Na planilha 2 satildeo mostradas as colunas das palavras-chave numa planilha em
Excel indicando sua ordem pela chavicidade dos termos em cada liacutengua
Ordem
Portuguecircs
Ordem
Inglecircs
1
COMPUTADOR
23
COMPUTER
2
IMPRESSORA
65
PRINTER
4
PLACA
782
BOARD
6
PROCESSADOR
31
PROCESSOR
8
USB
13
USB
10
BARRAMENTO
71
BUS
12
MEMOacuteRIA
2
MEMORY
15
PCI
8
PCI
18
CONTROLADOR
46
CONTROLLER
25
TECLADO
11
KEYBOARD
26
DISCO
132
PLATTERS
36
MHZ
203
MHZ
37
APLICATIVOS
88
APPLICATIONS
38
TECLA
199
KEY
45
AGP
237
AGP
47
DADOS
3
DATA
57
DISPOSITIVO
25
DEVICE
64
SERVIDOR
26
SERVER
67
INSTALAR
194
INSTALL
68
DRIVE
5
DRIVE
72
SCSI
45
SCSI
77
HTTP
82
HTTP
81
INTERFACE
18
INTERFACE
83
ROM
53
ROM
90
CHIP
142
CHIP
92
RIacuteGIDO
30
HARD
102
DRIVER
499
DRIVER
107
CONFIGURACcedilOtildeES
181
SETTINGS
108
FIREWIRE
330
FIREWIRE
110
MAINFRAME
157
MAINFRAME
113
RAID
684
RAID
Planilha 2 Relaccedilatildeo de termos equivalentes nas duas liacutenguas
15
A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles
apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do
banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique
tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos
explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos
nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros
(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para
haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos
candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das
legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados
nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma
das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons
de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim
como na planilha 2 indicam sua ordem de chavicidade
Portuguecircs Inglecircs
Legenda
1 COMPUTADOR 23 COMPUTER
definiccedilatildeo encontrada nas duas liacutenguas
2 IMPRESSORA 65 PRINTER
definiccedilatildeo natildeo encontrada nas duas liacutenguas
4 PLACA 782
BOARD
definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs
6 PROCESSADOR 31 PROCESSOR
definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs
8 USB 13 USB
10 BARRAMENTO 71 BUS
adicionado ao banco de dados
12 MEMOacuteRIA 2 MEMORY
natildeo adicionado ao banco de dados
15 PCI 8 PCI
18 CONTROLADOR 46 CONTROLLER
25 TECLADO 11 KEYBOARD
26 DISCO 132
PLATTERS
36 MHZ 203
MHZ
37 APLICATIVOS 88 APPLICATIONS
38 TECLA 199
KEY
45 AGP 237
AGP
47 DADOS 3 DATA
57 DISPOSITIVO 25 DEVICE
64 SERVIDOR 26 SERVER
67 INSTALAR 194
INSTALL
68 DRIVE 5 DRIVE
10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos
16
72 SCSI 45 SCSI
77 HTTP 82 HTTP
81 INTERFACE 18 INTERFACE
83 ROM 53 ROM
90 CHIP 142
CHIP
92 RIacuteGIDO 30 HARD
102
DRIVER 499
DRIVER
107
CONFIGURACcedilOtildeES 181
SETTINGS
108
FIREWIRE 330
FIREWIRE
110
MAINFRAME 157
MAINFRAME
113
RAID 684
RAID
Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos
Para obter os contextos de cada termo utilizamos uma terceira ferramenta do
WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na
listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela
com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)
mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na
linha desejada na coluna File para que o texto seja mostrado por completo
Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha
de um texto) podem nos fornecer os contextos desejados foram usados basicamente
dois artifiacutecios
1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente
uma busca usando os paracircmetros de
(dois pontos) (
(parecircnteses) ou
(viacutergula) A
ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou
como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio
acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo
acima a busca seria realizada como computador computador ( ou
computador
17
Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas
2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta
frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro
termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas
Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito
colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna
R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no
original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e
destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha
quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo
computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)
Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre
uma nova tela (figura 10)
11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo
18
Figura 8 Lista de colocaccedilotildees do termo computador
Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo
19
Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)
A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios
que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras
colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar
uma definiccedilatildeo
Mais corpora
Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez
no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos
pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era
que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida
sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site
bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora
se fez necessaacuteria
Todos os passos descritos nos itens anteriores foram realizados novamente e
uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
15
A equivalecircncia dos termos na listagem natildeo garante contudo que todos eles
apresentem contextos explicativos ou definitoacuterios Como o objetivo da construccedilatildeo do
banco de dados e da paacutegina de consulta eacute fornecer um ambiente de pesquisa que indique
tambeacutem a definiccedilatildeo do termo eacute necessaacuterio identificar um desses dois contextos
explicativos ou definitoacuterios para termos equivalentes nas duas liacutenguas Muitos termos
nessa comparaccedilatildeo natildeo foram aprovados pela dificuldade em se achar contextos claros
(jaacute prevendo essa foram selecionados cem termos equivalentes em cada liacutengua para
haver uma margem de descarte) A planilha 3 apresenta a listagem parcial dos
candidatos a termos equivalentes na aacuterea de computaccedilatildeo As escalas de cinza das
legendas indicam os termos com contextos explicativos eou definitoacuterios encontrados
nas duas liacutenguas encontrados somente em uma liacutengua ou natildeo encontrados em nenhuma
das duas10 Conforme os termos eram inseridos no banco de dados uma marca com tons
de cinza ou preto tambeacutem era feita ao lado Os nuacutemeros antepostos ao termo assim
como na planilha 2 indicam sua ordem de chavicidade
Portuguecircs Inglecircs
Legenda
1 COMPUTADOR 23 COMPUTER
definiccedilatildeo encontrada nas duas liacutenguas
2 IMPRESSORA 65 PRINTER
definiccedilatildeo natildeo encontrada nas duas liacutenguas
4 PLACA 782
BOARD
definiccedilatildeo encontrada em inglecircs mas natildeo em portuguecircs
6 PROCESSADOR 31 PROCESSOR
definiccedilatildeo encontrada em portuguecircs mas natildeo em inglecircs
8 USB 13 USB
10 BARRAMENTO 71 BUS
adicionado ao banco de dados
12 MEMOacuteRIA 2 MEMORY
natildeo adicionado ao banco de dados
15 PCI 8 PCI
18 CONTROLADOR 46 CONTROLLER
25 TECLADO 11 KEYBOARD
26 DISCO 132
PLATTERS
36 MHZ 203
MHZ
37 APLICATIVOS 88 APPLICATIONS
38 TECLA 199
KEY
45 AGP 237
AGP
47 DADOS 3 DATA
57 DISPOSITIVO 25 DEVICE
64 SERVIDOR 26 SERVER
67 INSTALAR 194
INSTALL
68 DRIVE 5 DRIVE
10 Uma possiacutevel ampliaccedilatildeo do corpus de estudo inclusive diacronicamente deve fornecer todos os contextos necessaacuterios para o campo de definiccedilatildeo dos termos
16
72 SCSI 45 SCSI
77 HTTP 82 HTTP
81 INTERFACE 18 INTERFACE
83 ROM 53 ROM
90 CHIP 142
CHIP
92 RIacuteGIDO 30 HARD
102
DRIVER 499
DRIVER
107
CONFIGURACcedilOtildeES 181
SETTINGS
108
FIREWIRE 330
FIREWIRE
110
MAINFRAME 157
MAINFRAME
113
RAID 684
RAID
Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos
Para obter os contextos de cada termo utilizamos uma terceira ferramenta do
WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na
listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela
com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)
mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na
linha desejada na coluna File para que o texto seja mostrado por completo
Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha
de um texto) podem nos fornecer os contextos desejados foram usados basicamente
dois artifiacutecios
1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente
uma busca usando os paracircmetros de
(dois pontos) (
(parecircnteses) ou
(viacutergula) A
ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou
como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio
acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo
acima a busca seria realizada como computador computador ( ou
computador
17
Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas
2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta
frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro
termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas
Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito
colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna
R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no
original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e
destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha
quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo
computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)
Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre
uma nova tela (figura 10)
11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo
18
Figura 8 Lista de colocaccedilotildees do termo computador
Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo
19
Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)
A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios
que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras
colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar
uma definiccedilatildeo
Mais corpora
Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez
no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos
pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era
que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida
sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site
bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora
se fez necessaacuteria
Todos os passos descritos nos itens anteriores foram realizados novamente e
uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
16
72 SCSI 45 SCSI
77 HTTP 82 HTTP
81 INTERFACE 18 INTERFACE
83 ROM 53 ROM
90 CHIP 142
CHIP
92 RIacuteGIDO 30 HARD
102
DRIVER 499
DRIVER
107
CONFIGURACcedilOtildeES 181
SETTINGS
108
FIREWIRE 330
FIREWIRE
110
MAINFRAME 157
MAINFRAME
113
RAID 684
RAID
Planilha 3 Aacuterea de computaccedilatildeo alguns candidatos a termos
Para obter os contextos de cada termo utilizamos uma terceira ferramenta do
WordSmith Tools o concordanciador (Concordancer) Ao selecionar o termo na
listagem de palavras-chave e pedir suas concordacircncias o programa cria uma nova tela
com o termo em questatildeo centralizado e na cor azul (tela KWIC key word in context)
mostrando suas ocorrecircncias em todos os textos (figura 7) Basta clicar duas vezes na
linha desejada na coluna File para que o texto seja mostrado por completo
Para descobrir quais dessas linhas (cada uma representa a seleccedilatildeo de uma linha
de um texto) podem nos fornecer os contextos desejados foram usados basicamente
dois artifiacutecios
1 uma busca por sinais de pontuaccedilatildeo Nos textos da figura 7 foi feita inicialmente
uma busca usando os paracircmetros de
(dois pontos) (
(parecircnteses) ou
(viacutergula) A
ideacuteia era achar esses contextos depois de pontuaccedilatildeo (dois pontos ou parecircnteses) ou
como aposto (entre viacutergulas) Para realizar essa busca no programa eacute necessaacuterio
acrescentar o asterisco () depois da pontuaccedilatildeo desejada No caso do exemplo
acima a busca seria realizada como computador computador ( ou
computador
17
Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas
2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta
frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro
termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas
Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito
colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna
R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no
original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e
destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha
quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo
computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)
Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre
uma nova tela (figura 10)
11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo
18
Figura 8 Lista de colocaccedilotildees do termo computador
Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo
19
Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)
A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios
que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras
colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar
uma definiccedilatildeo
Mais corpora
Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez
no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos
pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era
que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida
sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site
bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora
se fez necessaacuteria
Todos os passos descritos nos itens anteriores foram realizados novamente e
uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
17
Figura 7 Termo ldquocomputadorrdquo em uma tela de concordacircncias totalizando 3380 delas
2 uma busca pelos colocados (para o programa colocado eacute a combinaccedilatildeo de alta
frequumlecircncia entre o termo selecionado mais um termo a ele associado)11 O primeiro
termo procurado como colocaccedilatildeo foi o verbo ser (ou to be) em todas as suas formas
Veja na figura 8 as colocaccedilotildees para o termo ldquocomputadorrdquo existem vinte e oito
colocaccedilotildees com o verbo ser (eacute) no primeiro campo agrave direita de computador (coluna
R1 seguinte agrave coluna ldquocentrerdquo) Ao clicar no nuacutemero vinte e oito (em vermelho no
original em destaque aqui) a tela volta para a apresentaccedilatildeo das concordacircncias e
destaca os segmentos de texto que apresentam essa combinaccedilatildeo (figura 9) Na linha
quatro dessa nova tela por exemplo temos um contexto definitoacuterio para o termo
computador (ldquo podemos aprender que computador eacute uma maacutequina utilizadardquo)
Para ver todo o paraacutegrafo basta clicar duas vezes sobre a linha e o programa abre
uma nova tela (figura 10)
11 Para Sardinha (2004 p 40) eacute aldquo [] associaccedilatildeo entre itens lexicais ou entre o leacutexico e campos semacircnticosrdquo
18
Figura 8 Lista de colocaccedilotildees do termo computador
Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo
19
Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)
A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios
que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras
colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar
uma definiccedilatildeo
Mais corpora
Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez
no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos
pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era
que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida
sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site
bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora
se fez necessaacuteria
Todos os passos descritos nos itens anteriores foram realizados novamente e
uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
18
Figura 8 Lista de colocaccedilotildees do termo computador
Figura 9 Colocaccedilotildees de computador + ldquoeacuterdquo
19
Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)
A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios
que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras
colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar
uma definiccedilatildeo
Mais corpora
Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez
no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos
pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era
que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida
sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site
bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora
se fez necessaacuteria
Todos os passos descritos nos itens anteriores foram realizados novamente e
uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
19
Figura 10 Contexto da quarta linha de concordacircncia (figura anterior)
A busca atraveacutes desses mecanismos nem sempre retorna contextos definitoacuterios
que satildeo aqueles mais faacuteceis de serem incluiacutedos no banco de dados A busca por outras
colocaccedilotildees pode fornecer pistas para contextos explicativos que somados podem criar
uma definiccedilatildeo
Mais corpora
Terminada a fase acima decidiu-se pela elaboraccedilatildeo de novos corpora dessa vez
no campo da Linguumliacutestica para que natildeo houvesse a necessidade de explicar termos
pertinentes desse campo na ldquoAjuda Onlinerdquo do site em desenvolvimento A ideacuteia era
que houvesse um sistema de metalinguagem Cada vez que o aluno tivesse uma duacutevida
sobre um termo do campo da Linguumliacutestica que aparecesse na microestrutura do site
bastaria consultar esse termo no proacuteprio site Para isso a construccedilatildeo de novos corpora
se fez necessaacuteria
Todos os passos descritos nos itens anteriores foram realizados novamente e
uma nova aacutervore de campo foi criada Dessa vez contudo natildeo houve a necessidade de
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
20
se desdobrar mais do que trecircs subniacuteveis da aacutervore jaacute que o objetivo desses corpora eacute
diferente Essa nova aacutervore ficou configurada como na figura 11
Assim como nos corpora anteriores esses contam com no miacutenimo vinte mil
palavras em cada domiacutenio O corpus em portuguecircs totalizou 1309967 palavras e o
corpus em inglecircs totalizou 1921811 palavras
Figura 11 Aacutervore do Campo da Linguumliacutestica
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
21
Em suma
O projeto prevecirc que os corpora construiacutedos para alimentar o banco de dados
sejam dinacircmicos isto eacute novos textos e aacutereas (com os respectivos domiacutenios e
subdomiacutenios) poderatildeo ser acrescentados no futuro para aumentar sua precisatildeo e escopos
de anaacutelise O aumento do corpus implica poreacutem a atualizaccedilatildeo de dados referentes ao
corpus para cada termo no banco de dados (frequumlecircncia no corpus e nuacutemero total de
exemplos encontrados)
No momento foram incluiacutedos somente textos escritos jaacute que os mesmos
representam bem os campos teacutecnicos mas nada impede que futuramente outros tipos de
texto (como os orais) sejam adicionados
Eacute de extrema importacircncia notar que diferente de algumas ferramentas
disponiacuteveis na Internet (como o Corpoacutegrafo) a presente proposta natildeo oferece uma
soluccedilatildeo de armazenamento do corpus O mesmo deve ficar disponibilizado no
computador do pesquisador Somente os contextos dele extraiacutedos eacute que seratildeo
armazenados no banco de dados
Bibliografia
ALMEIDA G M B ALUISIO S M OLIVEIRA L H M A terminologia na era da informaacutetica Ciecircncia e Cultura v 58 n 2 2006 Disponiacutevel em lthttpcienciaeculturabvsbrscielophpscript=sci_arttextamppid=S0009-67252006000200016amplng=enampnrm=isogt
ALMEIDA M B BAX M P Uma visatildeo geral sobre ontologias pesquisa sobre definiccedilotildees tipos aplicaccedilotildees meacutetodos de avaliaccedilatildeo e de construccedilatildeo Ciecircncia da Informaccedilatildeo Brasiacutelia IBCT v 32 n 3 2003
AUBERT F H Introduccedilatildeo agrave metodologia da pesquisa terminoloacutegica biliacutenguumle Satildeo Paulo Humanitas 1996
BERBER SARDINHA A Linguumliacutestica de corpus Barueri Manole 2004
BIDERMANN MTC Teoria Linguumliacutestica 2 ed Satildeo Paulo Martins Fontes 2001
FROMM G Proposta para um modelo de glossaacuterio de informaacutetica para tradutores Satildeo Paulo 2002 Dissertaccedilatildeo (Mestrado em Linguumliacutestica) Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
HOUAISS A Dicionaacuterio eletrocircnico Houaiss da liacutengua portuguesa Satildeo Paulo Objetiva 2002
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004
22
LARA M L G de TAacuteLAMO M F G M Uma experiecircncia na interface Linguumliacutestica Documentaacuteria e Terminologia In DataGramaZero - Revista de Ciecircncia da Informaccedilatildeo - v8 n5 out07 Disponiacutevel em httpwwwdgzorgbrout07Art_01htm Acessado em 22072008
MARINOTTO O Para a elaboraccedilatildeo de um vocabulaacuterio especializado biliacutenguumle (inglecircsportuguecircs) da linguagem da aviaccedilatildeo manutenccedilatildeo de aeronaves controle de traacutefego aeacutereo e operaccedilotildees aeacutereas Satildeo Paulo 1995 Tese (Doutorado em Linguumliacutestica) - Faculdade de Filosofia Letras e Ciecircncias Humanas Universidade de Satildeo Paulo
SCOTT M WordSmith Tools Versatildeo 4 Disponiacutevel em lthttpwwwlexicallynetwordsmithgt Acesso em 17 junho 2007
SOWA J F Building sharing and merging ontologies Tutorial 1999 Disponiacutevel em lt httpwwwjfsowacomontologyontosharhtms6gt Acesso em 22 abril 2007
TAGNIN S E O Corpora o que satildeo e para quecirc servem Minicurso Satildeo Paulo 2004