Implementação do Módulo de Indexação e Consulta para ser ...
Transcript of Implementação do Módulo de Indexação e Consulta para ser ...
Aureliano Gustavo de Queiroz Arantes
IMPLEMENTAÇÃO DO MÓDULO DE INDEXAÇÃO E CONSULTA
PARA SER AGREGADO AO METABUSCADOR DO PORTAL DO
CEULP/ULBRA
Palmas
2005
i
Aureliano Gustavo de Queiroz Arantes
IMPLEMENTAÇÃO DO MÓDULO DE INDEXAÇÃO E CONSULTA
PARA SER AGREGADO AO METABUSCADOR DO PORTAL DO
CEULP/ULBRA
“Monografia apresentada como
requisito parcial da disciplina Prática
de Sistemas de Informação II (TCC)
do curso de Sistemas de Informação,
orientado pelo Prof. Fernando Luiz de
Oliveira”.
Palmas
2005
ii
Aureliano Gustavo de Queiroz Arantes
IMPLEMENTAÇÃO DO MÓDULO DE INDEXAÇÃO E CONSULTA
PARA SER AGREGADO AO METABUSCADOR DO PORTAL DO
CEULP/ULBRA
“Monografia apresentada como
requisito parcial da disciplina Prática
de Sistemas de Informação II (TCC)
do curso de Sistemas de Informação,
orientado pelo Prof. Fernando Luiz de
Oliveira”.
BANCA EXAMINADORA
Prof. Fernando Luiz de Oliveira
Centro Universitário Luterano de Palmas
Prof. Ricardo Marx Costa S. de Jesus
Centro Universitário Luterano de Palmas
Prof. Msc. Eduardo Leal
Centro Universitário Luterano de Palmas
PALMAS
2005
iii
AGRADECIMENTOS
Gostaria de agradecer primeiramente a Deus, que me deu força nos momentos que eu mais
necessitei sendo minha rocha e minha fortaleza. Gostaria também de agradecer ao meu pai
Sandoval que sempre me incentivou, de uma forma muito especial, a conseguir vencer as
barreiras da vida, à minha Mãe Cilsa que sempre esteve ao meu lado nunca me deixando
desistir desta caminhada, à minha namorada que sempre ouviu os meus desabafos sendo um
ombro amigo em que pude sempre confiar.
Não posso esquecer de agradecer a uma pessoa muito especial pra mim que é o Prof.
Fabiano (Thilfa), que sempre me puxou a orelha na hora certa, me orientou e me incentivou
sempre que eu estava preste a desistir, sempre acreditou em mim e no meu potencial como
profissional, também ao meu professor orientador Prof. Fernando, que me orientou e me
ajudou muito, não só no meu crescimento como acadêmico, mas também como pessoa,
corrigindo e me ensinando os caminhos para uma correta apresentação das idéias num trabalho
deste porte.
Por fim, gostaria de agradecer a todos os meus amigos e companheiros que de uma
forma ou de outra sempre me ajudaram a ser o que sou, não posso citar nomes, pois não quero
ser injusto se por acaso vier a deixar de mencionar o nome de alguém.
iv
SUMÁRIO
1. INTRODUÇÃO ...................................................................................................10
2. REVISÃO DE LITERATURA...........................................................................12
2.1 Recuperação de Informação ..........................................................................12
2.2 Processos de Recuperação de Informação.....................................................13
2.3 Indexação de documentos..............................................................................15
2.4 Indexação Manual..........................................................................................16
2.5 Indexação automática ....................................................................................17
2.5.1 Identificação de termos..............................................................................18
2.5.2 Remoção de Stopwords .............................................................................19
2.5.3 Seleção de termos relevantes.....................................................................20
2.5.4 Estrutura de índice .....................................................................................22
2.6 Classificação dos SRI Web............................................................................23
2.6.1 Mecanismo de Busca .................................................................................23
2.6.2 Metabuscador.............................................................................................25
2.6.3 Diretórios ...................................................................................................26
2.6.4 Sistemas Híbridos......................................................................................26
3. MATERIAIS E MÉTODOS ...............................................................................28
3.1 Local e Período..............................................................................................28
3.2 Material..........................................................................................................28
3.3 Metodologia...................................................................................................29
4. RESULTADOS E DISCUSSÃO ........................................................................30
4.1 Módulo de indexação.....................................................................................30
v
4.1.1 Fonte de dados ...........................................................................................31
4.1.2 Processo de indexação ...............................................................................32
4.1.3 Tabela de Índices .......................................................................................33
4.1.4 Atualização de índices ...............................................................................34
4.2 Módulo de Consulta ......................................................................................35
4.2.1 Nova Consulta ...........................................................................................37
4.2.2 Limpando uma expressão ..........................................................................39
4.2.3 Indexando os resultados ............................................................................40
4.3 Considerações finais ......................................................................................43
5. CONSIDERAÇÕES FINAIS..............................................................................44
6. REFERÊNCIAS BIBLIOGRÁFICAS ..............................................................45
vi
LISTA DE FIGURAS
Figura 1 – Modelo Representação do processo de Recuperação de Informação (FERNEDA, 2003) ................... 13
Figura 2 – Processo de Recuperação de Informação (CARDOSO, 2002) ............................................................ 14
Figura 3 – Exemplo de categorias geradas a partir da indexação manual (Categoria educação) .......................... 16
Figura 4 – Etapas do processo de indexação automática (WIVES, 2000)............................................................. 18
Figura 5 – Identificação de termos válidos (WIVES, 2000).................................................................................. 19
Figura 6 – Identificação de stopwords (WIVES, 2000) ........................................................................................ 20
Figura 7 – Estrutura de uma lista invertida (HARMAN, 1992) ............................................................................ 22
Figura 8 – Arquitetura geral de um Mecanismo de Busca (ARASU, 2001). ........................................................ 24
Figura 9 – Fluxograma de um Metabuscador segundo (DETERS, 2003). ............................................................ 25
Figura 10 - Módulo de indexação.......................................................................................................................... 31
Figura 11 – Representação da tabela de índices .................................................................................................... 34
Figura 12 – Metabuscador (Portal - CEULP\ULBRA) ......................................................................................... 35
Figura 13 – Módulo de Consultas ......................................................................................................................... 36
Figura 14 - Nova Consulta ................................................................................................................................... 38
Figura 15 - Resultado da pesquisa........................................................................................................................ 39
Figura 16 – Limpar expressão de consulta ............................................................................................................ 40
Figura 17 – Exemplo do processo de limpeza de expressão.................................................................................. 40
Figura 18 – Diagrama de relacionamento índices x consultas............................................................................... 41
Figura 19 – Calculo de Relevância........................................................................................................................ 42
vii
LISTA DE ABREVIATURAS
BD Banco de Dados
CEULP Centro Universitário Luterano de Palmas
RD Recuperação de Dados
RI Recuperação de informação
SGBD Sistema de Gerenciamento de Banco de Dados
SRI Sistema de Recuperação de informação
ULBRA Universidade Luterana do Brasil
viii
RESUMO
A Web pode ser considerada como uma das principais ferramentas de auxílio para
troca de informações. Assim, qualquer pessoa que tenha acesso a Web pode
propagar informações através de sites pessoais, fóruns, salas de bate-papo ou
através de flog’s ou blog’s. Por outro lado, as instituições (privadas ou públicas), tal
como o Centro Universitário Luterano de Palmas, também são grandes produtoras
de informações e, atualmente, boa parte dessas informações são divulgadas através
da Web. Porém, por causa do grande volume de informações disponíveis torna-se
cada vez mais difícil que itens específicos sejam localizados e acessados. Isto
acontece visto que muitos itens de informações são omitidos nos resultados de sites
de busca ou exibidas de forma incompleta. O presente trabalho tem a finalidade de
expor conceitos envolvendo Recuperação de Informação, assim como apresentar a
ferramenta de indexação desenvolvida, a qual será responsável por indexar as
informações contidas atualmente no Portal do CEULP/ULBRA e que, uma vez
agregada ao metabuscador já existente neste Portal, possibilitará a realização de
pesquisas no conteúdo produzido internamente por esta referida Instituição.
Palavras-chaves: Sistemas de Recuperação de Informação, Banco de Dados.
ix
ABSTRACT
The Web can be considered as one of the main tools of aid for exchange of
information. Thus, any person who has access the Web can propagate information
through personal sites, rooms of chat or through flog's or blog's. On the other hand,
the institutions (private or public), such as the University Center Luterano de Palmas,
also are great producers of information and, currently, good part of these information
is divulged through the Web. However, because of the great volume of available
information each specific time more difficult becomes than device is located and had
access. This happens since many device of information are omitted in the results of
shown sites of search or of incomplete form. The present work has the purpose to
display concepts involving Recovery of Information, as well as presenting the tool of
developed indexation, which will be responsible for indexing the information contained
currently in the Vestibule of the CEULP/ULBRA and that, an aggregate time to the
existing metabuscador already in this Vestibule, will make possible the
accomplishment of research in the content produced internally for this related
Institution.
Word-key: SRI, data base.
10
1. INTRODUÇÃO
A Web tem se tornado uma ferramenta indispensável na vida dos usuários da Internet, que se
caracteriza como uma grande rede capaz de interligar, não simplesmente computadores, mas
pessoas com culturas, costumes e conhecimentos diferentes, o que também contribui para o
aumento do volume de informações que circulam pela rede. Por ser assim, qualquer pessoa
que tenha acesso a Web pode propagar informações através de sites pessoais, fóruns, salas de
bate-papo ou através de flog’s ou blog’s. Por outro lado, as instituições (privadas ou públicas),
tal como o Centro Universitário Luterano de Palmas (CEULP/ULBRA), também são grandes
produtoras de informações e, atualmente, boa parte dessas informações são divulgadas através
da Web.
No caso do CEULP/ULBRA, isso se torna evidente ao se analisar a quantidade de
informações disponíveis no sistema de notícias do Portal da referida Instituição, assim como o
volume de trabalhos e projetos desenvolvidos na área acadêmica. Muitas dessas informações
estão disponíveis na Web e podem ser acessadas através das ferramentas de buscas disponíveis
como: Google1, Altavista2 e Yahoo3. Porém, parte deste conteúdo não é indexado por essas
ferramentas, tendo em vista que parte do conteúdo do Portal do CEULP/ULBRA não é gerado
dinamicamente e isso pode trazer problemas para a Instituição, pois por não estarem
indexadas, muitas dessas informações poderão ser replicadas e/ou omitidas, resultando em
perda de tempo e esforço, tanto humano, quanto computacional. Por este motivo, é proposto
neste trabalho o desenvolvimento de uma ferramenta de indexação e consulta das informações
1 http://www.google.com.br 2 http://www.altavista.com.br
11
armazenadas no Portal do CEULP/ULBRA para indexar e oferecer um mecanismo de acesso
eficiente a essas informações.
Para tanto, este trabalho tem por objetivo agregar ao portal do CEULP/ULBRA uma
ferramenta capaz de fornecer aos usuários Web que estejam interessados nas informações
produzidas nesta Instituição, um acesso facilitado às notícias, informações sobre cursos,
trabalhos e projetos desenvolvidos. Esta ferramenta se faz necessário porque boa parte do
conteúdo é gerada dinamicamente nas páginas do Portal, já que os mesmos são provenientes
da base de dados do Portal, muitas vezes as informações do CEULP/ULBRA não chegam a
constar nos resultados exibidos pelas ferramentas de busca existentes. A possibilidade de
realizar buscas internas no banco de dados do Portal do CEULP/ULBRA será muito útil aos
usuários (internos e externos), pois permitirá que os usuários tenham acesso a este conteúdo
que as demais ferramentas de busca não conseguem indexar.
Este trabalho será dividido em duas etapas principais, sendo a primeira composta pela
revisão de literatura que dará embasamento teórico aos fundamentos e técnicas que serão
utilizadas na construção dos módulos. E, na segunda etapa, será apresentada a ferramenta
desenvolvida neste trabalho. As outras incluem: Considerações Finais e Referencias
Bibliográficas.
3 http://www.yahoo.com.br
12
2. REVISÃO DE LITERATURA
Para que os objetivos deste trabalho sejam alcançados, faz-se necessário que alguns conceitos
sejam abordados. Para tanto, nesta seção serão apresentados conceitos sobre Recuperação de
Informação (RI), observando os processos existentes para a realização dessa atividade, assim,
como a classificação dos Sistemas de Recuperação de Informação (SRI) existentes na Internet,
de modo que venha oferecer um embasamento teórico para uma melhor compreensão deste
trabalho.
2.1 Recuperação de Informação
Existem diversos conceitos para o termo “Recuperação de Informação (RI)” que podem ser
analisados sob perspectivas diferentes. Uma delas refere-se à perspectiva da Ciência da
Informação que, segundo (KURAMOTO, 1995), RI pode ser definida como sendo a operação
pela qual se seleciona documentos em um acervo, de acordo com a demanda do usuário. Já
tendo como base a perspectiva da própria Recuperação de informação, HAN (1986), afirma
que um Sistema de Recuperação de Informação (SRI) atua como um dispositivo que se
interpõe entre os usuários e a coleção de informação. STORB (1997) complementa esta
definição, afirmando que tais sistemas tem como função típica a de selecionar documentos de
uma base de dados, em resposta a uma questão do usuário, apresentando-os em ordem de
pertinência. Por outro lado, SALTON (1983) conceitua tecnicamente o termo RI como sendo
um método que trata da representação, do armazenamento, da organização e do acesso aos
itens de informação.
Em alguns casos são acoplados ao contexto de RI os Sistemas de Gerenciamento de
13
Banco de Dados (SGDB’s), pelo fato deste não deixar de ser uma ferramenta de recuperação
de informação. Porém, observa-se a existência de uma diferença entre RI e Recuperação de
Dados (RD). A primeira tem por objetivo recuperar informações relevantes ao termo que se
deseja pesquisar, onde o usuário desse SRI está interessado em recuperar informações sobre
um determinado assunto. Assim, as informações recuperadas não precisam ser exatamente o
que a expressão de busca determina, embora seja nos SGBD’s que essas informações estão
armazenadas. Já a segunda (RD) visa recuperar dados que satisfaçam uma expressão de
busca, ou seja, a recuperação de todos os objetos ou itens que satisfazem precisamente as
condições formuladas através de uma expressão de busca (FERNEDA, 2003). A seção
seguinte apresenta os conceitos referentes ao processo de RI.
2.2 Processos de Recuperação de Informação
Segundo FERNEDA (2003), os SRI devem representar todo o conteúdo dos documentos e
apresentá-los ao usuário de uma maneira que lhe permita uma rápida seleção dos itens que
satisfazem total ou parcialmente à sua necessidade de informação, formalizada através de uma
expressão de busca. Este processo é representado de forma simplificada pela Figura 1.
Figura 1 – Modelo Representação do processo de Recuperação de Informação (FERNEDA, 2003)
A principal dificuldade encontrada em SRI Web é a distinção entre os sentidos das
palavras e/ou conjunto de termos escolhidos pelo usuário, pois todo o processo de recuperação
está baseado nisso (FERNEDA, 2003). Observa-se na Figura 1, que todo o processo gira em
torno da função de busca, que se torna importante por se tratar do módulo que processa e
distingue as expressões de busca desejadas pelos usuários.
Segundo HAN (1986), os usuários Web que utilizam os SRI estão mais interessados na
qualidade de informações sobre o assunto pesquisado do que na quantidade de resultados
exibidos pelo SRI. A figura 2 apresenta um gráfico que representa o processo de RI.
14
Figura 2 – Processo de Recuperação de Informação (CARDOSO, 2002)
A figura 2 representa o processo de RI no qual pode-se observar algumas
características básicas de funcionamento de um SRI. Assim, ao ser efetuada uma consulta,
primeiramente são realizadas algumas ações sobre o texto da consulta, extraindo dele todas as
palavras que não são relevantes para a busca. Logo após essas operações, é verificado no BD
da ferramenta de pesquisa se existe uma consulta realizada com a mesma expressão desejada,
pois caso exista, o resultado é retornado imediatamente sem ter que ser feita uma pesquisa
externa. Caso a consulta seja uma nova consulta, ou seja, a busca por uma expressão que
nunca foi feita no SRI, então será feita uma busca externa pela expressão desejada pelo
usuário. Observa-se que isso aumenta consideravelmente o desempenho deste SRI, evitando o
fato de sempre estar executando uma nova consulta externa, perdendo tempo e processamento.
Um processo de recuperação de informação envolve vários fatores que determinam o
desempenho do SRI de acordo com o modelo com o qual mesmo foi desenvolvido. A RI é
composta pelos seguintes módulos:
15
• Interface: para que o usuário possa interagir com o SRI.
• Operações sobre textos: essas operações são aplicadas ao texto no qual o
usuário pretende utilizar para a busca.
• Operações sobre consultas: que são operações que constroem a string de
consulta de acordo com o resultado do módulo de operações sobre textos;
• Busca: que é o modulo que realiza de fato a busca, utilizando diversas
ferramentas tais como robots e crawlers para isto.
• Ordenação: o módulo que organiza o resultado retornado pela busca.
• Indexação: módulo este que armazena e representa os documentos Web no
SGBD para que, posteriormente, possam ser recuperados.
Apesar do processo de RI ser composto por todos estes módulos, o presente trabalho
abordará com mais detalhes apenas o módulo de indexação, pois o objetivo do mesmo é a
implementação deste módulo para que o mesmo seja agregado ao Portal do CEULP/ULBRA,
tal como será apresentado na seção seguinte.
2.3 Indexação de documentos
Segundo WIVES (2000), indexar significa, justamente, identificar as características de um
documento e colocá-las em uma estrutura denominada índice. Assim como todo livro possui
um sumário para oferecer ao leitor um acesso rápido ao tema desejado, é necessário também
que os SRI’s realizem um processo de catalogação dos documentos existentes na Web para
fornecer a seus usuários um maior número de referências possíveis quando for realizada uma
busca. Todo e qualquer documento que for adicionado ao índice deve passar por um processo
de análise para que se possa fornecer uma descrição breve, ou resumo, das informações
contidas nele.
16
2.4 Indexação Manual
Existem ferramentas de busca que empregam indexadores profissionais que especificam uma
hierarquia de assuntos, similar às classificações encontradas em uma biblioteca tradicional,
como a classificação decimal de dewey (CDD), e indexam as páginas Web usando tais
categorias (FERNEDA, 2003). Um exemplo gerado a partir desta catalogação é apresentado
na Figura 3.
Figura 3 – Exemplo de categorias geradas a partir da indexação manual (Categoria educação)
Na Web existem sites de busca que realizam o processo de indexação manual, como é
o caso do Cadê?4 (Figura 3) e do Yahoo!5. A maior parte do conteúdo encontrado no índice
desses sites se dá graças ao trabalho voluntário de seus usuários, que podem cadastrar a URL
de suas páginas classificando-as em uma ou mais categorias. Ao cadastrar uma página, os
usuários especificam um título, uma breve descrição do conteúdo e a URL da página que
deseja cadastrar.
Neste tipo de indexação, todo e qualquer site cadastrados por usuários passam pelo
4 http://www.cade.com.br
17
crivo de uma equipe que avalia o conteúdo do site, que podem inclusive alterar a descrição
realizada pelo usuário que o cadastrou além de permitir ou não a sua indexação. Existem
diversas vantagens na utilização deste método, uma delas refere-se à precisão nos resultados
das buscas. Porém, existem também algumas desvantagens como, por exemplo, ter uma menor
cobertura da Web, uma vez que sua indexação é dependente da disponibilidade de pessoas na
realização de suas tarefas.
2.5 Indexação automática
Outras ferramentas de busca, tais como o Altavista6 e o Excite7, indexam automaticamente
páginas Web, que é realizada através de duas etapas FERNEDA (2003):
1. Seleção de endereços (URL’s) de páginas;
2. Indexação das páginas, gerando para cada uma um conjunto de termos de indexação.
Segundo WIVES (2000), o processo de indexação automática busca identificar
palavras relevantes (descritores) nos documentos que compõem a coleção (Web) e armazená-
las em uma estrutura de índice. Na figura abaixo (Figura 4) é apresentada a etapa que forma o
processo de indexação automática.
5 http://www.yahoo.com.br 6 http://www.altavista.com.br 7 http://www.excite.com.br
18
Figura 4 – Etapas do processo de indexação automática (WIVES, 2000)
A Figura 4 designa que a indexação automática é composta por um conjunto de etapas,
as quais serão apresentadas nas seções seguintes.
2.5.1 Identificação de termos
Nesta fase, acontece a aplicação de um analisador léxico8 que identifica as palavras existentes
nos documentos, ignorando os símbolos e caracteres de controle de arquivo ou de formatação.
A Figura 5 apresenta um exemplo desta atividade.
8 Análise léxica consiste na conversão de uma cadeia de caracteres de entrada em uma
cadeia de palavras (FOX, 1992)
19
Figura 5 – Identificação de termos válidos (WIVES, 2000)
Segundo SALTON (1983), um dicionário de sinônimos pode auxiliar na identificação
dos termos e na normalização do vocabulário, caso deseje-se trabalhar com um vocabulário
controlado. Já FOX (1992), diz que diversas técnicas adicionais de padronização podem ser
aplicadas, tais como: a passagem de todos os caracteres para a forma maiúscula ou minúscula;
a substituição de múltiplos espaços e tabulações por um único espaço; a padronização de datas
e números; a eliminação de hífens. Se uma técnica for adotada ela deve ser aplicada sobre a
consulta realizada pelo usuário. Mas, segundo WIVES (2000), a utilização de técnicas de
padronização não oferece apenas vantagens, tendo em vista que, se a transformação de
caracteres maiúsculos para minúsculos for adotada, por exemplo, será impossível diferenciar
substantivos próprios de comuns nas buscas.
2.5.2 Remoção de Stopwords
Segundo WIVES (2000), existem algumas palavras presentes em um documento textual que
são utilizadas com o intuito de conectar as frases. Entretanto, essas e outras palavras que
pertencem a classe cuja finalidade é auxiliar a estruturação da linguagem, tais como
conjunções e preposições, necessitam ser incluídas na estrutura de índice. Já FOX (1992)
afirma que, além dessas, existem também palavras cuja freqüência na coleção é muito alta, ou
20
seja, aparecem em praticamente todos os documentos de uma coleção. Portanto, essas palavras
não são capazes de discriminar documentos e também não devem constar na estrutura de
índice. A seguir (Figura 6) esta etapa será exemplificada.
Figura 6 – Identificação de stopwords (WIVES, 2000)
Todas as palavras consideradas sem valor para busca devido à sua natureza, freqüente
ou semântica, são denominados palavras negativas (ou stopwords) e, por isso, são retiradas da
representação dos documentos.
2.5.3 Seleção de termos relevantes
WIVES (2000) define a relevância dos termos com base em três afirmativas:
• Nem todas as palavras encontradas em um documento possuem a mesma importância.
• As palavras utilizadas mais freqüentemente (com exceção das stopwords) costumam
ter um significado mais importante.
• Palavras encontradas em títulos ou em outras estruturas também possuem uma
importância maior, já que o autor deve tê-las colocado lá por considerarem que sejam
muito importantes para a descrição da sua idéia.
O cálculo de relevância de uma palavra pode se basear no calculo da freqüência dessa
palavra, ou na análise estrutural do documento, ou na sua posição sintática. Existe também
21
outra forma de se calcular a relevância de uma palavra como, por exemplo, análise de
linguagem natural, porém, esta alternativa é um tanto mais complexa.
Existem várias fórmulas que foram desenvolvidas com a intenção de calcular a
relevância de uma palavra em um determinado documento. Algumas dessas fórmulas são
bastante simples, outras são complexas e envolvem um nível de conhecimento da língua muito
elevado. As mais simples são baseadas em cálculos simples de freqüência: freqüência
absoluta, freqüência relativa e freqüência inversa de documentos (WIVES, 2000) onde:
• Freqüência absoluta, ou freqüência do termo, que nada mais é do que uma métrica da
quantidade de vezes que um determinado termo se repete no documento. Porém, não
avalia o tamanho do documento pesquisado, assim, uma palavra pode aparecer várias
vezes em um documento grande e poucas vezes em um documento pequeno, inferindo
diretamente em sua relevância.
• Freqüência relativa: que busca resolver o problema anterior calculando a freqüência de
uma palavra em um documento, levando em consideração o tamanho deste documento.
Uma fórmula simples retorna o valor da freqüência relativa que é calculada dividindo-
se a freqüência absoluta do termo pela quantidade de palavras existentes no documento
normalizado.
Porém, é necessário obter uma informação importante para resolver outro problema da
freqüência absoluta, a freqüência de documentos, que é a quantidades de documentos
que um termo aparece (WIVES, 2000).
• Freqüência inversa de documentos: após obter a freqüência absoluta e a freqüência de
documentos, é possível calcular a freqüência inversa de documentos que pode
aumentar a importância de termos que aparecem em poucos documentos e diminuir a
importância de termos que aparecem em muitos documentos (ROBERTSON, 1997).
Segundo SALTON (1983), existem mais de uma maneira de se identificar o peso
através de uma freqüência inversa de documentos. Uma das mais conhecidas é obtida
22
pela aplicação da seguinte fórmula:
Um fator que se tem que levar em consideração é a identificação de pesos dos termos
em um documento, pois os mesmos são válidos por um determinado período de tempo
(KOWALSKI, 1997). Isso porque pode haver mudanças ou adição de novos conteúdos
na coleção de documentos.
2.5.4 Estrutura de índice
Existem diversos tipos de estruturas de índices que já foram desenvolvidos ao longo dos anos.
Na área de RI textuais, as mais comuns são as que utilizam regras lexicográficas, ou seja, são
baseadas nos caracteres e em sua ordenação alfabética, tal como: estrutura de arquivos
invertidos, árvores TRIE e método da assinatura, que utiliza uma estrutura baseada em acesso
direto (hash) (WIVES, 2000), os quais serão apresentados com mais detalhes nas seções
seguintes.
2.5.4.1 Arquivos invertidos
A estrutura de arquivo invertido é uma lista ordenada de palavras onde cada palavra contém
apontadores para os documentos onde ela aparece. Logo, quando um termo é localizado na
lista, o registro correspondente contendo a lista de todos os documentos em que ele aparece é
retornada (HARMAN, 1992).
Figura 7 – Estrutura de uma lista invertida (HARMAN, 1992)
23
Essa estrutura é basicamente formada por três arquivos: dicionário, lista de inversão e
documentos. O dicionário é a entrada para o índice, sendo, uma lista que contém todas as
palavras da coleção de documentos correspondentes. Esse dicionário pode ser implementado
em alguma estrutura mais eficiente como uma TRIE e árvores-B (HARMAN, 1992). Devido à
sua rapidez de acesso e a sua facilidade de identificação de documentos relevantes a um termo,
essa estrutura é uma das mais utilizadas em SRI (KOWALSKI, 1997).
2.6 Classificação dos SRI Web
O objetivo principal dos SRI é, dado um conjunto de documentos (ou links que os
referenciem), determinar quais são relevantes a uma determinada consulta de usuário,
organizando-os em uma lista (ranking). Para isto, os SRI’s utilizam algoritmos e estruturas
próprias, o que os tornam diferentes entre si, tanto na forma como indexam a informação,
como nos resultados apresentados pelos mesmos (BOTELHO, 2004).
Existem quatro modelos nos quais se podem classificar os SRI disponíveis hoje na
Web: mecanismos de busca, metabuscadores, sistemas híbridos e diretórios. Como o objetivo
deste trabalho não é fazer um estudo aprofundado de cada um destes tipos de SRI’s, será
abordada apenas uma visão geral sobre o funcionamento, tal como apresentado nas seções
seguintes.
2.6.1 Mecanismo de Busca
Mecanismos de busca são ferramentas utilizadas para realizar buscas na Internet por meio de
expressões textuais feitas pelo usuário Web. Essa tarefa envolve o processo de representação,
armazenamento e recuperação da informação, que são realizadas de forma automática via
sistema de computador (ARASU, 2001). De uma forma simplificada, pode-se dizer que um
mecanismo de busca possui três componentes básicos (MOURA, 2001):
• Um aplicativo denominado robô, que pode ser referenciado como: robot, spider,
wanderer, knowbot, worm ou web-bot. Este aplicativo tem a função de percorrer a Web
24
em busca de informações, criando uma cópia idêntica dos documentos encontrados, que
mais tarde serão indexados. Por exemplo, ao chegar em um site, este componente faz
uma cópia do seu conteúdo e o armazena temporariamente, no servidor para ser
processado e indexado.
• O segundo componente é o BD, que serve como repositório de informações. Este BD,
utilizado para a realização da indexação, pode ser chamado de catálogo ou índice de
pesquisa para o motor de busca.
• O terceiro componente é o motor de busca propriamente dito, que é acionado cada vez
que um usuário desejar realizar uma busca. Neste instante, este aplicativo sai fazendo uma
varredura em seu BD, em busca das informações solicitadas pelo usuário.
Estes três componentes estão associados às três funções básicas de um mecanismo de
busca: indexar, armazenar e recuperar informações. A Figura 8 apresenta a arquitetura base de
um mecanismo de busca.
Figura 8 – Arquitetura geral de um Mecanismo de Busca (ARASU, 2001).
Pode-se observar que as estruturas existentes na arquitetura geral de um mecanismo de
busca (Figura 8) são as mesmas existentes no processo de RI (Figura 2), com exceção de
25
algumas particularidades, próprias dos mecanismos de busca, com relação ao módulo de
indexação, que variam entre as mais diversas implementações.
2.6.2 Metabuscador
Segundo DETERS (2003), este modelo conhecido como Metasearch Engine, é um sistema de
busca que não possui uma base de dados própria, robôs e muito menos esforço humano para
capturar e indexar os documentos Web. Este tipo de SRI realiza suas pesquisas nas bases de
dados de outras ferramentas de busca existentes na Web, tarefa esta que é feita
simultaneamente em vários SRI’s, como visto na Figura 9.
Figura 9 – Fluxograma de um Metabuscador segundo (DETERS, 2003).
O resultado da busca de um metabuscador é obtido através da combinação de
resultados dos diversos sistemas pesquisados, ou seja, a lista de documentos, assim, como a
relevância destes dá-se de acordo com a base dados e o critério de relevância adotado por cada
sistema fonte (BOTELHO, 2004). Metabuscadores, por se tratar de um SRI que utiliza outros
SRI’s para realizar suas pesquisas, não implementam todos os módulos descritos na
arquitetura geral dos mecanismos de busca (Figura 12), restringindo-se a apenas aos módulos:
Collection Analysis Module, Query Engine, Ranking e a interface.
METABUSCADOR
SRI (1) SRI (2) SRI (3) SRI (n) SRI (n+1)
ÍNDICE RANKIADO
26
2.6.3 Diretórios
Segundo MOURA (2001), este modelo possui basicamente a mesma aplicabilidade dos dois
citados acima, porém, com uma metodologia de trabalho diferente. Nos SRI’s baseados em
diretórios, a busca é realizada em um BD interno que é formado e indexado pelos próprios
administradores do site, ou seja, tarefa realizada com recursos humanos. Em um diretório,
existem dois componentes principais:
• Um banco de dados chamado de índice ou catálogo.
• Um aplicativo que realiza a pesquisa neste banco de dados.
Uma característica dos diretórios refere-se a forma como suas informações são
organizadas. A organização dos sites no banco de dados e, até mesmo na interface, realizada
através de categorias, que podem conter subcategorias, seguindo uma hierarquia definida,
geralmente, pelo assunto (CENDÓN, 2001).
2.6.4 Sistemas Híbridos
Sistemas híbridos são ferramentas que utilizam duas ou mais ferramentas de pesquisa para
realizar uma busca, de acordo com a necessidade do usuário e a política de uso implementada
pelo site. Este sistema atua de forma semelhante ao metabuscador, porém, possui todas as
características dos mecanismos citados acima.
Segundo DETERS (2003), o limite dos SRI quanto à quantidade de informações
indexadas e a qualidade dos resultados oferecidos, fazem com que venham a utilizar sistemas
híbridos, buscando sempre oferecer um maior número de resultados, porém, com um melhor
nível de relevância ao usuário do SRI. O site Yahoo, por exemplo, realiza primeiramente a
consulta dentro de seu diretório e, somente caso os resultados não satisfaçam o usuário, essa
pesquisa se expande a seu mecanismo de busca. Já com ferramentas desenvolvidas de acordo
com mecanismos de busca, acontece justamente o contrário, quando nenhum dos resultados
27
apresentados satisfaz o usuário, a consulta se expande aos diretórios (SILVEIRA, 2002).
28
3. MATERIAIS E MÉTODOS
Nesta seção serão apresentadas as considerações referentes aos materiais e à metodologia
utilizada para a realização deste trabalho.
3.1 Local e Período
O trabalho foi desenvolvido no LABIN I (Laboratório de Informática I), disponibilizado pelo
curso de Sistemas de Informação do Centro Universitário Luterano de Palmas. O trabalho teve
inicio no mês de março de 2005 e término em julho de 2005.
3.2 Material
O material utilizado pode ser classificado em três categorias: hardware, software e referências
bibliográficas. A primeira é constituída um computador com processador Athlon XP 2200,
512 MB de memória RAM e HD com capacidade de 40 GB, localizado no LABIN I. Os
softwares utilizados foram os seguintes:
• Microsoft Windows 2000: sistema operacional;
• Microsoft Word: para elaboração do relatório;
• Adobe Acrobat Reader: para leitura de artigos e outras publicações PDF;
• Microsoft Internet Explorer: navegador;
• Microsoft SQL Server: criação do banco de dados;
• Microsoft Visual C# 2005: implementação do módulo de indexação;
29
• Microsoft Visual Web Devoloper 2005: implementação do modulo de consulta.
3.3 Metodologia
Várias pesquisas foram realizadas com a intenção de obter informações inerentes ao escopo do
trabalho desenvolvido, de modo que fosse oferecido um embasamento teórico suficiente para a
sua conclusão. A partir disto, foram estabelecidos os padrões para o desenvolvimento tanto do
módulo de index4ação, quanto do módulo de consulta e a maneira como seria agregado ao
metabuscador já existente no Portal do CEULP/ULBRA.
30
4. RESULTADOS E DISCUSSÃO
Nas seções seguintes, serão apresentados os módulos desenvolvidos, de modo que os mesmos
possam vir a incrementar ainda mais o metabuscador já existente no Portal do
CEULP/ULBRA.
4.1 Módulo de indexação
Atualmente no BD do Portal do CEULP\ULBRA existe um grande volume de informações
referentes à Instituição, tal como, notícias, dados de professores, etc. Este módulo tem como
objetivo criar um índice que referencie cada uma dessas informações, ou seja, toda vez que
este módulo for executado, ele percorrerá todo o BD do Portal em busca de informações que
não existem em seu índice, mantendo-o sempre atualizado. O processo ocorre conforme o
representado na figura 10.
31
Figura 10 - Módulo de indexação
A arquitetura deste módulo está dividida da seguinte forma:
1. BD do Portal: fonte original de dados do CEULP\ULBRA;
2. Seleção das informações: neste processo ocorre a seleção de quais informações
serão indexadas.
3. Processo de indexação: este é o processo responsável por percorrer o BD do
Portal em busca de novas informações e armazená-las no BD do Metabuscador,
onde ficará representado todo o índice;
4. BD do Metabuscador: BD onde ficarão armazenados os índices.
4.1.1 Fonte de dados
O Portal do CEULP\ULBRA possui uma grande variedade de informações que, no entanto,
nem todas poderão ser indexadas, visto que se tratam de informações sigilosas da própria
32
Instituição. Portanto, a escolha de quais informações poderiam ser indexadas foi uma tarefa
que exigiu muita atenção e responsabilidade, tendo em vista que este Portal possui uma vasta
gama de informações confidenciais que diz respeito somente à Instituição.
Todas essas informações estão armazenadas no BD em forma de tabelas e são exibidas
dinamicamente no Portal. Porém, em alguns casos, torna-se muito difícil de indexar por se
tratar de tabelas com relacionamentos muito complexos e com informações não relevantes.
Para esta primeira etapa da indexação foram levadas em consideração apenas as tabelas
responsáveis por armazenar as notícias e informações sobre cursos da Instituição, observando
que as mesmas armazenam cerca de 80% do conteúdo de informações do portal, sendo que as
outras tabelas são de uso exclusivo da Instituição por obterem conteúdo confidencial, tal
como, dados de funcionários, folha de pagamento, entre outros.
4.1.2 Processo de indexação
O primeiro passo desse processo foi observar, dentro da estrutura do Portal, como as
informações são apresentadas quando solicitadas. Por exemplo, para apresentar uma
determinada notícia é necessário acrescentar à URL do Portal um conjunto de parâmetros, os
quais também devem ser armazenados. Por isto, além de indexar as informações, também se
faz necessário armazenar as devidas URL’s (ou estruturas necessárias) de forma a permitir
que, posteriormente, uma consulta seja realizada e o índice aponte para a notícia original. A
seguir está o algoritmo com os passos necessários para a indexação das informações existentes
no Portal do CEULP/ULBRA.
Algoritmo: Indexação
Procedimentos:
1. Conecta ao BD do Portal
1.1. Obtêm todo o conteúdo das tabelas fontes (noticias, cursos e professores).
2. Conecta ao BD do Metabuscador
2.1. Obtém a relação de palavras irrelevantes (BD Metabuscador)
33
3. ENQUANTO uma tupla de uma das tabelas existir
3.1. SE a informação não estiver indexada
3.1.1. Obtém ano e semestre da informação
3.1.2. Elimina todas as palavras irrelevantes
3.1.3. Armazena o índice obtido
3.1.4. Vai para a próxima tupla da tabela
3.2. SENÃO
3.2.1. Vai para a próxima tupla da tabela selecionada
4.1.3 Tabela de Índices
Todos os índices criados são armazenados na tabela tb_Indu que consta no BD do
metabuscador. Esses índices são criados com a finalidade de otimizar as buscas realizadas
dentro do conjunto de informações do CEULP\ULBRA, bem como gerar a possibilidade de
se criar relevância a cada informação indexada através do módulo de consultas que será
apresentada posteriormente. A seguir, a Figura 11 representa a tabela tb_Indu.
34
Figura 11 – Representação da tabela de índices
Na tabela apresentada na Figura 11, cada tupla representa um índice, ou seja, é um
referencial a uma determinada informação contida no BD do Portal do CEULP\ULBRA.
Todo índice adicionado possui um identificador próprio na tabela de índices, os demais
campos são obrigatórios, pois são extremamente importantes na realização e execução do
módulo de consultas que os utiliza para reconstruir o caminho no qual aquela informação é
exibida.
4.1.4 Atualização de índices
A atualização dos índices é uma tarefa manual que pode ser realizada a qualquer momento
pelos administradores do portal, observando que manter a regularidade dessas atualizações
implicam diretamente na manutenção da credibilidade deste mecanismo de busca.
Sempre que a atualização dos índices for realizada, todas as consultas armazenadas
serão automaticamente excluídas, bem como os índices relacionados. Essa diretiva irá garantir
que todos os índices sempre serão exibidos, mesmo os que forem incluídos recentemente.
35
4.2 Módulo de Consulta
Após a realização da indexação, é necessário fornecer os meios para se recuperar estas
informações. Esta tarefa é realizada através do módulo de consulta. Este módulo já existia no
metabuscador existente no Portal. No entanto, foi necessário acrescentar a possibilidade de se
realizar consultas nas informações geradas pelo processo de indexação. A Figura 12 apresenta
o módulo de consulta já modificado.
Figura 12 – Metabuscador (Portal - CEULP\ULBRA)
Quando um usuário Web solicitar que a pesquisa que ele deseja fazer seja realizada no
CEULP\ULBRA, entra em execução a modificação realizada no módulo de consulta, que
utiliza todos os recursos já existentes atualmente no metabuscador, mais os métodos
particulares desta implementação.
Para melhorar o entendimento, faz-se necessário uma explanação da arquitetura desse
módulo. Esta arquitetura será apresentada na Figura 13.
36
Figura 13 – Módulo de Consultas
Algoritmo: Consultar(k)
Procedimentos: k
1. Conecta ao BD do buscador
2. SE k existe (Consulta já realizada)
2.1. Retorna todos os índices relacionados com k
3. SENÃO (Nova consulta)
3.1. Obtém as palavras irrelevantes
3.2. Exclui de k todas as palavras irrelevantes
3.3. Localiza quais índices contém uma ou todas as palavras contidas em k
3.4. Calcula relevância e armazena relacionamento com cada índice
3.5. Retorna todos os índices classificados por ordem de relevância
BD
Nova
Consulta
Consultas
Existentes
Módulo
de
Consulta
Ranking
Cliente
37
Quando um usuário do Portal, designado acima como cliente, solicitar uma busca
interna no conteúdo do CEULP\ULBRA através do módulo de consulta, o primeiro passo
dado pelo módulo é verificar se a consulta já foi realizada anteriormente. Caso a consulta já
tenha sido realizada anteriormente, o módulo recupera os índices e exibe ao usuário. Caso essa
consulta nunca tenha sido realizada, ela é designada como sendo uma nova consulta, que será
abordada na seção seguinte. Logo após é encaminhado ao ranking, que nada mais é do que a
classificação do resultado por ordem de relevância, ou seja, cada índice (documento
recuperado) possuirá uma relevância associada à consulta que a retornou. O objetivo de se
armazenar as consultas, assim como os índices retornados, é otimização do processo de
consulta, uma vez que se pretende evitar o recalculo da relevância dos índices à consulta que
os retornaram.
Todas as consultas armazenadas, assim como seus respectivos resultados, terão
validade até que a uma nova indexação seja realizada, ou seja, sempre que ocorrer a indexação
dos dados, todas as consultas serão eliminadas, assim como seus resultados, fazendo com que
os novos índices criados pelo processo de indexação sejam incluídos.
4.2.1 Nova Consulta
Todas as consultas que forem realizadas através do módulo de consulta, mais especificamente
quando a opção CEULP\ULBRA estiver selecionada, serão armazenadas no BD do
metabuscador na tabela tb_consultas. A seguir (Figura 14) são apresentados os passos de
entrada de uma nova consulta.
38
Figura 14 - Nova Consulta
A expressão digitada pelo usuário passa por um processo de limpeza, que será
apresentado na seção seguinte, logo depois é realizada uma pesquisa na tabela tb_Indu
retornando todas as tuplas que contiverem alguma das palavras existentes na expressão limpa.
Após este processo, a expressão que o usuário desejou consultar é armazenada na tabela -
tb_consultas possibilitando, então, que o resultado da pesquisa realizada na tabela tb_Indu seja
indexado e relacionado especificamente a esta consulta.
39
Figura 15 - Resultado da pesquisa
Na figura 15 é apresentado o resultado de uma busca pela expressão “Futsal em
Palmas”, onde o buscador encontrou três resultados referentes à expressão e exibiu abaixo os
índices com seus respectivos link’s.
4.2.2 Limpando uma expressão
O termo “limpar expressão” (ou remoção de palavras irrelevantes) foi adotado por se tratar de
uma operação de filtragem que é realizada sobre a expressão que o usuário deseja realizar uma
busca. A seguir (Figura 16), é apresentada a forma como acontece este processo.
40
Figura 16 – Limpar expressão de consulta
Assim, toda expressão que entra neste processo é separada por palavras, dividindo toda
a frase em palavras para que seja possível uma análise textual de todas as palavras existentes
na expressão, onde as que sejam irrelevantes serão excluídas. No BD do buscador existe uma
tabela chamada de tb_PalavrasIrrelevantes que contém todas as palavras que são consideradas
irrelevantes a uma pesquisa, dentro do contexto da língua portuguesa, tal como pronomes,
conjunções, advérbios, etc. Essa tabela é recuperada e armazenada em um vetor e, quando o
processo divide a expressão de consulta em palavras distintas, ele compara palavra por
palavra, verificando a existência de cada uma dentro da lista de palavras irrelevantes e, caso
exista, essa palavra é retirada da expressão. A Figura 17 exemplifica este processo.
Figura 17 – Exemplo do processo de limpeza de expressão
4.2.3 Indexando os resultados
Este processo é o responsável por armazenar as consultas realizadas, assim como todos os
Expressão
Remoção das palavras
irrelevantes
Expressão limpa
“As praias do Tocantins e do
Araguaia”
Limpando
Expressão “Praias Tocantins
Araguaia”
41
índices recuperados e as relevâncias associadas. A Figura 18 apresenta o diagrama de
relacionamento entre a tabela tb_consultas e a tabela tb_Indu.
Figura 18 – Diagrama de relacionamento índices x consultas
É através deste relacionamento que se pode chegar à relevância de cada resultado da
busca à sua consulta correspondente, observando que a relevância é baseada na freqüência
relativa dos termos da expressão. Toda consulta realizada possuirá seus respectivos resultados
pré-processados e armazenados nas tabelas, de acordo com a estrutura apresentada na figura
18, toda vez que for necessário atualizar os resultados das consultas já realizadas, basta apenas
retirar a consulta da tabela tb_consultas e todas as tuplas da tabela tb_consultaXindice que
contiverem a chave estrangeira fkidConsulta igual à chave id_consulta, que automaticamente
da próxima vez que se desejar fazer uma consulta com o mesmo termo, ela será reconstruída
novamente. A seguir (Figura 19), o cálculo de relevância será apresentado.
BD
Portal
42
Figura 19 – Calculo de Relevância
O processo acima é aplicado a todas as tuplas resultantes da busca feita na tabela
Parâmetro 1: Exp. de Consulta(Limpa)
Parâmetro 2: Id da Consulta
Parâmetro 3: Id da tupla relacionada
Parâmetro 4: Palavras-chave da tupla
Split Parâmetro 1
praias
tocantins
OC
2
3
Parâmetro 1
“praias Tocantins”
Parâmetro 4
“praias Tocantins bacia
hidrográfica gera renda povo
classe-baixa turismo praias
Tocantins rio Tocantins
araguaia”
Split Parâmetro 3
praias
tocantins
bacia
hidrográfica
...
Calcula Relevância
Grava Relacionamento
43
tb_Indu quando for realizada uma nova consulta, sendo feito para cada tupla o cálculo de sua
relevância para aquela consulta especificamente. Um índice pode aparecer em várias consultas
e com vários níveis de relevância diferentes, isso vai depender de como essa consulta for
contextualizada pelo usuário.
O índice de relevância de um determinado resultado é dado através da freqüência
relativa, ou seja, de acordo com o número de ocorrências de uma das palavras contidas na
expressão de consulta na lista de palavras chave de cada índice, sendo calculada de acordo
com a seguinte função:
Soma das ocorrência * 100 Relevância =
Quantidade de Palavras Chave
A relevância de uma consulta é exatamente a porcentagem das ocorrências, ou seja,
este valor é calculado de acordo com a quantidade total de palavras chave contidas em um
determinado índice. Esta função foi escolhida por se tratar de um cálculo cujo custo
computacional de processamento é relativamente baixo e também pelo fato de ser um
conteúdo de uma instituição privada que gera interesse maior a seus usuários, não sendo
necessário à implementação dos outros modelos de cálculo de relevância, tal como, relevância
por tempo de navegação.
4.3 Considerações finais
Nesta seção foram apresentados os módulos de indexação e consulta, assim como a maneira
como os mesmos foram implementados, apresentando e exemplificando, passo a passo, todos
os processos que envolvem a indexação das informações contidas no Portal do
CEULP\ULBRA e o desenvolvimento do módulo de consulta, permitindo assim, que qualquer
usuário do Portal possa realizar uma busca sobre diversos assuntos dentro do conteúdo de
informações do mesmo.
44
5. CONSIDERAÇÕES FINAIS
O Portal do Centro Universitário Luterano de Palmas – CEULP\ULBRA possui um grande
volume de informações que são de interesse de todos os acadêmicos e professores. Porém,
essas informações não eram indexadas e a busca por informações dentro do próprio Portal é,
por si só, uma tarefa exaustiva, uma vez que, para se chegar a um item específico de
informação é necessário percorrer todo o Portal.
Assim, por ter boa parte do seu conteúdo gerado dinamicamente, as ferramentas de
busca existentes não conseguem indexar todas as informações existentes. Desta forma, torna-
se necessária à criação de uma ferramenta que indexe essas informações, de modo que viesse
solucionar a impossibilidade de realização de buscas por informações dentro do conteúdo do
Portal, ferramenta esta que seria agregada ao metabuscador já existente no referido Portal.
O presente trabalho realizou uma pesquisa sobre indexação, consulta e recuperação de
informações, avaliando e observando o comportamento de algumas ferramentas de busca, bem
como as técnicas que elas utilizam para otimizar as buscas que realizam. O resultado desta
pesquisa foi utilizado para a implementação do módulo de indexação e para a modificação do
módulo de consulta, os quais foram agregados ao metabuscador do Portal do CEULP/ULBRA.
Nesta primeira parte, foram indexadas as tabelas de notícias e cursos existentes no banco de
dados desta Instituição, que correspondem a mais de 85% do volume de informações contidas
no Portal, não impedindo que as demais informações também sejam indexadas, tal como o
conteúdo da biblioteca digital que utiliza um algoritmo diferente para a indexação de
informações, ficando esta tarefa como um possível trabalho futuro, que daria continuidade a
este trabalho.
45
6. REFERÊNCIAS BIBLIOGRÁFICAS
(ARASU, 2001) ARASU, Arvind et al. Searching the Web. ACM Transactions on Internet
Technology (TOIT), v. 1, n. 1, p. 2-43. New York: ACM Press, 2001.
(BAKEL, 1998) BAKEL, Bas van. Modern classical document indexing: a linguistic
contribution to nowledge-based IR. In: ANNUAL INTERNATIONAL ACM SIGIR
CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION
RETRIEVAL (SIGIR'98), 1998, Melborne, AU. Proceedings... New York: ACM Press,
1998. p.333-334.
(BOTELHO, 2004) BOTELHO, Arylma Rocha. Estudo e Avaliação dos Sistemas de
Recuperação de Informação Web. Palmas, 2004. Monografia (Bacharel em Sistemas de
Informação). Centro Universitário Luterano de Palmas. ULBRA, Palmas, 2004.
(CENDÓN, 2001) CENDÓN, B. V. Ferramentas de Busca na Web. Brasília, v. 30, n.1, p.
39 – 49, jan./abr. 2001.
(DETERS, 2003) DETERS, Janice Inês. Método de Ordenação de Documentos na Web
Baseado no Tempo de Permanência. Florianópolis, 2003. 88 f. Dissertação (Mestrado
em Ciências da Computação) - Universidade Federal de Santa Catarina, Florianópolis,
2003.
46
(FELDMAN, 1997) FELDMAN, Ronen; HIRSH, Haum. Exploiting background information
in knowledge discovery from text. Journal of Intelligent Information Systems,
Netherlands: Kluwer Academic Publishers. v.9, n.1, p.83-97. 1997.
(FERNEDA, 2003) FERNEDA, Edberto. Recuperação de Informação: Análise sobre a
contribuição da Ciência da Computação para a Ciência da Informação. São Paulo,
2003. 137 f. Tese (Doutorado em Ciências da Comunicação). Escola de Comunicação e
Artes, Universidade de São Paulo, São Paulo, 2003.
(FOX, 1992) FOX, Christopher. Lexical analysis and stoplists. In: FRAKES, William B.;
(HAN, 1996) HAN, J. et al: Intelligente Query Answering by Knowledge Discovery
Techniques, IEEE Transactions on Knowledge and Data Engineering, v.8, n.3, 1996.
(HARMAN, 1992) HARMAN, Donna et al. Inverted Files. In: FRAKES, William B.;
BAEZAYates, Ricardo A. Information Retrieval: Data Structures & Algorithms.
Upper addle River, New Jersey: Prentice Hall PTR, 1992. p.28-43.
(KOWALSKI, 1997) KOWALSKI, Gerald. Information Retrieval Systems: Theory and
Implementation. Boston: Kluwer Academic Plubishers, 1997. 282p.
(KURAMOTO, 1995) KURAMOTO, Hélio. Uma abordagem alternativa para o
tratamento e a recuperação de informação textual: os sintagmas nominais. Ciência da
Informação. Volume 25. Número 2. Artigos, 1995.
(MOURA, 2000) MOURA, G.. Sistemas de busca na web: diretórios e mecanismos de
busca. 2000. Disponível em:
<http://www.quatrocantos.com/tec_web/sist_busca/sb_sum.htm>. Acesso em: 09/05/2005.
47
(ROBERTSON, 1997) ROBERTSON, S. E.; WALKER, S. On relevance weights with little
relevance information. Em: ANNUAL INTERNATIONAL ACM-SIGIR CONFERENCE
ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL
(SIGIR’97), 1997, Philadelphia, USA. Proceedings… New York: ACM Press, 1997. p.
16-24.
(SALTON, 1983) SALTON, Gerard; MACGILL, Michael J. Introduction to Modern
(SILVEIRA, 2002) SILVEIRA, Marcelo. Web Marketing Usando Ferramentas de
Busca. São Paulo: Novatec, 2002.
(STORB, 1997) STORB, Bernd Heinrich. Um modelo difuso de recuperação de
documentos utilizando processamento morfológico. Florianópolis, 1997. 107 f.
Dissertação (Mestrado em Engenharia da Produção). Centro Tecnológico da Universidade
Federal de Santa Catarina. Universidade Federal de Santa Catarina, Florianópolis, 1997.
(WARTIK, 1992) WARTIK, S. et al. Hashing Algorithms. In: FRAKES, William B.;
BAEZAYates, Ricardo A. Information Retrieval: Data Structures & Algorithms.
Upper Saddle River, New Jersey: Prentice Hall PTR, 1992. p.293-363.
(WIVES, 2000) WIVES, Leandro. Tecnologias de Descoberta de Conhecimento em Textos
aplicadas à Inteligência Competitiva. Porto Alegre, 2002. 100 f. Pós-Graduação em
Computação. Universidade Federal do Rio Grande do Sul, Porto Alegre, 2002.