Mecanismos de Busca Na Web Uma Analise Da Metodologia de Estudos Comparados

110
MECANISMOS DE BUSCA NA WEB: UMA ANÁLISE DA METODOLOGIA DE ESTUDOS COMPARADOS Maria Simone de Menezes Alencar Rio de Janeiro 2001

description

trabalho de Simone Alencar

Transcript of Mecanismos de Busca Na Web Uma Analise Da Metodologia de Estudos Comparados

  • MECANISMOS DE BUSCA NA WEB:

    UMA ANLISE DA METODOLOGIA DE ESTUDOS COMPARADOS

    Maria Simone de Menezes Alencar

    Rio de Janeiro

    2001

  • ii

    MECANISMOS DE BUSCA NA WEB:

    UMA ANLISE DA METODOLOGIA DE ESTUDOS COMPARADOS

    Maria Simone de Menezes Alencar

    Universidade Federal do Rio de Janeiro

    Escola de Comunicao

    Mestrado em Cincia da Informao

    Convnio UFRJ/ECO - MCT/IBICT

    Maria de Nazar Freitas Pereira

    Doutora em Cincias Humanas, IUPERJ

    Rio de Janeiro

    2001

  • iii

    004 Alencar, Maria Simone de Menezes A368m Mecanismos de busca na Web : uma anlise da metodologia de estudos comparados / Maria Simone de Menezes Alencar. Rio de Janeiro, 2001. ix, 96 f. : il. Orientadora: Maria de Nazar Freitas Pereira Dissertao (mestrado). UFRJ/ECO-MCT/IBICT Bibliografia : f. 90-95 1. Mecanismos de busca. 2. Web. 3. Recuperao

    da informao. I. Pereira, Maria de Nazar Freitas. II. Ttulo.

    CDU 004

  • ii

    Mecanismos de busca na Web: uma anlise da metodologia de estudos comparados

    Maria Simone de Menezes Alencar

    Dissertao submetida ao curso de Mestrado da Ps-Graduao em Cincia da Informao

    do MCT/IBICT em convnio com a UFRJ/ECO, como parte dos requisitos necessrios

    ao grau de Mestre.

    Aprovada por:

    ______________________________________________

    Prof. Maria de Nazar Freitas Pereira - Orientador

    Doutora em Cincias Humanas, IUPERJ

    ______________________________________________

    Prof. Lena Vnia Ribeiro Pinheiro

    Doutora em Comunicao e Cultura, UFRJ/ECO

    ______________________________________________

    Prof Maria Luiza Machado Campos

    Ph.D. em Engenharia de Sistemas, University of East Anglia, Inglaterra

    ______________________________________________

    Prof. Hagar Espanha Gomes

    Livre docente, UFF

    Rio de Janeiro

    2001

  • iii

    A G R A D E C I M E N T O S

    Nosso conhecimento uma pequena ilha, em um enorme oceano de no-conhecimento.

    Isaac Bashevis Singer

    Mergulhada num oceano de informaes, vi minha pequena ilha de conhecimento, isolada,

    sem conexes, um arquiplago sem pontes, sem barcos, sem caminhos. Buscar os elos,

    traar os caminhos, buscar similitudes e diferenas foi uma descoberta. Uma descoberta de

    conhecimento e um enorme vazio de no-conhecimento. E atravs desses buracos, foi

    sendo construda uma teia de conexes, de links, de elos que me possibilitaram entrar em

    contato comigo mesmo, com minhas capacidades e limitaes, com minhas potencialidades

    e impossibilidades.

    Esse caminho s foi possvel atravs do contato com pessoas. Nomear todas tarefa

    impossvel, mas me atrevo a agradecer nominalmente a algumas.

    Tudo comeou com uma conversa com Patrcia Henning, passou pela Yone Chastinet,

    Sandra Rebel, Ida Maria Cardoso Lima, Carlos Nepomuceno e meus colegas no Programa

    Prossiga.

    Nos corredores e salas de aula do DEP tive o estmulo intelectual dos professores e colegas

    de curso. O apoio dos funcionrios pode ser representado pela pacincia e ateno de

    Abneser da Silva Cunha.

    Agradeo a presena constante de Andra Duque, a cuidadosa reviso de texto de Maria

    Helena de Lima Hatschbach, a inspirao potica de Renato Rezende, o estmulo

    distncia de Clara vila, o apoio espiritual de ngela Giorgio e a ajuda direta ou indireta de

    inumerveis companheiros nessa jornada diria.

    Finalmente, agradeo a confiana, carinho, compreenso e exemplo da minha querida

    orientadora Nazinha.

    E acima de tudo, agradeo a Deus, pela oportunidade de estar concluindo essa etapa da

    minha vida e pelas pessoas, verdadeiros Anjos de Luz, colocadas no meu caminho na hora

    precisa.

  • iv

    R E S U M O

    ALENCAR, Maria Simone Menezes de. Mecanismos de busca na Web: uma anlise da metodologia de estudos comparados. 2001. Dissertao (Mestrado em Cincia da Informao) - UFRJ/ECO-MCT/IBICT, Rio de Janeiro. Orientador: Maria de Nazar Freitas Pereira.

    Desenvolvimento de um modelo com cinco parmetros para avaliao da recuperao da

    informao em mecanismos de busca do tipo motor. O modelo est baseado em autores

    clssicos da Cincia da Informao. A partir desse modelo foi derivado um check-list que

    composto por treze critrios para avaliao de estudos comparados de mecanismos de

    busca. O check-list foi utilizado como mtodo para analisar dez estudos comparados, e o

    resultado desta anlise demonstra a ausncia de um embasamento terico da Cincia da

    Informao, nos aspectos relativos recuperao da informao. O check-list proposto

    parece se adequar s inovaes tecnolgicas apontadas por estudos de tendncias, o que

    demonstra a importncia da base terica clssica da Cincia da Informao para estudos de

    tecnologias de informao de base digital.

  • v

    A B S T R A C T

    ALENCAR, Maria Simone Menezes de. Mecanismos de busca na Web: uma anlise da metodologia de estudos comparados. 2001. Dissertao (Mestrado em Cincia da Informao) - UFRJ/ECO-MCT/IBICT, Rio de Janeiro. Orientador: Maria de Nazar Freitas Pereira.

    A model with five parameters for the evaluation of information retrieval in motor search

    engines was developed. This model is based on canonical Information Science authors.

    Starting from this model, a checklist constituted by thirteen criteria for the evaluation of

    comparative studies of search engines was drawn. This checklist was used as method for

    the analysis of ten comparative studies, and this analysis' results indicate lack of an

    Information Science theoretical foundation concerning information retrieval. The

    proposed checklist seems to apply to technological innovations pointed out by trend

    studies, which demonstrates the significance of Information Science's canonical theoretical

    foundation for the study of digital-based information technologies.

  • vi

    S U M R I O

    INTRODUO ..........................................................................................................1

    1. A RECUPERAO DE INFORMAO E OS MECA NISMOS DE BUSCA...8

    1.1 COLEO........................................................................................................13

    1.2 ANATOMIA......................................................................................................18

    1.3 TREINAMENTO DE USURIOS...........................................................................24

    1.4 ESTUDOS DE USOS/USURIOS...........................................................................26

    1.5 TENDNCIAS...................................................................................................28

    2. AVALIAO DA RECUPERAO DE INFORMA O................................30

    2.1 MODELO DE LANCASTER & FAYEN..................................................................32

    2.1.1 Expanso do modelo................................................................................36

    2.2 MODELO PARA A WEB.....................................................................................37

    2.2.1 Preciso..................................................................................................39

    2.2.2 - Cobertura................................................................................................40

    2.2.3 - Esforo do usurio...................................................................................40

    2.2.3.1 - Documentao do sistema.................................................................41

    2.2.3.2 Interface com o usurio.....................................................................41

    2.2.3.3 - Capacidade de busca..........................................................................41

    2.2.3.3.1 Relacionamento entre termos.....................................................41

    2.2.3.3.1.1 Operadores booleanos.........................................................42

    2.2.3.3.1.2 Proximidade entre termos....................................................42

    2.2.3.3.1.3 Linguagem natural...............................................................42

    2.2.3.3.1.4 Atravs de vocabulrio........................................................42

    2.2.3.3.2 Interpretao de uma nica palavra.............................................43

    2.2.3.3.2.1 Truncagem..........................................................................43

    2.2.3.3.2.2 Distino entre maisculas e minsculas.............................43

    2.2.3.3.2.3 Delimitao por campo........................................................43

    2.2.3.3.2.4 Eliminao de palavras no significativas............................44

    2.2.3.3.2.5 Atribuio de pesos a termos...............................................44

    2.2.3.3.2.6 Incorporao automtica de sinnimos................................44

  • vii

    2.2.4 Formato de sada.....................................................................................45

    2.2.4.1 Critrio de ordenao........................................................................45

    2.2.4.2 Formato de exibio..........................................................................46

    2.2.5 Atualidade...............................................................................................47

    3. ANLISE DA METODOLOGIA DE AVALIAO .........................................48

    3.1 OS ESTUDOS COMPARADOS E SEUS AUTORES....................................................57

    3.2 OS MECANISMOS DE BUSCA COMPARADOS.......................................................60

    3.3 A METODOLOGIA DOS ESTUDOS COMPARADOS.................................................62

    3.3.1 Tipo de informao procurada................................................................70

    3.3.2 Critrio de seleo dos mecanismos de busca..........................................71

    3.3.3 - Nmero de buscas executadas em cada mecanismo..................................72

    3.3.4 - Critrio de seleo das perguntas feitas para comparar os mecanismos de

    busca..................................................................................................................72

    3.3.5 - Sintaxe executada nas buscas...................................................................73

    3.3.6 - Parmetros comparados..........................................................................74

    3.3.6.1 Preciso............................................................................................76

    3.3.6.2 Cobertura..........................................................................................76

    3.3.6.3 Esforo do usurio............................................................................76

    3.3.6.3.1 Documentao do sistema..........................................................76

    3.3.6.3.2 Interface com o usurio..............................................................77

    3.3.6.3.3 Capacidades de busca.................................................................77

    3.3.6.4 Formato de sada...............................................................................77

    3.3.6.4.1 Critrio de ordenao.................................................................77

    3.3.6.4.2 Formato de exibio...................................................................78

    3.3.6.5 Atualidade........................................................................................78

    3.3.6.6 Outros parmetros.............................................................................78

    3.3.7 - Nmero de resultados analisados.............................................................79

    3.3.8 - Critrios de avaliao de relevncia dos resultados encontrados.............79

    3.3.9 - Anlise estatstica dos resultados.............................................................80

    3.3.10 Perodo de tempo em que as buscas foram realizadas............................81

    3.3.11 - Sesses de busca....................................................................................81

    3.3.12 - Mtodo de coleta de resultados..............................................................81

  • viii

    3.3.13 - Quem analisou os resultados e como......................................................82

    CONSIDERAES FINAIS....................................................................................84

    REFERNCIAS BIBLIOGR FICAS .....................................................................88

    ANEXO 1..................................................................................................................94

    ANEXO 2..................................................................................................................99

  • ix

    L I S T A D E F I G U R A S , Q U A D R O S E T A B E L A S

    Figura 1 A coleta de dados na Web: a superfcie e a Web profunda. ..................................14

    Quadro 1 Linhas de pesquisa relacionadas aos subsistemas dos mecanismos de busca do

    tipo rob. .....................................................................................................................20

    Quadro 2 Termos para a definio de relevncia. ...................................................................35

    Tabela 1 Autores citados por Schwartz sobre avaliao de performance. ...........................51

    Tabela 2 Resultados obtidos dos trabalhos de diferentes autores sobre mecanismos de

    busca.............................................................................................................................52

    Tabela 3 Critrio de avaliao dos autores................................................................................53

    Tabela 4 Autores citados por Barry & Richardson e suas respectivas URLs ......................54

    Tabela 5 Listagem geral dos estudos comparados citados por Schwartz e Barry &

    Richardson...................................................................................................................55

    Tabela 6 Os estudos comparados e seus autores.....................................................................58

    Tabela 7 Os mecanismos de busca comparados......................................................................61

    Quadro 4 Check-list para avaliao de estudos comparados .................................................63

    Tabela 8 Caractersticas de cada estudo comparado ...............................................................65

    Tabela 9 Parmetros estudados por cada autor. ......................................................................75

  • 1

    I N T R O D U O

    A evoluo das tecnologias de informao e comunicao nos traz novas situaes

    que merecem ser estudadas luz das teorias desenvolvidas para os sistemas tradicionais de

    informao e comunicao. Neste trabalho estaremos estudando os mecanismos de busca

    na Web, uma nova aplicao para os sistemas de recuperao de informao.

    A Internet um imenso repositrio mundial de informao. A Rede possui um

    potencial que permite que pessoas de diferentes culturas, com conhecimentos e interesses

    os mais variados, possam compartilhar informaes, tornando disponveis suas

    informaes publicamente e, ao mesmo tempo, procurar por conhecimentos e experincias

    que outros desenvolveram e relataram.

    As informaes disponveis na Internet se apresentam em diversos formatos. Os

    recursos podem estar disponveis em forma de textos, arquivos formatados, imagens, sons,

    vdeos. No entanto, a World Wide Web, mais comumente chamada Web, oferece uma

    interface que permite a disponibilizao da maioria dos recursos disponveis.

    O estudo intitulado How much information1 se props a estudar quanta informao

    produzida mundialmente a cada ano, estoque acumulado, taxas de crescimento, entre

    outras variveis. Este estudo mostra que 93% da informao produzida em 1999 j foi

    criada em formato digital e apresenta, tambm, dados sobre o crescimento da informao

    disponibilizada na Internet:

    2,1 bilhes de pginas nicas acessveis publicamente, e cerca de 4 bilhes estimados

    para o incio de 2001, mantida a taxa de crescimento;

    7,3 milhes de pginas2 adicionadas diariamente.

    O tamanho da Web um assunto que estimula inmeras pesquisas, suscitando

    discusso sobre as metodologias utilizadas para estes estudos, que nem sempre so claras e

    oferecem um grau de incerteza muito grande quanto medida de seu tamanho.

    1 LYMAN, Peter, VARIAN, Hal R. How much information? Disponvel em: . Acesso em: 26 out. 2000. 2 Uma pgina web definida pelos autores como um recurso da Web que contm nenhum, um ou mais recursos da Web embutidos, e que freqentemente um objeto composto, consistindo em mltiplos recursos, por exemplo, texto, imagens, applets, etc. Uma pgina Web uma nica entidade, identificada por um endereo (URL) nico.

  • 2

    Recentemente, novas pesquisas esto sendo publicadas sobre a questo da Internet

    invisvel, a parte da Internet que no acessvel atravs dos mecanismos de busca. Um

    estudo3 afirma que a Internet 500 vezes maior do que o segmento coberto pelos

    mecanismos de busca, pois cada vez mais as informaes esto sendo disponibilizadas na

    Web atravs de bancos de dados mantidos por agncias governamentais, universidades e

    companhias privadas.

    Independente do tamanho estimado, a Internet pode ser vista como uma grande

    massa de informaes. Para localizar a informao desejada necessrio o

    desenvolvimento de ferramentas de busca cada vez mais poderosas que permitam uma

    melhor filtragem do material desejado.

    Os servios auxiliares de busca de informao surgem na Internet medida em que

    a quantidade de recursos disponveis cresce. Para localizao de arquivos disponveis

    atravs de FTP4 annimo surgiu o Archie. Arquivos de listas de discusso (listserv) podiam

    ser pesquisados atravs de comandos enviados ao servidor. Diretrios on-line como

    Hytelnet e Libs permitiam a pesquisa em colees disponveis por Telnet. A ampla adoo do

    Gopher, no incio dos anos 90, foi seguida do desenvolvimento do Veronica (ndice de vrios

    Gophers) e do Jughead (ndice de um nico Gopher), ambos provendo pesquisa por palavra-

    chave atravs do texto das linhas de menu do Gopher. O WAIS (Wide Area Information

    Server), um instrumento de pesquisa de grandes bases de dados na rede, foi projetado a

    partir da experincia acumulada de trinta anos de pesquisa da comunidade de Cincia da

    Informao sobre o uso de caractersticas estatsticas do texto para a recuperao e o

    desenvolvimento do protocolo Z39.50 para interoperabilidade entre catlogos de

    bibliotecas automatizadas.

    A primeira verso de navegador (browser) em modo texto surgiu em 1991, lanado

    pelo CERN (European Organization for Nuclear Research). Em 1993, surgem as verses grficas

    para Windows e MacIntosh e com isso houve um crescimento de recursos disponveis na

    Web. Nesta poca, para descobrir novos sites, o ponto de referncia era a World Wide Web

    Virtual Library, no site do CERN, uma lista alfabtica de assuntos com links para pginas,

    dispositivo que hoje seria classificado como ferramenta de busca do tipo diretrio. Com a

    3 BERGMAN, Michel K. The deep Web: surfacing hidden value. Journal of the Electronic Publishing. v.7, n.1, Aug. 2001. Disponvel em: . Acesso em: 06 set. 2001. 4 FTP File Transfer Protocol

  • 3

    facilidade que a interface grfica traz, inicia-se em 1993 a expanso da utilizao da Web,

    atingindo uma taxa de crescimento anual de 341.634%, enquanto a taxa anual de

    crescimento do Gopher foi de 997%, na mesma poca5.

    Novas questes relacionadas armazenagem e recuperao de informao surgem

    com a popularizao da Internet, resultando em maior volume de estudos e pesquisas sobre

    diferentes aspectos da recuperao da informao.

    Falar de recuperao de informao na Internet e WWW significa falar de

    mecanismos de busca, aqui entendidos como aqueles que esto diretamente relacionados

    busca de informao no ambiente da Web e no na Internet como um todo. fato que

    no h padronizao na nomenclatura a esse respeito, de tal sorte que alguns autores, como

    Poulter6, se referem a mecanismos de busca (search engines) para todo tipo de ferramenta pr

    e ps-Web. Por sua vez, Chu & Rosenthal7 referem-se inicialmente a auxiliares de busca

    (search aids) para qualificar todas as ferramentas de busca, tanto pr como ps-Web, para,

    logo em seguida, substituir essa denominao por mecanismos de busca (search engines).

    Contudo, para fins desta pesquisa, distingue-se a nomenclatura adotada para as ferramentas

    de busca entre essas fases, pr e ps-Web.

    Na fase pr-Web da Internet, o ambiente era puramente acadmico e os servios

    para descoberta de recursos informacionais tinham um carter no-corporativo, no-

    comercial. Assim, preferimos adotar a expresso auxiliares de busca para aqueles servios

    de recuperao de informao nos recursos disponveis nessa fase de desenvolvimento da

    Internet.

    Para a fase ps-Web, optamos por utilizar a expresso mecanismos de busca que,

    embora no seja a traduo correspondente search engines, entendemos ser aquela mais

    adequada, por dois motivos. Primeiramente, a denominao mais adotada entre os

    autores brasileiros e, em segundo lugar, designa melhor o conjunto de componentes dos

    search engines. Cabe ressaltar, tambm, que o site Search Engine Watch, um site referencial,

    5 Hobbes Internet Timeline v5.3. Disponvel em: . Acesso em: 11 jun. 2001. 6 POULTER, Alan. The design of World Wide Web search engines: a critical review. Program, v.31, n.2, p. 131-145, April 1997. 7 CHU, Heting, ROSENTHAL, Marilyn. Search Engines for the World Wide Web: A Comparative Study and Evaluation Methodology. In: ASIS 1996 Annual Meeting. 1996, Baltimore. Electronic Proceedings. Disponvel em: . Acesso em: 26 ago. 2000.

  • 4

    traduz o termo search engines para mecanismos de busca , em uma pgina8 dedicada

    traduo desta expresso para vrias lnguas.

    Segundo a Webopedia, uma enciclopdia digital, os mecanismos de busca (search

    engines) so:

    Programas que pesquisam em documentos por palavras-chave especificadas e recuperam uma lista de documentos onde as palavras-chave foram encontradas. Embora mecanismos de busca sejam uma classe geral de programas, o termo freqentemente usado para especificamente descrever sistemas como AltaVista e Excite que permitem a usurios pesquisar por documentos na World Wide Web e newsgroups USENET.

    Tipicamente, um mecanismo de busca trabalha enviando um rob (spider) para buscar o maior volume de documentos possvel. Outro programa, chamado indexador, l esses documentos e cria um ndice baseado nas palavras contidas em cada documento. Cada mecanismo de busca usa um algoritmo prprio para criar seu ndice de tal modo que, em condies ideais, s resultados significativos sejam recuperados para cada busca. 9

    Vrios autores procuram sistematizar os diferentes tipos de mecanismos de busca

    disponveis na Web (Peterson10, Schwartz11). Uma categorizao usual - que pode ser

    chamada de clssica - entre os autores a classificao dos mecanismos de busca na Web

    em trs tipos bsicos: diretrios, motores de busca e metaferramentas.

    Os diretrios e motores possuem uma base de dados contendo representaes

    (metadados) das pginas que indexam. Os metadados utilizados variam em cada servio

    incluindo desde o endereo do site (URL) at o texto integral ou etiquetas de marcao e

    posicionais da pgina (tags). A diferena bsica entre esses dois tipos de servio est na

    forma em que a base de dados produzida.

    Nos diretrios, o trabalho de indexao feito, em muitos casos, por edio

    humana. Os diretrios so servios que possuem uma rvore de assuntos, com uma

    8 Search Engine Watch. Sprechen Sie Search Engines? Disponvel em: . Acesso em: 11 jun. 2001. 9 Webopedia. Disponvel em: . Acesso em: 06 jun. 2001. 10 PETERSON, Richard Einer. Eight Internet Search Engines Compared. First Monday, Chicago, v.2, n.2, Feb. 1997. Disponvel em: . Acesso em: 21 mar. 2001. 11 SCHWARTZ, Candy. Web Search Engines. Journal of the American Society for Information Science. v.49, n.11, p.973-982, Sep. 1998.

  • 5

    estrutura hierrquica, onde cada site indexado em um ou mais assuntos sob a rvore.

    Exemplos desse tipo de recurso so o Yahoo!12, o Lycos13 e o brasileiro Cad14.

    Os motores de busca so servios que possuem um rob (spider, wanderer, crawler)

    que varrem os sites na Internet, seguindo os links e indexando automaticamente a

    informao coletada pelos robs. Exemplos deste tipo de servio so o AltaVista15, o

    Google16 e o brasileiro Radix17.

    O terceiro tipo so as metaferramentas, que so servios que no possuem uma

    base de dados prpria e sim um software que pesquisa dados de outras bases, em geral, nos

    motores de busca. Uma metaferramenta envia a pesquisa para mais de uma ferramenta de

    busca, as vezes selecionadas pelo usurio. Geralmente, na exibio do resultado as

    duplicatas so retiradas. Exemplos desse tipo de servio so o Metacrawler18, o Mamma19 e o

    brasileiro Miner20.

    Diante das diversas opes de mecanismos de busca a serem adotados pelos

    usurios, fica a questo: qual a melhor ferramenta de busca?. Para responder esta

    proposio, muitos estudiosos tm feito trabalhos comparativos entre os resultados obtidos

    para determinadas questes em diversos mecanismos de busca.

    Os trabalhos comparados entre mecanismos de busca so, em ltima anlise,

    estudos de avaliao de performance desses sistemas que podem ser entendidos como

    sistemas de recuperao de informao baseados no ambiente da Web.

    Segundo Rijsbergen21, o problema da avaliao pode ser colocado na perspectiva de

    trs questes:

    (1) por que avaliar?

    (2) o que avaliar?

    (3) como avaliar?

    12 Yahoo! Disponvel em: . Acesso em: 20 jun. 2001. 13 Lycos. Disponvel em: . Acesso em: 20 jun. 2001. 14 Cad. Disponvel em: . Acesso em: 20 jun. 2001. 15 AltaVista. Disponvel em: . Acesso em: 20 jun. 2001. 16 Google. Disponvel em: . Acesso em: 20 jun. 2001. 17 Radix. Disponvel em: . Acesso em: 20 jun. 2001. 18 Metacrawler. Disponvel em: . Acesso em: 20 jun. 2001. 19 Mamma. Disponvel em: . Acesso em: 20 jun. 2001. 20 Miner. Disponvel em: . Acesso em: 20 jun. 2001. 21 RIJSBERGEN, C.J. van. Information retrieval. Woburn: Butterworth & Co Ltda, 1979. 208 p. Disponvel em: . Acesso em: 21 jun. 2001.

  • 6

    Para responder a primeira questo, devemos ter em mente principalmente aspectos

    sociais e econmicos. O ponto de vista social est relacionado com o benefcio ou no do

    sistema de recuperao de informao, benefcio este que vai alm da qualidade dos

    documentos recuperados, considerando a vantagem ou no do usurio em utilizar o

    sistema. O ponto de vista econmico sugere a relao custo-benefcio de utilizao do

    sistema.

    Considerando a avaliao de um mecanismo de busca, o porqu de fazer sua

    avaliao diz respeito basicamente sua competitividade em relao aos demais, ou seja, se

    vantajoso para o usurio escolher um ou outro servio de recuperao da informao na

    Web. O ponto de vista econmico tambm influencia essas avaliaes, visto que, a partir

    das concluses, em geral surgem sugestes de melhorias que podem ser incorporadas aos

    servios. Esta questo considerada no apenas nesta introduo, onde procuramos

    apresentar a importncia dos mecanismos de busca no contexto informacional da

    atualidade mas, tambm, na seo seguinte, quando a discusso se amplia com a

    apresentao de uma viso geral da importncia dos estudos relacionados aos mecanismos

    de busca de informao na Web.

    A segunda questo levantada por Rijsbergen o que avaliar refere-se ao que pode

    ser medido para refletir a habilidade do sistema em satisfazer o usurio. Na seo 2

    discutimos os parmetros que podem ser utilizados para avaliao de sistemas on-line de

    recuperao de informao. Oferecemos um modelo de critrios a serem utilizados,

    baseado nos parmetros propostos por Lancaster & Fayen,22 e ampliado a partir das

    especificidades do ambiente informacional dos mecanismos de busca na Web.

    Chegamos ento ltima pergunta: como avaliar?, que diz respeito diretamente

    ao mtodo utilizado na avaliao. Na seo 3, propomos um check-list para avaliao da

    metodologia de estudos comparados de mecanismos de busca do tipo motor. A partir deste

    roteiro, discutimos a metodologia aplicada em uma dezena de estudos comparados de

    avaliao de mecanismos de busca na Web. Questionamos, tambm, a influncia do

    mtodo sobre os resultados obtidos, ocasio em que estabelecemos as conexes com os

    parmetros do modelo discutido na seo anterior.

    22 LANCASTER, F.W., FAYEN, E.G. Information Retrieval On-Line. Los Angeles, CA: Melville Publishing Co. 1973.

  • 7

    Finalmente, nas consideraes finais apresentamos as concluses obtidas na

    pesquisa e sugerimos, luz das tendncias na rea de recuperao de informao na Web,

    uma agenda de pesquisas como continuidade deste trabalho.

  • 8

    1 . A R E C U P E R A O D E I N F O R M A O E O S M E C A N I S M O S D E B U S C A

    Inicialmente, apresentamos os estudos sobre recuperao de informao que se

    iniciam na dcada de 60. Seguimos discutindo a importncia dos estudos nesta rea,

    recuperao de informao, e como eles se traduzem nos mecanismos de busca,

    instrumentos de recuperao de informao na Web.

    Posteriormente, fazemos uma reviso de literatura sobre estudos relacionados a

    mecanismos de busca, visando uma classificao geral de sua tipologia em cinco grandes

    reas de estudo:

    coleo

    funcionamento ou anatomia

    treinamento de usurios

    estudos de usurios

    estudos de tendncias

    A recuperao de informao um objeto de estudo da Cincia da Informao que

    teve um grande desenvolvimento na dcada de 60. Vaz23 apresenta em sua dissertao uma

    extensa e substantiva reviso dos experimentos realizados nessa dcada, de onde provm os

    dados a seguir.

    No final dos anos 50 e incio dos anos 60, um importante projeto foi financiado

    pela National Science Foundation, denominado Cranfield I. Seu autor, Cleverdon, fez uma

    avaliao de sistemas de recuperao de informao cujo objetivo era comparar quatro

    sistemas manuais de indexao, utilizando 18 mil documentos divididos em subconjuntos

    de 100 documentos. Nesta pesquisa, foram avaliadas trs variveis:

    experincia do indexador

    sistema de indexao utilizado 23 VAZ, Rodolfo Cezar Ranulfo. Metodologia de avaliao de mecanismos de recuperao da informao na rede WWW da Internet. 2000. 165p. Dissertao (Mestrado em Cincia da Informao) Faculdade de Estudos Sociais Aplicados, Departamento de Cincia da Informao e Documentao, Universidade de Braslia. Braslia.

  • 9

    tempo para indexao

    Uma nova pesquisa, denominada Cranfield II, foi desenvolvida por Cleverdon &

    Keen, visando o estudo de uma nica varivel: os dispositivos de linguagens de indexao.

    Em ambos os projetos, foram discutidos a revocao e a preciso como parmetros de

    avaliao dos sistemas. A revocao definida como a relao entre o nmero de

    documentos relevantes recuperados e o nmero total de documentos relevantes contidos

    no sistema. A preciso pode ser expressa como a taxa entre o nmero de documentos

    relevantes recuperados e o nmero total de documentos recuperados.

    Em 1965, Lancaster apresenta um trabalho de avaliao do MEDLARS24, um

    sistema automatizado de busca de informaes da rea mdica. Dentre os objetivos deste

    trabalho estavam a eficcia e a eficincia e os fatores que afetam a performance do sistema.

    Uma concluso interessante deste trabalho, destacada por Vaz, que novos estudos devem

    ser desenvolvidos para a melhoria da elaborao das questes a serem submetidas ao

    sistema na sua avaliao. Esta questo discutida na seo 3, onde abordamos a

    metodologia dos estudos de avaliao de mecanismos de busca.

    O TREC (Text Retrieval Conference) outra iniciativa, mais recente, financiada pelo

    NIST25 e DARPA26, que merece destaque. Desde 1992, grupos de pesquisa se renem

    regularmente com o objetivo de promover o desenvolvimento de pesquisas de sistemas de

    recuperao de informao em grandes colees27.

    Com o advento da Internet, e especificamente da Web, este vasto campo de

    estudos se amplia, visto que o volume de informaes pblicas e gratuitas neste ambiente

    um excelente material para o avano das pesquisas em recuperao de informao.

    Computadores gigantescos esto disponveis para rodar algoritmos complexos de

    recuperao e de ordenao em bases de dados, funcionando em tempo real tolervel.

    Iniciativas privadas e governamentais apiam pesquisas acadmicas em bibliotecas digitais,

    oferecendo um campo para explorar a descoberta e a recuperao em rede em ambiente

    controlado. Por outro lado, h colees de bases de dados muito grandes, de alguma forma

    heterogneas, e de propriedade de empresas cujos interesses comerciais so a melhoria do

    24 MEDLARS Medical Literature Analysis and Retrieval System 25 NIST National Institute of Standards and Technology 26 DARPA Defense Advanced Research Projects Agency 27 HARMAN, Donna. The Text Retrieval Conferences (TRECs): proving a test-bed for information retrieval systems. ASIS Bulletin. Apr/May 1998. Disponvel em: . Acesso em: 11 ago. 2001.

  • 10

    projeto de interface e a efetividade da recuperao. Assim, conforme conclui Schwartz28,

    raras foram as situaes onde, no campo da Cincia da Informao, os interesses da

    pesquisa acadmica e do desenvolvimento comercial de produtos estiveram to prximos.

    Chowdhury29 apresenta um importante levantamento sobre pesquisas no campo de

    recuperao de informao. Em seu estudo, destaca indcios do crescimento desta rea. O

    peridico Library and Information Science Research, em sua terceira edio de 1997, publicou

    um editorial sobre a agenda de pesquisa para alm de 2000. O corpo editorial foi

    convocado para criar uma lista de tpicos identificando os caminhos para as pesquisas nas

    reas de Biblioteconomia e Cincia da Informao nos prximos anos. As dez principais

    reas identificadas esto relacionadas, direta ou indiretamente, pesquisa de recuperao de

    informao.

    O autor apresenta, tambm, uma lista de reas de pesquisa30 coletadas a partir de

    busca na base de dados LISA31, em CD-ROM, e atravs dos ltimos peridicos em Cincia

    da Informao. Este trabalho revela um grande nmero de publicaes que esto

    relacionadas recuperao da informao na Internet e na Web, confirmando a agenda de

    pesquisa proposta pelos avaliadores da Library and Information Science Research.

    Um estudo elaborado por Brooks32, sobre os melhores trabalhos publicados no

    Journal of the American Society for Infomation Science (JASIS), outro indicador da importncia

    dessa rea de pesquisa. A anlise de citao dos 28 melhores artigos publicados nesse

    peridico, no perodo de 1969-1996, demonstra que o foco dos cinco melhores artigos a

    recuperao de informao e busca on-line.

    Quando trazemos a questo da recuperao de informao para o ambiente da Web

    estamos nos referindo aos mecanismos de busca, j que so estes que tornam possvel a

    recuperao de informao na Internet.

    28 SCHWARTZ, Candy. Web Search Engines. Journal of the American Society for Information Science. v.49, n.11, p.973-982, Sep. 1998. 29 CHOWDHURY, G.G. The Internet and information retrieval research: a brief review. Journal of Documentation, v.55, n.2, p. 209-225, Mar. 1999. 30 As reas de pesquisa foram categorizadas em: ferramentas de busca; avaliao da recuperao; confiabilidade da informao na Web; interface para usurios; estudo de usurios; organizao da informao na Web; controle de vocabulrio; sada da busca na Web; agentes para busca inteligente, e Web vs base de dados tradicionais (on-line e CD-ROM). 31 LISA Library and Information Science Abstracts 32 BROOKS, Terrence A. How Good Are the Best Papers of JASIS? Journal of the American Society for Information Science. v.51, n.5, p.485-486, 2000.

  • 11

    Logo aps a chegada da Web, os mecanismos de busca tornam-se uma importante

    rea de pesquisa. Esses servios surgem a partir de 1994, inicialmente oriundos de

    atividades de pesquisa, ou at de recreao de colegiais, universitrios, analistas de sistemas

    e outros profissionais ligados a Web. Quando a tarefa de coleta e indexao comeou a

    exceder a capacidade humana e os recursos tcnicos disponveis, alguns desses projetos

    faliram. No entanto, outros foram adquiridos por empresas, financiados por anncios e

    investimento de capital, ou apoiados por iniciativas de pesquisa, e sobreviveram. Em 1996,

    as ferramentas de busca comearam a ser anunciadas em jornais, revistas e TV.

    Proliferaram diferentes produtos de busca diretrios, motores de busca, metaferramentas,

    servios baseados em assunto, agentes pessoais e servios de disseminao da informao

    (tecnologia push).

    O crescimento dos estudos em mecanismos de busca pode ser avaliado pela extensa

    bibliografia existente. Para citar um exemplo, um levantamento realizado em 2000, pela Dr.

    Anne Clyde33, intitulado Web Search Engines: General Bibliography and Resources, mostra cerca

    de 60 estudos publicados em papel ou on-line, apresentados em congressos e em revistas

    da rea no perodo de 1997 a 2000. Estes documentos envolvem fontes de diferentes

    procedncias, como revistas de informtica e artigos de divulgao. Seus autores so da

    Cincia da Informao, da Cincia da Computao e de empresas de marketing.

    O crescimento dos estudos em mecanismos de busca tambm pode ser avaliado

    pela existncia de uma coluna intitulada Internet Search Engine Update no peridico Online34.

    Essa publicao bimestral existe desde 1995. voltada para profissionais de informao e

    oferece artigos, reviso de produtos, estudo de casos, avaliaes e opinies sobre seleo,

    uso e gerenciamento de produtos eletrnicos de informao.

    A vitalidade da rea tambm pode ser observada pelos eventos dedicados a essa

    temtica. Uma importante conferncia sobre mecanismos de busca, a Search Engine Meeting35

    j est em sua sexta edio. Outro indicativo so os sites dedicados ao estudo e

    acompanhamento da performance e crescimento das ferramentas como, por exemplo, o

    33 CLYDE, Anne. Web search engines: general bibliography and resources. Disponvel em: . Acesso em: 03 maio 2001. 34 ONLINE. Wilton: Online Inc. 1995-2001. Bimestral. Disponvel em: . Acesso em: 10 jun. 2001. 35 Search Engine Meeting. Disponvel em: . Acesso em: 08 jun. 2001.

  • 12

    Search Engine Show Down36 e o Search Engine Watch37. Este ltimo servio apresenta dados

    estatsticos que atestam a importncia social e econmica dos mecanismos de busca na

    sociedade. As afirmativas, extradas de diversas pesquisas e artigos, e apresentadas no

    Anexo 1, mostram como os mecanismos de busca so importantes para o desenvolvimento

    do comrcio eletrnico e o quanto so utilizados pelos usurios.

    O volume de informaes sobre negcios, como fuses, aquisies, parcerias e

    novas geraes de mecanismos de busca to intenso que o Yahoo News! tem uma rea

    dedicada especificamente ao tema: Internet Portals & Search Engines38. Uma busca39 no site da

    Amazon revela que h 45 livros venda, relacionados a mecanismos de busca.

    Os estudos sobre mecanismos de busca so extensos e amplos. O enfoque pode ser

    na arquitetura informacional adotada pela ferramenta (estrutura de diretrios, campos de

    busca, formato de sada), como tambm no aspecto computacional (capacidade de

    processamento, velocidade de atualizao, critrios de relevncia adotados pelo software).

    Como atualmente o negcio dos servios de busca envolve milhares de dlares, constata-se

    uma extensa literatura abordando aspectos comerciais, de negcios e de gerenciamento das

    ferramentas. H literatura impressa e eletrnica, acadmica e comercial. A vasta literatura

    sobre mecanismos de busca na Internet dificulta aqueles que procuram uma viso geral

    desta rea do conhecimento.

    A seguir, apresentamos um panorama das pesquisas sobre mecanismos de busca,

    sistematizando os tipos de estudos encontrados sobre esta temtica, conforme tipologia

    por ns desenvolvida especificamente para esta finalidade.

    Classificamos os estudos sobre mecanismos de busca em cinco reas. Cabe ressaltar

    que vrios artigos abordam questes perifricas, que esto relacionadas com outras destas

    reas, porm os classificamos de acordo com o foco maior do trabalho.

    O primeiro tipo de pesquisas relaciona-se ao estudo da coleo do mecanismo de

    busca, ou seja, o que a ferramenta indexa, seu escopo e cobertura (ou tamanho).

    36 Search Engine Show Down. Disponvel em: . Acesso em: 20 jun. 2001. 37 Search Engine Watch. Disponvel em: . Acesso em: 20 jun. 2001. 38 Yahoo News! Disponvel em: . Acesso em: 20 jun. 2001. 39 Busca realizada no site da Amazon em 06 jun. 2001, com a expresso search engines.

  • 13

    O segundo diz respeito anatomia do mecanismo de busca. Neste conjunto esto

    aqueles estudos que discutem o procedimento de coleta de informao e a forma como o

    mecanismo de busca se estrutura.

    Um terceiro agrupamento aquele relacionado ao treinamento de usurios.

    Caracteriza-se por explanar como cada mecanismo de busca trabalha e a sintaxe utilizada.

    Em geral no tece anlises conceituais, mas apresenta quadros comparativos e

    caractersticas de cada mecanismo de busca.

    Um conjunto de menor tamanho, mas de grande importncia, o que trata de

    estudos relativos ao usurio, no que se refere ao seu comportamento ao utilizar os

    mecanismos de busca.

    Por fim, temos o grupo de estudos que trata de tendncias, ou seja, que prev as

    inovaes que devem surgir e quais servios devem aparecer a partir das pesquisas

    desenvolvidas.

    1 . 1 C o l e o

    A coleo de um servio de informao diz respeito ao conjunto de recursos que a

    integra, ou seja, sua cobertura e seu escopo. A cobertura o volume de recursos que o

    sistema indexa e o escopo abrange os assuntos que o servio envolve. Nos mecanismos de

    busca na Web tambm podemos discutir a coleo em termos de escopo e cobertura.

    O ambiente Web composto de duas fraes: uma coleo de pginas acessveis

    pblica e gratuitamente e uma coleo virtual de pginas abrigadas em bases de dados.

    Chamamos de virtual porque essas pginas s existem a partir do momento que uma busca

    feita diretamente na base de dados, gerando uma pgina que formada dinamicamente.

    Esta parte da Web costuma ser chamada de Web invisvel ou Web profunda (deep

    Web).

    A discusso a respeito do tamanho da Web e, conseqentemente, da abrangncia

    dos mecanismos de busca deve, portanto, considerar esses dois aspectos da informao

    disponvel neste ambiente.

    Os mecanismos de busca e as metaferramentas indexam a parte pblica da Web.

    Uma das crticas a esses servios que as tecnologias que adotam no permitem o

    aprofundamento e a incluso da parte invisvel da Web. Essa discusso apresentada por

  • 14

    uma extensa pesquisa40 da Bright Planet, publicada no Journal of the Electronic Publishing, que

    quantifica o tamanho e a importncia da deep Web, caracterizando a qualidade e a

    relevncia de seu contedo e discutindo meios para automatizar o processo de descoberta

    dessas fontes de informao. A Figura 1, extrada deste estudo, mostra a viso que os

    autores tm das dimenses dessas duas partes da Web.

    Figura 1 A coleta de dados na Web: a superfcie e a Web profunda.

    Fonte: BERGMAN, Michel K. The deep Web: surfacing hidden value. Journal of the Electronic Publishing. v.7, n.1, Aug. 2001. Disponvel em: . Acesso em: 06 set. 2001.

    40 BERGMAN, Michel K. The deep Web: surfacing hidden value. Journal of the Electronic Publishing. v.7, n.1, Aug. 2001. Disponvel em: . Acesso em: 06 set. 2001.

  • 15

    J em 1997, Notess41 alertava para a incapacidade das ferramentas disponveis

    naquela poca de recuperar informaes contidas numa rea que denominou como the

    hidden Internet, um extenso e valioso conjunto de informaes que no so acessveis

    atravs dos mecanismos de busca. Essas informaes podem estar contidas em sites que

    necessitam de um processo de registro para entrar (login e senha), como jornais e

    peridicos. O mesmo ocorre em sites cujas pginas so geradas dinamicamente a partir de

    uma solicitao a um banco de dados. O autor destaca que conjuntos de dados

    governamentais, por exemplo, que contm colees de dados estatsticos, no so

    capturados pelos robs que trabalham nos mecanismos de busca. Alm dessas importantes

    fontes informacionais, outros subconjuntos da Internet no so indexados pelos maiores

    mecanismos de busca, como documentos disponveis atravs de outros protocolos, como

    Gopher, FTP, Telnet ou e-mail.

    Na discusso sobre a cobertura dos servios de recuperao de informao na Web

    visvel, dois pesquisadores da NEC Research Institute, Lawrence e Giles, vm se

    destacando. Em 1998 publicaram um artigo na revista Science42 onde analisam a cobertura

    dos seis maiores mecanismos de busca e afirmam que nenhum deles indexa mais do que

    cerca de um tero da Web publicamente indexvel43. A investigao sobre a cobertura de

    seis grandes mecanismos Altavista, Excite, HotBot, Infoseek, Lycos, Northern Light mostra

    que a ordem de magnitude varia bastante, e que a combinao dos resultados dos seis

    servios oferece cerca de 3,5 vezes mais documentos do que o uso de uma nica

    ferramenta. Este estudo afirma que o tamanho da Web indexvel estimado em 320

    milhes de pginas, nmero este obtido atravs da anlise da sobreposio entre resultados

    de pares de mecanismos de busca.

    importante destacar a observao dos autores, de que esta pesquisa foi

    desenvolvida a partir de buscas executadas por funcionrios do NEC Research Institute, que

    so cientistas e, portanto, tendem a executar pesquisas menos populares e de informaes

    mais difceis de localizar. Assim, essas concluses tm como foco a informao cientfica.

    A cobertura dos mecanismos de busca para informaes tipicamente populares melhor.

    41 NOTESS, Greg. Searching the hidden Internet. Database. June/July 1997, p.37-40. 42 LAWRENCE, Steve, GILES, Lee. Searching the World Wide Web. Science. v.280, n.5360, p.98-100, 1998. Disponvel em: . Acesso em: 12 jul. 2001. 43 Os autores afirmam que a web publicamente indexvel exclui pginas que tipicamente no so indexadas pelos mecanismos de busca, como aquelas que exigem autorizao ou que est sob um formulrio.

  • 16

    Em um resumo deste trabalho, tambm publicado na Web, os autores chegam a

    afirmar que o atual estado dos mecanismos de busca pode ser comparado a um catlogo

    telefnico que atualizado irregularmente, e que tem a maior parte de suas pginas

    arrancadas. 44

    Um novo estudo45, com resultados ainda mais dramticos, foi publicado em 1999

    no peridico Nature pelos mesmos autores. Nessa pesquisa sobre a acessibilidade de

    informaes na Web, eles afirmam que nenhum mecanismo de busca indexa mais que 16%

    do tamanho estimado de pginas acessveis publicamente. Afirmam, ainda, que 83% dos

    sites contm contedo comercial e apenas 6% tm contedo cientfico ou educacional.

    Lawrence & Giles destacam os efeitos econmicos, sociais, polticos e cientficos

    que a indexao e o ordenamento dos mecanismos de busca podem causar: Por exemplo,

    a indexao e o ordenamento de lojas on-line podem afetar substancialmente a viabilidade

    econmica destes, o atraso na indexao de pesquisa cientfica pode levar duplicao de

    esforos, e o atraso ou indexao tendenciosa pode afetar decises sociais ou polticas. 46

    Os estudos de Lawrence & Giles, em especial aquele publicado na Nature, causaram

    polmica, visto que havia uma falsa sensao de que os mecanismos de busca seriam a

    grande soluo para o enorme volume de informao disponvel. Harris afirma que a

    tendncia dos produtores de mecanismos de busca em melhorar a qualidade da

    recuperao em detrimento da quantidade preocupante, e que a ambio de

    simplesmente indexar uma percentagem randmica do conhecimento pior do que uma

    declarao de erro: uma declarao de mediocridade planejada. 47

    Sullivan48 tambm se preocupa com essa questo apontando para o problema de

    que os servios de recuperao de informao esto concentrados na forma de melhorar a

    preciso de seus resultados, e no no tamanho de seus ndices. Alm de citar a questo da

    44 LAWRENCE, Steve, GILES, Lee. How big is the Web? How much of the web do the search engine index? How up to date are the search engines?. Disponvel em: . Acesso em: 16 jul. 2001. 45 LAWRENCE, Steve, GILES, Lee. Accessibility of information on the web. Nature. v.400, july 1999, p.107-109. 46 LAWRENCE, Steve, GILES, Lee. Accessibility and distribution of information on the Web [resumo]. Disponvel em: . Acesso em: 27 jul. 2000. 47 HARRIS, P.E. In search of the Rosetta Stone (search engine capabilities). Online and CD-ROM Review. v.23, n.4, 1999, p.235-238. 48 SULLIVAN, D. Crawling under the hood. An update on search engine tecnology. Online, v.23, n.3, may/june 1999, p.30-38.

  • 17

    Web invisvel, questiona que o uso do XML49 como linguagem de marcao no est sendo

    adotado pelos mecanismos de busca, dificultando a troca de dados.

    Em relao ao escopo dos mecanismos de busca, vrios artigos discutem a

    organizao da informao nesses servios, ou seja, procuram classificar os mecanismos de

    busca em categorias, de acordo com suas caractersticas.

    Um dos primeiros trabalhos com esse objetivo o de Schwartz50, que apresenta um

    amplo panorama de questes relacionadas aos mecanismos de busca, categorizando-os em

    listas classificadas (diretrios) e ferramentas baseadas em perguntas (query-based engines).

    Recentemente, Beatriz Cendn51, pesquisadora da Universidade Federal de Minas

    Gerais, publicou no peridico Cincia da Informao um estudo que traz uma viso das

    principais categorias de ferramentas de busca na Web, analisando suas semelhanas,

    diferenas, caractersticas e as vantagens do uso de cada uma delas. O estudo tem um

    importante papel de sistematizao dos servios, incluindo exemplos brasileiros, visto que

    h pouca literatura sobre o tema em portugus.

    Outra questo relacionada com o escopo da coleo diz respeito ao tipo de recurso

    que indexa. Alm de pginas Web, alguns mecanismos de busca tambm indexam

    mensagens postadas em grupos e listas de discusso, imagens, sons, etc.

    H, tambm, ferramentas especficas para localizao de recursos de determinado

    tipo como, por exemplo, para localizao de imagens. Bradley, publicou um artigo52 em sua

    coluna no peridico Ariadne, sobre a localizao de imagens na Internet. Neste trabalho, o

    autor apresenta a forma de localizar imagens em mecanismos de busca genricos e tambm

    servios especficos para a busca de arquivos de imagens.

    49 XML (Extensible Markup Language) uma especificao de linguagem para desenvolvimento de pginas Web, desenvolvida com o objetivo de permitir a descrio de dados (contedo). Permite ao desenvolvedor criar suas prprias etiquetas (tags), permitindo a definio, transmisso, validao e interpretao de dados entre aplicaes e organizaes. 50 SCHWARTZ, Candy. Web Search Engines. Journal of the American Society for Information Science. v.49, n.11, p.973-982, Sep. 1998. 51 CENDN, Beatriz Valadares. Ferramentas de busca na Web. Cincia da Informao. V.30, n.1, p.39-49, jan./abr. 2001. Disponvel em: . Acesso em: 15 jul. 2001. 52 BRADLEY, Phil. Finding images on the Internet. Ariadne. v.25, Sep. 2000. Disponvel em: . Acesso em: 21 fev. 2001.

  • 18

    O mesmo autor, Bradley53 publicou um trabalho sobre o uso dos mecanismos de

    busca para a localizao de pessoas na Web. Ele aborda a utilizao dos mecanismos gerais

    de busca, como Altavista, HotBot e outros, como tambm as ferramentas especficas para

    localizar pessoas, como o People Finder.

    Assim, observamos que a coleo contida em um mecanismo de busca se organiza

    de acordo com a necessidade do usurio de obter informaes. Cada mecanismo busca

    incorporar tecnologias para melhorar a sua capacidade de recuperao e o atendimento ao

    usurio. Essas caractersticas de cada mecanismo sero discutidas no prximo item, que

    trata dos estudos relacionados anatomia dos sistemas.

    1 . 2 A n a t o m i a

    O segundo tipo de estudos envolve a anatomia, ou seja, diz respeito a estudos que

    procuram explicar o funcionamento de determinado mecanismo de busca, detalhando suas

    caractersticas individuais.

    Conforme definio54 citada anteriormente, um mecanismo de busca tem em sua

    estrutura trs subsistemas distintos, que se relacionam entre si:

    subsistema de aquisio/coleta de documentos

    subsistema indexador dos documentos

    subsistema de ordenao dos resultados.

    O subsistema de aquisio/coleta de documentos est relacionado com a forma

    com a qual o mecanismo de busca obtm pginas para sua base de dados.

    O subsistema indexador diz respeito forma como o mecanismo de busca

    armazena as informaes que coleta, seja atravs da indexao em texto completo ou de

    representaes das pginas (metadados).

    O subsistema de ordenao de resultados est relacionado com o algoritmo

    proprietrio de cada mecanismo de busca e que, em geral, o maior diferencial entre os

    servios.

    53 BRADLEY, Phil. Search Engines. Ariadne. v.20, June 1999. Disponvel em: . Acesso em: 21 fev. 2001. 54 Definio da Webopedia, apresentada na introduo deste trabalho.

  • 19

    Assim, os estudos de anatomia de um mecanismo de busca concentram-se na

    caracterizao e discusso desses trs subsistemas do servio de recuperao de informao

    na Web. Estas questes esto relacionadas diretamente com a tipologia do mecanismo de

    busca, ou seja, se um diretrio, um motor de busca ou uma metaferramenta.

    Este trabalho est focado nos mecanismos de busca do tipo motor, onde a coleta

    de dados , por definio, executada principalmente atravs de robs que seguem links em

    pginas Web, no interferindo, portanto, as questes referentes ao subsistema de

    aquisio/coleta de documentos. Por essa razo, a discusso toma como referncia apenas

    os dois outros subsistemas (Quadro 1).

  • Quadro 1 Linhas de pesquisa relacionadas aos subsistemas dos mecanismos de busca do tipo rob.

    GILS Estrutura de metadados Dublin Core . . .

    SUBSISTEMA Full text indexing INDEXADOR Estatstica Stemming Co-ocurrence

    Indexao automtica Sinonmia

    Semntica Generalizao ANATOMIA Especializao

    SUBSISTEMA DE Relevncia por freqncia, localizao, peso e proximidade

    ORDENAO Estrutura hipertextual DE RESULTADOS Interatividade

  • 21

    Subsistema indexador dos documentos

    Em relao ao subsistema indexador, h duas linhas de pesquisa em

    desenvolvimento. Uma linha de pesquisa est relacionada definio de uma estrutura de

    metadados que se aplique aos recursos informacionais na Web. Neste sentido temos o

    desenvolvimento de padres como o Dublin Core55 e o GILS56. Porm, no momento, no

    existe a adoo de um padro universal. O maior problema desta abordagem a

    necessidade da indexao na fonte, ou seja, depende da utilizao do padro pelos

    desenvolvedores de pginas.

    A outra linha de pesquisa relacionada ao subsistema de indexao refere-se ao

    desenvolvimento de algoritmos de indexao automtica. Esses algoritmos so criados com

    o objetivo de automatizar a classificao e indexao de documentos digitais, como pginas

    Web. Essa a tendncia maior, visto que o volume de documentos digitais produzidos

    cresce extraordinariamente.

    Segundo Vaz57, a pesquisa de algoritmos de indexao automtica possui duas

    tendncias na escolha de conceitos ou palavras-chaves de um documento digital:

    estatstica e semntica.

    A linha estatstica baseia-se, principalmente, na freqncia com que um termo, ou

    grupos de termos, aparecem em um documento ou uma coleo. So exemplos deste tipo

    de abordagem as tecnologias denominadas Full text indexing, Stemming Co-occurence.

    O desenvolvimento de algoritmos de base semntica tornou-se possvel graas ao

    avano nas reas de lingstica e informtica. Esta linha de pesquisas baseia-se em relaes

    semnticas entre os termos, como sinonmia, generalizao e especializao.

    55 Dublin Core uma iniciativa da OCLC (Online Computer Library Center), iniciada em 1995, para a criao de um conjunto-padro de elementos (metadados) para descrio do contedo de um documento. Para mais informaes, consultar 56 GILS (Governmment Information Locator Service) um padro de metadados estabelecido pelo Governo Federal Norte-Americano adotado pelos rgos governamentais deste pas e tambm por outros pases. Para mais informaes, consultar 57 VAZ, Rodolfo Cezar Ranulfo. Metodologia de avaliao de mecanismos de recuperao da informao na rede WWW da Internet. 2000. 165p. Dissertao (Mestrado em Cincia da Informao) Faculdade de Estudos Sociais Aplicados, Departamento de Cincia da Informao e Documentao, Universidade de Braslia. Braslia.

  • 22

    Subsistema de ordenao de resultados

    Por fim, temos o subsistema de ordenao de resultados que, conforme dito

    anteriormente, est relacionado com o algoritmo proprietrio de cada mecanismo de busca.

    Esse algoritmo de ordenao tem uma relao direta com os critrios de relevncia que o

    sistema de recuperao de informao atribui aos documentos.

    De uma forma mais simples, os servios de recuperao de informao podem

    medir a relevncia pela freqncia, localizao, peso e proximidade dos termos pesquisados

    no documento.

    No entanto, no ambiente da Web, uma nova possibilidade surge: a utilizao da

    estrutura hipertextual de links entre pginas como referncia para medida da importncia

    das pginas.

    Quando surgiu o Google, um dos primeiros mecanismos que utiliza esta tecnologia,

    vrios trabalhos foram publicados sobre essa novidade. Esse servio inovou ao fazer uma

    abordagem similar a da comunidade cientfica, classificando uma determinada pgina pelo

    nmero e importncia de outras pginas que oferecem link para ela. Page & Brin58,

    criadores da tecnologia e estudantes de Cincia da Computao da Stanford University,

    publicaram um trabalho explanando sobre o algoritmo utilizado no Google. A

    multidisciplinaridade que envolve a rea de mecanismos de busca pode ser observada por

    outros artigos sobre essa mesma ferramenta. Duas revistas de negcios, Fortune59 e

    Forbes60, e um jornal (Washington Post61) publicaram artigos e entrevistas sobre o Google.

    Kirkpatrick, na Fortune, comenta que o sucesso deste mecanismo de busca demonstra que

    a tecnologia, e no apenas o marketing, pode redirecionar a Web.

    A utilizao dos hiperlinks como recurso para ordenao dos resultados tambm

    o objeto de estudo do Clever Project, da IBM. Em junho de 1999, um trabalho62 sobre esse

    tema foi publicado na Scientific American. Os autores descrevem um novo tipo de

    58 BRIN, Sergey, PAGE, Lawrence. The anatomy of a large-scale hypertextual web search engine. Disponvel em: . Acesso em: 31 jan. 2001. 59 KIRKPATRICK, D. Whats a Google? A great search engine, thats what. Fortune. 8 Nov. 1999, p. 139. 60 MALIK, Om. How Google is that? Forbes Magazine. Disponvel em: . Acesso em: 14 ago. 2000. 61 WALKER, Leslie. COM-LIVE (The Washington Post interview with Sergey Brin, founder and CEO of Google. Disponvel em: Acesso em: 14 ago. 2000. 62 CLEVER PROJECT. Hypersearching the Web. Scientific American. Disponvel em: . Acesso em: 07 jun. 1999.

  • 23

    mecanismo de busca que explora o recurso mais valioso da Web: os tantos hiperlinks que

    possui. Analisando essas interconexes, o sistema desenvolvido pelos pesquisadores

    identificou dois tipos de pginas: autoridades (authorities) e centros (hubs). As primeiras so

    aquelas consideradas como os melhores recursos de informao sobre determinado assunto

    e as segundas so as colees de links para as primeiras.

    Essa abordagem a mesma do Google, e ambos os sistemas utilizam

    implicitamente o ser humano, pois, quando algum faz um link para alguma pgina, est

    validando de alguma forma aquele contedo. A diferena bsica entre os dois sistemas

    explicada no artigo da Scientific American:

    Google e Clever tm duas principais diferenas. A primeira que o Google determina a ordenao inicial e a mantm independentemente de qualquer pesquisa, enquanto que o Clever rene um conjunto raiz diferente para cada termo pesquisado e ento prioriza aquelas pginas no contexto daquela pergunta em particular. Conseqentemente, a abordagem do Google gera uma resposta mais rpida. A segunda diferena que a filosofia bsica do Google olhar apenas na direo em frente, link por link. Em contraste, Clever tambm olha para trs da pgina considerada autoridade, para ver que sites esto apontando para ela. Neste sentido, Clever leva vantagem do fenmeno sociolgico que humanos so naturalmente motivados para criar contedos como ncleos expressando sua expertise em determinado assunto. 63

    No entanto, conforme Donahue64 pontua, embora Google e Clever sejam os

    primeiros mecanismos de busca projetados especificamente em torno da anlise de links,

    esta tecnologia no nova. Segundo esse autor, Excite e Infoseek tambm incluem de

    alguma forma a anlise de links, embora esta seja apenas uma parte do sistema de

    ordenamento desses servios, que ainda classifica os resultados primeiramente baseados na

    interveno humana e na freqncia e localizao das palavras na pgina.

    Os estudos sobre anatomia usualmente so publicados quando surge um

    mecanismo que utiliza uma nova tecnologia para o oferecimento de seu servio. Essa

    tecnologia pode envolver tanto o subsistema de aquisio como o de indexao, ou o de

    ordenao, mas muitas vezes se observa que a discusso engloba vrios aspectos.

    63 CLEVER PROJECT. Hypersearching the Web. Scientific American. Disponvel em: . Acesso em: 07 jun. 1999. 64 DONAHUE, Sean. Smarter Returns. Business 2.0. Disponvel em: . Acesso em: 19 ago. 1999.

  • 24

    Este o caso do trabalho de Ward65, que trata do Northern Light. A tecnologia que

    esse mecanismo de busca adota envolve a indexao automtica (subsistema de indexao),

    colocando os resultados em pastas de assuntos (subsistema de ordenao). O Northern Light

    um servio baseado na Web que pesquisa em uma base de dados composta por pginas e

    por documentos em texto completo provenientes de milhares de fornecedores. Estes dois

    blocos podem ser pesquisados conjunta ou separadamente, com os resultados sendo

    ordenados e agrupados em pastas (folders). Todos os documentos so classificados por um

    vocabulrio controlado de aproximadamente 25 mil cabealhos de assunto. Alm disso, os

    documentos so classificados pela sua tipologia (reviso, lista, artigo, etc.) e fonte (Web site,

    publicao em peridico, etc.). O gerenciamento dos ndices e metadados discutido no

    artigo de Ward.

    A diversidade dos tipos de mecanismos de busca existentes aumenta ainda mais a

    dificuldade do usurio em escolher a melhor ferramenta para atender a sua necessidade de

    informao. Estudos relacionados ao treinamento de usurios so uma rea importante de

    pesquisas e sero apresentados a seguir.

    1 . 3 T r e i n a m e n t o d e u s u r i o s

    Este tipo de estudos, relacionados ao treinamento de usurios, caracteriza-se por

    apresentar quadros comparativos dos mecanismos de busca. Em geral apresentam

    informaes sobre como cada servio funciona, explanando sobre as caractersticas de

    busca e sintaxe que deve ser adotada, de forma a auxiliar ao usurio sobre como escolher o

    mecanismo e elaborar a estratgia para atender sua necessidade de informao.

    Um artigo publicado na ZDNet em 1995 discute o problema da dificuldade que o

    usurio tem em escolher o mecanismo de busca que ir utilizar para tentar resolver sua

    demanda de informao. O estudo, conduzido por Randall66, apresenta uma pontuao de

    quatorze mecanismos de busca, medindo sua usabilidade e efetividade, a partir de uma

    anlise qualitativa e particular do autor. Uma interessante contribuio que este artigo

    oferece um fluxograma para auxiliar o usurio na escolha da melhor ferramenta para sua

    necessidade.

    65 WARD, J. Indexing and classification at Northern Light. NFAIS newsletter. v.41, n.10, oct 1999, p.138-140. 66 RANDALL, Neil. The search engine that could. PC Computing Online. September, 1995. Disponvel em: . Acesso em: 08 jun. 2001.

  • 25

    O trabalho de Hock67, publicado em 1999, representa bem esse tipo de estudo. Ele

    apresenta um quadro com os principais comandos que podem ser utilizados em sete

    mecanismos de busca: AltaVista, Excite, HotBot, InfoSeek, Lycos, Northern Light e WebCrawler.

    Como o prprio autor pontua, os mecanismos de busca esto em constante mudana,

    sendo necessrio revisit-los periodicamente para se manter atualizado sobre suas

    funcionalidades.

    O principal problema dos artigos publicados sobre as caractersticas dos

    mecanismos de busca a rpida e constante evoluo dos servios de recuperao de

    informao na Web. Isto faz com que os artigos percam rapidamente sua utilidade por

    tornarem-se desatualizados. Para suprir esta necessidade, pesquisadores da rea de

    recuperao de informao na Web criaram sites, continuamente atualizados, que

    apresentam quadros de comandos e caractersticas dos mecanismos de busca. Esses sites

    costumam oferecer informaes sobre novos servios que esto sendo lanados e possuem

    uma rea dedicada aos artigos publicados sobre mecanismos de busca.

    Mickey68 tambm partilha essa opinio e sugere um trio de fontes de informao

    sobre ferramentas de busca, indicando o uso do Search Engine Showdown69, do Search Engine

    Watch70 e do site da Mining Company71. Segundo este autor, como os detalhes dos algoritmos

    de ordenao dos mecanismos de busca e outras caractersticas no so explicitados pelos

    servios, a consulta s fontes indicadas uma boa maneira de melhorar a qualidade das

    buscas efetuadas por qualquer usurio.

    Cabe destacar a amplitude do Search Engine Showdown, cujo editor Greg Notess,

    bibliotecrio de referncia da Montana State University, EUA. Este site apresenta resenhas

    atualizadas sobre cada um dos principais mecanismos de busca, quadros comparativos de

    caractersticas de busca, estatsticas de tamanho, sobreposio, alm de uma extensa e

    constantemente atualizada bibliografia de artigos sobre recuperao de informao na Web.

    67 HOCK, R. Websearch engines: features and commands. Online. v.23, n.3, may/june 1999, p.24-28. 68 MICKEY, W. A web search trifecta (sources of search engine information). Online. v.23, n.3, may/june 1999, p.79-82 69 Search Engine Show Down. Disponvel em: . Acesso em: 20 jun. 2001. 70 Search Engine Watch. Disponvel em: . Acesso em: 20 jun. 2001. 71 Mining Company. Disponvel em: . Acesso em: 20 jun. 2001.

  • 26

    O artigo de Cendn72 - citado anteriormente na seo que discute os estudos sobre

    a coleo dos mecanismos de busca - pode ser considerado tambm um estudo relativo ao

    treinamento de usurios. Embora no apresente quadros de caractersticas dos

    mecanismos, tem um forte aspecto didtico principalmente considerando a escassez de

    publicaes sobre o tema em portugus.

    interessante observar que vrios trabalhos publicados no Brasil esto

    concentrados neste tipo de estudo: explicaes sobre o uso dos mecanismos de busca e

    como utiliz-los. Bueno e Vidotti73 apresentaram no XI Seminrio Nacional de Bibliotecas

    Universitrias (SNBU) uma comunicao onde explanam para qu, por qu e como utilizar

    as ferramentas de busca na Internet. Neste trabalho apresentam as caractersticas dos

    mecanismos de busca, classificando-as em catlogos, ndices e metapesquisadores, e

    simulam uma pesquisa, comparando os resultados obtidos com a adoo de diferentes

    estratgias.

    1 . 4 E s t u d o s d e u s o s / u s u r i o s

    Estas pesquisas caracterizam-se por avaliar o comportamento dos usurios ao

    utilizar os mecanismos de busca, visando criar novos servios ou melhorar sistemas j

    existentes. Envolvem a facilidade do acesso, a ergonomia dos servios de informao

    disponveis e os aspectos relacionados necessidade de treinamento dos usurios.

    No estudo publicado em 1996, no peridico Ariadne, Stobart & Kerridge74

    apresentam os resultados preliminares de uma pesquisa financiada pela JISC75, onde

    analisado o uso de mecanismos de busca internacionais pela comunidade acadmica inglesa.

    Na poca em que a pesquisa foi realizada, a conexo internacional do Reino Unido com o

    resto do mundo era feita com baixa velocidade, o que dificultava o uso dos mecanismos de

    busca, na sua maioria, localizados nos Estados Unidos. Para a pesquisa foram analisados

    dois tipos de informao. O primeiro conjunto foi composto pelos logs de acesso aos 72 CENDN, Beatriz Valadares. Ferramentas de busca na Web. Cincia da Informao. V.30, n.1, p.39-49, jan./abr. 2001. Disponvel em: . Acesso em: 15 jul. 2001. 73 BUENO, Mrcia Correa, VIDOTTI, Silvana Aparecida Borsetti Gregorio. Ferramentas de busca na Internet: para qu, por qu e como utiliz-las? In SEMINRIO NACIONAL DE BIBLIOTECAS UNIVERSITRIAS, 11., 2000, Florianpolis. Anais... 74 STOBART, Simon, KERRIDGE, Susan. An investigation into World Wide Web search engine use from within the UK preliminary findings. Ariadne. v.6, November 1996. Disponvel em: . Acesso em: 05 fev. 2001. 75 JISC - Joint Information Systems Committee. Entidade que promove o uso de tecnologia de informao e sistemas de informao no ensino superior no Reino Unido.

  • 27

    servidores de vrias organizaes acadmicas, visando identificar quais os mecanismos de

    busca eram mais utilizados pelos pesquisadores ingleses. O segundo conjunto de

    informaes foi obtido atravs de questionrio disponvel na Web, onde foram coletadas

    informaes sobre comportamento de usurios, preferncias e satisfao ou no com o

    atual servio dos mecanismos de busca. Esta pesquisa teve como objetivo identificar se um

    mecanismo de busca baseado no Reino Unido poderia aliviar o congestionamento da

    largura de banda internacional.

    Alguns autores tratam da questo da experincia do usurio no uso de

    computadores, da Internet ou especificamente dos mecanismos de busca. Este o caso do

    estudo de Lazonder, Biemans & Wopereis76, que analisa o comportamento de usurios em

    duas fases: a localizao de um site relevante para sua necessidade de informao e,

    subseqentemente, de recuperao da informao requerida naquele site. Os resultados

    indicam que usurios com experincia na Web so mais eficientes em localizar Web sites

    que usurios novatos. A diferena observada foi relacionada maior habilidade em operar

    mecanismos de busca na Web. No entanto, nas tarefas onde foi requerido que os usurios

    localizassem informao em um site especfico, a performance de usurios novatos e

    experientes foi equivalente. Este resultado est de acordo com as pesquisas sobre

    hipertexto. Os autores concluem que o treinamento de usurios deve se concentrar nos

    aspectos relativos localizao de sites, ou seja, em mecanismos de busca, e no apenas nas

    questes relativas navegao em ambiente hipertextual.

    Um estudo muito interessante e criativo sobre o comportamento de usurios na

    coleta de informaes na Rede foi publicado no Caderno Mais da Folha de So Paulo77. O

    artigo, traduzido do peridico New Scientist, trata de uma pesquisa desenvolvida no Centro

    de Pesquisas da Xerox, em Palo Alto, Califrnia. Os pesquisadores Pirolli e Card esto

    estudando teorias de ecologia e antropologia para compreender como as pessoas

    encontram informaes em ambientes ricos em dados, como a Internet. Esse trabalho

    baseia-se na teoria do comportamento de caa e coleta (foraging theory), desenvolvida por

    bilogos na dcada de 70, e que parece se adequar caa de informao na Internet. Os

    autores fizeram experimentos com grupos de pessoas que desempenham funes que

    exigem o uso intensivo de dados e observaram uma correlao entre a estratgia de busca 76 LAZONDER, Ard W., BIEMANS, Harm, J.A., WOPEREIS, Iwan G.J.H. Differences between novice and experienced users in searching information on the World Wide Web. Journal of American Society for Information Science. v.51, n.6, April 2000, p.576-581. 77 CHALMERS, Rachel. caa de informao. Caderno Mais. Folha de So Paulo. 26 nov. 2000.

  • 28

    adotada por esses caadores de informao e o comportamento que se poderia esperar

    de animais em busca de alimentos. Visando comprovar empiricamente esses resultados,

    desenvolveram e testaram um modelo matemtico baseado nesta teoria e o colocaram para

    trabalhar buscando informaes em um extenso banco de dados textual. O experimento

    comprovou a aplicabilidade do modelo e os pesquisadores concluem que os usurios da

    Internet utilizam habilidades de resoluo de problemas que tem razes evolutivas

    profundas:

    Caar informaes na rede traz recompensas anlogas s dos caadores-coletores. Contextos diferentes, mas problemas de custo-benefcio semelhantes.78

    O conhecimento do comportamento de usurios na busca de informao pode ser

    o caminho para o desenvolvimento de novas tecnologias em servios de recuperao.

    O ltimo tipo de estudos sobre mecanismos de busca envolve, de certa forma, as

    novas tecnologias a serem desenvolvidas. So os estudos que discutem as tendncias em

    mecanismos de busca.

    1 . 5 T e n d n c i a s

    Os artigos que tratam de tendncias costumam apresentar um panorama das

    pesquisas em desenvolvimento e apontam alguns servios que utilizam tecnologias

    inovadoras que, segundo a percepo dos autores, devem ser seguidas por outras empresas.

    Cornella79 apresenta um interessante artigo sobre aplicaes que esto sendo

    desenvolvidas para facilitar o uso e melhorar a potncia dos mecanismos de busca. O

    autor destaca algumas das aplicaes que visam aumentar a facilidade de uso dos

    mecanismos de busca. A primeira delas o uso da busca em linguagem natural, j utilizado

    em alguns servios como o AltaVista e o ElectricMonk. Outra aplicao seria a extenso

    semntica, ou seja, o sistema estender a busca para sinnimos dos termos digitados na caixa

    de busca. Essa aplicao chamada de modelo semntico ou conceitual e utilizada pelo

    Excite. A terceira aplicao destacada pelo autor a traduo de frases freqentes, como o

    AskJeeves faz. Ou seja, o mecanismo interpreta semanticamente a pergunta feita pelo

    usurio e a compara com uma base de dados de perguntas j preparadas.

    78 CHALMERS, op. cit. 79 CORNELLA, Alfons. O avano das ferramentas de busca. Infonomia. Disponvel em: . Acesso em: 12 ago. 1999.

  • 29

    Um artigo publicado no peridico Nature80, em maio de 2000, apresenta tendncias

    no desenvolvimento de mecanismos de busca que prometem facilitar o trabalho de

    pesquisadores que buscam informao na Web. So discutidas vrias pesquisas onde o

    enfoque na recuperao de informao cientfica, e o autor afirma que esta no a

    principal corrente de pesquisas em mecanismos de busca. Uma das tendncias para a

    soluo do problema de recuperar informao cientfica, segundo Butler, a

    portalizao, ou seja, a criao de portais especializados em temas. Ele afirma:

    Especialistas predizem que dentro de cinco anos, pesquisar a Web inteira por palavras-chave ser uma coisa do passado. Nossas pesquisas personalizadas sero encontradas em portais de busca dedicados cincia. Essas webs dentro da Web concentraro a maioria dos recursos que voc necessita dentro de um ambiente facilmente navegvel. 81

    O artigo coloca tambm como tendncia a criao de programas inteligentes que

    faro as pesquisas a partir da anlise da necessidade e interesse de seus usurios. Assim, no

    futuro, haver servios baseados na anlise dos resultados de busca selecionados

    anteriormente em relao a esta ou aquela pesquisa e ao tempo que o usurio ficou em uma

    pgina particular, gerando ciclos automticos de retroalimentao.

    Com este panorama da importncia dos estudos relacionados aos mecanismos de

    busca na Web, nos voltamos para a segunda questo levantada por Rijsbergen82: o que

    avaliar.

    Este o assunto da prxima seo, onde utilizamos teorias desenvolvidas por

    autores clssicos da Cincia da Informao como referencial para o levantamento de

    critrios de avaliao de performance em mecanismos de busca.

    80 BUTLER, Declan. Souped-up-search engines. Nature, 40512, 1-115 May 2000. Disponvel em: . Acesso em: 22 ago. 2000. 81 BUTLER, Declan. Souped-up-search engines. Nature, 40512, 1-115 May 2000. Disponvel em: . Acesso em: 22 ago. 2000. 82 RIJSBERGEN, C.J. van. Information retrieval. Woburn: Butterworth & Co Ltda, 1979. 208 p. Disponvel em: . Acesso em: 21 jun. 2001.

  • 30

    2 . A V A L I A O D A R E C U P E R A O D E I N F O R M A O

    Esta seo procura responder a segunda questo proposta por Rijsbergen: o que

    avaliar? Ou seja, discutimos que parmetros podem ser utilizados para avaliar a eficcia dos

    mecanismos de busca na Web em satisfazer a necessidade de informao do usurio.

    Para a construo desses parmetros nos baseamos na premissa de que os

    mecanismos de busca so sistemas de recuperao de informao no ambiente da Web.

    Inicialmente, importante lembrarmos que, segundo Lancaster83, os sistemas de

    informao tm como funo atuar como uma interface entre um conjunto especfico de

    usurios e o universo de recursos informacionais disponveis.

    Em geral, os sistemas de informao so criados para um pblico determinado, ou

    seja, dentro de um universo de informaes que atenda s necessidades de usurios pr-

    estabelecidos. Como exemplo podemos citar as bases de dados, bibliogrficas ou textuais,

    para cada rea do conhecimento: Medicina, Engenharia, etc. Nesses casos, a delimitao do

    usurio bastante clara e precisa.

    Na Internet, em particular, os recursos atendem a toda e qualquer pessoa, no

    havendo uma delimitao das necessidades particulares dos usurios. Porm, outras

    caractersticas que os mecanismos de busca oferecem nos permitem caracteriz-los como

    sistemas on-line de recuperao de informao. Essa assertiva parte da caracterizao

    oferecida por Lancaster & Fayen84 para os sistemas on-line de recuperao de informao.

    Segundo os autores, estes so sistemas onde o usurio pode acessar diretamente, via

    computador, uma base de dados de documentos ou de suas representaes.

    Uma das caractersticas apontadas pelos autores para este tipo de sistema a

    operao em tempo real (real-time): o computador recebe os dados, processa e recupera

    rapidamente os resultados para o usurio. Isto permite uma interao conversacional entre

    o usurio e o computador. Outra caracterstica o processamento time-sharing, ou seja,

    compartilhado entre duas ou mais atividades independentes, permitindo que diferentes

    83 LANCASTER, F.W. Information Retrieval System: characteristics, testing and evaluation. USA: John Wiley & Sons, 1979. 318p. 84 LANCASTER, F.W., FAYEN, E.G. Information Retrieval On-Line. Los Angeles, CA: Melville Publishing Co. 1973.

  • 31

    usurios acessem simultaneamente o sistema. Esta operao oferece a cada usurio, em seu

    terminal especfico, a iluso de que o nico a estar acessando o sistema.

    As caractersticas relacionadas acima mostram que os mecanismos de busca podem

    ser considerados sistemas de recuperao de informao on-line, e o modelo proposto por

    Lancaster & Fayen serve como importante subsdio para o estudo da performance dos

    mecanismos de busca de informao na Web.

    Esses autores, clssicos na Cincia da Informao, oferecem importante

    contribuio, mas sua discusso baseia-se em sistemas de recuperao de informao

    fechados, em ambientes que permitem o controle do que est sendo introduzido no

    sistema. Outra diferena importante a ser observada que nos sistemas de recuperao

    tradicionais havia um mediador entre o servio e o usurio, ou seja, um profissional que

    interpretava a necessidade de informao do usurio e traduzia para uma sintaxe de busca

    adequada ao sistema.

    A popularizao do acesso informao, possibilitada pela Web, expe os servios

    de recuperao de informao diretamente ao usurio. Estes servios devem, portanto,

    oferecer condies para que o usurio execute sua busca de forma eficaz.

    Com o intuito de aumentar a abrangncia deste trabalho, procuramos incorporar

    novas questes que considerem essas diferenas entre os sistemas tradicionais de

    recuperao de informao e os sistemas de busca disponibilizados para o grande pblico

    da Web. Para isso, utilizamos a sistematizao das caractersticas de busca dos sistemas de

    recuperao de informao oferecida por Hahn85, em um artigo recente.

    Ressaltamos que a discusso se baseia tambm em nossa experincia anterior no

    trabalho com os dois ambientes de recuperao de informao: primeiramente nos sistemas

    fechados de recuperao de informao, particularmente o banco de dados Dialog e,

    posteriormente, no trabalho desenvolvido na busca de informao na Web, atravs dos

    mecanismos de busca, visando o desenvolvimento de bibliotecas virtuais no Programa

    Prossiga.

    85 HAHN, Trudi Bellardo. Text Retrieval Online: historical perspective on Web Search Engines. Bulletin ASIS. V.24, n.4, April/May, 1998. Disponvel em: . Acesso em: 22 jun. 2001.

  • 32

    importante destacar que esses parmetros de avaliao so desenvolvidos visando

    a sua aplicao em mecanismos de busca do tipo motor, ou seja, cuja base de dados

    formada a partir de robs que vasculham a Web.

    2 . 1 M o d e l o d e L a n c a s t e r & F a y e n

    Iniciamos a discusso a partir do repertrio de critrios propostos por Lancaster &

    Fayen. Eles afirmam que o desempenho de um sistema de recuperao de informao pode

    ser julgado pela satisfao do usurio em ter sua necessidade atendida. Cleverdon86 foi o

    primeiro pesquisador a apresentar uma lista resumida dos critrios que podem ser aplicados

    para avaliar a satisfao do usurio:

    Revocao

    Preciso

    Cobertura

    Esforo do usurio

    Formato de sada

    Tempo de resposta

    A taxa de revocao definida como a expresso quantitativa do grau de sucesso

    alcanado na recuperao da literatura relevante de um sistema. 87. Assim, a revocao a

    relao entre o nmero de documentos relevantes recuperados e o nmero total de

    documentos relevantes contidos no sistema. Para a medida da revocao necessrio

    conhecer o nmero total de documentos relevantes contidos no sistema.

    Porm, no ambiente da Web no possvel sequer medir o nmero exato de

    pginas que indexado pelo sistema, muito menos quantas delas so relevantes para

    determinado assunto88. Assim, nos parece que a medida de revocao no aplicvel nos

    mecanismos de busca na Web.

    A preciso a medida do quo bem sucedida foi a filtragem de documentos sobre o

    assunto solicitado dentro do universo de documentos recuperados pelo sistema. Pode ser

    86 CLEVERDON apud LANCASTER, F.W., FAYEN, E.G. 1973 87 LANCASTER, F.W., FAYEN, E.G. Information Retrieval On-Line. Los Angeles, CA: Melville Publishing Co. 1973. 88 A medida da taxa de revocao tambm no pode ser mensurada no ambiente tradicional.

  • 33

    expressa como a taxa entre o nmero de documentos relevantes recuperados e o nmero

    total de documentos recuperados. Para a medida da preciso, portanto, necessrio avaliar

    a relevncia dos documentos recuperados. A relevncia est diretamente relacionada com a

    importncia ou utilidade do documento obtido para a satisfao da necessidade do usurio.

    Em sistemas de recuperao de informao, a revocao e a preciso so medidas

    que costumam ser analisadas em conjunto, pois trabalham em uma ordem inversa. Para

    melhorar a preciso necessrio uma busca mais rigorosa, o que provoca uma diminuio

    da revocao. importante ressaltar que, de acordo com a necessidade do usurio, o

    melhor desempenho obtido com uma alta taxa de preciso ou um alto ndice de

    revocao.

    Quando se necessita de toda a