DE AMBIENTES ESTÁTICOS PARA A COMUNICAÇÃO MÓVEL · ... cada qual com suas limitações: desde...

18
Anais do V SECIN, 2013, p. 683 - 700 DE AMBIENTES ESTÁTICOS PARA A COMUNICAÇÃO MÓVEL 22, 23 e 24 de maio de 2013 - Londrina-PR EIXO TEMÁTICO: O ciberespaço e a redefinição da informação WEB INVISÍVEL: compreendendo a invisibilidade no ciberespaço INVISIBLE WEB: understanding the invisibility in cyberspace Marcos Vinicius Fidencio - [email protected] Graduando em Biblioteconomia pela Universidade Estadual de Londrina. Bolsista de iniciação científica do CNPq na modalidade PIBIC-AF Silvana Drumond Monteiro - [email protected] Docente do Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual de Londrina. Pesquisadora PQ2. Doutora em Comunicação e Semiótica. Coordenadora do Curso de Biblioteconomia, Universidade Estadual de Londrina. RESUMO Define-se a web invisível como o conteúdo do ciberespaço não indexado pelos mecanismos de buscas. A metodologia empregada foi a pesquisa e a análise documentais para estudo do objeto específico. Fez-se a categorização dos tipos de invisibilidade descobertas na literatura Web Opaca, que mistura mídias; Web privada, restrita pelos seus mantenedores; Web proprietária, indexável mas que possui propriedade de alguma organização sendo acessível por senha; e Web verdadeiramente invisível, excluída por política de exclusão dos mantenedores ou por dificuldade de indexação. Como resultado, encontrou-se diferenças terminológicas para referir-se a essa parcela do ciberespaço, sendo o denominador comum entre todos os termos a não-indexação do conteúdo em buscadores gerais. Conclui-se que o assunto merece maior atenção da área de Ciência da Informação. Palavras-Chave: Web invisível. Web profunda. Indexação na Web. Mecanismos de buscas. ABSTRACT Its defined as the invisible web of cyberspace content not indexed by search engines. The methodology employed was to research and document analysis to study the specific object. Made to categorize the types of discoveries invisibility in literature - Opaque Web, mixing media, Web private, limited by their supporters; proprietary Web, indexable but owns property in any organization and is accessible by password, and Web truly invisible excluded by political exclusion of the maintainers or difficulty indexing. As a result, we found differences in terminology to refer to this portion of cyberspace, being the common

Transcript of DE AMBIENTES ESTÁTICOS PARA A COMUNICAÇÃO MÓVEL · ... cada qual com suas limitações: desde...

Anais do V SECIN, 2013, p. 683 - 700

DE AMBIENTES ESTÁTICOS PARA A COMUNICAÇÃO MÓVEL

22, 23 e 24 de maio de 2013 - Londrina-PR

EIXO TEMÁTICO:

O ciberespaço e a redefinição da informação

WEB INVISÍVEL: compreendendo a invisibilidade no ciberespaço

INVISIBLE WEB: understanding the invisibility in cyberspace

Marcos Vinicius Fidencio - [email protected] Graduando em Biblioteconomia pela Universidade Estadual de Londrina.

Bolsista de iniciação científica do CNPq na modalidade PIBIC-AF

Silvana Drumond Monteiro - [email protected] Docente do Programa de Pós-Graduação em Ciência da Informação da

Universidade Estadual de Londrina. Pesquisadora PQ2. Doutora em Comunicação e Semiótica. Coordenadora do Curso de Biblioteconomia,

Universidade Estadual de Londrina.

RESUMO

Define-se a web invisível como o conteúdo do ciberespaço não indexado pelos mecanismos de buscas. A metodologia empregada foi a pesquisa e a análise documentais para estudo do objeto específico. Fez-se a categorização dos tipos de invisibilidade descobertas na literatura – Web Opaca, que mistura mídias; Web privada, restrita pelos seus mantenedores; Web proprietária, indexável mas que possui propriedade de alguma organização sendo acessível por senha; e Web verdadeiramente invisível, excluída por política de exclusão dos mantenedores ou por dificuldade de indexação. Como resultado, encontrou-se diferenças terminológicas para referir-se a essa parcela do ciberespaço, sendo o denominador comum entre todos os termos a não-indexação do conteúdo em buscadores gerais. Conclui-se que o assunto merece maior atenção da área de Ciência da Informação.

Palavras-Chave: Web invisível. Web profunda. Indexação na Web. Mecanismos de buscas.

ABSTRACT

It’s defined as the invisible web of cyberspace content not indexed by search engines. The methodology employed was to research and document analysis to study the specific object. Made to categorize the types of discoveries invisibility in literature - Opaque Web, mixing media, Web private, limited by their supporters; proprietary Web, indexable but owns property in any organization and is accessible by password, and Web truly invisible excluded by political exclusion of the maintainers or difficulty indexing. As a result, we found differences in terminology to refer to this portion of cyberspace, being the common

684

Anais do V SECIN, 2013, p. 683- 700

denominator between all terms non-indexation of the content in generic search engines. Conclude that subject issue deserves more attention in the field of Information Science.

Keywords: Invisible Web. Deep web. Indexing the web. Search engines.

1 INTRODUÇÃO

A indexação do conteúdo disponível no ciberespaço passou por vários

estágios, cada qual com suas limitações: desde os antigos Gophers e diretórios, aos

modernos mecanismos de busca, gerais e especializados, baseados em uma

verdadeira “varredura” maquínica feita por crawlers/spiders, cuja instrução

algorítmica é, em síntese, somar novos links aos extensos índices do mecanismo de

busca para qual operam, sob a égide da recuperação da informação possível –

objetivo louvável, mas que ainda está longe de ser concretizado, por diferentes

porquês.

Nos seus primeiros anos, o conteúdo na Web era, basicamente, recuperado

apenas mediante a memorização das Universal Resources Locator (URL). Como

método pioneiro de indexar e facilitar a recuperação da informação no ciberespaço,

destacam-se as ferramentas de procura em repositórios File Transfer Protocol (FTP)

e os Gophers, como o Archie (CENDÓN, 2001), modelos bem diferentes das simples

interfaces dos buscadores atuais – cada vez mais aperfeiçoados.

A essa parcelada Web, dá-se o nome de informação visível (que formam a

web visível) e está referenciada nos índices dos buscadores designados gerais

(exemplos: Google, Ask, Bing, AltaVista, IxQuick e centenas de outros), facilmente

acessível, mediante uma query1 ideal. Esses buscadores possuem rastreadores que

operam com critérios próprios e com objetivo de descobrir uma nova URL e,

mediante essa, descobrir outras URLs em um processo teoricamente infinito de

mapeamento do ciberespaço e dos hiperlinks, garantindo, assim, um controle da

informação dispersa e dando um sentido ao caótico ciberespaço – ou, ao menos, em

parcela dele.

1 Query significa pergunta sem a estrutura de frase, mas entendida ou respondida como texto. (MORVILLE; CALLENDER, 2010).

685

Anais do V SECIN, 2013, p. 683- 700

Ocorre que esse sonho de controle da informação no ciberespaço possui

dificuldades e limitações, por questões variadas, dispersas no tempo. A parcela

“sobrante” possui uma razão de ser: por questões tecnológicas, por questões

políticas ou por outras questões que, de alguma forma, dificultam que a totalidade da

informação no ciberespaço seja indexada, o que foi observado no decorrer das

investigações e levantamento bibliográfico a respeito do tema.

A essa parcela de conteúdo ciberspacial cuja indexação não é feita por

mecanismos de busca tradicionais a literatura nomeia de “Web Invisível”, termo

cunhado por Jill Ellsworth (1994 apud BERGMAN, 2001), noutros momentos de

“Web Oculta”, “Web Profunda” e outros adjetivos cujo denominador comum conota a

informação que não é, de alguma forma, indexada e somada aos índices dos

buscadores gerais. Representam um conteúdo maior do que o recuperável, bem

como de alta qualidade.

Para a Ciência da Informação o conhecimento desse manancial não pode

passar despercebido, principalmente por que a quantidade de informação rotulada

como invisível possui qualidade inestimável, uma vez que grande parte dela

constitui-se de banco de dados especializados. Assim, é pertinente dissertar a

respeito do tema, pois ter acesso a esse conteúdo faz parte do fazer bibliotecário.

Desse modo, este trabalho tem como objetivos: fornecer uma visão das

limitações da indexação na Web, o que na literatura é atribuído à Web Invisível e

suas ramificações; demonstrar as potencialidades da Web invisível e seus

respectivos mecanismos de busca.

A esta introdução, segue-se: os procedimentos metodológicos junto ao

referencial teórico com uma pequena explanação da contribuição de cada autor; os

resultados (expressos com maior ênfase), com especial atenção ao tema “Dark

Web” - principalmente pela carência da literatura sobre o tema; e por fim, mas não

menos importante, uma parte do trabalho dedica-se a sumarizar alguns mecanismos

específicos descobertos durante as investigações, sobretudo para ilustrar algumas

fontes de informação da Web Invisível e, se o leitor assim desejar, aventurar-se

nelas: experiência formidável.

686

Anais do V SECIN, 2013, p. 683- 700

2 PROCEDIMENTOS METODOLÓGICOS

A pesquisa documental, com a consequente análise, foi o modo pelo qual o

objeto foi perscrutado e a pesquisa desenvolvida. A primeira etapa foi a aproxima-

ção com o tema mediante levantamento bibliográfico em língua portuguesa e inglesa

– formando o corpus teórico – a qual seguiu-se de discussão teórica entre pares

com o material recuperado dessa forma: comparando a literatura; discutindo e

analisando as diferenças terminológicas; e questionando quais os motivos dos

mecanismos de busca não conseguirem indexar essa parcela do ciberespaço.

Mediante o domínio da teoria, a segunda fase da pesquisa concentrou-se

em explorar as fontes de informação da Web invisível (corpus de buscadores): suas

características, potencialidades, funcionamento e público alvo.

Dessa interação com a teoria e com a prática, a terceira e última parte da

pesquisa concentrou-se em escrever sobre o tema, situando essa parcela do

ciberespaço em seu status quo: cuja concentração, constatou-se, é em um novo

desdobramento desta Web conhecida como Dark Web (BECKETT, 2009), em que a

regra dos utilizadores é ter a informação oculta por motivos múltiplos.

A maior parte da literatura a respeito do tema é em inglês, embora o trabalho

de Araújo (2001) tenha contribuido para investigar questões terminológicas, além

disso, os mecanismos de busca da web indexável foram muito bem trabalhados por

Branski (2004) e Cendón (2001).

De fundamental importância foi o trabalho de Andy Beckett (2011), sobretudo

por ser bastante recente ao mostrar as novas configurações do tema pesquisado, a

Dark Web, uma ramificação maniqueísta do ciberespaço. Também importante foi a

crescente familiarização in loco com os mecanismos de busca especializados,

voltados à tarefa de indexar esse rico manancial: uma análise de alguns deles será

apreciada mais adiante.

A dissertação a respeito dos resultados parciais encontrados é que dará,

fundamentalmente, uma visão mais aprofundada do referencial teórico, citado aqui

de maneira sumarizada, bem como quais conclusões e observações foram possíveis

mediante análise e como cada autor contribuiu para a compreensão do tema.

687

Anais do V SECIN, 2013, p. 683- 700

3 WEB INVISÍVEL

Embora o termo Web Invisível tenha surgido em 1994, é na década de 2000

que a literatura explora-o de maneira mais consistente, sobretudo pela grande

repercussão de dois trabalhos: o de Michael Bergman (2001), que trouxe dados

valiosos a respeito da dimensão desse conteúdo; e o de Sherman e Price (2001),

muito louvável, em caracterizar melhor o espaço, inclusive a forma pela qual pode

ser explorado entre grandes áreas temáticas ou, ainda, quais tipos de informação

são de fato impossíveis de se indexar por diversos problemas.

A dimensão da Web invisível carece de uma precisão segura, embora ela

seja maior que a Web visível. Bergman (2001) estima que é de 400 a 550 vezes

maior que a Web indexada, enquanto que, a respeito dessa afirmação, Sherman e

Price (2001, p. 82) dizem que o autor chegou a esse número incluindo informações

efêmeras sobre tempo, temperatura, entre outras.

Nesse sentido, Rajaraman (criador do Kosmix) confessa que os mecanismos

de busca indexam uma fração muito pequena do ciberespaço. “Eu não sei, para ser

honesto, que fração. Ninguém tem uma estimativa muito boa de como é grande a

Web profunda. De cinco a cem vezes maior do que a Web de superfície é a única

estimativa que conheço.” (apud BECKETT, 2009, p. 2-3).

Diferenças à parte é certo que a literatura considera a Web invisível maior

do que a visível, com rico valor de conteúdo intelectual e potencialidade de

exploração econômica, visto que há mecanismos específicos focados na indexação

dessas informações.

Bergman (2001) ilustra, em seu relatório, uma figura amplamente

reproduzida em outros artigos, em que a fina camada nomeada “Surface Web” é a

parte da Web recuperada por buscadores gerais, enquanto que a grande camada,

“The Deep Web”, é a parte estimada de informações não recuperadas. Os “barcos”

são os buscadores na tentativa de indexar conteúdo (peixes, na ilustração):

688

Anais do V SECIN, 2013, p. 683- 700

Figura 1 – A Web da superfície e a Web profunda

Fonte: Bergman ( 2001, p. 6).

A investigação de Bergman (2001) trouxe outros dados elucidativos (e

bastante surpreendentes) que ajudaram a compreender como esse espaço se

configura:

a Web profunda é a maior categoria crescente de informações no

ciberespaço;

existem mais de 200.000 sites profundos;

o conteúdo da Web profunda é de alta qualidade;

a qualidade do conteúdo total da profunda é de 1.000 a 2.000 vezes maior

que a Web de superfície;

mais da metade do conteúdo da Web profunda reside em base de dados

especializadas;

um total de 95% da Web profunda é gratuita, acessível ao público

mediante assinatura (BERGMAN, 2001, p.2).

689

Anais do V SECIN, 2013, p. 683- 700

Já Sherman e Price (2001) preocuparam-se, entre outras coisas, em

categorizar essa Web, aproximando-a a seus possíveis utilizadores, ilustrando casos

fictícios de necessidades de informação. Os dois trabalhos se completam, e formam

a base para as discussões posteriores na literatura.

Na descrição das várias camadas da Web, Sherman e Price (2001) deixam

perceber que o termo invisível não é exatamente o par dicotômico da Web visível,

mas apenas a existência de planos de invisibilidade, como as desdobras ou texturas

do ciberespaço.

As categorias propostas por eles merecem ser citadas, pois ilustram, com

bastante consistência, as diretrizes gerais que se desdobram essa diretriz maior

nomeada aqui Web Invisível. A figura a seguir é esquemática para que seja mais

ilustrativa a explanação de cada conceito, adaptada de Ford e Mansourian (2006):

Figura 2 - As Várias Webs

Fonte: Adaptado de Ford e Mansourian (2005, p. 585).

Basicamente, a Web Invisível se divide em quatro partes, segundo Sherman

e Price (2001), embora uma nova parte apareça na literatura como “Dark Web”

(BECKETT, 2011), assunto de apreciação posterior. Essas quatro partes possuem

690

Anais do V SECIN, 2013, p. 683- 700

características bem definidas, o que facilita a compreensão da dimensão da Web

Invisível e respondem a questões investigativas que propiciaram este trabalho.

3.1 Camadas de invisibilidade da web

Para Sherman e Price (2001) o paradoxo da Web invisível consiste

justamente que sua existência é de fácil compreensão, mas de difícil definição,

concretamente com termos específicos. Não obstante, os autores conseguem fazê-

lo de forma surpreendentemente didática.

3.1.1 Web opaca

Consiste em sites que misturam arquivos e mídias, em que alguns deles são

facilmente indexáveis e outros são incompreensíveis aos rastreadores. Pela

dificuldade em classificar esses sites, em Web visível ou invisível, são designados

como Web opaca. Além disso, segundo os autores supracitados, há outros motivos

de cunho tecnológico para a existência dela, ou seja, arquivos que podem ser, mas

não são incluídos nos índices dos mecanismos de busca, por várias razões, a saber:

profundidade do rastreador (crawler): reduzir a profundidade ajuda a

reduzir os custos de indexação;

número máximo de resultados visíveis: quando o número máximo de

páginas visualizáveis for atingido, em resposta a uma pergunta, o

mecanismo de busca retorna um número limite de resultados visíveis. As

páginas que os algoritmos não incluíram, em ordem de relevância, tornam-

se irrecuperáveis para aquela “query” em especial. Essa limitação é cada

vez mais incomum, tendo em vista que mecanismos como o Google ou

Yahoo! retornam resultados em bilhões;

frequência do rastreador: pode ocultar páginas da Web visível por algum

período de tempo. Esse problema só é eliminado com a constante visita

do restrador à página e sua re-indexação;

URLs desconectadas: páginas que não têm links. Isso ocorre por que

existem duas formas básicas para indexar o conteúdo da Web: ou o autor

691

Anais do V SECIN, 2013, p. 683- 700

envia um pedido de submissão a um mecanismo ou o robô descobre por si

próprio. Para que o segundo tipo descrito seja possível, é necessário que

outras páginas, já indexadas, apontem para a nova.

3.1.2 Web privada

Consiste em páginas que são deliberadamente excluídas dos mecanismos,

ou seja, o conteúdo possui restrição deliberada pelos mantenedores, por três

grandes motivos, as saber:

páginas protegidas por “password”: o conteúdo só é acessível para

associados ou pessoas que têm senhas;

uso de “no index”: impede que o robô indexe a página. Método inseguro,

colocado pelo próprio Web Master, ficando a critério da política dos

buscadores indexar ou não;

uso de arquivos “robots.txt” para impedir o acesso de buscadores na

página. Método seguro, e bem mais comum.

3.1.3 Web proprietária

Embora seja indexável, é restrito por ser propriedade dos seus

mantenedores (instituições, órgãos etc.), acessível mediante registro, em muitos

casos gratuitos, assinatura e/ou pagamento de taxas.

Algumas páginas da Web são visualizadas mediante assinatura, nesse caso,

estamos falando de Web Proprietária.

3.1.4 Web verdadeiramente invisível

Quatro grandes motivos formam a Web verdadeiramente invisível, embora

as adaptações e aperfeiçoamentos dos mecanismos sejam constante para superá-

los:

692

Anais do V SECIN, 2013, p. 683- 700

algumas páginas possuem formatos de arquivos como o PDF, Postscript,

Flash, Shockwave, programas executáveis, e arquivos comprimidos;

difíceis e/ou impossíveis de serem indexados;

a política de exclusão do mecanismos, uma vez que alguns arquivos

podem ser indexados , mas não são, como por exemplo formatos PDF;

As páginas dinâmicas que são geradas mediante solicitação ou consultas;

informações armazenadas em banco de dados.

3.1.5 Dark web

Embora não tenha sido descrita nas categorias de Sherman e Price (2001),

é bastante seguro considerar a Dark Web como uma nova ramificação da Web

Invisível: suas características são próprias; sua filosofia é própria e, além de tudo,

seu conteúdo é o mais enigmático e desordenado de todas as ramificações.

É em Beckett (2009) que há uma apresentação dessa parcela do

ciberespaço tão pouco explorada na literatura. O cenário para o surgimento dessa

Web deve-se à tese de Ian Clarke de 2000, então estudante da Edinburgh

University, cujo resultado foi a criação de um programa chamado“FreeNet”

(BECKET, 2009).

O FreeNet foi criado pensado na liberdade de expressão e de conteúdo,

como o protótipo perfeito de informação livre e sem restrições – principalmente

judiciais – para seus usuários. Um usuário do FreeNet compartilha, ao participar da

rede, uma parcela do seu Disco Rígido para armazenar informações criptografadas

que ele mesmo jamais saberá do que se trata. O criador do software, em resposta

ao Beckett, disse que a parcela de informação ilegal circulando no FreeNet não é o

suficiente para negar as pessoas a liberdade de se comunicar (CLARKE, 2009), o

que demonstra o quão ideológico é o software.

Iniciativa semelhante ocorreu com a criação do software The Onion Router

(THOR), um projeto voluntário para aqueles que procuram tráfego de informação

anônima na Internet (BECKETT, 2009). O desenvolvimento inicial do THOR era para

o Laboratório de Pesquisa Naval Americano, para proteger a comunicação

governamental. Hoje, o Thor pode ser utilizado por qualquer pessoa, embora essa

liberdade tenha causado problemas legais, como aponta Beckett (2009).

693

Anais do V SECIN, 2013, p. 683- 700

Na prática, como funciona o THOR? Utilizando o THOR, as rotas para

roteamento de pacotes é randômica e a informação é encriptografada, ou seja,

“perde” a identidade do solicitante. Através do THOR é que surgiu uma iniciativa de

construção de sites utilizando o sufixo “onion”. Todo site que possui o sufixo onion é

inacessível e ilegível a qualquer navegador Web normal, sendo exclusivo dos

usuários da rede THOR, aí sim, legíveis aos navegadores.

Em ambos os casos, uma coisa fica bastante clara: na Dark Web o

anonimato é desejável aos utilizadores, principalmente por causa de posições

filosóficas dos usuários ou alguma posição contrária às normas sociais.

3.2 Mecanismos de busca dedicados à web invisível

Vários mecanismos de busca, públicos e privados, mas altamente

específicos, dedicam-se a indexar informações invisíveis aos mecanismos gerais,

que só indexam a Web da superfície. Inúmeros bancos de dados podem ser

enquadrados como Web Invisível, principalmente portais de periódicos pagos,

comuns aos bibliotecários de referência ou aos pesquisadores. A pesquisa

naturalmente chegou até a eles e a outros buscadores.

Mednar

Um dos mais completos buscadores na área da saúde. O que faz do

MedNar muito útil são suas relações semânticas que eliminam boa parte da

polissemia dos buscadores tradicionais, ligando qualquer palavra-chave à área de

saúde, especialmente à Medicina. Além disso, quando o buscador finaliza uma

busca ele apresenta categorias em que o tópico pesquisado mais apareceu em

forma de “Result Topics”. Como exemplo, para "coração" aparecem tópicos de

“Falha cardíaca”, “Doenças do coração", "enfarto”, etc.

A empresa criadora do MedNar (Deep Web Technologies) também possui

outros buscadores com o intuito de indexar outros tipos de informação, não ligadas à

Medicina, e pode ser considerada um sucesso no grande trabalho de criar um

buscador de qualidade com alta revocação e precisão. Com design inteligente e

694

Anais do V SECIN, 2013, p. 683- 700

amplo uso dos recursos da Web 2.0, o MedNar é uma fonte de informação

indispensável para o pesquisador na área médica.

Figura 3 – Mednar

Fonte: MEDNAR. Disponível em: <http://mednar.com/mednar/>.

History world

O History world é uma forma diferente de procurar informação na Web, pois,

o que conta são os dados históricos do que está sendo pesquisado. O buscador

pode ser considerado uma espécie de busca específica e histórica para eventos

mundiais. Tradicionalmente, os buscadores da superfície permitem uma query sem

indicação cronológica ou factual, enquanto que o History world apresenta seus

resultados dispersos no tempo e com as várias formulações lógicas possíveis

(queries) para encontrar aquela formulação em buscadores externos.

Figura 4 – History world

Fonte: HISTORY World. Disponível em: < http://www.historyworld.net/>.

695

Anais do V SECIN, 2013, p. 683- 700

SurfWax

As buscas em feeds RSS são possíveis com o SurfWax, ainda que

incompletas por serem restritas no tempo. Com o buscador é possível digitar a raiz

de alguma palavra e ver quais os feeds que remetem a tal nos últimos sete dias.

A empresa criadora denomina-o de pesquisador dinâmico, característica

fundamental do estilo de busca adotado: o banco de dados do buscador é atualizado

a cada hora e se renova 100% em sete dias, voltando a informação do feed a ficar

perdida nos confins da Web. Sua interface é simples e diferente, “dinâmica” na

medida em que cada letra é digitada.

Figura 5 – SurfWax

Fonte: SURFWAX. Disponível em: <http://lookahead.surfwax.com/index-2011.html.

Pipl

Buscador dedicado a encontrar pessoas e informações sobre elas. O Pipl

acessa uma enorme quantidade de bases de dados diferentes, que vão desde de

listas telefônicas às redes sociais. Sua interface é simples: uma primeira caixa de

texto é dedicada para inserir nome, telefone, e-mail ou nome de usuário de algum

serviço; a segunda caixa (opcional) é para inserir dados geográficos (cidade, estado,

país). Um dos seus méritos é fazer as buscas em vários países, ao contrário do

concorrente Zaba Search, centrado nos Estados Unidos.

Contudo, há outras opções melhores de buscadores para quem procura

alguém em registros históricos ou telelistas, e o aperfeiçoamento das buscas nas

próprias redes sociais é constante, graças ao cruzamento de dados (e

696

Anais do V SECIN, 2013, p. 683- 700

integrabilidade, como nas redes do Google) fornecidos pelo próprio utilizador, o que

faz com que procurar alguém em redes sociais específicas seja uma melhor opção

para quem já é cadastrado.

Na realidade, o Pipl é uma grande ideia (ainda que não seja nova) com

potencial para ser uma ferramenta coringa. Com a pluralidade de redes sociais o

Pipl torna-se atrativo e com grande potencial de crescimento, o que dependerá,

obviamente, dos desenvolvedores em explorar essas oportunidades.

Figura 6 - Pipl

Fonte: PIPL. Disponível em: < https://pipl.com/>.

Internet Archive

O propósito do Internet Archive é ser uma grande biblioteca do ciberespaço

para acesso a pesquisadores, historiadores, e público interessado no seu conteúdo.

O Internet Archive faz a indexação de páginas antigas de sites que não mais

existem. O projeto teve início em 1996, em São Francisco, Estados Unidos. Nenhum

buscador indexa URLs antigas, portanto, as páginas do Internet Archive são

cuidadosamente indexadas para que existam para sempre.

697

Anais do V SECIN, 2013, p. 683- 700

Figura 7 – Internet Archive

Fonte: INTERNET Archive. Disponível em:<http://archive.org/index.php>.

Complete Planet

Desenvolvido pelos mantenedores do BrightPlanet, inclusive Michael

Bergman, permite a busca de arquivos invisíveis de todos os tipos, seja por busca

simples, avançada ou diretórios. A homepage diz que o Complete Planet faz buscas

em mais de setenta mil bases de dados diferentes. O fato é que o Complete Planet

possui ótima revocação, ótimos mantenedores e, possivelmente, é o Search Engine

nesse segmento mais bem sucedido financeiramente, com inúmeras soluções

tecnológicas diferentes disponíveis e bastante inovação e pioneirismo.

Figura 8 - Complete Planet

Fonte: COMPLETE Planet. Disponível em:< http://aip.completeplanet.com>.

OAIster

Conhecido pelos bibliotecários, o OAIster é ligado à Online Computer Library

Center (OCLC) e indexa repositórios de qualquer tipo de mais de 1.100

contribuidores. O curioso dos repositórios é que alguns são indexados pelos

mecanismos de busca, outros, não – questão essa ligada à política dos

mantenedores. Por isso, o OAIster é uma excelente ferramente para recuperar

698

Anais do V SECIN, 2013, p. 683- 700

informação na Web, pois boa parte do seu conteúdo não é somado aos índices dos

buscadores.

Figura 9 - OAIster

Fonte: OAISTER. Disponível em: http://www.oclc.org/oaister/>.

Certamente, inúmeros outros buscadores poderiam ser apreciados, de toda

forma, consideramos que os mais pertinentes para fornecer uma visão panorâmica

da Web Invisível estão aqui. A familiarização com os buscadores especializados

facilitará e aumentará a percepção de possibilidade de acesso às informações que

não são indexadas nos buscadores gerais.

4 CONSIDERAÇÕES FINAIS

O ciberespaço pode parecer, ao sujeito navegador comum, um lugar

relativamente organizado, de fácil acesso a todo conteúdo das nuvens, sobretudo

por que ele (usuário) pode não ter a idéia de que resultados insatisfatórios de um

query transitam em diversos fatores entre a limitação tecnológica à restrição

deliberada. Ao navegador comum a parcela não indexada pode parecer também

“invisível aos olhos”, ainda que seja potencialmente, mas, e aos bibliotecários?

Buscadores específicos feitos por bibliotecários (Infomine, IPL2 e etc.) mostram o

quanto esses profissionais são preocupados com a recuperação da informação na

rede, ainda que, nem sempre, observem a informação que indexam como Web

invisível.

A Web a cada dia se mostra mais interessante, cheia de possibilidades e

inovações, em um período de tempo tão pequeno – familiarizar-se com essa fonte

de informação é cada vez mais fundamental para a prática professional do

bibliotecário e para áreas correlatas com a Ciência da Informação.

699

Anais do V SECIN, 2013, p. 683- 700

Por fim, a terminologia a respeito da Web Invisível, cujo padrão é desejável

para a comunicação científica, é extremamente difusa entre os pesquisadores e,

também, no senso comum. É um ponto que sem dúvidas necessita de maior reflexão

e exploração, embora as contribuições de Araújo (2001) e Sherman e Price (2001)

sejam notáveis. E a área de Ciência da Informação, interdisciplinar que é, inclusive

com a linguagem e linguística, merece explorar essa Web e tais questões, pois tem

competência o suficiente para tanto, do contrário, quem o fará, além dos

engenheiros e analistas de sistemas?

REFERÊNCIAS

ALTAVISTA. Disponível em:<http://br.altavista.com/>. Acesso em: 16 jan. 2013.

ARAÚJO, J. P. Invisível, oculta ou profunda?. 2001. Disponível em: <www.comunicar.pro.br/artigos/weboculta.htm>. Acesso em: 16 jan. 2012.

ASK. Disponível em:< http://br.ask.com/?o=312&l=dir>. Acesso em: 16 jan. 2013.

BECKETT, A. The dark side of the internet. Disponível em: <http://www.guardian.co.uk/technology/2009/nov/26/dark-side-internet-freenet>. Acesso em: 16 jan. 2013.

BERGMAN, M. K. White paper: the deep we: surfacng hidden value. Journal of Eletronic Publishing, v. 7, n. 1, ago. 2001.

BING. Disponível em:<http://br.bing.com/>. Acesso em: 16 jan. 2013.

BRANSKI, R. M. Recuperação da informação na web. Perspectivas em Ciência da Informação, Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004.

CENDÓN, B. V. Ferramentas de busca na Web. Ciencia da Informação, Brasília, v. 30, n. 1, p. 39-49, abr. 2001.

CLARKE, I. The guardian writes about freenet. Disponível em: <http://blog.locut.us/2009/11/26/the-guardian-writes-about-freenet/>. Acesso em: 16 jan. 2013.

COMPLETE Planet. Disponível em:< http://aip.completeplanet.com>. Acesso em: 16 jan. 2013.

FORD, N.; MANSOURIAN, Y. The invisible web: an empirical study of cognitive invisibility. Journal of Documentation, London, v. 62, n. 5, 2006.

GOOGLE. Disponível em: <http://www.google.com.>. Acesso em: 16 jan. 2013.

700

Anais do V SECIN, 2013, p. 683- 700

HISTORY World. Disponível em: < http://www.historyworld.net/>. Acesso em: 20 fev. 2013.

INFOMINE. Disponível:<http://infomine.ucr.edu/>. Acesso em: 16 jan. 2013.

INTERNET Archive. Disponível em:<http://archive.org/index.php>. Acesso em: 16 jan. 2013.

IPL2. Disponível em:<http://www.ipl.org/>. Acesso em: 17 fev. 2013.

IXQUICK. Disponível em:<https://www.ixquick.com/>. Acesso em: 16 jan. 2013.

MEDNAR. Disponível em: <http://mednar.com/mednar/>. Acesso em: 11 fev. 2013.

MORVILLE, P.; CALLENDER, J. Search patterns: design for discovery. Canadá: O’Reilly, 2010.

OAISTER. Disponível em: <http://www.oclc.org/oaister/>. Acesso em: 16 jan. 2013.

PIPL. Disponível em: < https://pipl.com/>. Acesso em: 20 fev. 2013.

SHERMAN, C.; PRICE, G. The invisible web: uncovering information sources: search engines can't see. Medford: Cyberage books, 2001.

SURFWAX. Disponível em: <http://lookahead.surfwax.com/index-2011.html>. Acesso em: 11 fev. 2013.

THOR project. Disponível em: <http://www.thorproject.org>. Acesso em: 16 jan. 2013.

YAHOO. Disponível em: < http://br.search.yahoo.com/>. Acesso em: 16 jan. 2013.

ZABA Search. Disponível em:< http://www.zabasearch.com/>. Acesso em: 20 fev. 2013.