Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Page 1: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Como publicar conteúdos na Web preserváveis para o futuro

Página 1

Page 2: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Página 2

Sumário

❖ O que são Motores de Busca❖ Como públicar conteúdos Web preserváveis❖ Protocolo de exclusão de Robôs❖ Como criar um ficheiro Robots.txt

O que são os motores de busca

É um software que varre toda a Internet em busca de informação desejada (documentos ou endereços de páginas web) .

Página 3

Page 4: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Componentes de um motor de busca Web conventional

1. Batedor2. Armazenamento3. Indexador4. Ordenador5. Apresentador

Página 4

Page 5: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Batedores

A partir de um conjunto inicial de URLs (raizes), os batedores do motor de busca iniciam uma recolha da Web, percorrendo todos as ligações criadas dentros dos Web sites.

Página 5

Page 6: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Informação é recolhida automaticamente

Página 6

Page 7: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Armazenamento

Após a recolha ter terminado, toda a informação recolhida da web fica armazenada no repositório para ser indexada.

Página 7

Page 8: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Indexador e ordenador

O indexador extrai as palavras contidas nas páginas armazenadas e constrói índices que irão permitir efectuar pesquisas rápidas.

Página 8

Page 9: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Apresentador

O apresentador recebe os termos pesquisados pelos utilizadores, acede à informação dos índices e apresenta os resultados da pesquisa na forma de links para as páginas.

Página 9

Page 10: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Apresentador do Google

Página 10

Page 11: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Esquema de motor de busca conventional

Página 11

Page 12: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Componentes de um arquivo Web com motor de busca

1. Batedor2. Armazenamento3. Indexador4. Ordenador5. Apresentador6. Reprodução de conteúdo

Página 12

Page 13: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Armazenamento

Após a recolha ter terminado, toda a informação recolhida da web fica armazenada no repositório para ser indexada e reproduzida.

Página 13

Page 14: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Reprodução de conteúdoArquivo.pt (2011)

Página 14

Page 15: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Esquema de um motor de busca para arquivos da Web

Página 15

Page 16: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Apresentador do Arquivo.pt (pesquisa por URL)

Página 16

Page 17: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Apresentador do Arquivo.pt (pesquisa por termos)

Página 17

Page 18: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Como públicar conteúdos Web preserváveis?

18

Page 19: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Página 19

Uma ligação por conteúdo

http://arquivo.pt/img/logo-home-pt.png

Page 20: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Página 20

Mapa de navegação para utilizadores

Page 21: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Página 21

https://www.europeia.pt/sitemap.xml

Page 22: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Página 22

Data de publicação correctamente identificada

Recolhida em 12/11/2014

Page 23: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Página 23

Manter o mesmo endereço ao longo do tempo

PSD2011.com (2011)

Page 24: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Página 24

PSD2011.com (2014)

Page 25: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Outras recomendações: Robots.txt

25

Page 26: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Página 26

Robots.txt ?! Para que serve?!

Page 27: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Protocolo de exclusão de Robôs: Robots.txt

Trata-se de um arquivo que, apesar da imponência do nome, não é robô e, na maioria das vezes, é de uma simplicidade impressionante.

Página 27

Page 28: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

http://www.dn.pt/

Página 28

http://www.dn.pt/

Page 29: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

http://www.dn.pt arquivada pelo Arquivo.pt

Página 29

http://www.dn.pt

Page 30: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

http://www.dn.pt/robots.txt

Página 30

Page 31: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

http://www.dn.pt arquivada pelo Internet Archive

Página 31

http://www.dn.pt

Page 32: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Página 32

Respeito pelos direitos de autor

Page 33: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Para que serve Robots.txt

➔ Páginas protegidas por login;➔ Páginas protegidas por formulários;➔ Conteúdo repetidos;➔ Informação privada.

Página 33

Page 34: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Protocolo de exclusão de Robôs

Página 34

❖ É importante que os autores autorizem a recolha de conteúdos importantes (para evitar problemas como o do http://www.dn.pt)

❖ robots.txt deverá estar na raiz do sítio web (ex. http://arquivo.pt/robots.txt).

Page 35: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

35

Dicas para criar o seu Robots.txt

Page 36: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Página 36

Permitir o arquivo pelo Arquivo.pt

User-agent: Arquivo-web-crawler Disallow:

Page 37: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Página 37

Controlar acess0s consecutivos

User-agent: *Disallow: Crawl-delay: 100 # exige 100 segundos entre acessos

Page 38: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Página 38

Proibir acesso a diretoria usando o robots.txt

User-agent: Arquivo-web-crawler Disallow: /calendar/

Page 39: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Página 39

Proibir a recolha e indexação usando a meta tag ROBOTS

Page 40: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Página 40

Cuidado com os Robots.txt dos CMS’s

Page 41: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Página 41

Robots.txt do Wordpress por omissão

User-agent: *Disallow: /wp-admin/Disallow: /wp-includes/

Page 42: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Robots.txt do Joomla por omissão

User-agent: *Disallow: /administrator/Disallow: /bin/Disallow: /cache/Disallow: /cli/Disallow: /components/Disallow: /includes/

Página 42

Page 43: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Página 43

Como testar o Robots.txt

https://www.google.com/webmasters/tools/robots-testing-tool

Page 44: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

Página 44

https://www.google.com/webmasters/tools/robots-testing-tool

Page 45: Web preserváveis para o futuro Como publicar conteúdos na · O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos

https://fccn.pt/robots.txtUser-agent: *Allow: /https://arquivo.pt/robots.txtUser-agent: *Disallow: /nutchwax/searchDisallow: /searchDisallow: /wayback/Disallow: /wayback/wayback/

Página 45

Exemplos de Robots.txt

https://www.fccn.pt/robots.txt

https://arquivo.pt/robots.txt