Desenvolvendo web crawler/scraper com Python

Desenvolvendo web crawler/scraper com

Python

G e e k N i g h t

Web Crawler

● Spider, robôs

● Começa com uma lista de URL's para visitar. A cada URL visitada, ele identifica os hyperlinks e os guarda para visitá-los no futuro, e também copia o conteúdo da página.

● GoogleBot, Yahoo Slurp,DuckDuckBot...

Web Scraper

● Extrai informações de um web site.

● Relacionado com web indexing.

● Transformação de dados.

Trabalho de um crawler/scraper

● Abrir um link

● Cópia e/ou manipulação do dado

Seletores

● Xpath

● CSS Selectors

Retirado do site http://ejohn.org/blog/xpath-css-selectors/

import request

● Para humanos

● urllib2

● Uma implementação em Python das bibliotecas em C libxml2 e libxslt para parse de xml e html.

●Suporta css selector e xpath.

BeautifulSoup

PySpider

Scrapy

● Open Source framework, poderoso para crawling e scraping. Python 2.

● Suporta o uso de xpath e css selectors.

● Formatos de saída: json, csv, xml, json lines

● Há exemplos com persistência em banco.

Scrapy

scrapy crawl bbcnews --output results.json Retirado do site http://scraping.pro/

Bibliotecas em Python

● Goose

● Pyquery

Obrigada!

Roselma Mendes

rmendes@thoughtworks.com

github.com/roselmamendes

Desenvolvendo web crawler/scraper com Python

Internet

Transcript of Desenvolvendo web crawler/scraper com Python

arquivos.sindicatodaindustria.com.brarquivos.sindicatodaindustria.com.br/app/cni_sindicatos/2011/01/10/... · drag line, moto scraper), Motorista de Cavalo Mecânico (carreteiro),

Python Científico

TDC2016POA | Trilha Python - Python Assíncrono: tudo ao mesmo tempo agora

Workshop Python

1 Apresentando Python Marcel Pinheiro Caraciolo Python Aula 01.

Volvo Brochure Crawler Excavator EC140D Portuguese Brazilian

Linguagem Python

Volvo Brochure Crawler Excavator EC210D Portuguese

The Cave Crawler

Python Emsl2009

Python Módulo Básico - Introdução a linguagem Python

Crawler com nodejs

ESTRADAS E AEROPORTOS - ENGENHARIA CIVIL - UNIP - …engenhariacivilunip.weebly.com/uploads/1/3/9/9/13991958/aula_11.pdf · ... Scraper, Moto Scraper ... Equipamentos de Terraplanagem:

Palestra python

Postgresql +python

Python Introdução

Python I - cin.ufpe.brpftbm/python/workshop-python.1.pdf · ByteCode Python Python compila automaticamente o código fonte para bytecode A extensão do arquivo “compilado” é

Python WTFAQ?

Iron Python

Hello Python