Scrapy

Origem: Wikipédia, a enciclopédia livre.
 Nota: Não confundir com Scrapie.
Scrapy
Logótipo
Scrapy
Desenvolvedor Zyte (antiga Scrapinghub)
Sistema operacional Windows, macOS, Linux
Gênero(s) Web crawler
Licença BSD License

[1]

Scrapy ( /ˈskrp/ SKRAY-peye) é um framework de web-crawling gratuito e código aberto desenvolvido em Python. Originalmente idealizado para web scraping, também pode ser utilizado para extração de dados usando APIs ou como web crawler de forma mais abrangente.[2] Atualmente é mantido pela Zyte (antiga Scrapinghub Ltd.) uma empresa de desenvolvimento e serviços relacionados a web-scraping.

A arquitetura do Scrapy é construída em torno de "spiders", que são crawlers autônomos que recebem um conjunto de instruções. Seguindo o exemplo de outros frameworks DRY (don't repeat yourself), como Django,[3] tornando mais fácil o desenvolvimento e evolução de projetos de larga escala, que utilizam o crawling, pois permite a reutilização de código. Scrapy também fornece um shell para web-crawling, que pode ser utilizado pelos desenvolvedores para testar suas suposições sobre o comportamento de um site.[4][5][6]

Algumas empresas, produtos e projetos bem conhecidos que usam o Scrapy são: Querido Diário,[7] Lyst,[8][9] Parse.ly,[10] Sayone Technologies,[11] Sciences Po Medialab,[12] Data.gov.uk’s World Government Data site.[13][1]

História[editar | editar código-fonte]

Scrapy nasceu na Mydeco, empresa de agregação da web e comércio eletrônico sediada em Londres, onde foi desenvolvido e mantido por empregados da Mydeco e Insophia (uma empresa de consultoria web sediada em Montevideu, Uruguay). A primeira versão pública foi disponibilizada em Agosto de 2008 sob uma Licença BSD, e a sua versão 1.0 lançada em Junho de 2015.[14] Em 2011, Zyte (antiga Scrapinghub) tornou-se oficialmente responsável pelas manutenções do projeto.[15][16]

Referências

  1. «Release notes — Scrapy documentation». doc.scrapy.org (em inglês). Consultado em 18 de novembro de 2020 
  2. Scrapy at a glance.
  3. «Frequently Asked Questions». Consultado em 20 de janeiro de 2020 
  4. «Scrapy shell». Consultado em 20 de janeiro de 2020 
  5. «Scrapy English Wikipedia». Consultado em 20 de janeiro de 2020 
  6. «Scrapy Spanish Wikipedia». Consultado em 20 de janeiro de 2020 
  7. «Querido Diario». queridodiario.ok.org.br. Consultado em 6 de setembro de 2021 
  8. Bell, Eddie; Heusser, Jonathan. «Scalable Scraping Using Machine Learning». Consultado em 28 de julho de 2015 
  9. Scrapy | Companies using Scrapy
  10. Montalenti, Andrew. «Web Crawling & Metadata Extraction in Python» 
  11. «Scrapy Companies». Scrapy website 
  12. Hyphe v0.0.0: the first release of our new webcrawler is out!
  13. Ben Firshman [@bfirsh] (21 de janeiro de 2010). «World Govt Data site uses Django, Solr, Haystack, Scrapy and other exciting buzzwords bit.ly/5jU3La #opendata #datastore» (Tweet) – via Twitter 
  14. Medina, Julia (19 de junho de 2015). «Scrapy 1.0 official release out!». scrapy-users (Lista de grupo de correio) 
  15. Pablo Hoffman (2013). List of the primary authors & contributors. [S.l.: s.n.] Consultado em 18 de novembro de 2013 
  16. Interview Scraping Hub.

Sites externos[editar | editar código-fonte]