Raspagem de dados

Data scraping (em português, raspagem de dados) é uma técnica computacional na qual um programa extrai dados de saída legível somente para humanos, proveniente de um serviço ou aplicativo. Os dados extraídos geralmente são minerados e estruturados em um formato padrão como CSV, XML ou JSON.^[1]

Descrição

Normalmente, a transferência de dados é feita utilizando-se estrutura de dados adequadas para processos automatizados por computadores, e não por humanos. Tais comunicações de formato e protocolo são rigidamente estruturados, documentados, facilmente analisado, mantendo a ambiguidade ao mínimo.^[1]

A raspagem de dados é mais frequentemente realizada em serviços ou aplicativos web legados ou aqueles que não oferecem uma interface de programação de aplicação. Neste último caso, geralmente os responsáveis pelo serviço ou aplicação consideram a raspagem de dados como indesejada, possivelmente pela sobrecarga do sistema, perda de receita por propagandas, ou pela perda do controle do conteúdo da informação.^[1]

A extração de dados é muitas vezes considerada ad hoc, uma técnica deselegante, frequentemente utilizada como último recurso quando não há outro mecanismo de intercâmbio de dados.

Tipos

Web scraping

Páginas Web são construídas utilizando-se linguagens de marcação baseadas em textos (HTML e XHTML), e frequentemente contêm uma riqueza de dados textuais úteis. No entanto, a maioria das páginas da web são projetados para usuários finais humanos e não para uso automatizado. Devido a isso, criou-se ferramentas que raspam conteúdos da web. Um web scraping é uma API para extrair dados de um web site. Empresas como a Amazon AWS e Google fornecem ferramentas de extração, serviços e dados públicos disponíveis sem custo para os usuários finais.^[1] Novas formas de web scraping envolvem capturar feeds de dados de servidores web. Por exemplo, JSON é comumente usado como um mecanismo de armazenamento de transporte entre o cliente e o servidor web.

Recentemente, as empresas têm desenvolvido sistemas web que dependem de técnicas em análise do Modelo de Objeto de Documentos, visão computacional e processamento de linguagem natural para simular o processamento humano que ocorre ao visualizar uma página da web para extrair automaticamente informações úteis.

Screen scraping

Screen scraping é uma técnica de raspagem geralmente associada à recolha programática de dados visuais a partir de uma origem, ao contrário da extração de dados textuais como a web scraping. Originalmente, screen scraping é o processo de obtenção de dados textuais a partir de uma tela de computador ou um arquivo de imagem.

Ver também

Dados abertos

Referências

↑ ^a ^b ^c ^d Susanne Webster (7 de maio de 2015). «What Is Scraping? The Basics For Everyone» (em stan1293). My Helpster. Consultado em 27 de dezembro de 2015

[:0-1] Susanne Webster (7 de maio de 2015). «What Is Scraping? The Basics For Everyone» (em stan1293). My Helpster. Consultado em 27 de dezembro de 2015

[1]