Rastreador web

Origem: Wikipédia, a enciclopédia livre.
(Redirecionado de Web crawler)
Ir para: navegação, pesquisa

Um rastreador da rede, em inglês web crawler, é um programa de computador que navega pela rede mundial de uma forma metódica e automatizada. Outros termos para rastreadores da rede são indexadores automáticos, robôs, aranhas da rede, robô da rede ou escutador da rede. (em inglês: bots, web spiders, web robot e web scutter).

O processo que um rastreador da rede executa é chamado de rastreamento da rede ou indexação. Muitos sítios, em particular os motores de busca, usam rastreadores para manter uma base de dados atualizada. Os rastreadores da rede são principalmente utilizados para criar uma cópia de todas as páginas visitadas para um pós-processamento por um motor de pesquisa que irá indexar as páginas baixadas para prover pesquisas mais rápidas. Os rastreadores também podem ser utilizados para as tarefas de manutenção automatizadas em um sítio da rede, como verificar as ligações ou validar o código HTML.[1] Os rastreadores também podem ser usados para obter tipos específicos de informações das páginas da rede, como minerar endereços de correio eletrónico (mais comumente para lixo).

Um rastreador da rede é um tipo de robô da rede ou agente de programa.[2] Em geral, ele começa com uma lista de endereços para visitar (também chamado em inglês de seeds). À medida que o rastreador visita esses endereços, ele identifica todas as ligações na página e as adiciona na lista de endereços para visitar. Tais endereços são visitados recursivamente de acordo com um conjunto de regras.

Exemplos de rastreadores da rede[editar | editar código-fonte]

Referências

  1. Heaton, Jeff (2002). Programming Spiders, Bots, and Aggregators in Java (em inglês). San Francisco: Sybex. p. 350-352. 516 páginas. ISBN 0-7821-4040-8 
  2. Cheong, Fah-Chuh (1996). Internet Agents. Spiders, Wanderers, Brokers and Bots (em inglês). Indianapolis: New Riders. p. 84-88. 413 páginas. ISBN 1-56205-463-5