Protocolo de exclusão de robôs

O Protocolo de Exclusão de Robôs é um método empregado pelos administradores de sistemas para informar aos robots visitantes quais diretórios de um site não devem ser vasculhados por eles.

Robot (ou robô) é um programa de computador que percorre automaticamente as páginas da Internet em busca de documentos, a fim de indexá-los, validá-los ou monitorar alterações de conteúdo. Para controlar as atividades desses robots durante suas buscas, opcionalmente, webmasters podem criar um arquivo chamado robots.txt no diretório raiz de um determinado endereço web. Robots.txt é um arquivo no formato texto (.txt) que funciona como "filtro" para os Crawlers e robots dos motores de busca da Internet, permitindo ou bloqueando o acesso a partes ou à totalidade de um determinado site.

Ao visitar um site, os robôs buscam primeiro pelo arquivo robots.txt. Se o conteúdo deste arquivo listar algo conforme segue:

 User-agent: *
 Disallow: /

então o robô saberá que deve deixar o local sem buscar por nada ali. Outra maneira de se conseguir algo semelhante é através de Meta Tags, colocadas estrategicamente nos cabeçalhos de páginas HTML:

 <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

O parâmetro NOINDEX diz ao robô que o conteúdo daquele site não deve ser indexado e NOFOLLOW indica que os possíveis links ali existentes não devem ser analisados.

Se o robô não encontrar o arquivo robots.txt e não houver nenhuma Meta Tag que o proíba formalmente de analisar um site, a decisão sobre o que fazer passa a ser do próprio robô. Dependendo do site de busca ao qual ele pertence, ele poderá ou não prosseguir com a busca. A maioria optará por prosseguir.

História

O padrão foi proposto por Martijn Koster,^[1]^[2] quando ele trabalhava para a Nexor,^[3] em fevereiro de 1994,^[4] na lista de discussões da www-talk, o principal canal de atividades relacionadas com a WWW na época.

Referências

↑ Martijn, Koster. «Martijn Koster»
↑ Fielding, Roy (1994). «Maintaining Distributed Hypertext Infostructures: Welcome to MOMspider's Web (em inglês)» (PostScript). First International Conference on the World Wide Web. Geneva. Consultado em 25 de setembro de 2013
↑ «The Web Robots Pages (em inglês)». Robotstxt.org. 30 de junho de 1994. Consultado em 29 de dezembro de 2013
↑ Koster, Martijn (25 de fevereiro de 1994). «Important: Spiders, Robots and Web Wanderers» (Hypermail archived message). www-talk mailing list

Ligações externas

The Web Robots Database (em inglês)
O arquivo de Robots do Google
O arquivo Robots.txt da Wikipédia lusófona

[1] Martijn, Koster. «Martijn Koster»

[2] Fielding, Roy (1994). «Maintaining Distributed Hypertext Infostructures: Welcome to MOMspider's Web (em inglês)» (PostScript). First International Conference on the World Wide Web. Geneva. Consultado em 25 de setembro de 2013

[3] «The Web Robots Pages (em inglês)». Robotstxt.org. 30 de junho de 1994. Consultado em 29 de dezembro de 2013

[4] Koster, Martijn (25 de fevereiro de 1994). «Important: Spiders, Robots and Web Wanderers» (Hypermail archived message). www-talk mailing list

[1]

[2]

[3]

[4]