Protocolo de Exclusão de Robôs

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
Question book.svg
Esta página ou secção não cita nenhuma fonte ou referência, o que compromete sua credibilidade (desde outubro de 2010).
Por favor, melhore este artigo providenciando fontes fiáveis e independentes, inserindo-as no corpo do texto por meio de notas de rodapé. Encontre fontes: Googlenotícias, livros, acadêmicoScirusBing. Veja como referenciar e citar as fontes.

O Protocolo de Exclusão de Robôs é um método empregado pelos administradores de sistemas para informar aos robots visitantes quais diretórios de um site não devem ser vasculhados por eles.

Robot (ou robô) é um programa de computador que percorre automaticamente as páginas da Internet em busca de documentos, a fim de indexá-los, validá-los ou monitorar alterações de conteúdo. Para controlar as atividades desses robots durante suas buscas, opcionalmente, webmasters podem criar um arquivo chamado robots.txt no diretório raiz de um determinado endereço web. Robots.txt é um arquivo no formato texto (.txt) que funciona como "filtro" para os Crawlers e robots dos motores de busca da Internet, permitindo ou bloqueando o acesso a partes ou à totalidade de um determinado site.

Ao visitar um site, os robôs buscam primeiro pelo arquivo robots.txt. Se o conteúdo deste arquivo listar algo conforme segue:

 User-agent: *
 Disallow: /

então o robô saberá que deve deixar o local sem buscar por nada ali. Outra maneira de se conseguir algo semelhante é através de Meta Tags, colocadas estrategicamente nos cabeçalhos de páginas HTML:

 <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

O parâmetro NOINDEX diz ao robô que o conteúdo daquele site não deve ser indexado e NOFOLLOW indica que os possíveis links ali existentes não devem ser analisados.

Se o robô não encontrar o arquivo robots.txt e não houver nenhuma Meta Tag que o proíba formalmente de analisar um site, a decisão sobre o que fazer passa a ser do próprio robô. Dependendo do site de busca ao qual ele pertence, ele poderá ou não prosseguir com a busca. A maioria optará por prosseguir.

Origem do Robots.txt[editar | editar código-fonte]

Searchtool.svg
Esta página ou secção foi marcada para revisão, devido a inconsistências e/ou dados de confiabilidade duvidosa. Se tem algum conhecimento sobre o tema, por favor, verifique e melhore a consistência e o rigor deste artigo. Considere utilizar {{revisão-sobre}} para associar este artigo com um WikiProjeto e colocar uma explicação mais detalhada na discussão.

O arquivo robots.txt foi criado por consenso em junho de 1994 por membros da lista de discussão robots-request@nexor.co.uk. Não há nenhuma organização oficial representativa ou RFC sobre o protocolo.

Ligações externas[editar | editar código-fonte]