Deep web e surface web

Analogia do *iceberg* é bastante utilizada para mostrar o tamanho da *deep web* (parte imersa) em relação ao da *surface web* (parte emersa).

Deep web e surface web conformam uma divisão do conteúdo da rede mundial de computadores (world wide web) quanto à indexação feita por mecanismos de busca padrão. Deep web (deepnet, web invisível, undernet, web obscura ou web oculta) corresponde à parte não indexada e surface web (ou internet superficial) é a parte indexada.

Motores de busca constroem um banco de dados através de programas chamados web crawlers ou spiders (aranhas) que começam com uma lista de páginas de internet conhecidas. Esse programa pega uma cópia de cada pagina e indexa-a, guardando informações importantes que permitirão que a página seja facilmente recuperada mais tarde. Qualquer hiperligação para novas páginas são adicionadas para a lista de páginas para serem indexadas. Eventualmente todas as páginas acessíveis são indexadas a menos que exceda os limites do motor de busca.^[1] Assim, o conjunto de páginas acessíveis definem a porção superficial da rede (surface web). Por diversas razões (como o Protocolo de Exclusão de Robôs, hiperligações geradas por JavaScript e Flash, proteção de senhas), algumas páginas não podem ser acessadas pelos web crawlers. Essas páginas compõem a seção oculta da rede (deep web). Em janeiro de 2014 as páginas indexadas eram pelo menos 15 bilhões de páginas.^[2]

Não deve ser confundida a deep web com a Dark Internet, que está relacionada à porção da Internet que não pode ser acessada ou que se tornou inacessível por meios convencionais. Também não se confunde com a Darknet, que não é uma simples rede de compartilhamento de arquivos, mas uma rede subjacente ou em camadas, onde existem grandes esforços no sentido de se manterem anônimos os dados de seus utilizadores.

Mike Bergman, fundador da BrightPlanet^[3] e autor da expressão "deep web",^[4] afirmou que a busca na Internet atualmente pode ser comparada com o arrastar de uma rede na superfície do oceano: pode-se pescar um peixe grande, mas há uma grande quantidade de informação que está no fundo, e, portanto, faltando. A maior parte da informação da web está enterrada profundamente em sites gerados dinamicamente, não sendo encontrada pelos mecanismos de busca padrão. Estes não conseguem "enxergar" ou obter o conteúdo na deep web — aquelas páginas não existem até serem criadas dinamicamente como resultado de uma busca específica. A deep web possui um tamanho muito superior ao da surface web.^[5] O risco da deep web é, basicamente, a intenção com que o usuário a acessa. Por conter páginas com conteúdo ilegal, as mesmas podem conter vírus, prejudicando a segurança do computador. Vale lembrar que ela também, por ser criptografada e anônima, é muito usada por criminosos.^[6]

Tamanho

Estimativas baseadas em extrapolações de um estudo feito na Universidade da Califórnia em Berkeley em 2001^[5] especularam que a deep web possui 7 500 terabytes de informação. Estimativas feitas por He et al.,^[7] em 2004, detectaram cerca de 300 mil sites da deep web e, de acordo com Shestakov, cerca de 14 mil destes eram da parte russa da web em 2006.^[8]

Em 2008, a web chamada “deep web”, não referenciada pelos motores de busca representa 70 a 75% do total, ou seja, cerca de um trilhão de páginas não indexadas.

Nomenclatura

Para referir-se aos websites que não estavam registrados em nenhum mecanismo de busca,^[5] Bergman citou um artigo de janeiro de 1996 por Frank Garcia, no qual ele afirma que estes:^[9]

"Seriam sites projetados propositalmente, mas que não se teve o interesse de registrá-lo em nenhum mecanismo de busca. Então, ninguém pode encontrá-los! Estão escondidos. Eu os chamo de Web Invisível."

Outro uso antigo do termo "web invisível" foi feito por Bruce Mount e Matthew B. Koll do Personal Library Software, descrevendo a ferramenta da deep web "@1", na edição de dezembro de 1996.^{[nota 1]}

O primeiro uso do termo específico deep web, agora reconhecido, ocorreu no estudo de 2001 de Bergman, mencionado anteriormente.^[5]

Classificação

O Wikileaks começou na *deep web*, logo depois seu conteúdo foi disponibilizado na *surface web*.

O conteúdo da deep web pode ser classificado em uma ou mais das seguintes categorias:

Conteúdo dinâmico: páginas dinâmicas que são retornadas em resposta a uma requisição ou através de um formulário.
Conteúdo isolado: páginas que não possuem referências ou ligações vindas de outras páginas, o que impede o acesso ao seu conteúdo através de web crawlers. Diz-se que essas páginas não possuem backlinks.
Web privada: sites que exigem um registro e um login (conteúdo protegido por senha).
Web contextual: páginas cujo conteúdo varia de acordo com o contexto de acesso (por exemplo, IP do cliente ou sequência de navegação anterior). Muitos sites estão escondidos e não há possibilidade de acesso, propositadamente.
Conteúdo de acesso limitado: sites que limitam o acesso às suas páginas de modo técnico (usando CAPTCHAs por exemplo).
Conteúdo de scripts: páginas que são acessíveis apenas por links gerados por JavaScript, assim como o conteúdo baixado dinamicamente através de aplicações em Flash ou Ajax.
Conteúdo não-HTML/texto: conteúdo textual codificado em arquivos multimídia (imagem ou vídeo) ou formatos de arquivo específicos que não são manipulados pelos motores de busca.
Conteúdo que utiliza o protocolo Gopher ou hospedado em servidores FTP, por exemplo, não é indexado pela maioria dos mecanismos de busca. O Google, por exemplo, não indexa páginas fora dos protocolos HTTP ou HTTPS.^[11]

Ver também

Referências

↑ Search Engine Indexing Limits
↑ The size of the World Wide Web
↑ Bergman, Michael K (Julho de 2000). The Deep Web: Surfacing Hidden Value (PDF). [S.l.]: BrightPlanet LLC
↑ Wright, Alex (22 de fevereiro de 2009). «Exploring a 'Deep Web' That Google Can't Grasp» (em inglês). The New York Times. Consultado em 23 de março de 2009
↑ ^a ^b ^c ^d Bergman, Michael K (agosto de 2001). «The Deep Web: Surfacing Hidden Value». The Journal of Electronic Publishing (em inglês). 7 (1). doi:10.3998/3336451.0007.104
↑ «Você sabe o que é a Deep Web?»
↑ He, Bin; Patel, Mitesh; Zhang, Zhen; Chang, Kevin Chen-Chuan (maio de 2007). «Accessing the Deep Web: A Survey». Communications of the ACM (CACM) (em inglês). 50 (2): 94–101. doi:10.1145/1230819.1241670
↑ Denis Shestakov (2011). «Sampling the National Deep Web» (PDF). Proceedings of the 22nd International Conference on Database and Expert Systems Applications (DEXA). Springer. pp. 331–340. Consultado em 6 de outubro de 2011
↑ Garcia, Frank (Janeiro de 1996). «Business and Marketing on the Internet». Masthead. 9 (1). Consultado em 24 de fevereiro de 2009. Arquivado do original em 5 de dezembro de 1996
↑ «PLS introduces AT1, the first 'second generation' Internet search service» (Nota de imprensa). Personal Library Software. Dezembro de 1996. Consultado em 24 de fevereiro de 2009
↑ «Gopher — DeepGeek». Talk Geek To Me. 29 de novembro de 2009. Consultado em 25 de julho de 2011. Cópia arquivada em 25 de julho de 2011

Notas

↑ @1 começou com 5,7 terabytes de conteúdo, aproximadamente 30 vezes maior do que a então nascente World Wide Web. O PLS foi adquirido pela AOL em 1998, e a @1 foi abandonada. ^[10]

[1] Search Engine Indexing Limits

[2] The size of the World Wide Web

[bergman2000-3] Bergman, Michael K (Julho de 2000). The Deep Web: Surfacing Hidden Value (PDF). [S.l.]: BrightPlanet LLC

[wright2009-4] Wright, Alex (22 de fevereiro de 2009). «Exploring a 'Deep Web' That Google Can't Grasp» (em inglês). The New York Times. Consultado em 23 de março de 2009

[bergman2001-5] Bergman, Michael K (agosto de 2001). «The Deep Web: Surfacing Hidden Value». The Journal of Electronic Publishing (em inglês). 7 (1). doi:10.3998/3336451.0007.104

[6] «Você sabe o que é a Deep Web?»

[he07-7] He, Bin; Patel, Mitesh; Zhang, Zhen; Chang, Kevin Chen-Chuan (maio de 2007). «Accessing the Deep Web: A Survey». Communications of the ACM (CACM) (em inglês). 50 (2): 94–101. doi:10.1145/1230819.1241670

[shestakov11-8] Denis Shestakov (2011). «Sampling the National Deep Web» (PDF). Proceedings of the 22nd International Conference on Database and Expert Systems Applications (DEXA). Springer. pp. 331–340. Consultado em 6 de outubro de 2011

[9] Garcia, Frank (Janeiro de 1996). «Business and Marketing on the Internet». Masthead. 9 (1). Consultado em 24 de fevereiro de 2009. Arquivado do original em 5 de dezembro de 1996

[PLS-10] «PLS introduces AT1, the first 'second generation' Internet search service» (Nota de imprensa). Personal Library Software. Dezembro de 1996. Consultado em 24 de fevereiro de 2009

[12] «Gopher — DeepGeek». Talk Geek To Me. 29 de novembro de 2009. Consultado em 25 de julho de 2011. Cópia arquivada em 25 de julho de 2011

[11] @1 começou com 5,7 terabytes de conteúdo, aproximadamente 30 vezes maior do que a então nascente World Wide Web. O PLS foi adquirido pela AOL em 1998, e a @1 foi abandonada. ^[10]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[nota 1]

[11]

[10]