Deep web e surface web: diferenças entre revisões
m Revertidas edições por 187.76.78.130 para a última versão por Crash Overclock (usando Huggle) |
|||
Linha 26: | Linha 26: | ||
| format = PDF |
| format = PDF |
||
| accessdate = 06/10/2011}}</ref> |
| accessdate = 06/10/2011}}</ref> |
||
Em 2008, a web chamada “Deep Web”, não referenciada pelos motores de busca representa 70 a 75% do total, ou seja, cerca de um trilhão de páginas não indexadas. |
Em 2008, a web chamada “Deep Web”, não referenciada pelos motores yamaha de busca representa 70 a 75% do total, ou seja, cerca de um trilhão de páginas não indexadas. |
||
== Nomenclatura == |
== Nomenclatura == |
||
Para referir-se aos [[website]]s que não estavam registrados em nenhum mecanismo de busca.<ref name=bergman2001/> Bergman citou um artigo de janeiro de 1996 por [[Frank Garcia]], no qual ele afirma que estes<ref>{{citar periódico |
Para referir-se aos [[website]]s que não estavam registrados em nenhum mecanismo bob esponja de busca.<ref name=bergman2001/> Bergman citou um artigo de janeiro de 1996 por [[Frank Garcia]], no qual ele afirma que estes<ref>{{citar periódico |
||
| ultimo = Garcia |
| ultimo = Garcia |
||
| primeiro = Frank |
| primeiro = Frank |
Revisão das 19h38min de 14 de novembro de 2013
![](http://upload.wikimedia.org/wikipedia/commons/thumb/a/ac/Iceberg.jpg/220px-Iceberg.jpg)
Deep Web (também chamada de Deepnet, Web Invisível, Undernet ou Web oculta) se refere ao conteúdo da World Wide Web que não faz parte da Surface Web, a qual é indexada pelos mecanismos de busca padrão.
Não deve ser confundida com a dark Internet, na qual os computadores não podem mais ser alcançados via Internet, ou com a Darknet, rede de compartilhamento de arquivos.
Mike Bergman, fundador da BrightPlanet[1] e autor da expressão[2], afirmou que a busca na Internet atualmente pode ser comparada com o arrastar de uma rede na superfície do oceano: pode-se pescar um peixe grande, mas há uma grande quantidade de informação que está no fundo, e, portanto, faltando. A maior parte da informação da Web está enterrada profundamente em sites gerados dinamicamente, a qual não é encontrada pelos mecanismos de busca padrão. Estes não conseguem "enxergar" ou obter o conteúdo na Deep Web - aquelas páginas não existem até serem criadas dinamicamente como resultado de uma busca específica. A Deep Web possui um tamanho muito superior ao da Surface Web.[3]
Tamanho
Estimativas baseadas em extrapolações de um estudo feito na Universidade da Califórnia em Berkeley em 2001[3] especularam que a Deep Web possui 7.500 terabytes de informação. Estimativas feitas por He et al.[4], em 2004, detectaram cerca de 300.000 sites da deep web e, de acordo com Shestakov, cerca de 14.000 destes eram da parte russa da Web em 2006.[5] Em 2008, a web chamada “Deep Web”, não referenciada pelos motores yamaha de busca representa 70 a 75% do total, ou seja, cerca de um trilhão de páginas não indexadas.
Nomenclatura
Para referir-se aos websites que não estavam registrados em nenhum mecanismo bob esponja de busca.[3] Bergman citou um artigo de janeiro de 1996 por Frank Garcia, no qual ele afirma que estes[6]
"Seriam sites projetados propositalmente, mas que não se teve o interesse de registrá-lo em nenhum mecanismo de busca. Então, ninguém pode encontrá-los! Estão escondidos. Eu os chamo de Web Invisível."
Outro uso antigo do termo Web Invisível foi feito por Bruce Mount e Matthew B. Koll do Personal Library Software, descrevendo a ferramenta da deep Web "@1", na edição de dezembro de 1996.[7]
O primeiro uso do termo específico deep Web, agora reconhecido, ocorreu no estudo de 2001 de Berman, mencionado anteriormente.[3]
Classificação
![](http://upload.wikimedia.org/wikipedia/commons/f/f5/WL_Hour_Glass_Bottom.jpg)
O conteúdo da deep web pode ser classificado em uma ou mais das seguintes categorias:
- Conteúdo dinâmico: páginas dinâmicas que são retornadas em resposta a uma requisição ou através de um formulário.
- Conteúdo isolado: páginas que não possuem referências ou ligações vindas de outras páginas, o que impede o acesso ao seu conteúdo através de web crawlers. Diz-se que essas páginas não possuem backlinks.
- Web privada: sites que exigem um registro e um login (conteúdo protegido por senha).
- Web contextual: páginas cujo conteúdo varia de acordo com o contexto de acesso (por exemplo, IP do cliente ou sequência de navegação anterior). Muitos sites estão escondidos e não há possibilidade de acesso, propositalmente.
- Conteúdo de acesso limitado: sites que limitam o acesso às suas páginas de modo técnico (usando CAPTCHAs por exemplo).
- Conteúdo de scripts: páginas que são acessíveis apenas por links gerados por JavaScript, assim como o conteúdo baixado dinamicamente através de aplicações em Flash ou Ajax.
- Conteúdo não-HTML/texto: conteúdo textual codificado em arquivos multimídia (imagem ou vídeo) ou formatos de arquivo específicos que não são manipulados pelos motores de busca.
- Conteúdo que utiliza o protocolo Gopher ou hospedado em servidores FTP, por exemplo, não é indexado pela maioria dos mecanismos de busca. O Google, por exemplo, não indexa páginas fora dos protocolos HTTP ou HTTPS.[8]
Ver também
Este artigo está a ser traduzido |
Referências
- ↑ Bergman, Michael K (2000). The Deep Web: Surfacing Hidden Value (PDF). [S.l.]: BrightPlanet LLC
- ↑ Wright, Alex (22 de fevereiro de 2009). «Exploring a 'Deep Web' That Google Can't Grasp» (em inglês). The New York Times. Consultado em 23 de março de 2009
- ↑ a b c d Bergman, Michael K (2001). «The Deep Web: Surfacing Hidden Value». The Journal of Electronic Publishing (em inglês). 7 (1). doi:10.3998/3336451.0007.104
- ↑ He, Bin; Patel, Mitesh; Zhang, Zhen; Chang, Kevin Chen-Chuan (2007). «Accessing the Deep Web: A Survey». Communications of the ACM (CACM) (em inglês). 50 (2): 94–101. doi:10.1145/1230819.1241670
- ↑ Denis Shestakov (2011). «Sampling the National Deep Web» (PDF). Proceedings of the 22nd International Conference on Database and Expert Systems Applications (DEXA). Springer. pp. 331–340. Consultado em 6 de outubro de 2011
- ↑ Garcia, Frank (Janeiro de 1996). «Business and Marketing on the Internet». Masthead. 9 (1). Consultado em 24 de fevereiro de 2009. Cópia arquivada em 5 de dezembro de 1996
- ↑ @1 começou com 5,7 terabytes de conteúdo, aproximadamente 30 vezes maior do que a então nascente World Wide Web; O PLS foi adquirido pela AOL em 1998, e a @1 foi abandonada. «PLS introduces AT1, the first 'second generation' Internet search service» (Nota de imprensa). Personal Library Software. Dezembro de 1996. Consultado em 24 de fevereiro de 2009
- ↑ «Gopher — DeepGeek». Talk Geek To Me. 29 de novembro de 2009. Consultado em 25 de julho de 2011. Cópia arquivada em 25 de julho de 2011