Deep web e surface web: diferenças entre revisões
m Revertidas edições por 177.40.16.152 para a última versão por Holdfz (usando Huggle) |
|||
Linha 16: | Linha 16: | ||
== Tamanho == |
== Tamanho == |
||
Estimativas baseadas em [[Extrapolação|extrapolações]] de um estudo feito na [[Universidade da Califórnia em Berkeley]] em 2001<ref name=bergman2001 /> especularam que a Deep Web possui 7.500 [[terabyte]]s de informação. Estimativas feitas por He et al.<ref name=he07>{{citar periódico |primeiro=Bin |ultimo=He |coautores= Patel, Mitesh; Zhang, Zhen; Chang, Kevin Chen-Chuan | |
Estimativas baseadas em [[Extrapolação|extrapolações]] de um estudo feito na [[Universidade da Califórnia em Berkeley]] em 2001<ref name=bergman2001 /> especularam que a Deep Web possui 7.500 [[terabyte]]s de informação. Estimativas feitas por He et al.<ref name=he07>{{citar periódico |primeiro=Bin |ultimo=He |coautores= Patel, Mitesh; Zhang, Zhen; Chang, Kevin Chen-Chuan |deepweeeeeebbbsbdsabdbasdbasd |
||
titulo = Accessing the Deep Web: A Survey | jornal = Communications of the ACM (CACM) | paginas = 94–101 | ano = 2007 | mes = May | volume = 50 | numero = 2 | url = http://doi.acm.org/10.1145/1230819.1241670 |doi=10.1145/1230819.1241670 | idioma = inglês}}</ref>, em 2004, detectaram cerca de 300.000 sites da deep web e, de acordo com Shestakov, cerca de 14.000 destes eram da parte [[Rússia|russa]] da Web em 2006.<ref name=shestakov11>{{cite conference |
|||
| author = [http://www.mendeley.com/profiles/denis-shestakov/ Denis Shestakov] |
| author = [http://www.mendeley.com/profiles/denis-shestakov/ Denis Shestakov] |
||
| title = Sampling the National Deep Web |
| title = Sampling the National Deep Web |
Revisão das 16h50min de 4 de junho de 2013
Deep Web (também chamada de Deepnet, Web Invisível, Undernet ou Web oculta) se refere ao conteúdo da World Wide Web que não faz parte da Surface Web, a qual é indexada pelos mecanismos de busca padrão.
Não deve ser confundida com a dark Internet, na qual os computadores não podem mais ser alcançados via Internet, ou com a Darknet, rede de compartilhamento de arquivos.
Mike Bergman, fundador da BrightPlanet[1] e autor da expressão[2], afirmou que a busca na Internet atualmente pode ser comparada com o arrastar de uma rede na superfície do oceano: pode-se pescar um peixe grande, mas há uma grande quantidade de informação que está no fundo, e, portanto, faltando. A maior parte da informação da Web está enterrada profundamente em sites gerados dinamicamente, a qual não é encontrada pelos mecanismos de busca padrão. Estes não conseguem "enxergar" ou obter o conteúdo na Deep Web - aquelas páginas não existem até serem criadas dinamicamente como resultado de uma busca específica. A Deep Web possui um tamanho muito superior ao da Surface Web.[3]
Tamanho
Estimativas baseadas em extrapolações de um estudo feito na Universidade da Califórnia em Berkeley em 2001[3] especularam que a Deep Web possui 7.500 terabytes de informação. Estimativas feitas por He et al.[4], em 2004, detectaram cerca de 300.000 sites da deep web e, de acordo com Shestakov, cerca de 14.000 destes eram da parte russa da Web em 2006.[5] Em 2008, a web chamada “Deep Web”, não referenciada pelos motores de busca representa 70 a 75% do total, ou seja, cerca de um trilhão de páginas não indexadas.
Nomenclatura
Para referir-se aos websites que não estavam registrados em nenhum mecanismo de busca.[3] Bergman citou um artigo de janeiro de 1996 por Frank Garcia, no qual ele afirma que estes[6]
"Seriam sites projetados propositalmente, mas que não se teve o interesse de registrá-lo em nenhum mecanismo de busca. Então, ninguém pode encontrá-los! Estão escondidos. Eu os chamo de Web Invisível."
Outro uso antigo do termo Web Invisível foi feito por Bruce Mount e Matthew B. Koll do Personal Library Software, descrevendo a ferramenta da deep Web "@1", na edição de dezembro de 1996.[7]
O primeiro uso do termo específico deep Web, agora reconhecido, ocorreu no estudo de 2001 de Berman, mencionado anteriormente.[3]
Classificação
O conteúdo da deep web pode ser classificado em uma ou mais das seguintes categorias:
- Conteúdo dinâmico: páginas dinâmicas que são retornadas em resposta a uma requisição ou através de um formulário.
- Conteúdo isolado: páginas que não possuem referências ou ligações vindas de outras páginas, o que impede o acesso ao seu conteúdo através de web crawlers. Diz-se que essas páginas não possuem backlinks.
- Web privada: sites que exigem um registro e um login (conteúdo protegido por senha).
- Web contextual: páginas cujo conteúdo varia de acordo com o contexto de acesso (por exemplo, IP do cliente ou sequência de navegação anterior). Muitos sites estão escondidos e não há possibilidade de acesso, propositalmente.
- Conteúdo de acesso limitado: sites que limitam o acesso às suas páginas de modo técnico (usando CAPTCHAs por exemplo).
- Conteúdo de scripts: páginas que são acessíveis apenas por links gerados por JavaScript, assim como o conteúdo baixado dinamicamente através de aplicações em Flash ou Ajax.
- Conteúdo não-HTML/texto: conteúdo textual codificado em arquivos multimídia (imagem ou vídeo) ou formatos de arquivo específicos que não são manipulados pelos motores de busca.
- Conteúdo que utiliza o protocolo Gopher ou hospedado em servidores FTP, por exemplo, não é indexado pela maioria dos mecanismos de busca. O Google, por exemplo, não indexa páginas fora dos protocolos HTTP ou HTTPS.[8]
Ver também
Este artigo está a ser traduzido |
Referências
- ↑ Bergman, Michael K (2000). The Deep Web: Surfacing Hidden Value (PDF). [S.l.]: BrightPlanet LLC
- ↑ Wright, Alex (22 de fevereiro de 2009). «Exploring a 'Deep Web' That Google Can't Grasp» (em inglês). The New York Times. Consultado em 23 de março de 2009
- ↑ a b c d Bergman, Michael K (2001). «The Deep Web: Surfacing Hidden Value». The Journal of Electronic Publishing (em inglês). 7 (1). doi:10.3998/3336451.0007.104
- ↑ He, Bin; Patel, Mitesh; Zhang, Zhen; Chang, Kevin Chen-Chuan (2007). Communications of the ACM (CACM) (em inglês). 50 (2): 94–101. doi:10.1145/1230819.1241670 Parâmetro desconhecido
|deepweeeeeebbbsbdsabdbasdbasd titulo=
ignorado (ajuda); - ↑ Denis Shestakov (2011). «Sampling the National Deep Web» (PDF). Proceedings of the 22nd International Conference on Database and Expert Systems Applications (DEXA). Springer. pp. 331–340. Consultado em 6 de outubro de 2011
- ↑ Garcia, Frank (Janeiro de 1996). «Business and Marketing on the Internet». Masthead. 9 (1). Consultado em 24 de fevereiro de 2009. Cópia arquivada em 5 de dezembro de 1996
- ↑ @1 começou com 5,7 terabytes de conteúdo, aproximadamente 30 vezes maior do que a então nascente World Wide Web; O PLS foi adquirido pela AOL em 1998, e a @1 foi abandonada. «PLS introduces AT1, the first 'second generation' Internet search service» (Nota de imprensa). Personal Library Software. Dezembro de 1996. Consultado em 24 de fevereiro de 2009
- ↑ «Gopher — DeepGeek». Talk Geek To Me. 29 de novembro de 2009. Consultado em 25 de julho de 2011. Cópia arquivada em 25 de julho de 2011