Google Busca

Origem: Wikipédia, a enciclopédia livre.
(Redirecionado de Google Search)
Saltar para a navegação Saltar para a pesquisa
Ambox rewrite.svg
Esta página precisa ser reciclada de acordo com o livro de estilo (desde novembro de 2011).
Sinta-se livre para editá-la para que esta possa atingir um nível de qualidade superior.
Google Busca
Página inicial do Google Search
Requer pagamento? Não
Género motor de busca
Cadastro Opcional
País de origem  Estados Unidos
Idioma(s) vários
Lançamento 15 de setembro de 1997 (21 anos)
Posição no Alexa Aumento 1 [1]
Desenvolvedor Sergey Brin e Larry Page
Proprietário Alphabet
Página oficial www.google.com

O Google Busca é um serviço da empresa Google onde é possível fazer pesquisas na internet sobre qualquer tipo de assunto ou conteúdo. É atualmente o serviço de busca mais usado e também o primeiro serviço lançado pela Google Inc.

Alguns recursos do buscador Google[editar | editar código-fonte]

A quantidade de informações na Internet é tão grande e diversificada que é praticamente impossível encontrar tudo o que se precisa sem o uso de um mecanismo de busca. Existem ferramentas de busca muito boas na Internet, como o Altavista, o AlltheWeb, o Yahoo e o MSN. No entanto, o Google destaca-se por algumas boas razões.

O Google atualiza sua base de informações diariamente. Existe o crawler Googlebot, um "robô" do Google que busca por informações novas em todos os endereços possíveis em toda a internet. Isso é realmente interessante porque cerca de alguns minutos depois de uma matéria ser publicada em um site já é possível encontrá-la no Google. Outros mecanismos de busca também possuem crawlers, mas eles não são tão eficientes em termos de atualização e de classificação de informações.

Abertura do Google em Buenos Aires, Argentina.

Outra razão para o sucesso do Google Search é o sistema PageRank. Trata-se de um algoritmo desenvolvido pelos próprios fundadores do Google - Larry Page e Sergey Brin - na Universidade de Stanford, que atribui uma pontuação (um PageRank) a páginas web, de acordo com a quantidade e a qualidade das ligações (externos ou internos) que apontem para ela; o PageRank é um dos factores de maior peso na definição do ordenamento das páginas apresentadas pela Google. Em outras palavras, quanto mais ligações existirem apontando para uma página, maior é seu grau de importância no Google. Como conseqüência, essa página tem maior probabilidade de obter um bom posicionamento nas buscas, pois o PageRank indica que a comunidade da Web (por meio de ligações) elegeu aquela página como de maior relevância o assunto pesquisado. Além disso, o Google analisa os assuntos mais pesquisados e verifica quais sites tratam aquele tema de maneira significativa. Para isso, ele checa a quantidade de vezes que o termo pesquisado aparece na página, por exemplo.

  • Google disponibiliza ainda um recurso extremamente útil: o de "Em cache". O Google armazena quase todas as páginas rastreadas pelo Googlebot e permite que esse conteúdo seja acessado mesmo quando o site original não está no ar. Por exemplo, suponha que você fez uma pesquisa e ao clicar em uma ligação que aparece na página de resultados você constatou que aquela página não existe mais. Se você clicar em "Em cache", uma ligação que fica junto a cada item disponibilizado na página de resultados, você acessará uma cópia daquela página que está armazenada no Google.

Outros dois factores importantes são a simplicidade e clareza. A combinação desses itens foi trabalhada desde a concepção do Google. Devido a isso, é possível acessar um site leve, sem poluição visual e cujas opções são facilmente localizáveis. o Google é capaz de realizar buscas em mais de 300 tipos de arquivos.

  • O Google oferece, além de seu tradicional mecanismo de busca, vários outros serviços, como o Google News, o Froogle, o Gmail, o Google Talk, o Google Earth, entre outros.
  • Para saber de algumas novidades que estão para vir ou para saber quais os principais projectos em que o Google trabalha atualmente, basta visitar o Google Labs.

Dicas para uso do buscador Google[editar | editar código-fonte]

Quem sabe aproveitar todas as opções do Google certamente encontrará o que deseja, por mais complexo ou desconhecido que o assunto seja. Se os recursos certos forem usados, as chances de encontrar algo que seja interessante à pesquisa aumentam consideravelmente.

Cálculos[editar | editar código-fonte]

Fazer cálculos no Google é simples. Digite, por exemplo, , , ou e veja o que acontece. O Google consegue realizar desde operações básicas até as mais complexas. Basta digitar o tipo de cálculo desejado. Veja a lista:

  • 5 ^ 3 —> faz 5 elevado a 3 ()
  • sin(45 degrees) —> faz o seno de 45 ł
  • tan(45 degrees) —> faz a tangente de 45 ł
  • cos(45 degrees) —> faz o cosseno de 45 ł
  • sqrt (90) —> faz a raiz quadrada de 90
  • ln (13) —> faz o logaritmo base e de 13
  • log (1,000) —> faz o logaritmo base 10
  • 50! —> faz o fatorial de 50
  • 4th root of 64 —> faz o cálculo da quarta raiz de 64 łł

ł O degrees não é obrigatório. Digite-o somente quando desejar o valor em graus. Sem o degrees, o valor é fornecido em radianos.

łł Para 1, deve-se usar st em vez de th. O mesmo vale para 2, onde deve-se nd e 3, onde deve-se usar rd. Para 4 e os demais números, deve-se usar th.

Você não precisa usar cada operação por vez. E possível criar uma equação. Por exemplo, . O Google dará como resultado .

Conversões[editar | editar código-fonte]

É possível fazer conversões no Google.

Veja a lista de conversões:

  • 50 miles in km
    • Faz 50 milhas em quilômetros
  • 10 kg in lb
    • Faz 10 quilos em libras
  • 30 cm in ft
    • Faz 30 centímetros em pés
  • VI in arabic numerals
    • Transforma VI em número indo-arábico (o que utilizamos hoje em dia)
  • 2004 in roman numerals
    • Transforma 2004 em números romanos
  • 9 hours in minutes
    • Transforma 9 horas em minutos
  • 365 days in hours
    • Transforma 365 dias em horas

Em todos os casos, é possível que você faça as operações de modo contrário. E há outras conversões. Basta saber os nomes das medidas em inglês e experimentar no Google. No lugar dos valores, você pode usar equações. Por exemplo, 10/5+459 in roman numerals. O Google mostrará CDLXI. Outra maneira de fazer este tipo de conversão é escrevendo em formato de pergunta a medida desejada, em inglês, como nos exemplos abaixo:

  • How many cm are in 40 km?
    • Quantos centímetros há em 40 km?
  • How many miles are in 9041 cm?
    • Quantas milhas há em 9041 centímetros?
  • How many hours are in 8 days?
    • Quantas horas há em 8 dias?

Operadores Avançados[editar | editar código-fonte]

Algumas dicas que servem para a maiora dos buscadores, incluindo o Google, é usar apenas palavras chaves na sua busca, em vez de buscar, por exemplo, Golpe do Estado busque por Golpe Estado. O Google e alguns poucos outros tem uma melhor vantagem, ele faz um filtro de busca, retirando informações pequenas, como de, da/do, com, dessa forma não é totalmente necessário fazer o filtro manualmente, porém a pesquisa pode se tornar um pouco mais rápida.

Função Exemplo Descrição
Pesquisa Exata "Google Search" Procura pela ocorrência EXATA (com as palavras agrupadas) de Google Search.
Subtrair Resultado Google -Search Remove todos os itens com o termo 'Search'
Busca Alternativa Google ( Search OR Groups ) ao invés de OR.
Curingas "Google * tem ótimas opções" Troca o asterisco por uma palavra ou frase desconhecida.
Procurar num Site Google site:pt.wikipedia.org Procura pela palavra Google no site pt.wikipedia.org.
Buscar por tipo de arquivo Google filetype:PDF Procura a palavra Google em arquivos com extensão PDF.
Combinar Informações filetype:PDF site:pt.wikipedia.org Procura por arquivos de extensão PDF no site da pt.wikipedia.org.
Buscando pelo URL inurl:wikipedia Procura wikipedia no URL do site.
Buscando pelo Texto intext:wikipedia Procura pelo texto wikipedia no conteúdo do site, você pode simplificar este uso digitando somente wikipedia.
Buscando Conceitos define:Wikipédia Define a palavra Wikipédia.
Palavras Chaves keyword:wikipedia Procura na METATAG do site por Wikipédia isto algumas vezes podem ser mais funcional.
Cache cache:www.google.com Vê a página www.google.com em cache.
Titulo intitle:google wikipedia Procura páginas que tenham google e/ou wikipedia no título da página.

Pesquisas[editar | editar código-fonte]

Produtos de pesquisas[editar | editar código-fonte]

Ambox important.svg
seção pode conter pesquisa inédita. Por favor, melhore-o, verificando o seu conteúdo e adicionando referências bibliográficas. Mais detalhes podem ser encontrados na página de discussão. Encontre fontes: Google (notícias, livros e acadêmico)

A porcentagem exata do total de páginas web que o Google indexa não é conhecida, devido à dificuldade de calcular este número com precisão. O Google apresenta um resumo de duas linhas e também uma prévia de cada resultado de pesquisa, que inclui um link para uma versão da página armazenada em cache, geralmente mais antiga.

O Google não só indexa e armazena cópias das páginas web, mas também guarda instantâneos de outros tipos de arquivos, como PDF, documentos do Word, planilhas do Excel, arquivos Flash, arquivos de texto simples, e assim por diante.[2] Exceto no caso de texto e arquivos SWF, a versão em cache é o resultado de uma conversão para (X)HTML, permitindo aos que não possuem a aplicação correspondente a possibilidade de ler o arquivo. Os usuários podem personalizar o mecanismo de busca através da definição de uma linguagem padrão, do uso da tecnologia de filtro “SafeSearch” e da definição do número de resultados mostrados em cada página. O Google tem sido criticado por colocar cookies de longos prazos nas máquinas dos usuários para armazenar suas preferências, uma tática que também lhes permite acompanhar termos de pesquisa dos usuários e manter esses dados por mais de um ano.[carece de fontes?] Para qualquer consulta, podem ser mostrados no máximo os 1000 primeiros resultados, com um limite de 100 exibidos por páginas. A capacidade de especificar o número de resultados está disponível somente se a "busca instantânea" não está habilitada. Se a "busca instantânea" está habilitada, apenas 10 resultados são exibidos independentemente dessa configuração.

Em 2012, o Google alterou suas classificações para rebaixar sites que foram acusados de pirataria, exceto o site YouTube (do próprio Google).[3]

Dados não-indexáveis[editar | editar código-fonte]

Apesar de seu grande índice, há também uma considerável quantidade de dados disponíveis em bases de dados online que são acessíveis por meio de consultas, mas não por ligações. Essa chamada web profunda ou invisível é coberta minimamente pelo Google através de seu engenho de busca.[4] Ela contém catálogos de bibliotecas, documentos legislativos oficiais dos governos, guias de telefones e outros conteúdos preparados dinamicamente para responder a uma consulta.

Funcionalidades[editar | editar código-fonte]

O Google Search consiste em uma série de sites localizados. O maior deles, Google.com, é o site mais visitado no mundo.[5] Algumas de suas características incluem um link para a definição da maioria das pesquisas, incluindo as palavras do dicionário, o número de resultados que você obteve em sua pesquisa, links para outras pesquisas (por exemplo, no caso de palavras que o Google acredita terem sido digitadas incorretamente, ele fornece um link aos resultados da pesquisa usando a grafia que ele propõe), e muito mais.

Sintaxe para busca[editar | editar código-fonte]

O mecanismo de busca do Google normalmente aceita consultas a partir de um simples texto, e divide o texto do usuário em uma sequência de termos de pesquisa que geralmente, serão palavras que irão ocorrer nos resultados da pesquisa, mas também pode usar operadores booleanos, tais como: aspas (' ') por uma frase, um prefixo como “+”, “-“ para termos qualificados (não mais válido, o ‘+’ foi removido do Google em 10/19/11 [6] ) descrevem cada uma dessas consultas adicionais e opções(veja em: opções de busca). A forma de pesquisa avançada do Google fornece vários campos que podem ser utilizados para qualificar as pesquisas tais como data da primeira requisição. Todas as consultas adicionais transformam-se em pesquisas regulares, normalmente com expressão adicional qualificada.

Expansão da Consulta[editar | editar código-fonte]

O Google aplica a expansão da consulta para consultas submetidas, transformando-a na consulta que realmente será utilizada para obter os resultados da busca. Tal como acontece com o ranking da página, os detalhes exatos do algoritmo que o Google usa são deliberadamente obscuros, mas certamente as seguintes transformações são as que ocorrem:

  • Reordenação de termos: na recuperação de informação esta é uma técnica padrão para reduzir o trabalho na obtenção do resultado da busca. Essa transformação é invisível ao usuário, pois os resultados de ordenação utilizam a ordem da consulta original para determinar a relevância.
  • O stemming é usado para aumentar a qualidade da busca, mantendo pequenas variantes sintáticas dos termos de busca [7].
  • Há uma facilidade limitada para corrigir possíveis problemas de escritas nas consultas.

Estou com sorte[editar | editar código-fonte]

A página inicial do Google inclui o botão “Estou com sorte”. Quando o usuário digita uma busca e clica no botão, ele será levado ao primeiro resultado da pesquisa, ignorando o mecanismo de buscas na página de resultados. A ideia é que se o usuário “está com sorte”, o mecanismo de buscas irá retornar a correspondência perfeita na primeira vez sem ter que folhear os resultados da pesquisa. No entanto, com a introdução do Google Instant não é possível utilizar o botão adequadamente, a menos que a função instantânea do Google esteja desligada. De acordo com um estudo realizado por Tom Chávez, esse recurso custa ao Google 110 milhões de dólares por ano, com 1% das buscas utilizando esse recurso e ignorando todas as publicidades. [8] A “Pesquisa com Sorte” utilizada pelo Google Chrome e o Mozilla Firefox usa como padrão uma cadeia de caracteres quando o usuário a insere numa consulta na barra de navegação. Essa funcionalidade foi preterida em versões posteriores, mas pode ser trazida de volta no Mozilla Firefox, definindo a sequencia de palavras-chave. Url para http://www.google.com/search?ie=UTF-8&oe=UTF-8&sourceid=navclient&gfns=1&q= na página about:config. Em 30 de outubro de 2009, para alguns usuários, o botão “Estou com Sorte” foi removido da página principal do Google, juntamente com o botão de pesquisa regular. Ambos os botões foram substituídos por um campo no qual estava escrito: “Esse espaço foi intencionalmente deixado em branco”. Este texto desapareceu quando o mouse foi movido na página e o campo de pesquisa e a função de pesquisa normal estavam sendo executada mediante o preenchimento do campo de busca com os campos desejados e o pressionar do enter. Um porta-voz do Google explica: “Este é apenas um teste e um caminho para avaliarmos se os usuários irão gostar de uma interface de busca ainda mais simples”. [9] As homepages personalizadas do Google mantiveram os dois botões e suas funções normais. Em 21 de maio de 2010 no 30° aniversário de Pac-Man, o botão “Estou com Sorte” foi substituído por um botão de leitura de palavras “Inserir Moeda”. Após pressionar o botão, o usuário iria começar um jogo do Google com temas de Pac-Man no local onde normalmente se encontra o logotipo do Google. Pressionando o botão pela segunda vez, começaria uma versão para dois jogadores do mesmo jogo que inclui Ms. PacMan e o jogador 2. Esta versão pode se acessada no www.google.com/pacman/, como um link permanente para a página.

Busca por sistema operacional[editar | editar código-fonte]

O Google tem páginas para sistemas operacionais. Assim, se você é usuário de Linux ou Mac, por exemplo, poderá buscar assuntos específicos para esses sistemas. Veja lista de páginas:

Ainda existe o Google específico para o governo dos Estados Unidos, batizado Uncle Sam:

Google Panda[editar | editar código-fonte]

Google Panda é um novo algoritmo do site de buscas lançado em fevereiro de 2011.[6] Nele os resultados da busca passam por mais filtros que excluem erros de idioma, sites que plagiam, sites com etiquetas não-relacionadas,[6] bem como sites que apresentem muita propaganda e pouco conteúdo.[7]

Poluição[editar | editar código-fonte]

O sítio eletrônico da BBC publicou uma matéria em que é revelada a possível emissão de 7 gramas de dióxido de carbono a cada pesquisa feita no buscador. O Google rebate a pesquisa, que foi feita por um físico da Universidade Harvard, e diz que são somente 0,2 gramas de "carbono" emitido. Entretanto, uma discussão a respeito do comprometimento ambiental da empresa pode ser iniciada, já que seu motor de busca é o mais utilizado no mundo bilhões de vezes todos os dias.[8]

Estrutura de dados da Google (Servidor Web Distribuído)[editar | editar código-fonte]

A google possui um sistema distribuído de armazenamento de dados estruturados, com o objetivo de ter uma escalabilidade de petabytes de dados em centenas de milhares de computadores com alto desempenho e alto disponibilidade.

O nome GOOGLE vem da palavra GOOGOL, inventada por Milton Sirotta, sobrinho do matemático Edward Kasner para designar o número 1 seguido de zeros - simboliza a missão da empresa em organizar o montante de informações disponíveis na web e jogá-la ao mundo.

Sistemas de arquivos da Google[editar | editar código-fonte]

O sistema de arquivos do Google (GFS ou GoogleFS) é um sistema de arquivos distribuído proprietário desenvolvido pelo Google para fornecer acesso eficiente e confiável a dados usando grandes clusters de hardware de commodity. Uma nova versão do código do sistema de arquivos do Google chamada Colossus foi lançada em 2010.[9][10]

O GFS é aprimorado para as principais necessidades de armazenamento e uso de dados do Google (principalmente o mecanismo de pesquisa), que podem gerar enormes quantidades de dados que devem ser retidos; O Google File System surgiu de um esforço anterior do Google, o "BigFiles", desenvolvido por Larry Page e Sergey Brin nos primeiros dias do Google, enquanto ainda estava localizado em Stanford. Os arquivos são divididos em blocos de tamanho fixo de 64 megabytes, semelhantes a clusters ou setores em sistemas de arquivos regulares, que são apenas raramente sobrescritos ou reduzidos; os arquivos geralmente são anexados ou lidos. Ele também é projetado e otimizado para rodar nos clusters de computação do Google, nós densos que consistem em computadores de "commodity" baratos, o que significa que precauções devem ser tomadas contra a alta taxa de falhas de nós individuais e a subsequente perda de dados. Outras decisões de design selecionam altas taxas de transferência de dados, mesmo quando isso ocorre ao custo da latência.

Um cluster GFS consiste em vários nós. Esses nós são divididos em dois tipos: um nó mestre e um grande número de servidores Chunkservers. Cada arquivo é dividido em partes de tamanho fixo. Servidores Chunk armazenam essas partes. Cada parte é atribuída a um rótulo exclusivo de 64 bits pelo nó principal no momento da criação e os mapeamentos lógicos de arquivos para partes constituintes são mantidos. Cada pedaço é replicado várias vezes em toda a rede. Por padrão, ele é replicado três vezes, mas isso é configurável. Arquivos que estão em alta demanda podem ter um fator de replicação mais alto, enquanto arquivos para os quais o aplicativo cliente usa otimizações de armazenamento restritas podem ser replicados menos de três vezes - para lidar com políticas de limpeza rápida de lixo.

O servidor mestre geralmente não armazena os fragmentos reais, mas todos os metadados associados aos fragmentos, como as tabelas que mapeiam os rótulos de 64 bits para os locais de fragmentos e os arquivos que eles compõem, os locais das cópias dos fragmentos, quais processos estão lendo ou gravando em um bloco em particular, ou fazendo um "instantâneo" do fragmento de acordo com a replicação (geralmente por iniciativa do servidor mestre, quando, devido a falhas de nó, o número de cópias de um fragmento caiu abaixo do número definido). Todos esses metadados são mantidos em dia pelo servidor mestre periodicamente recebendo atualizações de cada servidor chunk.[1]

Sistema de armazenamento BigTable[editar | editar código-fonte]

O Bigtable é um sistema de armazenamento de dados proprietário compactado, de alto desempenho e construído no Google File System. É composto por blocos de 64 megabytes, onde os dados inseridos já entram indexados, tornando assim mais rápida a consulta aos dados. É um banco extremamente escalável e tolerante a falhas. Também pode ser usado para distribuir o processamento dos dados.

O que é Cloud BigTable[editar | editar código-fonte]

O Bigtable é um sistema de armazenamento de dados proprietário compactado, de alto desempenho e construído no Google File System. É composto por blocos de 64 megabytes, onde os dados inseridos já entram indexados, tornando assim mais rápida a consulta aos dados. É um banco extremamente escalável e tolerante a falhas. Também pode ser usado para distribuir o processamento dos dados.

NOSQL[editar | editar código-fonte]

O termo NoSQL foi primeiramente utilizado em 1998 como o nome de um banco de dados não relacional de código aberto. Seu autor, Carlo Strozzi, alega que o movimento NoSQL "é completamente distinto do modelo relacional e portanto deveria ser mais apropriadamente chamado "NoREL" ou algo que produzisse o mesmo efeito".

A partir de então, os bancos de dados não relacionais passaram a ser conhecidos como NoSQL, e com crescente popularização das redes sociais, a geração de conteúdo por dispositivos móveis bem como o número cada vez maior de pessoas e dispositivos conectados, faz com que o trabalho de armazenamento de dados com o objetivo de utilizá-los em ferramentas analíticas, comece a esbarrar nas questões de escalabilidade e custos de manutenção desses dados.

O que é MapReduce, um modelo de programação criado pelo Google[editar | editar código-fonte]

Desde o começo, o desafio do Google e de qualquer outra ferramenta de busca não era pequeno: indexar o volume de conteúdo na web e retornar resultados relevantes para seus usuários.[11]

O MapReduce nasceu dentro desse contexto para analisar uma quantidade crescente de dados da melhor forma. A ferramenta se popularizou em 2014, ano em que o Google publicou um artigo descritivo sobre ela.

Apesar de não ter aberto o código da aplicação, as palavras bastaram para inspirar os desenvolvedores Doug Cutting e Mike Cafarella, criadores do Apache Hadoop, uma plataforma open source que democratizou o MapReduce.

Atualmente, o termo se refere a todo tipo de biblioteca ou aplicação que segue esse modelo de programação, que consiste em duas fases: mapeamento e redução.

Como funciona o MapReduce[editar | editar código-fonte]

Os programas escritos com base nesse paradigma rodam de forma paralela, normalmente em clusters (agrupamentos) de computadores. Os dados são gerados, processados e analisados de maneira distribuída e o processamento é feito por uma combinação de chaves e valores que podem estar em diferentes locais.[12]

Na prática, isso significa que, em vez de depender da velocidade de leitura e escrita de dados de um único equipamento, o MapReduce usa várias máquinas para dividir o trabalho.

Uma analogia que ajuda a entender tanto o conceito do MapReduce quanto da computação paralela é imaginar que existe uma tarefa: contar o número de laranjas maduras em um cesto muito grande.

No método tradicional em que uma pessoa faz tudo, ela levaria muito tempo para contar as laranjas. Tanto tempo que, ao terminar o trabalho, outras laranjas teriam amadurecido no cesto.

No modelo do MapReduce, um coordenador responsável pela tarefa pode dividir as laranjas em 20 cestos, por exemplo, e vinte pessoas contam o que há em cada um deles e entregam o resultado de laranjas maduras em menor tempo.

Cabe então ao coordenador reduzir os vinte resultados em apenas uma saída e somar os valores retornados pelos contadores.

Se alguma pessoa não comparecer, a tarefa é redistribuída entre os presentes e continua sem nenhuma perda de informação ou performance, o que representa a tolerância a falhas do MapReduce.

Essa técnica não só reduz riscos de perda de dados devido a falhas das máquinas como também facilita a combinação das informações processadas pelos diversos equipamentos em uma única resposta.

As fases do MapReduce[13][editar | editar código-fonte]

Como o próprio nome revela, o MapReduce é baseado nas funções Map() e Reduce(). Sua operação se divide em duas etapas:

Fase 1: Mapeamento[editar | editar código-fonte]

Na primeira fase, chamada de Map (mapeamento), os dados são separados em pares de chave e valor, divididos em fragmentos e distribuídos para os nodes, onde serão processados.

Fase 2: Redução[editar | editar código-fonte]

Depois disso, acontece a etapa de Reduce (redução), que é a combinação dos processamentos dos nodes por um master node. É ele que entregará uma resposta única à requisição realizada pelo usuário.

No Hadoop, o resultado final é escrito em HDFS (Hadoop Distributed File System), o sistema de arquivos da plataforma que lida com grandes volumes de dados.

A tolerância a falhas mencionada anteriormente aparece aqui. Caso um sistema ou disco de armazenamento falhe por algum motivo, a tarefa é redistribuída pelo master node e não há perda significativa de dados ou de performance no processo.

Isso também significa que as empresas que utilizam esse modelo de programação gastam menos recursos com infraestrutura.

Por que utilizar o MapReduce para analisar dados em larga escala?[editar | editar código-fonte]

Uma das vantagens do paradigma do MapReduce é a velocidade da análise dos dados. Em ferramentas tradicionais de processamento de dados, é comum que eles sejam movidos do armazenamento para o processamento, o que é lento e inviável para grandes volumes.

Por essa razão, o MapReduce toma o caminho oposto e leva o processamento para os locais em que os dados estão armazenados, o que traz mais agilidade e eficiência à análise.

Outra vantagem é que, como o processamento é paralelo e fragmentado, pode acontecer mesmo em clusters de máquinas com configurações modestas – não é preciso ter um supercomputador.

O MapReduce também é relativamente simples e tem uma boa curva de aprendizado, mesmo quando comparado com outras soluções adotadas para lidar com big data, como o Spark ou o Mesos.

Essa facilidade de utilização e implementação, em grande parte graças ao alto engajamento da comunidade de Hadoop, se reflete na adoção maior desse modelo de programação.

Tudo indica que o número deve continuar crescendo, graças ao motor por trás da ferramenta, que também está em crescimento: a importância de big data para os negócios.

Segundo uma pesquisa de 2016 da Forrester Research, quase 40% das empresas disseram que estavam implementando ou expandindo suas estratégias de Big Data. Outras 30% planejavam investir na área no ano seguinte – e é provável que muitas delas apostem no MapReduce.

Referências

  1. «Google.com Site Info». Alexa Internet. Consultado em 4 de setembro de 2013. 
  2. «Google Frequently Asked Questions – File Types». Google. Consultado em 12 de setembro de 2011. 
  3. Orlowski, Andrew. "YouTube escapes Google's piracy site smackdown." The Register, 13 de agosto de 2012.
  4. Sherman, Chris and Price, Gary. «The Invisible Web: Uncovering Sources Search Engines Can't See, In: Library Trends 52 (2) 2003: Organizing the Internet:». pp. 282–298 
  5. «Top 500». Alexa. Consultado em 15 de abril de 2008. 
  6. a b «1PLATAFORMAS DE VÍDEO: APONTAMENTOS PARA UMA ECOLOGIA DO AUDIOVISUAL DA WEB NA CONTEMPORANEIDADE» (PDF). 2012. Consultado em 19 de maio de 2014. 
  7. «Fundamentos Básicos e Avançados de SEO». Google Books. 2013. pp. 2–3. Consultado em 19 de maio de 2014. 
  8. 'Carbon cost' of Google revealed
  9. «Google's Colossus Makes Search Real-time by Dumping MapReduce - High Scalability -». highscalability.com (em inglês). Consultado em 11 de junho de 2018. 
  10. «Colossus: Successor to the Google File System (GFS) - SysTutorials». SysTutorials (em inglês). 29 de novembro de 2012 
  11. «MapReduce: Simplified Data Processing on Large Clusters» (PDF) 
  12. «Entendendo MapReduce». Manifesto na Web!. 2 de junho de 2009 
  13. «What is MapReduce? How it Works - Hadoop MapReduce Tutorial». www.guru99.com (em inglês). Consultado em 11 de junho de 2018.