Saltar para o conteúdo

Big data: diferenças entre revisões

Origem: Wikipédia, a enciclopédia livre.
Conteúdo apagado Conteúdo adicionado
Acrecentando de informações
Etiquetas: Editor Visual Edição via dispositivo móvel Edição feita através do sítio móvel
Inclusão do tópico armazenamento e processamento. Inclusão de um estudo de caso na parte de aplicações.
Linha 28: Linha 28:
Em 1989, o cientista britânico Tim Berners-Lee criou o World Wide Web, para facilitar a troca de informações entre as pessoas. O que Tim Berners-Lee não sabia era que sua invenção ia revolucionar a forma como os dados eram gerados e a quantidade de dados criados<ref>{{Citar periódico|ultimo=Coffman|primeiro=K. G.|ultimo2=Odlyzko|primeiro2=Andrew|data=1998-12-01|titulo=The size and growth rate of the internet|url=https://experts.umn.edu/en/publications/the-size-and-growth-rate-of-the-internet|jornal=First Monday|lingua=en|volume=3|numero=10|issn=1396-0466}}</ref>. A criação da Web 2.0 ajudou no aumento dos dados<ref name=":5" />. O termo big bata foi usado pela primeira vez em 1997<ref name=":3" />. Entretanto, o nome começou a ser usado oficial em 2005, quando Roger Mougalas, da O’Reilly Media publicou um artigo<ref>{{Citar periódico|ultimo=Ross|primeiro=Joshua-Michéle|data=2010-01-15|titulo=Roger Magoulas on Big Data|url=http://radar.oreilly.com/2010/01/roger-magoulas-on-big-data.html|jornal=O'Reilly Radar|lingua=en-US}}</ref>.
Em 1989, o cientista britânico Tim Berners-Lee criou o World Wide Web, para facilitar a troca de informações entre as pessoas. O que Tim Berners-Lee não sabia era que sua invenção ia revolucionar a forma como os dados eram gerados e a quantidade de dados criados<ref>{{Citar periódico|ultimo=Coffman|primeiro=K. G.|ultimo2=Odlyzko|primeiro2=Andrew|data=1998-12-01|titulo=The size and growth rate of the internet|url=https://experts.umn.edu/en/publications/the-size-and-growth-rate-of-the-internet|jornal=First Monday|lingua=en|volume=3|numero=10|issn=1396-0466}}</ref>. A criação da Web 2.0 ajudou no aumento dos dados<ref name=":5" />. O termo big bata foi usado pela primeira vez em 1997<ref name=":3" />. Entretanto, o nome começou a ser usado oficial em 2005, quando Roger Mougalas, da O’Reilly Media publicou um artigo<ref>{{Citar periódico|ultimo=Ross|primeiro=Joshua-Michéle|data=2010-01-15|titulo=Roger Magoulas on Big Data|url=http://radar.oreilly.com/2010/01/roger-magoulas-on-big-data.html|jornal=O'Reilly Radar|lingua=en-US}}</ref>.


Os cientistas de dados começaram a verificar que bancos de dados relacionais não conseguiriam suportar essa grande quantidade de dados não estruturados. Foi quando a Google criou o MapReduce, em 2004<ref>{{Citar periódico|ultimo=Dean|primeiro=Jeffrey|ultimo2=Ghemawat|primeiro2=Sanjay|data=2008-01-01|titulo=MapReduce: simplified data processing on large clusters|url=http://dl.acm.org/citation.cfm?id=1327452.1327492|jornal=Communications of the ACM|volume=51|numero=1|paginas=107–113|doi=10.1145/1327452.1327492|issn=0001-0782}}</ref>, que é um modelo de programação que permite processar grandes quantidades de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes, geralmente executado em um cluster de computadores<ref>{{Citar web|url=https://br.udacity.com/blog/post/o-que-e-mapreduce|titulo=O que é MapReduce, um modelo de programação criado pelo Google|acessodata=2018-10-28|obra=br.udacity.com|lingua=pt-BR}}</ref>.
Os cientistas de dados começaram a verificar que bancos de dados relacionais não conseguiriam suportar essa grande quantidade de dados não estruturados. Foi quando a Google criou o MapReduce, em 2004<ref name=":6">{{Citar periódico|ultimo=Dean|primeiro=Jeffrey|ultimo2=Ghemawat|primeiro2=Sanjay|data=2008-01-01|titulo=MapReduce: simplified data processing on large clusters|url=http://dl.acm.org/citation.cfm?id=1327452.1327492|jornal=Communications of the ACM|volume=51|numero=1|paginas=107–113|doi=10.1145/1327452.1327492|issn=0001-0782}}</ref>, que é um modelo de programação que permite processar grandes quantidades de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes, geralmente executado em um cluster de computadores<ref>{{Citar web|url=https://br.udacity.com/blog/post/o-que-e-mapreduce|titulo=O que é MapReduce, um modelo de programação criado pelo Google|acessodata=2018-10-28|obra=br.udacity.com|lingua=pt-BR}}</ref>.


Segundo a [[IBM]] em 2008 foram produzidos cerca de 2,5 quintilhões de [[bytes]] todos os dias e surpreendentemente 90% dos dados no mundo foram criados nos últimos dois anos, decorrente a adesão das grandes empresas à internet, como exemplo as redes sociais, dados dos GPS, dispositivos embutidos e móveis<ref name="SPIEGEL ONLINE">SPIEGEL ONLINE: [http://www.spiegel.de/international/business/big-data-enables-companies-and-researchers-to-look-into-the-future-a-899964.html Big Data Enables Companies and Researchers to Look into the Future - SPIEGEL ONLINE]</ref>. Atualmente, a Internet das Coisas mudou a forma como os dados são gerados, aumentando de forma abrupta a quantidade de dados gerados<ref name=":0" />. Todos esses objetos físicos da Internet das Coisas são capazes de coletar dados e transmitir dados, gerando dados não estruturados que não podem ser armazenados e processados por banco de dados comuns.
Segundo a [[IBM]] em 2008 foram produzidos cerca de 2,5 quintilhões de [[bytes]] todos os dias e surpreendentemente 90% dos dados no mundo foram criados nos últimos dois anos, decorrente a adesão das grandes empresas à internet, como exemplo as redes sociais, dados dos GPS, dispositivos embutidos e móveis<ref name="SPIEGEL ONLINE">SPIEGEL ONLINE: [http://www.spiegel.de/international/business/big-data-enables-companies-and-researchers-to-look-into-the-future-a-899964.html Big Data Enables Companies and Researchers to Look into the Future - SPIEGEL ONLINE]</ref>. Atualmente, a Internet das Coisas mudou a forma como os dados são gerados, aumentando de forma abrupta a quantidade de dados gerados<ref name=":0" />. Todos esses objetos físicos da Internet das Coisas são capazes de coletar dados e transmitir dados, gerando dados não estruturados que não podem ser armazenados e processados por banco de dados comuns.
Linha 39: Linha 39:
* '''''Personal Data:''''' Dados pessoais, facilmente relacionados ao conceito da [[Internet das coisas]], são dados obtidos através de aparelhos de uso pessoal ou coletivo, tais como smartphones, geladeiras, televisões, carros, etc. Esse tipo de dado mostra as preferências pessoais de um determinado indivíduo através do estudo de padrões, por meio do uso do '''''Personal Data''''' é possível desenvolver metodologias personalizadas de interação com o cliente, de maneira a tornar a relação com o produto menos mecanizada e robotizada.
* '''''Personal Data:''''' Dados pessoais, facilmente relacionados ao conceito da [[Internet das coisas]], são dados obtidos através de aparelhos de uso pessoal ou coletivo, tais como smartphones, geladeiras, televisões, carros, etc. Esse tipo de dado mostra as preferências pessoais de um determinado indivíduo através do estudo de padrões, por meio do uso do '''''Personal Data''''' é possível desenvolver metodologias personalizadas de interação com o cliente, de maneira a tornar a relação com o produto menos mecanizada e robotizada.


==''Armazenamento e Processamento''==
== Comparação ''Data Warehouse'' com ''Big Data'' ==
Os dados que agregram o conjunto do Big Data são provenientes de várias fontes. Desta maneira, normalmente não apresenta uma estrutura bem definida, ou seja, não pode ser armazenada nos sistemas padrões de banco de dados, como o Sistema Gerenciador de Banco de Dados Relacional (SGBDR), onde os dados são representados por meio de tabelas, com diversas linhas e colunas<ref name=":7">{{Citar periódico|data=2017-08-26|titulo=Difference between Big Data Hadoop and Traditional RDBMS|url=https://www.w3trainingschool.com/difference-big-data-hadoop-traditional-rdbms|jornal=W3training School|lingua=en-US}}</ref>.
Conceitualmente, um ''Data Warehouse'' ([[Armazém de dados]]) é um conjunto de dados baseado em assuntos integrados, não voláteis, variáveis em relação ao tempo, e destinado a auxiliar em decisões de negócios, diferente do '''Big Data''' que se baseia em grande volume de dados, voláteis ou não, com maior velocidade. E também em vez de criar um subconjunto limpo de dados do utilizador para os colocar numa “data warehouse” e serem consultados a partir de um número limitado de formas pré-determinadas, o software de '''Big Data''' recolhe todos os dados que uma organização gera e permite que os administradores e analistas se preocupem em como usá-los mais tarde. Neste sentido são mais escaláveis do que os bancos de dados tradicionais e os “datas warehouse”.

Desta maneira, novas tecnologias e processos tiveram que ser desenvolvidos para permitir que esses dados não estruturados fossem analisados, já que os mesmos podem representar até 80% do total de dados<ref>{{Citar periódico|ultimo=Savitz|primeiro=Eric|titulo=Big Data: Big Hype?|url=https://www.forbes.com/sites/ciocentral/2013/02/04/big-data-big-hype/#2c058af43666|jornal=Forbes|lingua=en}}</ref>. Foi quando a Google criou o MapReduce, em 2004<ref name=":6" />, para permitir o processamento em paralelo dessa grande quantidade de dados. Posteriormente, foi desenvolido o Hadoop, que é uma implementação em código aberto do MapReduce<ref name=":8">{{Citar periódico|data=2014-02-17|titulo=Big Data e Hadoop – o que é tudo isso? - iMasters - We are Developers|url=https://imasters.com.br/banco-de-dados/big-data-e-hadoop-o-que-e-tudo-isso|jornal=iMasters - We are Developers|lingua=pt-BR}}</ref>. O Hadoop foi criado pelo Yahoo em 2005 e pode ser considerado uma das maiores invenções de data management desde o modelo relacional<ref name=":9">{{Citar web|url=https://www.ibm.com/developerworks/community/blogs/ctaurion/entry/conhecendo_hadoop?lang=en|titulo=Conhecendo o Hadoop - Software, Open Source, SOA, Innovation, Open Standards, Trends Blog|data=2009-06-03|acessodata=2018-12-03|obra=www.ibm.com|ultimo=ctaurion|lingua=en}}</ref>.

Entretanto, o Hadoop não é considerado uma base dados como o SGBDR. Ele é um sistema de distribuição de arquivos utilizado para processar e armazenas grande quantidade de dados (Big Data) por meio de clusters<ref name=":7" />, onde os mesmos são processados paralelamente e podendo ser executados em servidores sem muito esforço<ref name=":8" />. Atualmente, esse tipo de processamente é o mais utilizado por empresas que trabalham com Big Data e diversas empresas vêm contribuindo com código para seu desenvolvimento, como a Yahoo, Facebook, Cloudera, IBM e outras<ref name=":9" />.


== Mercado de trabalho ==
== Mercado de trabalho ==
Linha 52: Linha 56:
* No terremoto do Haiti, pesquisadores americanos fizeram uso da geolocalização de 2 milhões de chips SIM, para auxiliar nas missões humanitárias<ref>{{Citar periódico|data=2011-10-13|titulo=Tracking Population Movements using Mobile Phones and Crisis Mapping: A Post-Earthquake Geospatial Study in Haiti|url=https://irevolutions.org/2011/10/13/flowminder-haiti/|jornal=iRevolutions|lingua=en-US}}</ref>;
* No terremoto do Haiti, pesquisadores americanos fizeram uso da geolocalização de 2 milhões de chips SIM, para auxiliar nas missões humanitárias<ref>{{Citar periódico|data=2011-10-13|titulo=Tracking Population Movements using Mobile Phones and Crisis Mapping: A Post-Earthquake Geospatial Study in Haiti|url=https://irevolutions.org/2011/10/13/flowminder-haiti/|jornal=iRevolutions|lingua=en-US}}</ref>;
* Em busca dos melhores lugares para instalar turbinas eólicas, uma empresa dinamarquesa analisou petabytes de dados climáticos do nível das marés, mapas de desmatamentos, entre outros. No fim o que costumava demorar semanas durou apenas algumas horas<ref>{{citar web|url=http://www.windpower.org/download/2997/07_vasiljevic_dwcpdf|titulo=Tackling big data challenges in wind energy sector|data=02 de Outubro de 2017|acessodata=25 de outubro de 2018|publicado=|ultimo=|primeiro=}}</ref>;
* Em busca dos melhores lugares para instalar turbinas eólicas, uma empresa dinamarquesa analisou petabytes de dados climáticos do nível das marés, mapas de desmatamentos, entre outros. No fim o que costumava demorar semanas durou apenas algumas horas<ref>{{citar web|url=http://www.windpower.org/download/2997/07_vasiljevic_dwcpdf|titulo=Tackling big data challenges in wind energy sector|data=02 de Outubro de 2017|acessodata=25 de outubro de 2018|publicado=|ultimo=|primeiro=}}</ref>;
* o '''Big Data''' foi de grande importância para o descobrimento do pré-sal, devido a sua velocidade, que agilizava os processamentos de dados sísmicos captados pelas sondas que procuram petróleo no fundo do mar.Como são milhões as variáveis, o trabalho exige intermináveis simulações de imagens, e só o '''Big Data''' é capaz de dar conta do trabalho em um tempo melhor<ref>{{Citar periódico|data=2012-12-11|titulo=Setor de petróleo e gás deve ser precursor do big data no Brasil, prevê executivo - TI INSIDE Online|url=http://tiinside.com.br/tiinside/11/12/2012/setor-de-petroleo-e-gas-deve-ser-precursor-do-big-data-no-brasil-preve-executivo/|jornal=TI INSIDE Online|lingua=pt-BR}}</ref>;
* Durante a Pandemia de Influenza, em 2009, a Google desenvolveu um aplicativo para previsão dos locais de epidemia. Para isso, foram relacionadas bilhões de buscas relativas a doenças, cruzando palavras-chave específicas. Os resultados foram validados com dados reais e possibilitou a geração de um modelo confiável de previsão de gripe: o Google Flu Trends<ref>{{Citar periódico|ultimo=Ginsberg|primeiro=Jeremy|ultimo2=Mohebbi|primeiro2=Matthew H.|ultimo3=Patel|primeiro3=Rajan S.|ultimo4=Brammer|primeiro4=Lynnette|ultimo5=Smolinski|primeiro5=Mark S.|ultimo6=Brilliant|primeiro6=Larry|data=2009-02|titulo=Detecting influenza epidemics using search engine query data|url=https://doi.org/10.1038/nature07634|jornal=Nature|lingua=En|volume=457|numero=7232|paginas=1012–1014|doi=10.1038/nature07634|issn=0028-0836}}</ref>; e
*Alguns times de diversos esportes utilizam o '''Big Data''' na performance dos atletas, com câmeras e outros aparelhos. Desta maneira, conseguem observar o desempenho dos atletas, ao analisar os dados, tomar decisões mais precisas, melhorando o desempenho, e corrigindo os erros, criando também estatísticas para os próximos jogos<ref>{{Citar web|url=https://www.bernardmarr.com/default.asp?contentID=1076|titulo=How is Big Data Used in Practice? 10 Use Cases Everyone Must Read|acessodata=2018-11-27|obra=Bernard Marr|lingua=en-US}}</ref>;
* o '''Big Data''' foi de grande importância para o descobrimento do pré-sal, devido a sua velocidade, que agilizava os processamentos de dados sísmicos captados pelas sondas que procuram petróleo no fundo do mar.Como são milhões as variáveis, o trabalho exige intermináveis simulações de imagens, e só o '''Big Data''' é capaz de dar conta do trabalho em um tempo melhor<ref>{{Citar periódico|data=2012-12-11|titulo=Setor de petróleo e gás deve ser precursor do big data no Brasil, prevê executivo - TI INSIDE Online|url=http://tiinside.com.br/tiinside/11/12/2012/setor-de-petroleo-e-gas-deve-ser-precursor-do-big-data-no-brasil-preve-executivo/|jornal=TI INSIDE Online|lingua=pt-BR}}</ref>.
*Empresas de tecnologia como a NetFlix e a Spotify utilizam de Big Data para definir as preferências dos seus usuários, e fornecer para eles conteúdos mais individualizados<ref>{{Citar periódico|data=2015-09-23|titulo=Big Data e Netflix: uma parceria de sucesso {{!}} Big Data Business|url=http://www.bigdatabusiness.com.br/netflix-e-big-data-uma-parceria-de-sucesso/|jornal=Big Data Business|lingua=pt-BR}}</ref>; e
*Alguns times de diversos esportes, utilizão o '''Big Data''' na performance dos atletas, com cameras e outros aparelhos, conseguem observar o desempenho dos atletas, ao analisar os dados, tomam decisões mais precisas, melhorando o desempenho, e corrigindo os erros, criando também estatísticas para os próximos jogos. <ref>{{Citar web|url=https://www.bernardmarr.com/default.asp?contentID=1076|titulo=How is Big Data Used in Practice? 10 Use Cases Everyone Must Read|acessodata=2018-11-27|obra=Bernard Marr|lingua=en-US}}</ref>
*As ferramentes de propaganda do Facebook e do Instagram são baseadas em Big Data, pois correlacionam dados dos usuários das redes sociais com suas preferências de consumos e serviços<ref>{{Citar periódico|data=2013-08-11|titulo=‘Big Data’ transforma o perfil da publicidade|url=https://oglobo.globo.com/economia/tecnologia/big-data-transforma-perfil-da-publicidade-9469294|jornal=O Globo|lingua=pt-BR}}</ref>.

Um interessante estudo de caso sobre sucessos e erros do uso do Big Data é o Google Flu Trends (GTF), que foi lançado pela Google em 2008<ref name=":10">{{Citar web|url=https://www.google.org/flutrends/about/|titulo=Google Flu Trends|acessodata=2018-12-03|obra=www.google.org|lingua=en}}</ref>. Este serviço foi divulgado pela primeira vez por meio de um artigo na revista Nature<ref name=":11">{{Citar periódico|ultimo=Ginsberg|primeiro=Jeremy|ultimo2=Mohebbi|primeiro2=Matthew H.|ultimo3=Patel|primeiro3=Rajan S.|ultimo4=Brammer|primeiro4=Lynnette|ultimo5=Smolinski|primeiro5=Mark S.|ultimo6=Brilliant|primeiro6=Larry|data=2009-02|titulo=Detecting influenza epidemics using search engine query data|url=https://doi.org/10.1038/nature07634|jornal=Nature|lingua=En|volume=457|numero=7232|paginas=1012–1014|doi=10.1038/nature07634|issn=0028-0836}}</ref>, e prometia detectar com algumas semanas de antecedência a ocorrência de epidemias de gripe. Anteriormente ao GFT, os sistemas tradicionais dos EUA faziam estimativas de casos e epidemias de gripe a cada duas semanas, usando dados dos Centros de Controle e Prevenção de Doenças dos EUA (U.S. Centers for Disease Control and Prevention - CDC). Essas estimativas eram baseadas em dados virológicos e clínicos, relacionados a visitas de pacientes aos hospitais e consultórios.

Com o aumento do acesso à internet, verificou-se que mais de 90 milhões de americanos procuravam todos os anos por informações sobre uma doença específica ou problema médico. Nesse contexto, os pesquisadores da Google verificaram que era possível correlacionar essas buscas com casos efetivos de gripe<ref name=":11" />. Para validar a metodologia, foram processadas centenas de bilhões de pesquisas no Google pelo período de 5 anos (2003 a 2007) para os EUA, correlacionando palavras de busca específicas com casos efetivos da doença. Os dados foram validados por meio dos relatórios da CDC para o período, com um correlação média de 90%<ref name=":11" />. O modelo foi testado em tempo real nos anos de 2007 e 2008 e os resultados foram divulgados com o CDC para avaliar a resposta e a acurácia, mostraram a possibilidade de prever casos de gripe em uma a duas semanas antes do CDC<ref name=":11" />.

A partir desses resultados, o serviço começou a ser utilizado operacionalmente para outros países, realizando estimativas de epidemias de gripe para mais de 25 nações<ref name=":10" />. Entretanto, atualmente o serviço não está mais ativo, mas estimativas históricas ainda estão disponíveis para download<ref name=":10" />. Isso aconteceu pelos erros subsequentes nas previsões realizadas pelo serviço nos anos posteriores. Isso aconteceu em 2013, quando o sistema não previu uma epidemia de gripe<ref>{{Citar periódico|titulo=What We Can Learn From the Epic Failure of Google Flu Trends|url=https://www.wired.com/2015/10/can-learn-epic-failure-google-flu-trends/|jornal=WIRED|lingua=en-US}}</ref>, ou como a epidemia da gripe H1N1, em 2009<ref>{{Citar periódico|ultimo=Cook|primeiro=Samantha|ultimo2=Conrad|primeiro2=Corrie|ultimo3=Fowlkes|primeiro3=Ashley L.|ultimo4=Mohebbi|primeiro4=Matthew H.|data=2011-08-19|titulo=Assessing Google Flu Trends Performance in the United States during the 2009 Influenza Virus A (H1N1) Pandemic|url=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3158788/|jornal=PLoS ONE|volume=6|numero=8|doi=10.1371/journal.pone.0023610|issn=1932-6203|pmc=PMC3158788|pmid=21886802}}</ref>. Em um artigo publicado na revista Science<ref>{{Citar periódico|ultimo=Lazer|primeiro=David|ultimo2=Kennedy|primeiro2=Ryan|ultimo3=King|primeiro3=Gary|ultimo4=Vespignani|primeiro4=Alessandro|data=2014-03-14|titulo=The Parable of Google Flu: Traps in Big Data Analysis|url=http://science.sciencemag.org/content/343/6176/1203|jornal=Science|lingua=en|volume=343|numero=6176|paginas=1203–1205|doi=10.1126/science.1248506|issn=0036-8075|pmid=24626916}}</ref>, pesquisadores indicaram os seguintes fatores como os causadores dos problemas e das falhas com o serviço GFT:

- A "Arrogância do Big Data" (Big data Hubris). Este termo é utilizado para descrever a máxima normalmente utilizada pelos cientistas de dados, que consideram o Big Data como um substituto aos dados e análises tradicionais, ao invés de considerá-lo uma análise complementar e conjunta;

- A dinâmica do algoritmo de busca da Google, que mudou ao longo dos anos e pode ter afetado o resultado das tendências

- A falta de transparência e impossibilidade de replicabilidade dos resultados. Apesar da Google ter divulgado a metodologia, os dados utilizados não são públicos, o que não permite replicar os resultados obtidos e avaliar melhores formas de ajustar os algoritmos utilizados no programa.


== Críticas ==
== Críticas ==

Revisão das 12h06min de 3 de dezembro de 2018

A visualização de dados criada pela IBM.

Em tecnologia da informação, o termo Big Data refere-se a um grande conjunto de dados gerados e armazenados, e que os aplicativos de processamento de dados tradicionais ainda não conseguem lidar em um tempo tolerável [1]. Seu surgimento está relacionado com o aumento exponencial da quantidade de dados gerados a cada minuto no mundo[2]. O Big Data representou uma nova era na sociedade moderna, onde os dados se tornaram cada vez mais valiosos[2], mudando a forma como a economia e a ciência observam os processos e extraem valor desse Caos de dados[3].

Definição

Ao longo das últimas décadas, a quantidade de dados gerados tem crescido de forma exponencial. O surgimento da internet fez sairmos da era do terabyte para o petabyte[4], e a internet das coisas aumentou de forma abrupta a quantidade de dados gerados[1]. Entramos na era do Zeta bytes[5], e atualmente geramos mais de 2,5 quintilhões de bytes diariamente[6]. A esta quantidade enorme de dados foi dado o nome de Big Data. Este termo surgiu em 1997[7] e seu uso foi utilizado para nomear essa quantidade cada mais crescente e não estruturadas de dados sendo gerados a cada segundo. Atualmente o Big Data é essencial nas relações econômicas e sociais e representou uma evolução nos sistemas de negócio e na ciência[1]. As ferramentas de Big Data são de grande importância na definição de estratégias de marketing, aumentar a produtividade, reduzir custos e tomar decisões mais inteligentes[8]. A essência do conceito está em gerar valor para negócios[9]. No que tange a ciência, o surgimento do BigData representou a criação de um novo paradigma (4° paradigma) sendo concebido um novo método de avançar as fronteiras do conhecimento, através de novas tecnologias para coletar, manipular, analisar e exibir dados[10].

Quanto mais dados são gerados, maior é o esforço para gerar informações[9], e os centros de dados tiveram que aprender a lidar com o crescimento exponencial de dados gerados e tiveram que desenvolver ferramentas que fossem além de bancos de dados relacionais e sistemas paralelos de bancos de dados[1]. Quanto mais dados temos, maior o esforço de processamento para gerar informações. Sendo assim, a velocidade para obter a informação faz parte do sucesso que o Big Data pode proporcionar em sua empresa[9]. O conceito de big data foi definido inicialmente por 3'V[9]. Entretanto, a literatura mostrou que seu conceito pode estar mais relacionado a 5'V[11]. Os 5'V são representados pelos seguintes conceitos[9]:

  • Volume: relacionado a grande quantidade de dados gerados;
  • Variedade: as fontes de dados são muito variadas, o que aumenta a complexidade das análises;
  • Velocidade: Devido ao grande volume e variedade de dados, todo o processamento deve ser ágil para gerar as informações necessárias;
  • Veracidade: A veracidade está ligada diretamente ao quanto uma informação é verdadeira.
  • Valor: Este conceito está relacionado com o valor obtido desses dados, ou seja, com a “informação útil”.

Histórico

O termo Big Data tem um conceito relativo, já que seu tamanho depende de quem está usando os dados[12]. Neste contexto, o primeiro relato sobre uso de estatísticas para obter informações de grandes quantidades de dados data de 1663. Nesse ano, John Graunt utilizou uma grande quantidade de informações, de diferentes fontes, para estudar a epidemia da peste bulbônica na Europa. Para Graunt, sua quantidade de dados poderia ser considerado Big Data[13].

O uso dos primeiros equipamentos para processar dados datam de 1890, durante a realização do Censo dos Estados Unidos, conduzido pelo U.S. Census Bureau[14]. Na ocasião, a Máquina de Tabulação diminuiu o tempo de processamento dos dados para apenas 6 semanas[15]. Entretanto, somente em no século XX que começaram a surgir os primeiros sistemas para armazenamento de informações. Em 1927, o engenheiro Fritz Pfleumer criou um método para guardar informações em fitas magnéticas[12].

Durante a Segunda Guerra Mundial, foi criada a primeira máquina digital de processamento de dados. Foi em 1943, quando os Britânicos desenvolveram um sistema para decifrar códigos nazistas durante a Segunda Guerra Mundial. O nome da máquina era Colossus, que podia interceptar mensagens a uma taxa de 5000 caracteres por segundo[16]. A primeiro órgão público criado especificamente para o processamento de dados, a Agência Nacional de Segurança (NSA) dos EUA, foi fundado em 1952, com o objetivo de processar dados automaticamente para obter informações relativas a inteligência durante a Guerra Fria[17].

Um dos primeiros Centro de Dados foi criado em 1965, também pelo Governo Americano, com o objetivo de controlar o pagamento de impostos e as impressões digitais dos americanos[16]. Este Centro de Dados possuía o mesmo padrão dos bancos de dados criados até a década de 1970. Eram bancos de dados centralizados, onde uma mesma máquina era responsável pelo uso, armazenamento e análise dos dados[1]. Com o aumento da quantidade de dados, começaram a surgir novas arquiteturas de dados que permitissem processar e analisar esses dados. Nas década de 80 começaram a surgir os Sistemas de Bancos de Dados Paralelos[18]. Nesse caso, ao invés de um banco de dados centralizado, cada processador se comunica com os outros apenas enviando mensagens através de uma rede interconectada. Os primeiros bancos de dados paralelos possibilitaram a criação do primeiro banco de dados com capacidade em terabytes, pela KMART, em 1986[1].

Em 1989, o cientista britânico Tim Berners-Lee criou o World Wide Web, para facilitar a troca de informações entre as pessoas. O que Tim Berners-Lee não sabia era que sua invenção ia revolucionar a forma como os dados eram gerados e a quantidade de dados criados[19]. A criação da Web 2.0 ajudou no aumento dos dados[16]. O termo big bata foi usado pela primeira vez em 1997[7]. Entretanto, o nome começou a ser usado oficial em 2005, quando Roger Mougalas, da O’Reilly Media publicou um artigo[20].

Os cientistas de dados começaram a verificar que bancos de dados relacionais não conseguiriam suportar essa grande quantidade de dados não estruturados. Foi quando a Google criou o MapReduce, em 2004[21], que é um modelo de programação que permite processar grandes quantidades de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes, geralmente executado em um cluster de computadores[22].

Segundo a IBM em 2008 foram produzidos cerca de 2,5 quintilhões de bytes todos os dias e surpreendentemente 90% dos dados no mundo foram criados nos últimos dois anos, decorrente a adesão das grandes empresas à internet, como exemplo as redes sociais, dados dos GPS, dispositivos embutidos e móveis[23]. Atualmente, a Internet das Coisas mudou a forma como os dados são gerados, aumentando de forma abrupta a quantidade de dados gerados[1]. Todos esses objetos físicos da Internet das Coisas são capazes de coletar dados e transmitir dados, gerando dados não estruturados que não podem ser armazenados e processados por banco de dados comuns.

Tipos de Dados

Existem tipos básicos de dados que são estudados pelos especialistas em Big Data, os conceitos mais utilizados geralmente envolvem:

  • Social Data: Dados coletados de redes sociais ou ambientes de interação entre usuários, geralmente demográficos e comportamentais, ou seja, ditam um padrão de um determinado grupo com as mesmas característica. O Social Data é muito utilizado na análise de campanhas de marketing, de maneira a oferecer um serviço ou produto mais personalizado de acordo com diferentes segmentos.
  • Enterprise Data: Na tradução literal Dados Empresariais, coletados pelo RH de empresas, setores de vendas, finanças, logística e produção, esses dados são atributos sobre funcionários e setores diferentes dentro de um ambiente empresarial, podem ser utilizados para otimizar processos e identificar falhas ou fraudes dentro de uma determinada seção, esse tipo de dado é um marco de investimento estratégico de grandes empresas, que visam minimizar gastos e otimizar lucros.
  • Personal Data: Dados pessoais, facilmente relacionados ao conceito da Internet das coisas, são dados obtidos através de aparelhos de uso pessoal ou coletivo, tais como smartphones, geladeiras, televisões, carros, etc. Esse tipo de dado mostra as preferências pessoais de um determinado indivíduo através do estudo de padrões, por meio do uso do Personal Data é possível desenvolver metodologias personalizadas de interação com o cliente, de maneira a tornar a relação com o produto menos mecanizada e robotizada.

Armazenamento e Processamento

Os dados que agregram o conjunto do Big Data são provenientes de várias fontes. Desta maneira, normalmente não apresenta uma estrutura bem definida, ou seja, não pode ser armazenada nos sistemas padrões de banco de dados, como o Sistema Gerenciador de Banco de Dados Relacional (SGBDR), onde os dados são representados por meio de tabelas, com diversas linhas e colunas[24].

Desta maneira, novas tecnologias e processos tiveram que ser desenvolvidos para permitir que esses dados não estruturados fossem analisados, já que os mesmos podem representar até 80% do total de dados[25]. Foi quando a Google criou o MapReduce, em 2004[21], para permitir o processamento em paralelo dessa grande quantidade de dados. Posteriormente, foi desenvolido o Hadoop, que é uma implementação em código aberto do MapReduce[26]. O Hadoop foi criado pelo Yahoo em 2005 e pode ser considerado uma das maiores invenções de data management desde o modelo relacional[27].

Entretanto, o Hadoop não é considerado uma base dados como o SGBDR. Ele é um sistema de distribuição de arquivos utilizado para processar e armazenas grande quantidade de dados (Big Data) por meio de clusters[24], onde os mesmos são processados paralelamente e podendo ser executados em servidores sem muito esforço[26]. Atualmente, esse tipo de processamente é o mais utilizado por empresas que trabalham com Big Data e diversas empresas vêm contribuindo com código para seu desenvolvimento, como a Yahoo, Facebook, Cloudera, IBM e outras[27].

Mercado de trabalho

As oportunidades de trabalho na área de estatística estão aumentando graças à proliferação de programas para análise de dados e seu uso, especialmente, na tomada de decisão com objetivos estratégicos como: políticas de governo, seleção de investimentos, gestão de empresas e negócios, etc.. O Big Data permite trabalhar com grandes volumes de dados, por vezes, não aceitos pelos grandes programas estatísticos. No Brasil existe a profissão de Estatístico, regulamentada pelo Decreto Federal nº 62497 de 1968[28]. Este profissional é treinado para trabalhar com estruturas de dados, em seu manuseio para extração de informação estratégica, nos métodos estatísticos de análise e em programação para sua análise estatística, de modo a se obter conclusões com margens de erro controladas para a tomada de decisões com base nos dados disponíveis. A IBM criou a Big Data University, que fornece certo conhecimento do Big Data. Existem na Internet, sites que oferecem plataformas de ensino à distância, comumente conhecidas como MOOCs, com cursos nas áreas de Big Data e de Ciência de Dados (Data Science, no original em inglês), nos quais pode-se estudar o seu conteúdo de forma gratuita ou pagar pelo certificado do curso. Os mais conhecidos são os sites do Coursera e o EDX.org, este último fruto de parceria entre as universidades americanas de Harvard e do MIT. No Brasil, o mercado para a área é promissor, sendo que muitas renomadas Universidades passaram a oferecer cursos de pós-graduação e MBAs ligados à área de Big Data, variando em sua maioria no tamanho da carga horária destinada à parte de negócios, componente importante na formação deste profissional, que precisará ter além das habilidades técnicas, a capacidade de apresentar as conclusões de suas análises e insights para um público leigo de forma simples, de forma a gerar valor para o negócio da empresa.

Aplicações na atualidade

Um estudo do Instituto IDC mostrou que diversos setores da sociedade estão investindo em Big Data[29], indicando que foram investidos mais de US$ 16,6 bilhões em 2014 para atividades de Big Data. Este mesmo estudo afirma que a expectativa é que este valor atinja, em 2018, o valor de US$ 41,5 bilhões. As instituições estão investindo em Big Data por observarem da interferência dos custos, das consequências que elas podem ter para o futuro do negócio. O objetivo por trás do Big Data é melhorar a prestação de informações aos gestores, fazendo com que haja um suporte na tomada de decisões – com dados reais e precisos[30]. A seguir serão apresentadas algumas aplicações de Big Data, em diferentes setores:

  • O filme “Moneyball” (O homem que mudou o jogo) com o ator Brad Pitt, no qual o gerente de um time de beisebol usa o Big Data para reunir um time de primeira linha sem gastar muito;
  • A empresa UPS, após análise das rotas de seus motoristas, proibiu os mesmos de virar a direita[31]. De acordo com a empresa, isto permitiu economizar por ano cerca de 38 milhões de litros de combustível, deixando de emitir 20 mil toneladas de dióxido de carbono. Além disso, entregam 350 mil pacotes a mais;
  • No terremoto do Haiti, pesquisadores americanos fizeram uso da geolocalização de 2 milhões de chips SIM, para auxiliar nas missões humanitárias[32];
  • Em busca dos melhores lugares para instalar turbinas eólicas, uma empresa dinamarquesa analisou petabytes de dados climáticos do nível das marés, mapas de desmatamentos, entre outros. No fim o que costumava demorar semanas durou apenas algumas horas[33];
  • o Big Data foi de grande importância para o descobrimento do pré-sal, devido a sua velocidade, que agilizava os processamentos de dados sísmicos captados pelas sondas que procuram petróleo no fundo do mar.Como são milhões as variáveis, o trabalho exige intermináveis simulações de imagens, e só o Big Data é capaz de dar conta do trabalho em um tempo melhor[34];
  • Alguns times de diversos esportes utilizam o Big Data na performance dos atletas, com câmeras e outros aparelhos. Desta maneira, conseguem observar o desempenho dos atletas, ao analisar os dados, tomar decisões mais precisas, melhorando o desempenho, e corrigindo os erros, criando também estatísticas para os próximos jogos[35];
  • Empresas de tecnologia como a NetFlix e a Spotify utilizam de Big Data para definir as preferências dos seus usuários, e fornecer para eles conteúdos mais individualizados[36]; e
  • As ferramentes de propaganda do Facebook e do Instagram são baseadas em Big Data, pois correlacionam dados dos usuários das redes sociais com suas preferências de consumos e serviços[37].

Um interessante estudo de caso sobre sucessos e erros do uso do Big Data é o Google Flu Trends (GTF), que foi lançado pela Google em 2008[38]. Este serviço foi divulgado pela primeira vez por meio de um artigo na revista Nature[39], e prometia detectar com algumas semanas de antecedência a ocorrência de epidemias de gripe. Anteriormente ao GFT, os sistemas tradicionais dos EUA faziam estimativas de casos e epidemias de gripe a cada duas semanas, usando dados dos Centros de Controle e Prevenção de Doenças dos EUA (U.S. Centers for Disease Control and Prevention - CDC). Essas estimativas eram baseadas em dados virológicos e clínicos, relacionados a visitas de pacientes aos hospitais e consultórios.

Com o aumento do acesso à internet, verificou-se que mais de 90 milhões de americanos procuravam todos os anos por informações sobre uma doença específica ou problema médico. Nesse contexto, os pesquisadores da Google verificaram que era possível correlacionar essas buscas com casos efetivos de gripe[39]. Para validar a metodologia, foram processadas centenas de bilhões de pesquisas no Google pelo período de 5 anos (2003 a 2007) para os EUA, correlacionando palavras de busca específicas com casos efetivos da doença. Os dados foram validados por meio dos relatórios da CDC para o período, com um correlação média de 90%[39]. O modelo foi testado em tempo real nos anos de 2007 e 2008 e os resultados foram divulgados com o CDC para avaliar a resposta e a acurácia, mostraram a possibilidade de prever casos de gripe em uma a duas semanas antes do CDC[39].

A partir desses resultados, o serviço começou a ser utilizado operacionalmente para outros países, realizando estimativas de epidemias de gripe para mais de 25 nações[38]. Entretanto, atualmente o serviço não está mais ativo, mas estimativas históricas ainda estão disponíveis para download[38]. Isso aconteceu pelos erros subsequentes nas previsões realizadas pelo serviço nos anos posteriores. Isso aconteceu em 2013, quando o sistema não previu uma epidemia de gripe[40], ou como a epidemia da gripe H1N1, em 2009[41]. Em um artigo publicado na revista Science[42], pesquisadores indicaram os seguintes fatores como os causadores dos problemas e das falhas com o serviço GFT:

- A "Arrogância do Big Data" (Big data Hubris). Este termo é utilizado para descrever a máxima normalmente utilizada pelos cientistas de dados, que consideram o Big Data como um substituto aos dados e análises tradicionais, ao invés de considerá-lo uma análise complementar e conjunta;

- A dinâmica do algoritmo de busca da Google, que mudou ao longo dos anos e pode ter afetado o resultado das tendências

- A falta de transparência e impossibilidade de replicabilidade dos resultados. Apesar da Google ter divulgado a metodologia, os dados utilizados não são públicos, o que não permite replicar os resultados obtidos e avaliar melhores formas de ajustar os algoritmos utilizados no programa.

Críticas

A massificação de dados, no entanto, ainda enfrenta obstáculos. O maior deles seria a privacidade, ou seja, a ameaça à privacidade representada pelo aumento de armazenamento e integração de informações pessoalmente identificáveis. Se a recomendação de links patrocinados pelo Google já parece invasiva à maioria das pessoas, o mundo e a legislação atual não estão preparadas para as possibilidades que o Big Data oferece de agregar, analisar e tirar conclusões a partir de dados até então esparsos. Painéis de especialistas lançaram várias recomendações de políticas para adequar a prática às expectativas de privacidade [43][44][45]

Outro problema é a escassez de profissionais, que terão de se adaptar a tal tecnologia, com a previsão que em 2018 só os Estados Unidos podem enfrentar a falta de 140mil a 190mil com profundas capacidades analíticas.

O Big Data já foi relacionado[46] como ferramenta essencial em manipulação de eleições e disseminação de fake news, isso se dá pela capacidade inerente da tecnologia de reunir e segmentar um determinado público alvo, fazendo com que campanhas de marketing sejam muito mais efetivas e impactantes, isso faz do Big Data uma metodologia questionável do ponto de vista ético, uma vez que pode ser usado para manipular massas e obter resultados parciais de acordo com a motivação dos especialistas.

Referências

  1. a b c d e f g Chen, Min; Mao, Shiwen; Liu, Yunhao (22 de janeiro de 2014). «Big Data: A Survey». Mobile Networks and Applications (em inglês). 19 (2): 171–209. ISSN 1383-469X. doi:10.1007/s11036-013-0489-0 
  2. a b «O surgimento do termo Big Data - DNSLink». DNSLink. 28 de março de 2016 
  3. Gantz & Reinsel (01 de junho de 2011). «Extracting Value From Chaos» (PDF). IDC. Consultado em 15 de outubro de 2018  Verifique data em: |data= (ajuda)
  4. Cognizant Insights (01 de junho de 2011). «Making Sense of Big Data in the Petabyte Age» (PDF). Cognizant. Consultado em 15 de outubro de 2018  Verifique data em: |data= (ajuda)
  5. Arthur, Charles (29 de junho de 2011). «What's a zettabyte? By 2015, the internet will know, says Cisco». the Guardian (em inglês). Consultado em 25 de outubro de 2018 
  6. «Big Data: tudo que você sempre quis saber sobre o tema!». Big Data Business. 28 de setembro de 2016 
  7. a b Cox & Ellsworth (01 de Julho de 1997). «Application-controlled demand paging for out-of-core visualization» (PDF). NASA. Consultado em 20 de outubro de 2018  Verifique data em: |data= (ajuda)
  8. «O que é Big Data? - Big Data». Canaltech. 6 de abril de 2015 
  9. a b c d e «O que é Big Data e para que ele serve? | Marketing por Dados». Marketing por Dados. 27 de março de 2017 
  10. Hey, Tony; Tansley, Stewart; Tolle, Kristin (1 de outubro de 2009). «The Fourth Paradigm: Data-Intensive Scientific Discovery». Microsoft Research (em inglês) 
  11. Ge, Mouzhi; Bangui, Hind; Buhnova, Barbora (outubro de 2018). «Big Data for Internet of Things: A Survey». Future Generation Computer Systems. 87: 601–614. ISSN 0167-739X. doi:10.1016/j.future.2018.04.053 
  12. a b «A Brief History of Big Data - DATAVERSITY». DATAVERSITY (em inglês). 14 de dezembro de 2017 
  13. «Nace en 1620 John Graunt, primer demógrafo y el fundador de la bioestadística | Todo Ciencia». www.todociencia.com.ar (em espanhol). Consultado em 28 de outubro de 2018 
  14. Census., United States. Bureau of the (1965). The development of punch card tabulation in the Bureau of the Census 1890-1940 with outlines of actual tabulation programs. [S.l.: s.n.] OCLC 83682512 
  15. «Population and Area (Historical Censuses)» (PDF). United States Census Bureau. June 20, 2008. Consultado em August 24, 2018  Verifique data em: |acessodata=, |data= (ajuda)
  16. a b c «A Short History of Big Data». DataFloq. 06 de Janeiro de 2018. Consultado em 10 de outubro de 2018  Verifique data em: |data= (ajuda)
  17. «O que é a NSA? - Espionagem». Canaltech. 20 de junho de 2014 
  18. DeWitt, David; Gray, Jim (1 de junho de 1992). «Parallel database systems: the future of high performance database systems». Communications of the ACM. 35 (6): 85–98. ISSN 0001-0782. doi:10.1145/129888.129894 
  19. Coffman, K. G.; Odlyzko, Andrew (1 de dezembro de 1998). «The size and growth rate of the internet». First Monday (em inglês). 3 (10). ISSN 1396-0466 
  20. Ross, Joshua-Michéle (15 de janeiro de 2010). «Roger Magoulas on Big Data». O'Reilly Radar (em inglês) 
  21. a b Dean, Jeffrey; Ghemawat, Sanjay (1 de janeiro de 2008). «MapReduce: simplified data processing on large clusters». Communications of the ACM. 51 (1): 107–113. ISSN 0001-0782. doi:10.1145/1327452.1327492 
  22. «O que é MapReduce, um modelo de programação criado pelo Google». br.udacity.com. Consultado em 28 de outubro de 2018 
  23. SPIEGEL ONLINE: Big Data Enables Companies and Researchers to Look into the Future - SPIEGEL ONLINE
  24. a b «Difference between Big Data Hadoop and Traditional RDBMS». W3training School (em inglês). 26 de agosto de 2017 
  25. Savitz, Eric. «Big Data: Big Hype?». Forbes (em inglês) 
  26. a b «Big Data e Hadoop – o que é tudo isso? - iMasters - We are Developers». iMasters - We are Developers. 17 de fevereiro de 2014 
  27. a b ctaurion (3 de junho de 2009). «Conhecendo o Hadoop - Software, Open Source, SOA, Innovation, Open Standards, Trends Blog». www.ibm.com (em inglês). Consultado em 3 de dezembro de 2018 
  28. «Decreto nº 62.497, de 1 de Abril de 1968 que aprova o regulamento para o exercício da profissão de estatístico.». Consultado em 18 de maio de 2013 
  29. «Big Data: Global Overview». IDC: The premier global market intelligence company. Consultado em 29 de outubro de 2018 
  30. «Por que investir em Big Data? | Bz Tech». Bz Tech Automação Comercial. Consultado em 29 de outubro de 2018 
  31. «Por que empresa de entregas proíbe seus caminhões de dobrar à esquerda – e diz economizar milhões com isso». BBC News Brasil (em inglês). 7 de fevereiro de 2017 
  32. «Tracking Population Movements using Mobile Phones and Crisis Mapping: A Post-Earthquake Geospatial Study in Haiti». iRevolutions (em inglês). 13 de outubro de 2011 
  33. «Tackling big data challenges in wind energy sector». 02 de Outubro de 2017. Consultado em 25 de outubro de 2018  Verifique data em: |data= (ajuda)
  34. «Setor de petróleo e gás deve ser precursor do big data no Brasil, prevê executivo - TI INSIDE Online». TI INSIDE Online. 11 de dezembro de 2012 
  35. «How is Big Data Used in Practice? 10 Use Cases Everyone Must Read». Bernard Marr (em inglês). Consultado em 27 de novembro de 2018 
  36. «Big Data e Netflix: uma parceria de sucesso | Big Data Business». Big Data Business. 23 de setembro de 2015 
  37. «'Big Data' transforma o perfil da publicidade». O Globo. 11 de agosto de 2013 
  38. a b c «Google Flu Trends». www.google.org (em inglês). Consultado em 3 de dezembro de 2018 
  39. a b c d Ginsberg, Jeremy; Mohebbi, Matthew H.; Patel, Rajan S.; Brammer, Lynnette; Smolinski, Mark S.; Brilliant, Larry (fevereiro de 2009). «Detecting influenza epidemics using search engine query data». Nature (em inglês). 457 (7232): 1012–1014. ISSN 0028-0836. doi:10.1038/nature07634 
  40. «What We Can Learn From the Epic Failure of Google Flu Trends». WIRED (em inglês) 
  41. Cook, Samantha; Conrad, Corrie; Fowlkes, Ashley L.; Mohebbi, Matthew H. (19 de agosto de 2011). «Assessing Google Flu Trends Performance in the United States during the 2009 Influenza Virus A (H1N1) Pandemic». PLoS ONE. 6 (8). ISSN 1932-6203. PMC PMC3158788Acessível livremente Verifique |pmc= (ajuda). PMID 21886802. doi:10.1371/journal.pone.0023610 
  42. Lazer, David; Kennedy, Ryan; King, Gary; Vespignani, Alessandro (14 de março de 2014). «The Parable of Google Flu: Traps in Big Data Analysis». Science (em inglês). 343 (6176): 1203–1205. ISSN 0036-8075. PMID 24626916. doi:10.1126/science.1248506 
  43. Don't Build a Database of Ruin. Por Paul Ohm. Harvard Business Review, 23 de agosto de 2012.
  44. Iron Cagebook - The Logical End of Facebook's Patents. Por Darwin Bond-Graham. Counterpunch, 3 de dezembro de 2013
  45. Social Disruption: Inside the Tech industry’s Startup Conference, Counterpunch, 11 de setembro de 2013.
  46. «Big data, analytics and elections - Analytics Magazine». Analytics Magazine (em inglês). 9 de janeiro de 2013 

10. A bíblia do Marketing, Big Data & Analytics

Bibliografia

  • Hilbert, Martin; Priscila Lopez (2011). «The World's Technological Capacity to Store, Communicate, and Compute Information». Science. 332 (6025): 60–65. PMID 21310967. doi:10.1126/science.1200970 
  • Grobelnik, Marko (2012). «Big Data Tutorial». videolectures.net. 2nd ESWC Summer School 2012 

Ligações externas