Big data

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa


Ambox important.svg
Foram assinalados vários aspectos a serem melhorados nesta página ou secção:
A visualização de dados criado pela IBM mostra que a big data como as edições na Wikipedia pelo bot Pearle são mais informativas quando visualizadas com cores e posição.

Em tecnologia da informação, Big Data ("megadados" em português) refere-se a um grande armazenamento de dados e maior velocidade. Diz-se que o Big Data se baseia em 5 "V" : velocidade, volume, variedade, veracidade e valor.[1] '[2] [3] [4]

Big Data é um termo amplo para conjuntos de dados muito grandes ou complexos que aplicativos de processamento de dados tradicionais são insuficientes. Os desafios incluem análise, captura, curadoria de dados, pesquisa, compartilhamento, armazenamento, transferência, visualização e informações sobre privacidade. O termo simplesmente muitas vezes se refere ao uso de análise preditiva e de alguns outros métodos avançados para extrair valor de dados, e raramente a um determinado tamanho do conjunto de dados. Grande precisão nos dados podem levar à tomada de decisões com mais confiança. E melhores decisões podem significar uma maior eficiência operacional, redução de risco e redução de custos.

Análise de conjuntos de dados pode encontrar novas correlações, com "tendências de negócios no local, prevenir doenças, combate à criminalidade e assim por diante." Os cientistas, empresários, profissionais de mídia e publicidade e governos regularmente atendem dificuldades em áreas com grandes conjuntos de dados incluindo pesquisa na Internet, finanças e informática de negócios. Cientistas encontram limitações no trabalho de e-Ciência, incluindo a meteorologia, Genômica, conectonomia, simulações físicas complexas, e pesquisa biológica e ambiental.

Conjuntos de dados crescem em tamanho em parte porque eles são cada vez mais reunidos por dispositivos baratos e numerosos de informação de sensoriamento móveis, aéreo (sensoriamento remoto), logs de software, câmeras, microfones, leitor (RFID) de rádio-freqüência de identificação e redes de sensores sem fio. Capacidade per-capita tecnológico do mundo para armazenar informações praticamente dobrou a cada 40 meses desde a década de 1980, a partir de 2012, foram criados a cada dia 2,5 exabytes (2,5 × 1018) de dados; O desafio para as grandes empresas é determinar quem deve possuir grandes iniciativas de dados que atravessam toda a organização.

Sistemas de gerenciamento de banco de dados relacional e estatísticas da área de trabalho e pacotes de visualização, muitas vezes tem dificuldade de lidar com grandes dados. Requer o trabalho de "software maciçamente paralelo rodando em dezenas, centenas ou mesmo milhares de servidores" em vez. O que é considerado "Big Data" varia de acordo com as capacidades dos usuários e suas ferramentas, e expandindo as capacidades para fazer Big Data alvo em movimento. Assim, o que é considerado "grande" em um ano se tornará comum em anos posteriores. "Para algumas organizações, de frente para centenas de gigabytes de dados pela primeira vez, pode desencadear uma necessidade de reconsiderar as opções de gerenciamento de dados. Para outros, pode levar dezenas ou centenas de terabytes, antes o tamanho dos dados torna-se uma consideração importante." [5]

Definição de Big Data[editar | editar código-fonte]

Resumido ao máximo a explicação, o Big Data é a quantidade enorme de informações existentes dentro de servidores de bancos de dados (Microsoft SQL Server + Oracle MySQL, por exemplo) que funcionam dentro de diversos servidores de rede de computadores (Intel, HP, IBM, Dell,Cisco, Samsung, etc) utilizando um sistema operacional de rede (Microsoft Windows Server 2008 + Red Hat Linux, por exemplo), interligados entre si, que hoje em dia funcionam dentro de um sistema operacional Cloud Computing (Microsoft Windows Azure, por exemplo), cujas informações são acessadas pela internet por pessoas utilizando um computador comum (notebook, por exemplo) ou celular (smartphone), para lêr essas informações ou para incluir mais informações dentro do banco de dados via Cloud Computing.

Cada ano que passa, essa informação Big Data, tende a aumentar cada vez mais. Para garantir a segurança da informação, e para proteger a privacidade das informações, hoje em dia existem várias técnicas modernas (ITIL + COBIT, por exemplo). E a proteção que existe desde a década de 80, os antivírus (Symantec Norton, McAfee, AVG, Avast, etc), Hoje em dia o banco de dados SQL existe dentro dos servidores dos provedores de internet, que fornecem o serviço de uso disponível aos clientes.

2 Exemplos de Big Data: Youtube: todos os videos disponíveis online estão armazenados em diversos servidores de banco de dados SQL. Wikipédia: todos os textos disponíveis online estão armazenados em diversos servidores de banco de dados SQL.

Motivo da criação[editar | editar código-fonte]

O uso do Big Data pode ser uma arma contra os problemas socioeconômicos, como retratado no filme “Moneyball” (O homem que mudou o jogo) com o ator Brad Pitt, no qual o gerente de um time de beisebol usa o Big Data para reunir um time de primeira linha sem gastar muito. Com a globalização e o modelo “just in time” a expansão virtual se tornou necessária; a partir da ultima década de 2000 houve uma crescente de dados exponencial que já preocupam os especialistas pela falta de espaço. Segundo a IBM em 2008 foram produzidos cerca de 2,5 quintilhões de bytes todos os dias e surpreendentemente 90% dos dados no mundo foram criados nos últimos dois anos, decorrente a adesão das grandes empresas à internet, como exemplo as redes sociais, dados dos GPS, dispositivos embutidos e móveis.[6]

Comparação Data Warehouse com Big Data[editar | editar código-fonte]

Conceitualmente, um Data Warehouse (Armazém de dados) é um conjunto de dados baseado em assuntos integrados, não voláteis, variáveis em relação ao tempo, e destinado a auxiliar em decisões de negócios, diferente do Big Data que se baseia em grande volume de dados, voláteis ou não, com maior velocidade. E também em vez de criar um subconjunto limpo de dados do utilizador para os colocar numa “data warehouse” e serem consultados a partir de um número limitado de formas pré-determinadas, o software de Big Data recolhe todos os dados que uma organização gera e permite que os administradores e analistas se preocupem em como usá-los mais tarde.Neste sentido são mais escaláveis do que os bancos de dados tradicionais e as “datas warehouses”.

Mercado de trabalho[editar | editar código-fonte]

As oportunidades de trabalho na área de estatística estão aumentando graças à proliferação de programas para análise de dados e seu uso, especialmente, na tomada de decisão com objetivos estratégicos como: políticas de governo, seleção de investimentos, gestão de empresas e negócios, etc.. O Big Data permite trabalhar com grandes volumes de dados, por vezes, não aceitos pelos grandes programas estatísticos. No Brasil, a existência da profissão de Estatístico, regulamentada pelo Decreto Federal nº 62497 de 1968[7] , vigente, é vantagem do conhecimento nacional frente aos países desenvolvidos[carece de fontes?], uma vez que esse profissional é o que melhor pode trabalhar com esse tipo de sistema porque é treinado em estruturas de dados, em seu manuseio para extração de informação estratégica, nos métodos estatísticos de análise e em programação para sua análise estatística, de modo a se obter conclusões com margens de erro controladas para a tomada de decisões com base nos dados disponíveis. A IBM criou a Big Data University, que fornece certo conhecimento do Big Data. Existem na Internet, sites que oferecem plataformas de ensino à distância, comumente conhecidas como MOOCs, com cursos nas áreas de Big Data e de Ciência de Dados (Data Science, no original em inglês), nos quais pode-se estudar o seu conteúdo de forma gratuita ou pagar pelo certificado do curso. Os mais conhecidos são os sites do Coursera e o EDX.org, este último fruto de parceria entre as universidades americanas de Harvard e do MIT. No Brasil, o mercado para a área é promissor, sendo que muitas renomadas Universidades passaram a oferecer cursos de pós-graduação e MBAs ligados à área de Big Data, variando em sua maioria no tamanho da carga horária destinada à parte de negócios, componente importante na formação deste profissional, que precisará ter além das habilidades técnicas, a capacidade de apresentar as conclusões de suas análises e insights para um público leigo de forma simples, de forma a gerar valor para o negócio da empresa.

Sistemas de Informação em atualidade[carece de fontes?][editar | editar código-fonte]

  • Uma companhia que tira fotos de satélites e vende aos seus clientes informações em tempo real sobre a disponibilidade de vagas de estacionamento livres em uma cidade numa determinada hora ou quantos navios estão ancorados neste mesmo momento.
  • Um projeto das Nações Unidas irá utilizar Hipopótamo, um programa que decifra a linguagem humana na análise de mensagens de texto e posts em redes sociais para prever o aumento do desemprego, o esfriamento econômico e epidemias de doenças.
  • Uma varejista americana controla as combinações de produtos que seus clientes põem no carrinho, ou seja, ganhou eficácia e ainda descobriu várias curiosidades que podem ajudar.
  • No terremoto do Haiti, pesquisadores americanos fizeram uso da geolocalização de 2 milhões de chips SIM, para auxiliar nas missões humanitárias.
  • Um hospital Canadense utilizou de uma tecnologia proposta pela IBM, para o monitoramento dos quadros de bebês prematuros, permitindo aos médicos antecipar as ameaças às vidas das crianças.
  • Em busca dos melhores lugares para instalar turbinas eólicas, uma empresa dinamarquesa analisou petabytes de dados climáticos do nível das marés, mapas de desmatamentos, entre outros. No fim o que costumava demorar semanas durou apenas algumas horas.
  • A tecnologia do Big Data já vem proporcionando diversos avanços em diferentes tipos de setores, como por exemplo, uma rede de vestuário que controla em tempo real seu fluxo de mercadoria e cruza os dados dos GPS dos caminhões dos seus fornecedores.
  • Segundo especialistas[quem?] o Big Data foi de grande importância para o descobrimento do pré-sal, devido a sua velocidade, que agilizava os processamentos de dados sísmicos captados pelas sondas que procuram petróleo no fundo do mar.Como são milhões as variáveis, o trabalho exige intermináveis simulações de imagens, e só o Big Data é capaz de dar conta do trabalho em um tempo melhor.

Críticas[editar | editar código-fonte]

A massificação de dados, no entanto, ainda enfrenta obstáculos. O maior deles seria a privacidade, ou seja, a ameaça à privacidade representada pelo aumento de armazenamento e integração de informações pessoalmente identificáveis. Se a recomendação de links patrocinados pelo Google já parece invasiva à maioria das pessoas, o mundo e a legislação atual não estão preparadas para as possibilidades que o Big Data oferece de agregar, analisar e tirar conclusões a partir de dados até então esparsos. Painéis de especialistas lançaram várias recomendações de políticas para adequar a prática às expectativas de privacidade [8] [9] [10]

Outro problema é a escassez de profissionais, que terão de se adaptar a tal tecnologia, com a previsão que em 2018 só os Estados Unidos podem enfrentar a falta de 140mil a 190mil com profundas capacidades analíticas.

Referências

  1. Big Data Definition - MIKE2.0, the open source methodology for Information Development mike2.openmethodology.org. Visitado em 16 de maio de 2012.
  2. White, Tom. Hadoop: The Definitive Guide. 2009. 1st Edition. O'Reilly Media. Pg 3.
  3. MIKE2.0, Big Data Definition http://mike2.openmethodology.org/wiki/Big_Data_Definition
  4. Grobelnik, Marko. Big Data Tutorial http://videolectures.net/eswc2012_grobelnik_big_data/
  5. (February 2009) "Introduction to Big Data". Release 2.0 (11). Sebastopol CA: O’Reilly Media.
  6. SPIEGEL ONLINE: Big Data Enables Companies and Researchers to Look into the Future - SPIEGEL ONLINE
  7. Decreto nº 62.497, de 1º de Abril de 1968 que aprova o regulamento para o exercício da profissão de estatístico.. Visitado em 18 de maio de 2013.
  8. Don't Build a Database of Ruin. Por Paul Ohm. Harvard Business Review, 23 de agosto de 2012.
  9. Iron Cagebook - The Logical End of Facebook's Patents. Por Darwin Bond-Graham. Counterpunch, 3 de dezembro de 2013
  10. Social Disruption: Inside the Tech industry’s Startup Conference, Counterpunch, 11 de setembro de 2013.

10. A bíblia do Marketing, Big Data & Analytics

Bibliografia

Ligações externas[editar | editar código-fonte]