Dremio

Dremio[editar | editar código-fonte]

O Dremio, projeto open-source que se descreve como The Data Lake Engine, é uma ferramenta que permite realizar a integração de dados provenientes das mais variadas fontes, sejam bancos de dados relacionais, bases NoSQL, colunares, indexadores e até mesmo o Hadoop (HDFS) sem nenhuma camada de abstração, como HIVE ou HBase.

Sobre o Dremio[editar | editar código-fonte]

O Dremio surgiu da experiência Tomer Shiran (ex-MapR) e o Jacques Nadeau (Apache Drill - ferramenta que faz bem o que o Dremio se propõe a fazer hoje, só que em uma escala menor) que trabalharam durante anos uma das maiores empresas que trabalham com Big Data do mundo.

O Dremio apresenta uma nova camada de dados no processo de análise de dados denominado self-service data fabric, que permite que analistas de negócios e cientistas de dados explorem e analisem quaisquer dados a qualquer momento, independentemente de sua localização, tamanho ou estrutura. O Dremio combina uma arquitetura scale-out com execução colunar e aceleração para obter desempenho interativo em qualquer volume de dados, enquanto permite que a TI, cientistas de dados e analistas de negócios moldem os dados perfeitamente de acordo com as necessidades dos negócios.

Além da integração dos dados, o Dremio também permite a realização de diversas ações que não necessariamente seriam possíveis nas fontes originais de armazenamento, como a criação de queries SQL ou realizar alguns tipos de agregações.

Arquitetura[editar | editar código-fonte]

Construção[editar | editar código-fonte]

O Dremio foi construído principalmente em cima de 3 frameworks, Apache Arrow, Apache Parquet e Apache Calcite. O Dremio utiliza armazenamento e execução em colunas de alto desempenho, com tecnologia Apache Arrow (colunar em memória) e Apache Parquet (colunar em disco). Ele foi construído também utilizando o Apache Calcite para análise SQL e otimização de consulta, construindo nas mesmas bibliotecas que muitos outros motores baseados em SQL, como Apache Hive.

Aceleração[editar | editar código-fonte]

Utilizar o Dremio traz uma agilidade para os processos da análise de dados, denominada aceleração. Ele utiliza uma representação física do dado da fonte chamada de Data Reflections. Essa arquitetura permite ao Dremio acelerar mais dados com um custo menor. As Data Reflections são utilizadas automaticamente pelo otimizador do Dremio para definir os custos e formar o plano de execução que o Dremio utilizará para executar a query em questão.

Referências

^[1]

↑ Site oficial, [1], Dremio, 13 de março de 2021

[1] Site oficial, [1], Dremio, 13 de março de 2021

[1]