LakeFS ofrece un control de versiones similar a Git para data lakes

¿Qué es LakeFS?

En primer lugar, podemos afirmar que un data lake es un almacenamiento centralizado que te permite guardar tus datos a medida que se generan, en volúmenes muy grandes. Se puede tener un repositorio único que contenga varios tipos de datos no estructurados y estructurados, sin limitaciones de tipo de archivo ni tamaño de los datos.  

LakeFS fue diseñado para “transformar buckets de almacenamiento de objetos en repositorios de data lakes que muestran una interfaz similar a Git”. “Una interfaz similar a Git significa que los usuarios de LakeFS pueden usar los mismos flujos de trabajo de desarrollo para código y datos. Los flujos de trabajo de Git mejoraron enormemente las prácticas de desarrollo de software; diseñamos LakeFS para aportar los mismos beneficios a los datos”. Estas son citas directas del sitio web oficial de LakeFS, para explicar cómo funciona su producto.

Treeverse, una startup israelí, desarrolló LakeFS. El objetivo de Treeverse es simplificar la vida de los ingenieros, analistas y científicos de datos al proporcionar soluciones a grandes problemas y contribuir con la comunidad de código abierto.

Con esta idea, LakeFS ofrece una mejor capacidad de gestión para data lakes, sin comprometer la flexibilidad, ya que se puede utilizar en proyectos que se ejecutan en AWS S3, Google Cloud Storage o Azure Blob Storage. LakeFS también está preparado para trabajar junto con los frameworks de datos más importantes como Kafka, Apache Spark, Delta Lake, Amazon Athena, Databricks y Hadoop. “LakeFS permite flujos de trabajo simplificados al desarrollar pipelines de data lakes“, explican. 

¿Dónde encaja LakeFS en una arquitectura moderna?

En las empresas modernas, hay que procesar y cuidar grandes cantidades de datos. Por lo general, se tienen varias fuentes de datos y data lakes almacenados en la nube. En este contexto, los datos se extraen y se cargan en el data lake. Bueno, LakeFS se encuentra entre el proceso ETL (extracting, transforming, loading, o extracción, transformación y carga de datos) y el data lake.

“La integración de tecnologías ELT con LakeFS permite escribir nuevos datos a una rama designada y probarlos para garantizar la calidad antes de exponerlos a los consumidores”, explicó Einat Orr, cofundador de Treeverse, a venturebeat.com. “Este flujo de trabajo proporciona importantes garantías sobre los datos de producción a los consumidores de los datos”.

Otras soluciones similares incluyen al DVC de Iterative.ai. Este producto está dirigido directamente a científicos de datos que trabajan con modelos de Machine Learning, o aprendizaje automático. Delta Lake también es una de las herramientas que pueden funcionar con data lakes, pero es limitado porque no se puede trabajar con todos los conjuntos de datos al mismo tiempo.

A diferencia de los anteriores, LakeFS fue diseñado para incluir una cantidad más amplia de casos de uso. Básicamente, cualquier persona que trabaje con datos puede beneficiarse de las funcionalidades integradas en LakeFS. La tecnología de LakeFS mejora la visibilidad de los datos y aumenta la eficiencia en toda tu organización. Al ser de código abierto, los científicos e ingenieros de datos pueden participar en el diseño de soluciones para satisfacer sus propias necesidades o las de sus colegas.

¿Qué se puede hacer con un control de versiones similar a Git en data lakes?

  • Crear una rama o branch que esté aislada del resto y sea una copia del repositorio original. Esto no duplica objetos, es rentable a través de su mecanismo de copia y escritura. Una nueva rama puede utilizarse para reprocesar datos de una forma aislada.
  • Mediante la operación de confirmación (commit) se pueden crear puntos de control que contengan snapshots completos de un repositorio.
  • Con los puntos de control mencionados anteriormente, se puede revertir todo un repositorio a un estado anterior de datos confirmados. Esto es especialmente útil para recuperarse de errores de datos.
  • Se pueden fusionar dos ramas (merge), actualizando una con los cambios realizados a la otra. Esto permite actualizaciones sincrónicas para dos o más activos de datos.
  • Es posible crear etiquetas que apuntan a un commit con un nombre más utilizable y significativo de lo que normalmente tendría que usarse.

Resumen

LakeFS es una herramienta más con la que trabajar en tus proyectos de datos. Está listo para la producción, es de código abierto, ayuda a tener mejor control sobre las tareas realizadas en tus datos, es fácil de incorporar a un proyecto que ya está en producción y agrega nuevo valor con sus funciones de ramificación, fusión y confirmación.

Scroll to Top