Menu

¿En qué consiste un Data Lake y para qué sirve?

Uno de los grandes retos tecnológicos que tienen que afrontar las empresas es, sin duda, el crecimiento de los datos. ¿Quién no ha oído hablar de terabytes, petabytes y exabytes? Hoy en día son términos corrientes en casi todos los sectores, sobre todo al hablar de capacidad de almacenamiento.

Una cosa está clara: la aparición de nuevas tecnologías en la red ha resultado en un acceso y almacenamiento desmedido de información tanto de clientes propios como de clientes potenciales. Y, ante tamaña cantidad de datos, es imprescindible contar con algún sistema que los guarde a buen recaudo como los Data Lake.

¿Qué es un Data Lake?

De acuerdo con Amazon Web Services la definición de Data Lake es:

Repositorio centralizado que permite almacenar todos los datos estructurados y no estructurados a cualquier escala. Puede almacenar los datos tal cual, sin tener que estructurarlos primero, y ejecutar diferentes tipos de análisis, desde cuadros de mando y visualizaciones hasta grandes procesamientos de datos, análisis en tiempo real y aprendizaje automático para tomar mejores decisiones.

El término Data Lake (literalmente, lago de datos en inglés) fue acuñado por James Dixon, director tecnológico de Pentaho, y hace referencia a la naturaleza particular de los datos de este sistema, en contraste con los datos limpios y procesados guardados en los sistemas tradicionales de almacenes de datos o Data Mart.

Según Dixon, “si se piensa en un Data Mart como un almacén de agua embotellada limpia, empaquetada y estructurada para su fácil consumo, un Data Lake sería una gran masa de agua en un estado más natural. Su contenido proviene de una fuente que llena el lago y varios usuarios del mismo pueden venir a examinar, bucear o tomar muestras”.

Los Data Lakes se suelen configurar en un clúster de hardware de consumo económico y escalable, lo que permite volcar los datos al mismo por si fuera necesario más adelante sin tener que preocuparse por la capacidad de almacenamiento. Dichos clústeres pueden existir de manera local o en la nube.

Por qué utilizar un Data Lake

Conforme al estudio Angling for Insight in Today’s Data Lake de Aberdeen, las organizaciones que generen con éxito valor comercial a partir de sus datos, superarán a sus competidores. De hecho, las empresas que implementaron un Data Lake superaron a sus pares en un 9% en el crecimiento de los ingresos orgánicos.

Así, fueron capaces de hacer nuevos tipos de análisis como Machine Learning sobre nuevas fuentes como archivos de registro, datos de flujos de clics, medios sociales y dispositivos conectados a Internet almacenados en un Data Lake.

Esto les ayudó a identificar y actuar sobre las oportunidades de crecimiento empresarial más rápidamente, atrayendo y reteniendo a los clientes, impulsando la productividad, manteniendo proactivamente los dispositivos y tomando decisiones fundamentadas.

5 ventajas de un Data Lake

Entre los principales beneficios de un Data Lake se encuentran los siguientes:

  1. Permite centralizar todos los datos en un mismo lugar, sea cual sea su origen. Una vez incluidos en su silo correspondiente de información, pueden ser procesados con herramientas de Big Data. Es posible que ante tal disparidad de información haya datos que necesiten un tratamiento especial respecto a la seguridad, pero es un aspecto solventable con este sistema.
  2. Es posible que la fuente original del dato esté obsoleta o se haya desactivado, pero su contenido puede seguir siendo valioso para el análisis. Con este sistema se puede acceder a dicha información.
  3. Todos los datos que llegan al sistema pueden ser normalizados y enriquecidos.
  4. Los datos se preparan de acuerdo a las necesidades del momento, lo que reduce notablemente los costes y los tiempos.
  5. Cualquier usuario autorizado puede acceder a la información y enriquecerla desde cualquier lugar, lo que ayuda a la organización a reunir con más facilidad los datos necesarios para tomar decisiones.

Data Lake vs. Data Warehouse

Al hablar de almacenamiento de datos suele surgir otro concepto relacionado con el tema que nos ocupa: el Data Warehouse o almacén de datos. Este es una base de datos optimizada para analizar datos relacionales procedentes de sistemas transaccionales y aplicaciones de línea de negocio.

Sin embargo, aunque ambos paradigmas se centran en el almacenamiento de datos, hay algunas diferencias entre un Data Lake y un Data Warehouse:

  • Estructura de los datos: un Data Warehouse solo recoge datos estructurados, mientras que un Data Lake recoge datos tanto estructurados como no estructurados.
  • Finalidad de los datos: este aspecto puede estar definido o no en un Data Lake, mientras que en un Data Warehouse no hay lugar para la improvisación.
  • Flexibilidad: en un Data Lake es más sencillo hacer cambios por no tener estructura, pero en un Data Warehouse es más complicado por estar implicados otros procesos.
  • Esquema: los Data Lakes se basan en esquemas On Read y los Data Warehouses en los On Write.
  • Usuarios: en un Data Lake los datos son manejados por analistas, mientras que en un Data Warehouse cualquier usuario con acceso puede manejar los datos.
  • Accesibilidad: mientras que en un Data Lake hay una gran y fácil accesibilidad, en un Data Warehouse este apartado es más costoso y complejo.
  • Almacenamiento: un Data Lake tiene un coste limitado con la posibilidad de ampliación en la nube, mientras que un Data Warehouse es por lo general más caro.

En definitiva, ambos sistemas están destinados a aquellas organizaciones que basan sus decisiones en datos y a poder implementar estrategias y comunicaciones más personalizadas o customer centric.

Azure Data Lake

Azure Data Lake es el repositorio a hiperescala de Microsoft para grandes cargas de trabajo de análisis de datos en la nube. Este servicio está construido para la nube, es compatible con HDFS (Hadoop Distributed File System) y tiene una escala sin límites con un rendimiento masivo y capacidades de grado empresarial.

Azure Data Lake resuelve muchos de los retos de productividad y escalabilidad que impiden a las organizaciones maximizar el valor de los recursos de datos con un servicio que está preparado para satisfacer sus necesidades de negocio actuales y futuras.

Entre los diferentes servicios incluidos en Azure Data Lake se encuentran los siguientes:

  • Data Lake Analytics: servicio de trabajos de análisis en la nube sin límites que permite desarrollar y ejecutar programas de procesamiento y transformación de datos en paralelo con los lenguajes U-SQL, R, Python y .Net.
  • HDInsight: servicio de Apache Spark y Hadoop en la nube para empresas que proporciona clústeres de análisis de código abierto para Spark, Hive, Map Reduce, HBase, Storm, Kafka y R-Server, con el respaldo de un acuerdo de nivel de servicio del 99,9%.
  • Data Lake Store: repositorio de datos en la nube sin límites que permite llevar a cabo análisis de macrodatos con el que se puede escalar de forma masiva y que se ha creado conforme al estándar abierto HDFS.

En Intelequia trabajamos con sistemas de cuidado, almacenamiento y análisis de datos como Azure Data Lake para ayudar a nuestros clientes a tomar las decisiones adecuadas. ¿Necesitas asesoramiento en este campo? No dudes en contar con nuestro expertise en este tema, ¡te esperamos!