'Data lake' o lago de datos: qué es y para qué sirve
El mercado global de los 'data lakes' aumentará hasta los 80.000 millones de dólares de cara a 2025, según un informe de 'Global Market Insights'. Conocer el funcionamiento de estos grandes repositorios de datos, su arquitectura y sus diferencias con los 'data warehouses' puede ayudar a sacar el máximo partido a los datos y mejorar la toma de decisiones estratégicas.
La transformación digital de las compañías, las redes sociales, los dispositivos conectados… El volumen de datos ha aumentado exponencialmente en los últimos años y de cara a 2025 está previsto que se dupliquen. Tecnologías como el 'big data' o el 'data mining', que permiten recopilar, procesar y extraer información de estos datos, se han convertido en dos herramientas imprescindibles para las empresas, que utilizan los volúmenes de datos para extraer información de utilidad que les permita optimizar su toma de decisiones. Pero para almacenar estos grandes volúmenes de datos, hace falta otra piedra angular: el 'data lake' o lago de datos.
El concepto de 'data lake' tiene sus orígenes en 2010, cuando James Dixon, antiguo CTO de una plataforma de inteligencia de negocio, lo utilizó por primera vez en su blog personal. Desde entonces, ha ganado popularidad hasta convertirse en uno de los pilares sobre los que se fundamentan las estrategias de análisis de datos de las compañías.
De hecho, un reciente de 'Global Market Insights' apunta a que el mercado global de los 'data lakes', que alcanzó los 12.900 millones de dólares (unos 12.000 millones de euros) en 2022, crecerá con un CAGR (tasa de crecimiento anual compuesta) de más del 20% entre 2023 y 2032, hasta superar los 80.000 millones de dólares (unos 73.000 millones de euros). Comprender el funcionamiento y ventajas de estos repositorios será clave para que las empresas puedan seguir creciendo en el mercado.
¿Qué es un 'data lake' o lago de datos?
Un 'data lake' o lago de datos puede definirse como un repositorio donde se almacenan volúmenes masivos de datos en su formato nativo, es decir, sin procesar, para retener todos sus atributos originales. Este repositorio no tiene límite de tamaño y en él se pueden almacenar datos de tres tipologías distintas:
- Estructurados. Son aquellos que tienen un formato estandarizado, con patrones claramente predefinidos. En esta categoría se enmarcan los archivos de Excel, los datos de control de inventario o los resultados de los formularios web, entre otros.
- No estructurados. Son aquellos que no tienen un formato definido, es decir, no tienen una estructura uniforme. Este tipo de datos son los más abundantes. Los vídeos, las imágenes, los audios, los correos electrónicos o los contratos son algunos ejemplos que conforman esta categoría.
- Semiestructurados. Son aquellos que, pese a tener un formato definido, no resultan fácilmente comprensibles. En esta categoría se incluyen las etiquetas de lenguaje HTML, los correos electrónicos o los gráficos, por ejemplo.
Los datos que se almacenan dentro de un 'data lake' se guardan en su formato nativo, es decir, sin procesar y con sus atributos originales, lo que permite a las empresas ejecutar distintos tipos de análisis para extraer información. Sectores como el sanitario, que puede utilizar los datos almacenados para mejorar la atención a sus pacientes, o el financiero, que puede aprovechar los datos para, entre otros, disminuir los riesgos de fraude, son algunos de los que pueden beneficiarse de estos repositorios.
En este marco, BBVA ha seleccionado recientemente a Amazon Web Services (AWS) para utilizar sus servicios de analítica avanzada y datos en la nube. Mediante este acuerdo, la plataforma combinará las tecnologías de 'data lakes' y 'data warehouses' para proporcionar a las unidades de negocio de la entidad bancaria una visión integrada de sus datos, facilitando un acceso más eficiente al procesamiento, análisis y extracción de conocimiento de los datos.
¿Cómo sacar valor a los datos almacenados por los 'data lakes'?
Los 'data lakes' son la fuente que alimenta la analítica de datos. A partir de los datos recopilados en estos repositorios, las empresas pueden extraer información de valor, como los gustos y preferencias de los usuarios o la evolución de las ventas, y optimizar su toma de decisiones, definiendo estrategias que ayuden a impulsar su crecimiento dentro del mercado.
Para manipular e interpretar eficazmente los datos almacenados, no obstante, es importante implementar una arquitectura que reúna los siguientes componentes clave:
- Ingesta de datos. Deben contar con un sistema de capas de ingesta que sea fácilmente escalable y que pueda extraer datos de diversas fuentes, ser capaces de procesar datos tanto en tiempo real como por lotes y poder admitir cualquier tipo de dato, independientemente de su naturaleza.
- Almacenamiento de datos. El sistema debe ser capaz de almacenar y tratar grandes volúmenes de datos sin procesar y de soportar sistemas de cifrado y compresión de datos.
- Seguridad de datos. El sistema debe ofrecer la máxima seguridad, independientemente del tipo de datos que almacenen.
- Analítica de datos. Los datos almacenados en los 'data lakes' deben poder analizarse de forma ágil y eficiente a través de herramientas de análisis de datos o del propio 'machine learning' (aprendizaje automático), a fin de extraer información de interés.
- Gobierno de datos. Todo el proceso de ingesta, preparación, categorización, integración y disponibilización de los datos debe estar acompañado de un modelo de gobierno que facilite entender qué significan los datos, qué calidad tienen, dónde y cuándo están disponibles y finalmente quién los puede consultar. Además, este modelo debe garantizar un seguimiento de todos los cambios que se produzcan en el ciclo de vida de los datos.
Diferencias entre un 'data lake' y un 'data warehouse'
Los 'data lakes' suelen emplearse de manera conjunta con otro sistema que permite el almacenamiento y procesamiento de grandes volúmenes de datos: los 'data warehouses' (almacenes de datos, según su traducción al español). Estos dos repositorios guardan importantes semejanzas, en el sentido de que los dos se emplean para recopilar datos, pero entre ambos existen diferencias que conviene conocer:
- Naturaleza de los datos. Los 'data lakes' pueden recopilar todo tipo de datos, independientemente de su naturaleza, mientras que los 'data warahouses' sólo almacenan datos estructurados.
- Formato de los datos. Los 'data lakes' almacenan datos en crudo, es decir, con sus atributos originales, mientras que los 'data warehouses' almacenan datos ya procesados.
- Fuente de los datos. Mientras que la información de los 'data lakes' proceden del 'big data', el internet de las cosas, las redes sociales o los datos de las plataformas de 'streaming'; los 'data warehouses' se alimentan de datos de aplicaciones, negocios, transacciones o reportes.
- Escalabilidad. Los 'data lakes' pueden escalar de manera sencilla y a un bajo coste, mientras que la escalabilidad de los 'data warehouses' es más compleja.
- Usos. Los datos recopilados por los 'data lakes' pueden emplearse para realizar análisis predictivo o en tiempo real, así como para alimentar los algoritmos 'machine learning', mientras que los 'data warehouses' pueden emplearse para realizar informes o para sustentar la inteligencia de negocios.
Los datos se han convertido en una pieza clave del entorno empresarial. BBVA, por ejemplo, cuenta con una factoría especializada en inteligencia artificial, AI Factory, y con un total de casi 5.000 profesionales de datos, entre científicos, ingenieros y especialistas. Además, ha formado a más de 50.000 empleados en datos y recientemente ha creado la disciplina de Business Analytics para agrupar, coordinar y reforzar las funciones de sus especialistas de datos.
Mientras el volumen de datos siga creciendo, contar con un buen 'data lake' será clave para que las empresas puedan mantenerse al filo de la vanguardia.