«Data Lake» es un repositorio de datos masivo y de fácil acceso para almacenar «big data». A diferencia de los almacenes de datos tradicionales, que están optimizados para el análisis de datos al almacenar solo algunos atributos y colocar los datos por debajo del nivel de agregación, un Data Lake está diseñado para retener todos los atributos, especialmente cuando aún no se sabe cuál es el alcance de los datos o su uso.
Data Lake VS Data Warehouse
Los almacenes de datos son grandes ubicaciones de almacenamiento que acumulan una amplia gama de fuentes. Durante décadas, la base de la inteligencia empresarial y el descubrimiento se basó en los almacenes de datos. Sus estructuras estáticas específicas dictan qué análisis de datos puede realizar. Los almacenes de datos son populares entre las empresas medianas y grandes como una forma de compartir datos y contenido entre las bases de datos de equipos o departamentos. Los almacenes de datos ayudan a las organizaciones a ser más eficientes. Las organizaciones que utilizan almacenes de datos a menudo lo hacen para guiar las decisiones de gestión, administración y todas esas decisiones «basadas en datos» de las que siempre hemos oído hablar.
Un Data Lake contiene una gran cantidad de datos sin procesar en su formato nativo hasta que se necesitan. Mientras que un almacén de datos jerárquico almacena datos en archivos o carpetas, un Data Lake utiliza una arquitectura plana para almacenar datos. A cada elemento de datos en un lago se le asigna un identificador único y se le asigna un conjunto de etiquetas de metadatos extendidos. Cuando surge una pregunta comercial, se puede consultar el lago de datos para obtener datos relevantes, y ese conjunto más pequeño de datos se puede analizar para ayudar a responder la pregunta.
Ahora que el almacenamiento de datos y la tecnología son baratos, la información es vasta el análisis de descubrimiento finalmente es posible. Con los data lakes, las empresas emplean científicos de datos que son capaces de dar sentido a los datos a medida que los recorren. Es decir, pueden encontrar correlaciones y conocimientos dentro de los datos a medida que los conocen.
Pero, ¿cuáles son las ventajas de un Data Lake?
- Data Lake brinda a los usuarios comerciales acceso inmediato a todos los datos.
- Los Data Lake no se limitan a relacionales o transaccionales
- Con un Data Lake, nunca necesitará mover los datos
- Data Lake empodera a los usuarios empresariales y los libera de los lazos del dominio de TI
- Data Lake acelera la entrega al permitir que las unidades de negocios pongan en marcha las aplicaciones rápidamente
- Ayuda completamente con la producción y la analítica avanzada
- Ofrece escalabilidad y flexibilidad rentables
- Ofrece valor a partir de tipos de datos ilimitados
- Reduce el costo de propiedad a largo plazo
- Permite el almacenamiento económico de archivos
- Rápidamente adaptable a los cambios
- La principal ventaja del lago de datos es la centralización de diferentes fuentes de contenido.
- Los usuarios, de varios departamentos, pueden estar dispersos por todo el mundo y pueden tener acceso flexible a los datos.
Hay muchas organizaciones que están haciendo realidad este enfoque, las infraestructuras internas desarrolladas en Google, Amazon y Facebook brindan a sus desarrolladores las ventajas y la agilidad que representa un Data Lake. Para cada una de estas empresas, el Data Lake creó una cadena de valor a través de la cual surgieron nuevos tipos de valor comercial.