«Data Lake» es un repositorio de datos masivo y de fácil acceso para almacenar «big data». A diferencia de los almacenes de datos tradicionales, que están optimizados para el análisis de datos al almacenar solo algunos atributos y colocar los datos por debajo del nivel de agregación, un Data Lake está diseñado para retener todos los atributos, especialmente cuando aún no se sabe cuál es el alcance de los datos o su uso.
Los almacenes de datos son grandes ubicaciones de almacenamiento que acumulan una amplia gama de fuentes. Durante décadas, la base de la inteligencia empresarial y el descubrimiento se basó en los almacenes de datos. Sus estructuras estáticas específicas dictan qué análisis de datos puede realizar. Los almacenes de datos son populares entre las empresas medianas y grandes como una forma de compartir datos y contenido entre las bases de datos de equipos o departamentos. Los almacenes de datos ayudan a las organizaciones a ser más eficientes. Las organizaciones que utilizan almacenes de datos a menudo lo hacen para guiar las decisiones de gestión, administración y todas esas decisiones «basadas en datos» de las que siempre hemos oído hablar.
Un Data Lake contiene una gran cantidad de datos sin procesar en su formato nativo hasta que se necesitan. Mientras que un almacén de datos jerárquico almacena datos en archivos o carpetas, un Data Lake utiliza una arquitectura plana para almacenar datos. A cada elemento de datos en un lago se le asigna un identificador único y se le asigna un conjunto de etiquetas de metadatos extendidos. Cuando surge una pregunta comercial, se puede consultar el lago de datos para obtener datos relevantes, y ese conjunto más pequeño de datos se puede analizar para ayudar a responder la pregunta.
Ahora que el almacenamiento de datos y la tecnología son baratos, la información es vasta el análisis de descubrimiento finalmente es posible. Con los data lakes, las empresas emplean científicos de datos que son capaces de dar sentido a los datos a medida que los recorren. Es decir, pueden encontrar correlaciones y conocimientos dentro de los datos a medida que los conocen.
Hay muchas organizaciones que están haciendo realidad este enfoque, las infraestructuras internas desarrolladas en Google, Amazon y Facebook brindan a sus desarrolladores las ventajas y la agilidad que representa un Data Lake. Para cada una de estas empresas, el Data Lake creó una cadena de valor a través de la cual surgieron nuevos tipos de valor comercial.