Proyecto Imagen: Generación de imágenes fotorrealistas a través de IA

Escrito por Product Specialist | Jul 13, 2022 5:00:00 AM

Aproximadamente un mes después de que OpenAI anunciara DALL-E 2, su último sistema de IA para crear imágenes a partir de texto, Google ha confirmado sus más enteras intenciones mediante el uso de IA con su propio modelo de difusión de texto a imagen, a este proyecto se le conoce con el nombre de Imagen. Los resultados de Google son geniales y con una alta calidad en los resultados, tal vez incluso aterradores, impresionantes.

Este modelo, impulsado por Google, supera considerablemente al creado por OpenAI utilizando el conjunto de datos COCO. A pesar de no haber sido entrenado usando COCO, Imagen todavía se desempeñó bien aquí también. Imagen, en términos generales, muestra ser muy superior.

Pero, ¿cómo funciona?

Imagen funciona tomando una entrada de texto en lenguaje natural, con frases tan simples como "Un perro Golden Retriever con una boina azul a cuadros y un cuello alto con puntos rojos", y luego utiliza un codificador para convertir ese texto de entrada en incrustaciones. Posteriormente, un 'modelo de difusión condicional mapeando el texto incrustado en una imagen pequeña. Imagen utiliza modelos de difusión de superresolución condicional de texto para aumentar la muestra de la imagen, pasando de 64x64 a 256x256 y 1024x1024 sucesivamente. El resultado quedaría de la siguiente manera:

Imagen ha mejorado significativamente en términos de flexibilidad y resultados. La IA está progresando rápidamente. Hasta ahorita los ejercicios de Google han sido con objetos, animales, flores y demás; pero, ¿cómo funciona con humanos?

Hasta el momento, no sabemos cómo maneja Imagen estas cadenas de texto porque Google ha elegido no mostrar a ninguna persona. Existen desafíos éticos con la investigación de texto a imagen. Si es concebible que un modelo pueda crear casi cualquier imagen a partir de texto, ¿qué tan bueno es un modelo para presentar resultados imparciales? Los modelos de IA como Imagen se entrenan en gran medida utilizando conjuntos de datos extraídos de la web. El contenido en Internet está sesgado y sesgado de maneras que todavía estamos tratando de comprender por completo.

Por ahora, no puedes acceder a Imagen por ti mismo. En su sitio web, Google te permite hacer clic en palabras específicas de un grupo seleccionado para ver resultados, como "una foto de un panda peludo con un sombrero de vaquero y una chaqueta de cuero negro tocando una guitarra en la cima de una montaña". Las primeras investigaciones también indican que Imagen refleja sesgos culturales a través de su descripción de ciertos elementos y eventos.

Mientras tanto, los equipos de investigación de IA lidian con las implicaciones sociales y morales de su trabajo extremadamente impresionante. Por último, Imagen no está disponible al público, y tampoco su código. Sin embargo, puede aprender mucho sobre el proyecto en un nuevo trabajo de investigación.

Ver post completo