Recursos

¿Piensan igual los humanos y la IA?

Una nueva técnica compara el razonamiento de un modelo de aprendizaje automático con el de un humano, para que el usuario pueda ver patrones en el comportamiento del modelo.



En el Machine Learning, comprender por qué un modelo toma ciertas decisiones suele ser tan importante como saber si esas decisiones son correctas. Por ejemplo, un modelo de aprendizaje automático podría predecir correctamente que una lesión en la piel es cancerosa, pero podría haberlo hecho usando una señal no relacionada en una foto clínica.



Si bien existen herramientas para ayudar a los expertos a dar sentido al razonamiento de un modelo, a menudo estos métodos solo brindan información sobre una decisión a la vez, y cada una debe evaluarse manualmente. Los modelos se entrenan comúnmente utilizando millones de entradas de datos, lo que hace que sea casi imposible que un ser humano evalúe suficientes decisiones para identificar patrones.



Ahora, los investigadores del MIT e IBM Research han creado un método que permite a un usuario agregar, ordenar y clasificar estas explicaciones individuales para analizar rápidamente el comportamiento de un modelo de aprendizaje automático. Su técnica, llamada Shared Interest, incorpora métricas cuantificables que comparan qué tan bien el razonamiento de un modelo coincide con el de un humano.



Shared Interest podría ayudar a un usuario a descubrir fácilmente tendencias preocupantes en la toma de decisiones de un modelo; por ejemplo, tal vez el modelo a menudo se confunda con características irrelevantes que distraen, como objetos de fondo en las fotos. Agregar estos conocimientos podría ayudar al usuario a determinar rápida y cuantitativamente si un modelo es confiable y está listo para implementarse en una situación del mundo real.





Alineación humano-IA



Shared Interest aprovecha técnicas populares que muestran cómo un modelo de aprendizaje automático tomó una decisión específica, conocidas como métodos de prominencia. Si el modelo está clasificando imágenes, los métodos de prominencia resaltan áreas de una imagen que son importantes para el modelo cuando tomó su decisión. Estas áreas se visualizan como un tipo de mapa de calor, llamado mapa de prominencia, que a menudo se superpone a la imagen original. Si el modelo clasificó la imagen como un perro y la cabeza del perro está resaltada, eso significa que esos píxeles eran importantes para el modelo cuando decidió que la imagen contenía un perro.

 

 

En un extremo del espectro, este modelo tomó la decisión exactamente por la misma razón que lo hizo un humano, lo que hace suponer que la IA busca asimilar el pensamiento humano en la toma de decisiones.