Recursos

Inteligencia Artificial: Monitoreo de Sistemas de Lenguaje

Investigadores de la Universidad de Darmstadt demuestran que los sistemas de lenguaje de Inteligencia Artificial pueden aprender conceptos humanos separando lo "bueno" y lo "malo".

Aunque los conceptos morales, en lo que respecta tanto al lenguaje como a las acciones, están sujetos a debate y difieren de persona a persona, existen puntos en común fundamentales. Por ejemplo, se considera bueno ayudar a los ancianos y malo robarles dinero. Esperamos un tipo similar de "pensamiento" de un sistema de lenguaje de Inteligencia Artificial (AI) que es parte de nuestra vida cotidiana. 

Sin embargo, los ejemplos han demostrado que los sistemas de IA ciertamente pueden ser ofensivos y discriminatorios. El chatbot Tay de Microsoft, por ejemplo, atrajo la atención con comentarios lascivos, y los sistemas de mensajes de texto han demostrado repetidamente discriminación contra grupos subrepresentados a través de sus sistemas de lenguaje de Inteligencia Artificial.

Procesamiento natural del lenguaje

Esto se debe a que los motores de búsqueda, la traducción automática, los chatbots y otras aplicaciones de IA se establecen en modelos de procesamiento de lenguaje natural (NLP). Estos han avanzado considerablemente en los últimos años a través de las redes neuronales. Un ejemplo son las representaciones de codificador bidireccional (BERT), un modelo pionero de Google. Considera las palabras en relación con todas las demás palabras de una oración, en lugar de procesarlas individualmente una tras otra.

Los modelos BERT consideran el contexto de una palabra; esto es particularmente útil para comprender la intención detrás de las consultas de búsqueda. Sin embargo, los científicos deben entrenar sus modelos alimentándolos con datos, lo que a menudo se hace utilizando colecciones de texto gigantescas y disponibles públicamente en Internet. Si estos textos contienen declaraciones suficientemente discriminatorias, los modelos de lenguaje entrenados pueden reflejar esto.

Sistemas de lenguaje de inteligencia artificial

Investigadores de los campos de la IA y la ciencia cognitiva, han descubierto que los conceptos de "bueno" y "malo" están profundamente arraigados en estos sistemas de lenguaje de IA.

En su búsqueda de propiedades internas latentes de estos modelos de lenguaje, descubrieron una dimensión que parecía corresponder a una gradación de buenas acciones a malas acciones. Para corroborar esto científicamente, los investigadores realizaron dos estudios con personas: uno en el sitio en Darmstadt y un estudio en línea con participantes de todo el mundo.

Los investigadores querían investigar qué acciones calificaron los participantes como buenas o malas conductas en el sentido deontológico, más específicamente si calificaron un verbo más positiva o negativamente. Una cuestión importante es el papel de la información contextual. Después de todo, matar el tiempo no es lo mismo que matar a alguien.

 

Se descubrió que las opiniones morales inherentes al modelo de lenguaje coinciden en gran medida con las de los participantes del estudio. Esto significa que un modelo de lenguaje contiene una visión moral del mundo cuando se entrena con grandes cantidades de texto.

Dimensión moral contenida en el modelo de lenguaje

Luego, los investigadores desarrollaron un enfoque para dar sentido a la dimensión moral contenida en el modelo de lenguaje. Puede utilizar este sistema para evaluar una oración como una acción positiva o negativa. La dimensión latente descubierta significa que los verbos en los textos ahora también se pueden sustituir de tal manera que una oración determinada se vuelve menos ofensiva o discriminatoria. Esto también se puede hacer gradualmente.