jueves, 27 de junio de 2024

¿Por qué alucina la inteligencia artificial?

 Tomado de Universo Abierto


MIT Technology Review. «Why Does AI Hallucinate?» Accedido 19 de junio de 2024. https://www.technologyreview.com/2024/06/18/1093440/what-causes-ai-hallucinate-chatbots/.



El artículo «¿Por qué la inteligencia artificial alucina?» de Will Douglas Heaven, publicado en junio de 2024 por MIT Technology Review, profundiza en los desafíos que enfrentan los chatbots y los modelos de lenguaje como GPT-3.5 debido a su propensión a generar respuestas incorrectas, un fenómeno conocido como alucinación. Este problema no solo afecta la precisión de los chatbots, sino que también influye en la confianza que las personas depositan en ellos.

El artículo comienza ilustrando el problema con el caso del chatbot SARAH de la Organización Mundial de la Salud, diseñado para proporcionar consejos de salud en varios idiomas las 24 horas del día. SARAH, respaldado por el modelo GPT-3.5, fue lanzado con buenas intenciones pero rápidamente se descubrió que daba información incorrecta, incluyendo direcciones y nombres ficticios de clínicas en San Francisco. Este ejemplo subraya cómo incluso organizaciones prestigiosas pueden enfrentar desafíos con la precisión de los chatbots.

El efímero chatbot científico Galactica de Meta inventó artículos académicos y generó artículos wiki sobre la historia de los osos en el espacio. En febrero, Air Canada recibió la orden de cumplir una política de reembolso inventada por su chatbot de atención al cliente. El año pasado, un abogado fue multado por presentar documentos judiciales llenos de opiniones judiciales falsas y citas legales inventadas por ChatGPT. Estos ejemplos destacan cómo la alucinación puede llevar a errores significativos y potencialmente costosos.

El problema es que los grandes modelos lingüísticos son tan buenos en lo que hacen que lo que inventan parece correcto la mayoría de las veces. Y eso hace que sea difícil confiar en ellos. Esta tendencia a inventar -conocida como alucinación- es uno de los mayores obstáculos que impiden la adopción generalizada de los chatbots. ¿Por qué lo hacen? ¿Y por qué no podemos solucionarlo?

Para entender por qué los grandes modelos lingüísticos alucinan, tenemos que ver cómo funcionan. Lo primero que hay que tener en cuenta es que inventar cosas es exactamente para lo que están diseñados estos modelos. Cuando se hace una pregunta a un chatbot, éste extrae su respuesta del gran modelo lingüístico que lo sustenta. Pero no es como buscar información en una base de datos o utilizar un motor de búsqueda en Internet.

A diferencia de buscar información en una base de datos o en la web, estos modelos utilizan números para calcular respuestas desde cero. Cada modelo está compuesto por billones de parámetros que ajustan sus predicciones con base en patrones lingüísticos encontrados en grandes cantidades de datos textuales de internet. Cuando se les hace una pregunta, estos modelos generan secuencias de palabras nuevas basadas en probabilidades estadísticas, no en conocimiento específico almacenado.

Los grandes modelos lingüísticos generan texto prediciendo la siguiente palabra de una secuencia. Si un modelo ve «el gato se sentó», puede adivinar «en». Esa nueva secuencia se vuelve a introducir en el modelo, que ahora puede adivinar «el». Si da otra vuelta, puede adivinar «mat», y así sucesivamente. Este truco es suficiente para generar casi cualquier tipo de texto que se pueda imaginar, desde listados de Amazon hasta haiku, pasando por ficción de fans, código informático, artículos de revistas y mucho más. Como dice Andrej Karpathy, informático y cofundador de OpenAI: los grandes modelos lingüísticos aprenden a soñar con documentos de Internet.

Para adivinar una palabra, el modelo simplemente ejecuta sus números. Calcula una puntuación para cada palabra de su vocabulario que refleja la probabilidad de que esa palabra sea la siguiente en la secuencia en juego. La palabra con la mejor puntuación gana. En resumen, los grandes modelos lingüísticos son máquinas tragaperras estadísticas. Gire la palanca y saldrá una palabra.

¿Podemos controlar lo que generan los grandes modelos lingüísticos para que produzcan un texto cuya exactitud esté garantizada? Estos modelos son demasiado complicados para que sus números puedan manipularse a mano. Pero algunos investigadores creen que entrenarlos con aún más texto seguirá reduciendo su tasa de error. Es una tendencia que hemos observado a medida que los grandes modelos lingüísticos han ido creciendo y mejorando. Pero, ninguna técnica puede eliminar completamente la alucinación. Debido a su naturaleza probabilística, siempre existe un elemento de riesgo en lo que producen estos modelos.

El artículo concluye destacando la importancia de gestionar las expectativas sobre las capacidades de estos modelos. A medida que mejoren en precisión, será crucial mantener una vigilancia constante para identificar y corregir los errores que puedan surgir. Además, subraya la necesidad de una mayor investigación y desarrollo en métodos que mitiguen la alucinación en los modelos de lenguaje.

Otro método consiste en pedir a los modelos que comprueben su trabajo sobre la marcha, desglosando las respuestas paso a paso. Este método, conocido como «cadena de pensamiento», ha demostrado aumentar la precisión de los resultados de un chatbot. Todavía no es posible, pero en el futuro los grandes modelos lingüísticos podrán comprobar los hechos del texto que producen e incluso rebobinar cuando empiecen a descarrilar.

Tomado de Universo abierto

No hay comentarios: