miércoles, 5 de noviembre de 2025

Las tres H para el alineamiento de un modelo de lenguaje con los valores humanos

Pese a su potencia y sofisticación, lo cierto es que, visto como comportamiento externo, un gran modelo de lenguaje, presenta un funcionamiento externo relativamente simple y que debe complementarse por otros elementos para conseguir los impresionantes resultados que observamos 'desde fuera'.


La misión original de un gran modelo de lenguaje


En efecto, la función principal de un modelo de lenguaje (tanto un gran modelo de lenguaje como uno más sencillo y primitivo) es, fundamentalmente, proporcionar el siguiente elemento de texto (el siguiente token aunque, simplificando, podemos pensar en la siguiente palabra) que sigue al elemento de entrada.

Haciendo eso de forma recursiva, lo que suele hacer un modelo de lenguaje es, a partir de la parte inicial de un documento (un texto) generar el texto más probable que completa la entrada. Es lo que se suele denominar 'text completion'.

Así lo explica muy claramente el libro 'Prompt Engineering for LLMs: The Art and Science of Building Large Language Model–Based Applications' de John Berryman y Albert Ziegler que me encuentro leyendo estos días.


El salto a una aplicación basada en un modelo de lenguaje


Y el mismo libro también explica algo que suelo recordar en clases sobre 'prompting', a saber: que cuando uno utiliza un chatbot del tipo de ChatGPT, Copilot o Gemini, no estamos interactuando directamente con un modelo de lenguaje, sino con una aplicación, que si, se apoya en un gran modelo de lenguaje, cuyo componente principal es un gran componente de lenguaje, pero que ese modelo se encuentra rodeado por una serie de módulos y mecanismos adicionales que extienden, completan y matizan su funcionamiento.

Esto es lo que se denomina una aplicación basada en IA o aplicación basada en LLM. Entre estas aplicaciones basadas en un modelo de lenguaje, podemos encontrarnos todo tipo de soluciones, pero las más populares y conocidas son, en efecto, los chatbots que actúan como una especie de ayudante (copiloto que dirían en Microsoft) de un humano: el usuario.


El alineamiento con los valores humanos: las 3 H


De cara a dar ese salto de un 'simple' modelo de lenguaje ejecutando una y otra vez en 'text completion', a un verdadero chatbot que actúe como asistente, Antrophic, a través del whitepaper 'A General Language Assistant as a Laboratory for Alignment' propone conseguir tres objetivos, que son las 'tres H'. Estas Hs son:


  • 'Helpful' (útil): Significa que la aplicación debe intentar realizar la tarea que se le pide o contestar a la pregunta que se le formulaa, y hacerlo de la forma más concisa y eficiente posible. Si en esa labor necesita más información, deberá realizar las preguntas oportunas y, finalmente, si es incapaz de dar una respuesta adecuada, debería sugerir otro curso de acción.

  • 'Honest' (honesto): la solución debe proporcionar información precisa y, además, asignarle una estimación de precisión o incertidumbre. Aparte de eso, la solución debería comportarse honestamente respecto a sus propias capacidades, niveles de conocimiento y estado interno.

  • 'Harmless' (no dañino): La solución no debería ser ni ofensiva ni discriminatoria. Además, debería rechazar cortesmente participar en una actividad peligrosa y también debería actuar con prudencia a la hora de proporcionar información sensible o consejos delicados.


Aunque muy razonables estas tres características, llama la atención cómo se expresan en términos muy humanos. Pero lo cierto es que, aunque no de manera perfecta, aunque por desgracia no sin fallos, no cuesta reconocer que, en efecto, los chatbots basados en grandes modelos de lenguaje tienden a exhibir esas tres H.

Y, en ese empeño, no sólo generan una mayor confianza en ellos mismos, sino que además, se convierten, en efecto, en ayudantes eficaces de los humanos.

En buena medida, los comportamientos más peligrosos, los fallos más graves, suelen proceder, precisamente, de no haber conseguido en algún momento, exhibir esas tres H.


Conclusión


Los modelos de lenguaje pese a su potencia, por sí solos no consstituyen una verdadera solución final para un usuario.

Para conseguir construir una solución final basada en LLM, es necesario añadir funcionalidad y, en ese proceso, y cuando pensamos en un chatbot ayudante de un humano, las tres características, útil, honesto y no dañino, le confieren un comportamiento más confiable, más efectivo y más ético.


No hay comentarios:

Publicar un comentario