Aunque muchas son las derivadas y complejidades que conseguir esa seguridad pueda tener, me he encontrado recientemente un esquema muy sencillo, que es el que quisiera comentar en este breve post.
El aprendizaje de ChatGPT y el alineamiento con las necesidades del usuario
En concreto, leyendo el libro coral, 'Introduction to digital humanism' me topo con un capítulo, el titulado 'A short introduction to Artificial Intellligence : methods, success stories and current limitations' firmado por Clemens Heitzinger y Stefan Woltran, algo más técnico que lo que he visto hasta el momento en el resto del libro.
En ese capítulo, repasando los diferentes mecanismos de aprendizaje (supervisado, no supervisado, por refuerzo) llegan al final a hablar, como casi es inevitable, de ChatGPT y de su mecanismo RLHF ('Reinforcement Learning with Human Feedback') o aprendizaje por refuerzo con realimentación humana descrito en 'Training language models to follow instructions with human feedback' un mecanismo en que, como feedback humano, se aporta una ordenación de cuatro respuestas a un promt. Según nos dicen los autores, con esto lo que se busca es alinear el modelo del lenguaje a las necesidades del usuario.
El modelo 3H de necesidades del usuario
A la hora de hablar de esas necesidades del usuario, los autores, y citando ahora el artículo GPT-4 Technical report nos hablan del modelo 3H, un modelo muy sencillito en que se entiende que lo que espera el usuario de una herramienta, en este caso ChatGPT es que sea:
- Honest (honesta): respuestas correctas y honestas
- Helpful (útil): respuestas útiles y que sirvan de ayuda
- Harmless (no dañina): es decir, el sistema no debiera dar respuestas que puedan hacer daño de alguna manera.
Conclusiones
Vemos en este modelo de las tres H, quizá un planteamiento muy simple, pero a pesar de todo, apuntando en la buena dirección.
Por lo demás, y aunque sea a modo de 'subproducto' de esta discusión, creo que vale la pena la lectura, aunque sea bastante técnica, de los informes de OpenAI que ponen mucho foco, precisamente, en los aspectos éticos y de seguridad.
No hay comentarios:
Publicar un comentario