lunes, 24 de junio de 2024

Los requisitos 3H para una inteligencia artificial segura

En el desarrollo de la inteligencia artificial, aparte de los objetivos técnicos y de negocio, que creo perfectamente lógicos, admisibles e incluso loables, se busca también su, digamos, conformidad ética, y la seguridad para las personas ('AI safety').

Aunque muchas son las derivadas y complejidades que conseguir esa seguridad pueda tener, me he encontrado recientemente un esquema muy sencillo, que es el que quisiera comentar en este breve post.


El aprendizaje de ChatGPT y el alineamiento con las necesidades del usuario


En concreto, leyendo el libro coral, 'Introduction to digital humanism' me topo con un capítulo, el titulado 'A short introduction to Artificial Intellligence : methods, success stories and current limitations' firmado por Clemens Heitzinger y Stefan Woltran, algo más técnico que lo que he visto hasta el momento en el resto del libro.

En ese capítulo, repasando los diferentes mecanismos de aprendizaje (supervisado, no supervisado, por refuerzo) llegan al final a hablar, como casi es inevitable, de ChatGPT y de su mecanismo RLHF ('Reinforcement Learning with Human Feedback') o aprendizaje por refuerzo con realimentación humana descrito en 'Training language models to follow instructions with human feedback' un mecanismo en que, como feedback humano, se aporta una ordenación de cuatro respuestas a un promt. Según nos dicen los autores, con esto lo que se busca es alinear el modelo del lenguaje a las necesidades del usuario.


El modelo 3H de necesidades del usuario


A la hora de hablar de esas necesidades del usuario, los autores, y citando ahora el artículo GPT-4 Technical report nos hablan del modelo 3H, un modelo muy sencillito en que se entiende que lo que espera el usuario de una herramienta, en este caso ChatGPT es que sea:


  • Honest (honesta): respuestas correctas y honestas

  • Helpful (útil): respuestas útiles y que sirvan de ayuda

  • Harmless (no dañina): es decir, el sistema no debiera dar respuestas que puedan hacer daño de alguna manera.

De estas tres características, entiendo que la segunda, la utilidad, es un objetivo mucho más de tipo práctico, casi evidente, y es la honestidad y el no hacer daño lo que conecta esta propuesta con la ética, aunque dentro de la honestidad también se incluye la corrección de la respuesta, lo cual lo podríamos entender como un objetivo práctico e incluso técnico, más que ético o de seguridad.

Se trata, como vemos, de un esquema muy sencillo de enunciar (por supuesto, no tanto de conseguir) pero, según los autores, casi todo el trabajo actual en seguridad de la inteligencia artificial ('AI safety') se basa en satisfacer esas tres H.

Conclusiones


Vemos en este modelo de las tres H, quizá un planteamiento muy simple, pero a pesar de todo, apuntando en la buena dirección. 

Por lo demás, y aunque sea a modo de 'subproducto' de esta discusión, creo que vale la pena la lectura, aunque sea bastante técnica, de los informes de OpenAI que ponen mucho foco, precisamente, en los aspectos éticos y de seguridad. 


No hay comentarios:

Publicar un comentario