No es, en mi opinión, una revisión exhaustiva la que nos ofrecen los autores mencionados, pero sí aporta puntos de vista o llamadas de atención interesantes.
Vamos allá
Algunos riesgos
Los autores identifican los siguientes riesgos en el caso de los agentes de la 'Agentic AI':
- Ataques adversarios: Se trata de ataques intencionados en que entidades malintencionadas puedan explotar fallos o vulnerabilidades mediante la introducción de entradas o perturbaciones que puedan corromper los datos o las respuestas conduciendo a respuestas incorrectas o, quizá peor, a desvelar información confidencial. Aunque no se trata de un riesgo especifico del campo de los agentes, en éstos se puede agravar ya que los agentes, de manera autónoma, realizan acciones basados en su entendimiento. Si el ataque consigue influir en el proceso de decisión del agente, éste podría ejecutar acciones dañinas.
- Sesgos y discriminación: En origen tampoco se trata de un problema específico de los agentes aunque sí de los modelos de lenguaje en que se apoyan. Sin embargo, y según los autores, su tratamiento en el caso de agentes, requiere de medidas adicionales como la auditoría de decisiones o la creación de mecanismos de detección de sesgo en tiempo real o puesta en marcha de 'frameworks' para la gestión de la responsabilidad y rendición de cuentas ante decisiones autónomas.
- Desinformación y alucinaciones: Es decir, la generación de información convincente pero factualmente incorrecta por parte de los modelos en que se apoyan los agentes. De nuevo, no es un problema específico de los agentes sino de los modelos de lenguaje en que se apoyan, pero la capacidad de los agentes para la decisión y actuación autónomas lo puede acentuar y ello conduce a la exigencia de salvaguardas y mecanismos de seguridad adicionales
- Violaciones de la privacidad en los datos: Los datos de entrenamiento de los modelos de lenguaje, base de los agentes, se pueden con frecuencia haber basado en datos que pueden incluir datos de carácter personal o lo que se denomina PII ('Personal Identifiable Information'). Aparte de los cuidados a adoptar en otros ámbitos de la inteligencia artificial y de los modelos de lenguaje, en el caso de los agentes puede hacer necesario vigilar que el proceso de decisión del agente no exponga de alguna manera esos datos personales.
- Riesgos de propiedad intelectual: Un problema complejo desde un punto de vista ético, legal y de modelo de negocio y aún no realmente resuelto en mi opinión. Y esa complejidad probablemente se incrementa en el caso de agentes autónomos.
Como decía al iniciar el post, no me parece que éstos cinco puntos agoten todos los riesgos posibles, pero nos quedamos en ellos para respetar la fuente original. Por otro lado, tampoco se trata, como se ha comentado en cada uno de ellos, de riesgos específicos de los agentes sino de riesgos generales a la inteligencia artificial o a los grandes modelos de lenguaje pero que cobran mayor relevancia o adoptan formas específicas en el caso de los agentes.
Algunos planteamientos relativos a seguridad
De cara a gestionar y minimizar estos riesgos, los autores identifican seis posibilidades de actuación, éstas sí más específicas aunque no siempre exclusivas de los agentes, a saber:
- Fronteras de acciones: Entendidas como reglas que de alguna forma limitan, cuando tiene sentido, la capacidad de actuación externa del agente incluyendo, eventualmente un sistema de permisos.
- Verificación de decisiones: Incorporación de procesos de validación multi-paso que podrían validar una acción antes de ser ejecutada.
- Capacidades de vuelta atrás ('rollback'): Es decir, capacidad de deshacer el resultado de acciones.
- Monitorización en tiempo real: Supervisión continua y en tiempo real para detectar lo antes posible desviaciones, acciones perjudiciales o anomalías.
- Bucles de realimentación basados en aprendizaje por refuerzo: una realimentación que se plantea sea humana como sucede en los algoritmos de RLHF ('Reinforcement Learning from Human Feedback') y que permite al agente acoplarse mejor a los deseos y exigencias humanas.
- Métricas de rendimiento: Utilización de métricas que proporcionen una visión 360 grados del rendimiento, incluyendo en esa evaluación también aspectos de consistencia, alineamiento ético, riesgos y adaptabilidad. Los autores mencionan como ejemplo la herramienta Fairness 360º de IBM.
El aprendizaje seguro ('safe learning')
- Autonomía progresiva: es decir, que el agente comience su aprendizaje en un entrono muy limitado y, a medida que demuestre fiabilidad, se vayan ampliando sus posibilidades de acción
- Fronteras de seguridad contextuales: Implementación de medidas de seguridad diferenciadas según el nivel de riesgo de cada acción específica.
- Validación continua: Evaluación continuada de los patrones de decisión para poder detectar riesgos de manera temprana.
- Protocolos de emergencia: Definición de procedimientos claros para la intervención humana urgente cuando sea necesario.
Algunos planteamientos relativos a la ética
Finalmente, señalar que los autores también apuntan a algunas formas de mitigar los riesgos de naturaleza ética y apuntan cuatro grandes líneas de acción:
- Diseño centrado en el ser humano: Es decir, diseño y desarrollo de herramientas que sean comprensibles, accesibles, inclusivas y alineadas con los valores humanos.
- Responsabilidad y rendición de cuentas: Establecimiento de responsabilidades claras (y que normalmente recaerán en la empresa desarrolladora del agente), documentación del proceso de decisión y mecanismos para la revisión de las implicaciones de carácter ético de la actuación del agente.
- Privacidad y protección de datos: Aplicación de los principios de la privacidad por diseño incluyendo elementos como la anonimización de datos, uso de tecnologías que preservan la privacidad como el aprendizaje federado o la encriptación homomórfica y, por supuesto, cumplimiento legal y normativo.
- Involucración de diferentes 'stakeholders': Involucración de diversos actores incluyendo técnicos, eticistas, reguladores y representantes de las comunidades afectadas.
Conclusiones
De lo anterior se puede deducir que, en efecto, en el caso de los agentes de la Agentic AI se ponen de manifiesto una serie de riesgos tanto de seguridad como éticos, la mayor parte de los cuales son meras particularizaciones de riesgos ya presentes en otros ámbitos de la inteligencia artificial. Se han apuntado también vías de solución o al menos de abordaje en diferentes niveles de concreción.
Artículos de este blog relacionados
- Hablemos de agentes (IX): entorno, memoria y contexto
- Hablemos de agentes (VIII): el modelo CWD para sistemas multiagente
- Hablemos de agentes (VII): algoritmos de planificación
- Hablemos de agentes (VI): herramientas
- Hablemos de agentes (V): reflexión e introspección
- Hablemos de agentes (IV): sistemas multi-agente
- Hablemos de agentes (III): arquitecturas reactivas, deliberativas e híbridas
- Hablemos de agentes (II): auto-gobierno, agencia y autonomía
- Hablemos de agentes (I): concepto, contexto y tres características esenciales