miércoles, 12 de marzo de 2025

Grandes modelos de lenguaje y el derecho al olvido

Uno de los derechos de que se habla mucho en el mundo digital, con frecuencia ligado a los aspectos de privacidad, es el del derecho al olvido.

Este derecho, se podría ver comprometido, de una forma quizá insospechada, por la existencia y el uso de los grandes modelos de lenguaje o de los modelos fundacionales en general.

Antes de abordar el problema, dos breves incisos: uno para comentar en qué consiste eso del 'derecho al olvido' y otro para recordar brevemente cómo se produce el entrenamiento de los grandes modelos de lenguaje (LLM, 'Large Language Models').


El derecho al olvido


No soy jurista, así que no pretendo aportar una definición rigurosa, sólo introducir la idea por si algún lector no estuviese familiarizado con ella. Solicito ayuda a ChatGPT y obtengo una explicación que me parece perfectamente ajustada a lo que quería explicar. Me dice:


El derecho al olvido es un concepto legal y de privacidad que permite a las personas solicitar la eliminación de información personal de los motores de búsqueda, bases de datos y otras fuentes digitales cuando dicha información ya no es relevante, es inexacta o afecta negativamente su reputación. Se origina en el derecho a la protección de datos personales y la privacidad.


En efecto, esa es la idea: debido a nuestra interacción con los medios digitales, y muy especialmente, aunque no únicamente, con redes sociales, existe o puede existir una gran información en la red sobre nosotros, en muchos casos mucha información que hemos aportado voluntariamente y, en ciertos casos, una información que incluye datos personales o que posibilita la identificación.

En cualquier caso, incluso en el caso de información no personal, es posible que, en un momento dado prefiramos que esa información deje de estar en la red. El derecho al olvido, en buena medida, creo, apoyado en el caso europeo en el RGPD (Reglamento General de Protección de Datos), pretende proteger ese derecho a la eliminación de datos.

Desde un punto de vista legal, al menos hasta donde se me alcanza, lo que protege el RGPD y, por tanto, el 'verdadero derecho al olvido' que tenemos, al menos los ciudadanos europeos, se enfoca a los datos sensibles y de carácter personal. No tengo tan claro, lo reconozco, el derecho a eliminar otro tipo de contenidos como un artículo, un post, un tuit, etc.


El entrenamiento de los grandes modelos de lenguaje


Hagamos otro alto en el camino para hablar brevemente y de forma algo superficial de cómo se hace el entrenamiento de los grandes modelos de lenguaje.

En los grandes modelos de lenguaje actuales, lo que entrenamos son unas redes neuronales complejas. El entrenamiento se refleja, fundamentalmente, en el ajuste de los pesos de la red neuronal. Con base en los ajustes de esos pesos, los modelos aprenden a codificar los textos como unos vectores (los famosos 'embeddings') que albergan cierto contenido semántico; aprenden también, de alguna manera la estructura del lenguaje humano (su sintaxis y morfología); y aprenden, finalmente, y de alguna manera, una gran cantidad de conocimiento de todo tipo recogido en texto, en lenguaje.

Para eso se basan en la lectura y, en cierto sentido, 'digestión, de una ingente cantidad de texto contenido en libros, páginas web etc. En esa digestión es en lo que, metafóricamente, consiste el entrenamiento.

Es importante entender, aunque no es fácil del todo de imaginar que, aunque estos modelos, aprenden de alguna manera, no tienen para nada los conceptos simbólicos, lógicos, causales, etc que tenemos los humanos y que asociamos al conocimiento y cuya adquisición asociamos al aprendizaje. En el caso de los grandes modelos de lenguaje, de los modelos fundacionales en general, hablamos de modelos altamente probabilistas, donde el conocimiento como los entendemos los humanos, está implícito, diluido, recogido en unos pesos y unos parámetros que sólo muy indirectamente, aunque de una forma muy eficaz, tienen que ver con un verdadero conocimiento.

Aunque es 'invento mío' esta idea del 'conocimiento diluido' es importante tenerlo claro: en un gran modelo de lenguaje no hay una base de datos, o un repositorio de conocimiento donde podamos encontrar elementos de conocimiento, ni mucho menos la fuente de donde se obtuvo ese conocimiento.


La dificultad para olvidar


Esa 'dilución, que insisto que es una forma de expresarlo que me acabo de inventar para escribir este post, explica la dificultad para olvidar que presentan estos modelos de lenguaje. 

En efecto, no hay un mecanismo sencillo, probablemente ni siquiera viable, para pedirle a un gran modelo de lenguaje que elimine datos concretos, conocimientos concretos, de su 'acervo de conocimiento'. No existe ese mecanismo, o no es sencillo, porque ese conocimiento, porque los datos, porque la información factual están diluidos en el modelo. No están en ningún sitio concreto. No hay un elemento concreto, un registro de una base de datos, un link, un documento... no hay un soporte concreto para un dato o para un conocimiento sino que éste se encuentra diluido en el modelo. Y por ello es muy difícil actuar sobre él.

Esta idea está recogida de alguna forma en el último libro de Chip Huyen titulado, 'AI Engineering: Building Applications with Foundation Models', y donde, en un momento dado, nos explica:


Imagine you published a blog post that you eventually deleted. If that blog post was included in a model’s training data, the model might still reproduce the post’s content. As a result, people could potentially access removed content without your consent.


No habla explícitamente de derecho al olvido, y no se centra en datos personales sino en un artículo de un blog, pero el mensaje es el mismo.

En tecnología, especialmente en el campo del software, casi todo es posible. Supongo que, de la misma forma que chatbots basados en modelos fundacionales como ChatGPT rodean a su modelo de los famosos 'guardrails' para intentar garantizar la eliminación de lenguaje ofensivo o respuestas poco éticas, alguna forma de superposición, de protección de datos podría hacerse también orientada a posibilitar el olvido. Pero esa superposición intuyo que, caso de ser posible, sería compleja, escalaría mal, en ocasiones fallaría, penalizaría las prestaciones y, en definitiva, sería muy costosa y muy poco práctica.

Así que, siempre con la esperanza de que los ingenieros que trabajan en estos modelos puedan 'inventar' algo práctico, de momento tenemos que pensar que en aplicaciones basadas en grandes modelos de lenguaje, el derecho al olvido es muy difícil, casi imposible, de garantizar en estos momentos.


Conclusiones


La conclusión está clara: en estos momentos, garantizar el derecho al olvido cuando la información que se quiere 'olvidar' ha sido utilizada en el entrenamiento de un gran modelo de lenguaje, es una tarea muy difícil, probablemente imposible. 

Un motivo buen para revisar cómo se entrenan estos modelos y también un acicate para que, como ciudadanos individuales, seamos lo más cuidadosos y responsables posible con los datos que volcamos en la red.


No hay comentarios:

Publicar un comentario