miércoles, 22 de enero de 2025

Motivos para construir robots humanoides

Aunque desde luego no con tanto frenesí, ni de lejos, como ocurre en el campo de la inteligencia artificial, sí que estamos asistiendo, o eso me parece a mí, a cada vez más anuncios o más impactos publicitarios, y probablemente más actividad real de investigación y desarrollo, alrededor de los robots humanoides.

A pesar del atractivo, quizá repulsión para algunos, de este tipo de robots, cabe preguntarse si nos interesa realmente fabricar robots humanoides, si tienen sentido práctico y de negocio, más allá de alguna implicación ética que también traen consigo y que no voy a abordar en este post.

Aunque sin agotar el tema, en este artículo voy a explorar, siquiera superficialmente, el tema: por qué nos interesan los robots humanoides y por qué podría ser interesante construirlos.


Seis motivos iniciales para construir robots humanoides 


Y lo hago comenzando por la referencia bibliográfica que me inspiró a escribir este artículo.

He iniciado la lectura del libro 'Ethics in human-like robots' de Kamil Mamak. En el primer capítulo, que aún no entra apenas en los asuntos éticos, nos recuerda brevemente, y entre otras cosas, las razones que existen, precisamente para construir robots humanoides que se se aportan en el 'Springer Handbook of Robotics',  en concreto en una capítulo firmado entre otros por Paul Fitzpatrick.

Pues bien, en esa fuente, y según nos recoge de manera sucinta Kamil Mamak, las razones que se arguyen son las siguientes:


  • Para nosotros, los humanos, que somos los que construimos estos robots, el propio ser humano es un punto de referencia natural y al alcance de todos lo cual, añado yo, seguramente nos impulsa, incluso a veces un poco inconscientemente, a 'humanizar' aquello que construimos, en este caso, robots.

  • Un poco en línea con lo anterior, para un ser humano, el propio ser humano es uno de sus temas favoritos. Nos gusta estar rodeados por humanos y en ese sentido, de nuevo, 'humanizamos' a los robots. Simplemente, porque nos gusta.

  • Desde un punto de vista más de investigación, se piensa que trabajar con robots humanoides, nos puede ayudar a entender mejor las propias capacidades cognitivas humanas.

  • El mundo que nos rodea está, en buena medida, construido por humanos y para humanos (puertas, escaleras, etc). Un robot humanoide podría adaptarse mejor a 'moverse' por ese mundo hecho a la medida de humanos.

  • Estamos acostumbrados a la interacción entre humanos. En la medida que un robot se hace más parecido a los humanos, en su forma y capacidades relacionales, se nos hace más sencillo interactuar con ellos.

  • Para algunos de las aplicaciones o casos de uso, por ejemplo robots de compañía, y no digamos ya nada robots sexuales, la forma humana es casi inevitable.

Como vemos, los motivos se centran sobre todo en motivos psicológicos o antropológicos que hacen que nos interesen los robots humanoides y también algún motivo práctico como la adaptación al medio o la mayor facilidad de interacción.


Algunos motivos más: mercado e innovación


Aunque los motivos anteriores son interesantes y muy relevantes, es posible que se queden cortos.

Un poco como reflexión de urgencia, susceptible de modificación y/o ampliación futura, se me ocurre alguna razón más, en gran medida relacionada, no tanto con el interés intrínseco en construir robots humanoides por lo que son, que es en lo que se centra la referencia citada más arriba, sino más en relación con una lógica de negocio y mercado, y más intentando contestar el porqué del interés en este momento.

Se trata, como digo, de una reflexión de urgencia y un tanto especulativa, pero esto es lo que se me ocurre a bote pronto.

Por una parte, creo que la industria está percibiendo que existe un mercado potencial interesante o muy interesante. Un mercado jugoso, nuevo y por desarrollar. Ese mercado se origina en buena medida por la fascinación e interés que suponen para el público en general los robots humanoides y por algunos casos de uso, como 'azafatas' de eventos, robots de compañía, juguetes avanzados, robots sexuales, etc. Se trata de un mercado, como digo, aún no desarrollado ni seguro...pero probable y seguramente jugoso. Así que hay compañías que comienzan a posicionarse, desde un punto de vista de marketing (que las asociemos con los robots humanoides) y a capacitarse desde un punto de vista tecnológico y operativo (construir robots humanoides es muy complejo, y hay que ir investigando y desarrollando las capacidades técnicas, operativas y productivas) desde ya, para estar bien posicionados para cuando ese mercado 'explote'.

Por otro lado, y desde un punto de vista técnico, creo que se percibe que los avances tecnológicos en muchos frentes, materiales, sensores pero, especialmente, inteligencia artificial, pueden dar un impulso definitivo a este mercado por la capacidad de dotar a esos robots de unas funciones avanzadas y suficientemente atractivas y por tanto, de nuevo, conviene irse preparando.

Por otro lado, creo que, siguiendo un poco la filosofía de innovación moderna y teorías como Lean startup, de alguna forma un poco atípica, ciertas compañías están haciendo una suerte de producto mínimo viable, para recoger feedback del mercado. Y en esa línea creo que van los atractivos vídeos que lanza Boston Dynamics, por ejemplo, la propaganda de Elon Musk y Tesla sobre su Óptimus, etc. Digo que es una forma de producto mínimo viable un poco atípica, porque lo de mínimo es relativo. Crear los prototipos de robot humanoide y producir esos vídeos es, sin duda, muy caro. Sin embargo, aunque es muy caro, está muy, muy lejos de significar, tanto en dificultad, como en inversión y tiempo lo que supondría realmente lanzar al mercado un robot humanoide. Por eso les sirve como producto mínimo viable: hacen el prototipo, producen el vídeo (u organizan un evento) y recogen el feedback del mercado y los medios sobre este tipo de robots, sobre si interesan o no y sobre si las características que exhiben resultan atractivas o no.

En algunos caso, como el de Tesla y otros fabricantes de coches, creo que, como resaltó el propio Elon Musk en el lanzamiento de Óptimus, existen sinergias tecnológicas y de investigación reales entre los robots humanoides y los vehículos autónomos, especialmente en lo que a sensores, control e inteligencia artificial se refiere. El propio vehículo autónomo no deja de ser una forma avanzada y especial de robot. En ese sentido, lo que investigan o desarrollan en robots humanoides puede resultar, al menos parcialmente, aplicable en vehículos autónomos y viceversa.

Es posible que haya más motivos pero, como digo, un poco a bote pronto, esto es lo que se me viene a la mente.


Conclusiones


Aunque la utilidad y, sobre todo el mercado de los robots humanoides, es todavía algo incierto, sí que parece que hay motivos de orden tanto psicológico como práctico, que hacen que nos resulten atractivos los robots humanoides y que, por tanto, exista un mercado potencial. 

Y, por otro lado, y desde un punto de vista más de mercado, innovación y negocio, pudieran existir razones, las que he intentado esbozar, que explican el interés actual de medios, y sobre todo compañías, en este eventual negocio de los robots humanoides y en invertir en él, en su capacitación y también en su marketing.


lunes, 20 de enero de 2025

Notas sobre aprendizaje por refuerzo (XIV): aprendizaje jerárquico

Había dejado en suspenso la serie de posts dedicados al aprendizaje por refuerzo, por aquello de los 'fatos navideños' y porque, entre medias, hubo también temas que me apeteció tratar antes.

Pero llega el momento de volver al tema y ponerle fin, lo que haré acometiendo los pocos posts restantes (dos o tres), de los cuales este es el primero. 

Y en él voy a esbozar alguna idea básica sobre el denominado aprendizaje por refuerzo jerárquico ('hierarchical reinforcement learning'). Y lo haré, como siempre en esta serie, apoyándome en lo que explica Aske Plaat en su libro 'Deep reinforcement learning'.

Pero antes, como siempre en esta serie de artículos, un repaso de lo visto hasta la fecha.


Recordatorio: lo que hemos visto de aprendizaje por refuerzo


El esquema que nos ha guiado, ha sido el siguiente:


Nos ocupamos inicialmente de la situación de un agente que interactúa con un entorno que se encuentra en un estado s. Sobre ese entorno, el agente aplica unas acciones, a, como consecuencia de las cuales, el entorno puede experimentar una transición y cambiar de estado, pasando del estado s al s', y el agente recibe una recompensa r. El agente decide la acción a aplicar en cada momento, siguiendo una política π y su objetivo es maximizar la recompensa obtenida lo largo de una secuencia o trayectoria.

Los métodos más básicos, aquellos en que el espacio de estado es reducido, siguen, decíamos, un enfoque tabular, en que se tabulan, de ahí el nombre, los posibles estados y para ellos se calculan unas funciones que nos dan el valor, Q, de la recompensa esperada. Cuando la dimensión del espacio de estados es muy alta, como sucede habitualmente en problemas reales, dejan de tener sentido estos métodos tabulares así que renunciamos a representar la situación del entorno mediante su estado, y a cambio lo representamos mediante unas características ('features') y la obtención de valores o acciones vienen a ser unas funciones con base en esas características e implementadas mediante redes neuronales profundas, dando lugar al 'deep reinforcement learning'.

Cuando tratamos problemas ya no de alta dimensionalidad, sino continuos, como es la locomoción de robots, se adoptan los denominados métodos basados en políticas en que se prescinde de la visión de valores, y se trabaja directamente en optimizar las políticas, que pasan a considerarse como estocásticas, es decir, como distribuciones de probabilidad. 

También aparecía como opción el denominado aprendizaje basado en modelos ('model-based'), en que el agente primero consigue un modelo del entorno y luego ya prescinde del entorno propiamente dicho par a trabajar con ese modelo local durante todo el entrenamiento.

Hasta aquí estábamos en la situación de trabajar con un único agente.

Posteriormente vimos el c aso en que teníamos dos agentes, exactamente dos y que se encontraban en una situación competitiva, en uno de los denominados juegos de suma cero en que la ganancia de un agente supone la perdida del otro. En esa situación, una opción habitual era trabajar con el aprendizaje basado en modelos, dado que, para un agente, el entorno está constituido por el otro agente, y se adopta la hipótesis razonable de que su política, la del otro agente, es igual a la nuestra, por lo que modelamos el entorno con el modelo de nuestra propia política. 

Eso, además, conducía a la posibilidad del autoaprendizaje o auto-juego ('self-play'), en que un agente aprende jugando, en el fondo, contra sí mismo (contra otro agente con la misma política, en realidad). Vimos que mediante los problemas mono-agente, se podían tratar problemas como la locomoción de robots, la búsqueda de rutas o videojuegos. 

En el último post, exploramos la situación multi-agente, en los cuales no sólo se produce una competición sino también una colaboración entre agentes y un campo del que decíamos se encontraba fundamentalmente en investigación.


El enfoque jerárquico


El enfoque jerárquico de aprendizaje por refuerzo se basa, en realidad, y en primer lugar, en la estrategia de dividir un problema en sub-problemas, una técnica muy conocida del ámbito de la resolución de problemas. Hecha esa subdivisión, nos planteamos el aprendizaje de cómo realizar (cuál es la mejor política) para resolver cada sub-problema.

Se trata de un enfoque aplicable en teoría a cualquier problema secuencial, aunque en la práctica es más viable en unos tipos de problemas que en otros.

Algún problema muy adecuado para este enfoque sería, por ejemplo, el de la navegación de vehículos o robots. Igualmente, los problemas multi-agente que mencionábamos en el último post de esta serie, tienden a poder dividirse de manera natural en sub-problemas. 

Un riesgo de este enfoque jerárquico es que, dado que  buscamos sub-políticas, o por decirlo de otra mamera., optimizamos a nivel de sub-problemas, es posible que no consigamos una optimización absoluta a novel global, a nivel de todo el problema. De esta forma, el enfoque jerárquico tiende a dar soluciones menos óptimas que el enfoque, digamos, 'plano', pero haciéndolo más rápido.


Ventajas y desventajas del aprendizaje jerárquico


Podríamos decir que el enfoque jerárquico tiene las siguientes ventajas respecto al enfoque 'plano' (no jerárquico.


  • Simplifica la resolución de problemas mediante abstracciones. Los agente resuelven problemas granulares que resultan abstracción del problema en sub-problemas. Luego, las tareas granulares se agrupan en los problemas de mayor nivel de abstracción.

  • Se reduce el número de interacciones necesarias con el entorno, lo que conduce a eficiencia de muestreo. Entre otras cosas, se puede hacer 'transfer learning' de la resolución de subtareas aplicables en otros problemas.

  • Las políticas finales resultantes tienden a ser más generalistas, con mayor capacidad de adaptación a nuevas situaciones y por tanto se reduce la fragilidad de las mismas.

  • Permite resolver problemas mayores y más complejos.


A cambio, presenta las siguientes desventajas:


  • Necesita de, o al menos le resulta muy conveniente, un conocimiento del dominio del problema.

  • Presenta problemáticas de complejidad algorítmica en relación a la identificación de sub-objetivos, el aprendizaje de sub-políticas y las condiciones de terminación.

  • Introducen la idea de macro-acciones (combinaciones de acciones primitivas), el número de las cuales puede crecer de manera que se haga intratable y precise de enfoques aproximados.

  • La calidad de la política final, como ya dijimos, puede ser sub-óptima.


Un breve excurso: agentes


No he podido evitar, al hablar de este enfoque jerárquico, y de esa descomposición de problemas en sub-problemas, que mi mente se desviara hacia la idea de la Agentic AI, de los últimamente tan traídos y llevados agentes, unas soluciones software, cuyo 'cerebro' son modelos generativos del tipo de grandes modelos de lenguaje y una de cuyas promesas es, precisamente, que van a ser capaces de, recibiendo un objetivo como 'prompt', identificar las tareas (es decir, hacer una forma de descomposición) necesarias para conseguirlo y, a partir de ahí actuar.

No tengo claro de, hasta qué punto, beben esos agentes de las ideas del enfoque jerárquico objeto de este post, o prueban estrategias diferentes. Y tampoco está demostrado hasta la fecha, o al menos no me consta que así sea, que se hayan conseguido éxitos notables en esta materia...pero hay que dar un poco de tiempo. Se supone que los agentes son una de las grandes tendencias de 2025. Habrá que ver de hasta dónde son capaces de llegar en general, y en particular en esta capacidad, quizá su mayor reto,  de descomponer una tarea, o mejor, un objetivo, en subtareas accionables.


Conclusiones


El aprendizaje jerárquico parece un enfoque muy lógico si atendemos, incluso, a cómo razonamos los humanos, para afrontar problemas complejos. Sin embargo, parece ser más un campo de investigación que una realizad plenamente conseguida.

Pero la idea es muy interesante, y habrá que esperar resultados.

A ver si los tenemos en 2025.


Artículos de este blog relacionados


miércoles, 15 de enero de 2025

Tendencias en el desarrollo y entrenamiento de modelos generativos

En los dos post anteriores a éste que nos ocupa, he visitado algunas visiones generales sobre los modelos generativos y los grandes modelos de lenguaje .

En concreto, he revisado una comparativa con la cognición humana y  una identificación de los retos que afrontan para el futuro, y todo ello basado en la argumentación que hace Ben Auffart al final de su libro 'Generative AI with LangChain'.

En este post, y basándome en la misma fuente, comentaré algunas tendencias en el desarrollo de modelos generativos que identifica el mismo autor, recalcando, como hice en el post anterior, que el libro está publicado en Diciembre de 2023 por lo que el panorama técnico y competitivo puede haber experimentado alguna ligera evolución, aunque creo que no cambian las ideas básicas. 


La escala del entrenamiento de los modelos generativos


Por un lado, el autor menciona el incremento en el esfuerzo en el entrenamiento de los modelos. En concreto aporta un dato en que dice que el tiempo de entrenamiento de los modelos, se dobla cada ocho meses, lo cual no se pude ver compensado, desde un punto de vista de coste, por el hecho de que, exista también la denominada Ley de Rock según la cual el coste de los procesadores de tipo GPU ('Graphical Processing Unit') o TPU ('Tensor Processing Unit')  empleados se reduce a la mitad cada cuatro años.

Como ilustración, aporta la siguiente gráfica, creada por Epoch.ai y que se puede conseguir en este enlace, donde se muestra la evolución del esfuerzo de entrenamiento, mostrando en abscisas el tiempo y en ordenadas el número de FLOPS ('Floating Point OPerations'), es decir el número de operaciones con números en coma flotante necesarios para entrenar un modelo. Dentro de esos ejes, se representan  mediante pequeños círculos, los modelos concretos.



A modo de curiosidad, y como forma de tener un orden de magnitud, según esta fuente el entrenamiento del modelo GPT-4 de OpenAI realizó 2,1 x 1025 FLOPs, empleó un dataset de entrenamiento con 4,9 x 1012 puntos de datos, duró 95 días, consumió 2,2 x 104 Kilowatios y costó 41 millones de dólares. Por su parte, el entrenamiento del modelo Gemini 1.0 Ultra, realizó 5,0 x 1025 FLOPs, duró 100 días, consumió 2,4 x 104 Kilowatios y costó 30 millones de dólares

Aunque se trabaja en alternativas, de momento hay una correlación fuerte entre el desempeño del modelo y las magnitudes como el tamaño del propio modelo, su conjunto de datos de entrenamiento y el esfuerzo computacional empleado en ese entrenamiento.  

Estos volúmenes, y las economías de escala necesarias, hace concluir al autor, cosa que confirma la experiencia, que estos modelos estarán concentrados en las manos de las grandes empresas tecnológicas. 

Como forma de reducir estas magnitudes, se buscan cosas como mejorar la calidad de los datos de entrenamiento o revisar el diseño del propio modelo. también se plantea la opción de modelos de nicho que pueden dar una excelente calidad en sus resultados, siendo sin embargo modelos más modestos en cuanto a tamaño y necesidades de datos y computacionales para su entrenamiento.


Técnicas para una IA generativa más accesible y efectiva


Tras esto, el autor recoge brevemente algunas técnicas o enfoques para conseguir unos modelos efectivos pero más accesibles.


  • Arquitecturas simplificadas: arquitecturas de los modelos más sencillas lo que facilita su gestión, mejora su interpretabilidad y reduce los costes

  • Generación de datos sintéticos: es decir, creación de datos artificiales que simplifiquen la obtención de datasets de entrenamiento y contribuyan a proteger la privacidad

  • Destilado del modelo: es decir, uso del 'transfer learning', transfiriendo conocimiento de un gran modelo a otros menores, más baratos y de más sencillo despliegue

  • Optimización de motores de inferencia: mediante la creación de 'frameworks' que optimicen el uso del hardware y con ello la eficiencia y velocidad de ejecución de los modelos

  • Aceleradores hardware para IA dedicados: desarrollo y uso de hardware especializado, como han sido hasta la fecha las GPUs y las TPUs

  • Datos públicos: un poco bajo la filosofía 'open data', disponibilidad de datasets públicos, incluyendo datos sintéticos y con una visión que favorece, de nuevo, la privacidad e incluso la equidad.

  • Cuantización: es decir, reducción del número de bits usados para representar los números, perdiendo algo de precisión pero consiguiendo muy buenas mejoras en cuanto a eficiencia.

  • Bases de conocimiento: Incorporación de bases de conocimiento, con información factual, lo que reduce las alucinaciones.

  • RAG ('Retrieval Augmented Generation'): en línea con el punto anterior, enriquecer la generación de texto con el apoyo del conocimiento recogido en fuentes relevantes.

  • Aprendizaje federado: Modelo descentralizado y distribuido de entrenamiento que favorece la escalabilidad

  • Multimodalidad: trabajo no sólo con texto sino con otras modalidades como imagen, vídeo o sonido.


Conclusiones


Quizá, la gran conclusión posible sea que si, en efecto, los modelos de lenguaje son grandes y costosos, y parece difícil evitar la concentración de poder en este ámbito en las grandes empresas tecnológicas, pero que hay multitud de líneas de trabajo y mejora muy serias y prometedoras para mejorar tanto los resultados de los modelos, como su eficiencia computacional y, por tanto su coste e impacto medioambiental.


viernes, 10 de enero de 2025

Trece retos para los sistemas generativos en el inicio de 2025

No cabe duda de que los modelos generativos son una de las grandes aportaciones tecnológicas de los dos últimos años. 

Y lo son por su gran avance tecnológico, por su potencial transformador en empresas y economía y por su impacto mediático.

A pesar de haber dado un salto de gigante em cuanto a su capacidad y resultados en los últimos meses, este tipo de soluciones aún tienen retos que abordar y margen de mejora. 

Al final de su libro 'Generative AI with LangChain' el autor, Ben Auffart. enumera muy brevemente los trece retos más importantes que, en su opinión, abordan los modelos generativos en su estado actual.

Si en tecnología la fecha siempre cuenta, en algo tan móvil, tan sometido a febril evolución, es importante fijar el momento del tiempo en que esto publico y la información en que me baso. Por si, lector, lees este post pasado un tiempo desde su publicación, pongo énfasis en que el post está escrito a principios de 2025 y el libro en que me baso está publicado en Diciembre de 2023.


Los trece retos para los sistemas generativos


Dicho esto, estos son, comentados brevemente por mi mismo, los treces retos que alutor identifica y las formas de abordarlos de que se dispone.


  • Actualidad de la información y deriva ('drift'): es decir, el hecho de que los modelos se encuentran entrenados en un momento dado con la información disponible en ese momento, con lo que su, digamos' 'conocimiento' puede no ser completamente actual y la calidad de su respuesta irse degradando (deriva). El autor apunta como vías actuales de abordaje unos más eficaces métodos de reentrenamiento, la ingesta continua de datos ('stream ingestion pipelines') o métodos de aprendizaje continuo como 'elastic weight consolidation'.

  • Conocimiento especializado: es decir, aplicaciones a ámbitos muy concretos. Se puede abordar mediante RAG ('Retrieval Augmented Generation') o mediante técnicas de 'prompting' que incluyan demostraciones o conocimiento.

  • Adaptabilidad aguas abajo: es decir, adaptación del modelo para su uso en tareas más allá de aquellas para las que fue entrenado. Para este caso, estaríamos hablando de hacer un 'fine tunning' estratégico o del uso de hardware especializado 

  • Salidas sesgadas: una problemática conocida y frente a la cual, aparte de mecanismos de auditoría, se pueden aplicar algoritmos de mitigación de sesgo, realizar entrenamientos con juegos de datos equilibrados, etc

  • Generación de contenido dañino: que se puede abordar mediante sistemas de moderación de contenidos o métodos de condicionamiento como el RLHF ('Reinforcement Learning with Human Feeddback') usado por la propia OpenAI.

  • Inconsistencias lógicas: fallos lógicos, que creo que al menos parcialmente podemos asociar a las alucinaciones, y que se pueden afrontar mediante la aportación de información factual y lógica adicional mediante el uso de bases de conocimiento o técnicas RAG, así como el empleo de arquitecturas híbridas que no sólo utilicen LLMs sino que incorporen otros algoritmos de machine learning e, incluso, inteligencia artificial simbólica.

  • Imprecisiones factuales: es decir, pequeños errores o imprecisiones relacionadas con datos o hechos concretos que, de nuevo, se pueden encarar mediante RAG, mediante bases de conocimiento y mediante la actualización frecuente de estas bases de conocimiento. 

  • Falta de explicabilidad: un problema bien conocido, en cuanto a planteamiento, que no en cuanto a solución, en todo el campo del machine learning y especialmente del deep learning. El autor apunta al uso de técnicas como la introspección del modelo ('model introspection'), 'concept attribution' (es decir, intentar saber qué característica de entrada pesa más o menos en un resultado) o el diseño de modelos interpretables internamente. 

  • Riesgos de privacidad: para vencer a los cuales se pueden usar técnicas ya conocidas de otros ámbitos de la inteligencia artificial como el aprendizaje federado, la privacidad diferencial, el encriptado o la anonimización

  • Alta latencia y costes de computación: para mejorar los cuales se pueden usar también técnicas bien conocidas como la 'quantization' (disminución del número de bits para representar números, aunque se a costa de perder algo de precisión), uso de hardware optimizado o un mejor diseño algorítmico.

  • Limitaciones de licenciamiento: que se puede afrontar mediante uso de datos sintéticos o abiertos para entrenamiento o acuerdos de licenciamiento más justos.

  • Seguridad / vulnerabilidades: un amplio campo dentro del cual el autor apunta, simplemente, al uso de buenas prácticas de ciberseguridad y el empleo de técnicas 'adversarias'.

  • Gobierno: a encarar mediante el desarrollo de frameworks éticos y de cumplimiento normativo.


Conclusiones


Los modelos generativos, pues, presentan muchos e importantes retos pero, como se puede ver, para todos ellos existen formas de superarlos o, al menos, de comenzar a afrontarlos.

Y dado el espectacular ritmo de avances y novedades en este campo, parece razonable pensar que veremos cómo se superan muchos de ellos o cómo, al menos, se mejora de manera notable en la mayoría de los casos.


viernes, 3 de enero de 2025

Una comparativa entre la cognición humana y los modelos generativos de IA

No es raro, y en el fondo resulta comprensible, que comparemos la inteligencia artificial con la cognición humana.

Y digo que no es raro porque, aunque en esas comparaciones se cae con cierta frecuencia en la fantasía y la especulación algo gratuita, lo cierto es que en el origen y en parte, sólo en parte, en el desarrollo actual de la inteligencia artificial late el interés y el objetivo de emular y mejorar las capacidades cognitivas humanas.

Y en una lectura reciente me he encontrado una comparativa seria entre la cognición humana y la inteligencia artificial y que quiero traer a colación en este post.

 

Las siete diferencias entre cognición humana y modelos generativos 


Se trata de la comparativa que hace al final del libro 'Generative AI with LangChain' su autor, Ben Auffart. Estrictamente hablando, lo que nos presenta son las fortalezas y debilidades fundamentales de los modelos generativos, en su estado actual, frente a esa cognición humana.

El autor presenta esa comparativa a modo de tabla y bastante escueta en cuanto a explicación (realmente sólo unos titulares), pero yo la voy a presentar como 'bullets' y, aunque soy fiel a lo que el autor indica, añadiré algún leve comentario de mi cosecha y me extenderé ligeramente, sólo ligeramente, más. 

Las siete diferencias, o mejor los siete aspectos en que Auffarth se centra para comparar modelos comparativos y cognición humana, son los siguientes:


  • Fluidez: los modelos generativos, como fácilmente podemos comprobar, son ya altamente elocuentes pero esa elocuencia y su eventual acierto lo que realmente refleja son patrones lingüísticos identificados durante su entrenamiento. En el caso de la comunicación humana, sin embargo, lo que mas la diferencia de la creada artificialmente es su relevancia contextual y cómo extrae y crea significado a partir de su conocimiento del mundo lo que en cierto modo conecta con el famoso sentido común, del cuál es tan difícil dotar a las máquinas, o de la problemática del 'grounding', el anclaje del significado en la experiencia e interacción con el mundo exterior, que ya hemos mencionado en este blog en más de una ocasión hablando de robótica cognitiva.  

  • Conocimiento: en realidad los modelos generativos no tienen un auténtico conocimiento sino que realizan una síntesis estadística sin ese 'grounding' que mencionaba en el punto anterior. Sin embargo, el conocimiento humano se basa en el proceso de aprendizaje, un proceso donde juega un papel muy importante, precisamente, la experiencia

  • Creatividad: Los modelos generativos exhiben una cierta 'imaginación' pero siempre dentro de los límites de la distribución probabilística adquirida durante el entrenamiento. Sin embargo la creatividad humana, que en el fondo creo que aún no entendemos bien, exhibe una originalidad que parece reflejar la personalidad y el talento individuales.

  • Precisión factual: Aunque se trabaja en su mejora, tanto mediante innovaciones algorítmicas y de entrenamiento como por el uso de técnicas de RAG ('Retrieval Augmented Generation') que comentábamos en un post reciente, lo cierto es que los modelos generativos aún producen las famosas 'alucinaciones' (resultados de aparente coherencia superficial pero erróneos, a veces gravemente, en datos o en realidad). Esas alucinaciones suelen ser un reflejo de sesgos o carencias en los datos o proceso de entrenamiento.  Por el contrario, el ser humano tiende a alinearse con la verdad y la realidad física.

  • Razonamiento: la lógica de un sistema generativo está atada, de nuevo, a los datos de entrenamiento mientras que un ser humano es capaz de aplicar heurísticas e intuición más allá de la formación y educación (el propio entrenamiento del ser humano) que haya recibido.

  • Sesgo: los modelos generativos, en realidad cualquier modelo de machine learning, propaga de forma sistemática los sesgos que existan en sus datos de entrenamiento. Sin embargo, el ser humano, en ocasiones, hay que reconocer que no siempre, es capaz de identificar y corregir esos sesgos.

  • Trasparencia: los modelos generativos pueden aportar ciertas 'pistas' sobre su razonamiento, usando técnicas de 'prompt engineering' como el conocido 'chain-of-thought' aunque hay que advertir que pese a que las 'explicaciones' que proporcione el modelo pueden ayudar a entender a un ser humano cómo razonar frente al problema planteado a un modelo, no se corresponden realmente a 'cómo piensa' ese mismo modelo. En el caso de la cognición humana sí que puede aportar explicaciones de la manera real de razonar.


Conclusiones


Está claro que, a pesar de los grandes avances en inteligencia artificial, y los sorprendentes resultados de los dos o tres últimos años en el campo de los modelos generativos, la inteligencia artificial, aunque ya supera al ser humano en no pocos aspectos, aún está lejos de igualar, al menos de manera general, la cognición humana y existen numerosos aspectos en que la cognición humana es diferente, y en general superior, a la que exhibe la inteligencia artificial.