miércoles, 11 de junio de 2025

Human-Robot Interaction y los posibles modelos emocionales

Uno de los temas que más llaman la atención cuando hablamos de interacción con las máquinas, y muy especialmente con los robots, es todo lo que tiene que ver con las emociones: la detección de las emociones humanas por parte del robot, la expresión de emociones por parte de ese mismo robot y, si queremos ir muy lejos (probablemente demasiado lejos), la posibilidad de que alguna vez el robot pueda experimentar sus propias emociones.

Se trata de un tema que además, personalmente me fascina, tanto en su vertiente técnica como en sus implicaciones éticas. 

Uniendo algunas lecturas (y docencias) recientes que tienen que ver tanto con la disciplina del human-robot interaction como con inteligencia artificial generativa y agentes conversacionales, he creído detectar una evolución, una posible evolución que intuyo, pero que tengo pendiente de confirmar, que supone un cierto cambio de paradigma en el tratamiento de las emociones por parte de los robots.

Un cambio de paradigma que, en el fondo, simplemente trasladaría al mundo de la robótica social un cambio que ya se está produciendo en chatbots o agentes conversacionales.

Vayamos paso a paso.


Human-Robot Interaction


La relación robots-personas (HRI, 'Human-Robot Interaction') es una disciplina que auna conocimientos procedentes del campo de la robótica y la inteligencia artificial, pero también de la psicología o la antropología, y que se ocupa del estudio de la interacción entre personas y robots y del diseño de los mejores robots y mecanismos de interacción.

Tiene en cuenta cosas como, por supuesto, el lenguaje verbal, pero también el no verbal, la proxémica, las convenciones sociales y... si, la detección y gestión de emociones, donde se solaparía con la así llamada computación afectiva ('affective computing').


Gestión de emociones


Podríamos decir que, a la hora de gestionar emociones por parte de un robot, se podrían distinguir como tres fases, o tres dinámicas, interrelacionadas pero distinguibles:

  • Detección de emociones en los humanos
  • Experimentación de las propias emociones por parte del robot
  • Expresión de emociones por parte del robot

De las tres anteriores, la segunda, experimentación de emociones por el propio robot, hoy en día es una pura fantasía, así que no nos detendremos más en ella.

Sí que son relevantes, y con importantes resultados tangibles, las otras dos: la detección de las emociones humanas por parte del robot y la expresión de unas emociones propias del robot (aunque se trate de emociones impostadas, no sentidas).


Modelado de emociones


Ya desde hace décadas, y de manera con frecuencia independiente al tratamiento mediante máquinas, en el campo de la psicología se han venido analizando e intentando modelar las emociones.

Uno de los primeros y más populares resultados fueron los hallazgos de Paul Ekman quien identificó las conocidas seis emociones básicas (alegría, ira, miedo, asco, sorpresa, tristeza) que eran reconocibles a partir de la expresión y que trascendían las culturas.


Expresiones faciales correspondientes a las seis emociones básicas

Posteriormente, Ekman amplió su catálogo a quince. Se trata de unos hallazgos no siempre bien interpretados o utilizados pero que, a efecto de HRI, me interesa destacar que permite la identificación de emociones a partir de expresiones faciales y que el resultado es una categoría de entre un número finito disponible de emociones.

El propio Ekman propuso posteriormente otro modelo en que, más que recoger expresiones faciales completas, se centraba en diversos detalles. Definía el Facial Action Coding System (FACS) donde se identificaban las AU ('Action Units') en número de varias decenas.


FACS

Estas action units se pueden reconocer visualmente o, en laboratorio, mediante medida de actividad muscular. Aunque no conducen de forma inmediata a una categorización de emoción, existen guías complementarias que sí lo hacen

En ambos casos, al final podemos llegar a una emoción como una etiqueta, de entre un conjunto finito de ellas, que caracteriza el estado emocional del ser humano.

Existen otros modelos que, trabajan es espacios continuos, bidimensionales (como el modelo circunflejo de Russell) o tridimensionales, y donde algunas de las variables de ese espacio suelen ser la denominada excitación ('arousal') que, de alguna forma, mide la intensidad de la emoción, y la valencia ('valence') que indica si se trata de una emoción más positiva o más negativa. 


Modelo circunflejo de Russell

Otros modelos, en este caso tridimensionales, como PAD, usado por el mítico robot Kismet, añade una dimensión de dominancia.

Aunque en estos modelos de emociones existe una continuidad, y no unas categorías cerradas, tampoco nos alejamos demasiado de esa visión de emociones como un catálogo de posibilidades, como se puede ver en la propia figura. De alguna manera, regiones de ese espacio de estado se corresponden con una emoción


Detección de emociones


Los robots detectan las emociones humanas tomando, en primer lugar, alguna forma de medida de su manifestación externa en los humanos, mediante sensores. Los dos más comunes, y probablemente al mismo tiempo los más potentes y ricos en información, son las cámaras (que permiten captar, fundamentalmente la expresión del rostro humano, pero también sus gestos y otros elementos de lenguaje no verbal) y los micrófonos que captan la voz incluyendo los elementos prosódicos como intensidad, acento, etc.

Sólo con esos dos tipos de sensores, tan familiares en todo tipo de aplicaciones, los robots obtienen casi toda la información que necesitan. Existen otros sensores, más especializados, pero ahora no profundizaré en ellos.

El caso es que, mediante los sensores, los robots tienen la información primaria sobre las emociones expresadas por el humano.

Desde ahí, la conclusión de la emoción subyacente y si nos basamos en un catálogo de emociones como el propuesto en su momento por Ekman,  se puede reducir a un problema de clasificación, tan común en el machine learning y deep learning.

Si utilizamos un espacio de estados, parece que hay un primer paso de regresión, para situar el estado emocional del humano en las características de ese espacio de estados, y luego, si queremos 'darle nombre' a la emoción, un problema de clasificación adicional casi trivial (que no precisa siquiera de inteligencia artificial) para asignar la emoción subyacente según la región en que nos encontremos.


Chatbots basados en reglas


Establecidas esas fases, paso ahora a comentar la evolución de los chatbots. Los chatbots de los que hemos dispuesto hasta hace poco, antes de la explosión de los modelos generativos, se han venido construyendo en general implementando un modelo de conversación que ya explicaba en mi libro 'Robots en la sombra' y que se muestra en la figura:


Modelo de conversación

En ese modelo, las intenciones ('intents') son una forma de categorización de lo que el usuario puede pedir al chatbot (reserva de cita, compra de un billete de avión, conocimiento sobre un producto, etc). Eso sí, como trabajamos en lenguaje natural esas intenciones se pueden manifestar verbalmente con expresiones ('utterances') diferentes e incluso muy diferentes. Asociada a cada interacción el humano suele añadir información en forma de parámetros o entidades como ciudades, personajes etc.

La labor donde interviene la inteligencia artificial en ese tipo de chatbot es, en primer lugar, en la conversión voz-texto (en caso de que interactuemos de viva voz) y, sobre todo, en la detección de la intención y la extracción e entidades a partir de la expresión del usuario. Este último problema, la detección de la intención, se trataría claramente de un problema de clasificación.

A partir de ahí, el resto de cosas (consulta o interacción con servicios o sistemas externos) e incluso emisión de la respuesta, sucede sin usar la inteligencia artificial y procede de configuraciones o desarrollos realizados por el desarrollador del chatbot. Sólo se añade inteligencia artificial en la eventual conversión texto-voz para contestar al usuario de viva voz.

Este tipo de chatbots hoy en día tienden a denominarse como 'basados en reglas' porque, en efecto, es el desarrollador el que establece, para una intención dada, qué sistemas o servicios deben consultarse o invocarse y qué respuesta corresponde a esa intención.


Comportamiento emocional de robots basado en reglas


Aunque confieso que me falta información técnica de detalle, y aunque puede variar de modelo de robot a modelo de robot, intuyo que los robots sociales que manejan emociones funcionan de una manera parecida a como lo hacen estos chabots.

Es decir, a partir de la información de los sensores (pensemos por ejemplo la cámara), detectan la emoción subyacente en el humano mediante la aplicación de un algoritmo de clasificación. A partir de ahí, se desencadena la respuesta del robot: qué información debe consultar, qué emoción debe expresar el propio robot (en caso de que tenga capacidad para ello) y qué debe contestar al humano.

Y sospecho que todo lo que tiene que ver con los pasos posteriores a la detección de la emoción, está fundamentalmente basado en algún tipo de reglas no muy diferentes a las que emplean los chatbots.


Chatbots basados en modelos generativos


Volvamos a los chatbots, pero para ver cómo cambia la cosa con los modelos generativos.

Cuando usamos un chatbt basado en un modelo generativo, un modelo fundacional o un gran modelo de lenguaje, la cosa funciona de manera muy diferente: no existe un distinción tan nítida entre la entrada y saluda, y no se clasifican los deseos del usuario en intenciones, sino que se trata su entrada (su 'prompt') en su conjunto, sin clasificar y, sobre todo, el propio modelo genera la respuesta, que no se basa en ningún tipo de regla aunque sí se puede realizar un cierto condicionamiento.

Las dos cosas más relevantes que cambian son, pues, que es que el modelo, la inteligencia artificial, funciona extremo a  extremo, en entrada, salida y procesamiento. Y, además, que no existe clasificación en intenciones.


Computación afectiva basada en modelos generativos. Los modelos emocionales


Visto lo anterior, y dada la posibilidad cierta (de hecho, seguro que ya se está haciendo) de que los nuevos robots se apoyen en sus aspectos verbales en modelos de lenguaje generativos, parece más que probable (aunque no tengo noticias de ello, apostaría a que ya alguna empresa o laboratorio está en ello) que en los aspectos de la computación afectiva se utilicen también este tipo de modelos.

Si eso fuese así, parece que perderían sentido la clasificación de emociones en categorías cerradas (igual que en los chatbots pierde sentido categorizar las intenciones) y, no sólo eso, lo más importante es que la respuesta del robot, incluyendo sus aspectos emocionales, se crearían por el propio modelo (no por unas reglas).

Aunque entiendo que esos es técnicamente viable desde ya mismo, calculo que se debe realizar un entrenamiento, (un más que probable 'fine-tunning') para conseguir un buen funcionamiento de estos 'modelos emocionales'.

Como digo, no puedo afirmar taxativamente que esto que indico este sucediendo, pero tengo una casi completa seguridad de que sí, y de que, probablemente,  veremos cosas en este sentido a no mucho tardar, quizá ligado al campo emergente de la así llamada 'embodied AI'.


Conclusiones


La llegada de los modelos generativos y su eventual inclusión en robots sociales, puede cambiar el paradigma de cómo se gestionan las emociones humanas en los robots, pasando de un modelo más basado en reglas, a un modelo extremo a extremo, sin clasificación de emociones y apoyado en lo que podríamos denominar un 'gran modelo emocional'.


lunes, 9 de junio de 2025

¿Está el pensamiento crítico al alcance de la inteligencia artificial?

No sé si la pregunta es muy tópica o muy oportuna, pero el caso surgió en mi mente hace muy pocos días, durante la presentación de un libro, y me dije que tenía que convertir mis reflexiones en un post para este blog


Un mínimo de contexto


El evento en cuestión era la presentación del libro 'IA KAN: la inteligencia artificial hecha relato' de Javier Barraca, una novela de ciencia ficción sobre la inteligencia artificial con trasfondo filosófico, y un libro del que seguro tendré ocasión de publicar algo en su momento.

El caso es que, durante la conversación / debate final, se planteó el típico asunto de qué es plenamente humano y dónde no llegará la inteligencia artificial. Entre las respuestas, un miembro de la mesa, Jaime Guibelalde aludió al pensamiento crítico.

Y una chispa, o mejor una pregunta, saltó en mi cerebro. ¿Seguro? ¿Seguro que el pensamiento crítico está fuera del alcance de la inteligencia artificial?

Surgió en mi cerebro la pregunta... y una primera respuesta, una primera intuición. 

Y me dije que tenía que pensarlo un poco mejor, o mejor aún, escribir este post porque para mi, en muchas ocasiones, escribir es casi una forma de pensar o al menos de ordenar el pensamiento.


Pensamiento crítico


Claro, lo primero es clarificar de qué estamos hablando cuando hablamos de pensamiento crítico porque creo que, con frecuencia, se menciona el pensamiento crítico de una forma laxa.

Diría que hay dos partes o dos visiones en el pensamiento crítico: el pensamiento crítico como actitud y el pensamiento critico como disciplina.

Cuando me refiero al pensamiento crítico como actitud, lo hago en el sentido de un talante o una predisposición a no dar por buenos de primeras noticias, discursos y argumentos, sino someterlos a una suerte de juicio crítico. Y también a mantener una postura de pensamiento propia. Muchas veces creo que cuando se alude al pensamiento crítico, la cosa se queda aquí, en la actitud, en no escuchar y conformarse sino poner en tela de juicio. No está mal, pero me parece muy reduccionista.

Tienes que haber algo más... y lo hay. En el pensamiento crítico como disciplina se aplican técnicas y conocimientos. Muchos son sus elementos pero, los más relevantes tienen que ver con la verificación lógica (el argumento sometido a crítica respeta o no las leyes de la lógica) y la detección de sesgos cognitivos que pueden afectar inconscientemente tanto al discurso sometido a crítica como a la propia persona que ejecuta el análisis crítico. Probablemente hoy en día, habría que añadir, también, la mera verificación de datos y afirmaciones porque, parece que, a veces con intención, a veces sin ella, se deslizan demasiadas falsedades en el discurso público.


El turno de la inteligencia artificial


Establecido el campo de juego abordo ahora la pregunta: ¿está el pensamiento crítico al alcance de la inteligencia artificial o es una cualidad inherentemente humana y que siempre estará fuera del perímetro  de posibilidades de la inteligencia artificial?


La parte fácil de la respuesta


Si enfocamos el pensamiento crítico como 'actitud', la cosa resulta fácil de contestar: la inteligencia artificial no tienen actitud de ningún tipo (aunque la emule muy bien y cada vez mejor). Actualmente y a corto plazo, la respuesta es, pues, un rotundo no. Ni actitud de pensamiento crítico ni ninguna otra.

No sucede en la realidad, ni se avista que pueda suceder en el futuro, que la inteligencia artificial pueda cumplir las condiciones necesarias para tener una actitud, como podrían ser la autoconsciencia, el libre albedrío y quizá los sentimientos.

Respecto a lo que pueda suceder en en el futuro, prefiero no apostar mucho pero, si sucediera alguna vez, creo que sería en un futuro lejano, un futuro que estoy seguro de que no voy a ver.


La IA y las técnicas de pensamiento crítico


En la parte de ejecución de las técnicas de pensamiento crítico, creo que la cosa cambia bastante y creo que la inteligencia artificial no es que pueda en un futuro aplicar las técnicas del pensamiento crítico...es que puede hacerlo ya mismo.

La aplicación de la lógica resulta bastante natural a una inteligencia artificial y valorar la lógica de un argumento está perfectamente en su campo de acción actual. Hoy en día ya se puede conseguir de forma trivial un análisis de la lógica de un argumento por parte de un chat generativo, por ejemplo. Con un ejercicio de buen prompting y un enriquecimiento de información, seguramente mediante RAG, creo que ese análisis, además, puede ser muy, muy fino.

Y, aunque algo más etéreos, algo parecido éxito aplica a la detección de sesgos cognitivos. Con un poco de guiado, con un buen y detallado promting y proporcionando al agente inteligente la información específica adecuada, creo que la detección de sesgos puede ser bastante acertada.

En cuanto a la verificación de datos, cualquier modelo actual con acceso a Internet, especialmente los llamados modelos razonadores, puede hacer un buen trabajo en esa materia.

Así que mi conclusión es que, en lo relativo a la aplicación de las técnicas de pensamiento crítico, la inteligencia artificial actual está ya muy bien preparada para  llevarlas a acabo de manera efectiva y puede que mejor que un humano. Y no tengo dudas, además, de que va a seguir mejorando.


La irrelevancia de la actitud


¿Por que decía más arriba que el que la inteligencia artificial tenga o no actitud es irrelevante?

Bueno, lo decía en el sentido de que, si una solución de inteligencia artificial es capaz de aplicar con éxito las técnicas de pensamiento crítico sobre un discurso, no necesita realmente la voluntad de hacerlo. Para eso está el humano quien, mediante una simple y trivial invocación a la solución de inteligencia artificial, hace que ésta se ponga en marcha. Más aún, en ciertos contextos podrías dejarlo programado. Por ejemplo, se puede (y lo puedes hacer ya hoy en día) dejar programado que todas las mañanas la inteligencia artificial te haga un análisis crítico de las noticias más relevantes publicadas. 


A modo de conclusión


Uniendo todo lo anterior, creo que es bastante razonable decir que el pensamiento crítico (en realidad el análisis crítico) está ya bastante al alcance de la inteligencia artificial y seguro que más que lo estará en el futuro, y un futuro inmediato.

Por eso, creo que no podemos considerar el pensamiento crítico como un reducto humano, algo que nunca podrá ejercer la inteligencia artificial.

Lo cual no es óbice para afirmar que, en mi opinión, el pensamiento crítico es hoy en día más necesario que nunca, y la necesidad de que los humanos lo desarrollemos, más acuciante que nunca.  

Y no sólo, ni siquiera principalmente, por la existencia de la inteligencia artificial...


jueves, 22 de mayo de 2025

La inteligencia artificial transversal (y V): un nuevo paradigma

En los cuatro posts anteriores he revisado cuatro aspectos que hacen que, a mi modo de ver,  la inteligencia artificial haya dado en los últimos años (diría que en los últimos tres años) grandes pasos hacia una visión más transversal y a que, quizá, estemos ante un nuevo paradigma de inteligencia artificial.


Este es simplemente un post de recapitulación de lo visto y de sencilla reflexión sobre ello.


Recapitulando: los cuatro pasos hacia la transversalidad


Aunque no deja de ser una valoración personal, creo que existen cuatro vectores de evolución (con realizaciones ya conseguidas) de la inteligencia artificial hacia la transversalidad, cada uno de los cuales han ocupado un post de esta serie.

El primer paso es el borrado de la diferenciación entre inteligencia artificial generativa y discriminativa. Aunque, en efecto, los modelos generativos se diseñaron y construyeron pensando inicialmente en la generación de contenido nuevo (fundamentalmente texto e imágenes) y aunque, algunos modelos y arquitecturas generativas están exclusivamente orientadas a esa generación, lo cierto es que las arquitecturas dominantes, basadas fundamentalmente en el modelo transformer y en los modelos de difusión ya se utilizan tanto para tareas generativas como discriminativas, y apostaría a que se va a seguir avanzando en esa dirección.

El segundo paso es el de la mezcla de las diferentes modalidades (texto, imagen, vídeo, música, código, etc) en un solo modelo o aplicación. Esto es lo que se suele denominar multimodalidad pero, en mi post sobre el tema, preferí adoptar el nombre de omnimodalidad con la idea de ir más allá de la situación actual. En las soluciones multimodales actuales se tiende de mezclar pocas modalidades. Con frecuencia, aunque no únicamente, una de ellas es el texto y otra es imagen, video o música. Cuando hablo de omnimodalidad estoy pensando en una mezcla íntima de todo tipo de modalidades en un solo modelo o solución. Y ahí, hasta donde yo sé, no hemos llegado y no tengo claro si 'lo tenemos a punto de caramelo' o, por el contrario, es algo muy complejo y que puede tardar en llegar.

En el tercer vector entrábamos en el campo del razonamiento. La algoritmia dedicada a formas de razonamiento, planificación y toma de decisiones han estado, en general y hasta ahora, apartados de campos como la analítica o la percepción (aunque, por ejemplo, en robots móviles es imprescindible complementar la planificación con feedback perceptivo). Así, esquemas como los ya obsoletos sistemas expertos o los algoritmos de búsqueda en un espacio de estados son como mundos aparte de los modelos discriminativos y generativos. Con la aparición de los modelos razonadores, como la serie 'o' de OpenAI, el mismo modelo / solución es capaz ya de actuar como un modelo generativo y discriminativo, y también se añade el razonamiento y la planificación. Este tema del razonamiento es candente y en plena ebullición en el momento en que esto escribo, por lo que creo que caben esperar avances, puede que incluso espectaculares, en las próximas semanas y meses.

Finalmente, y como último vector de generalización, y todavía casi más como planteamiento que como grandes resultados, tenemos la inteligencia artificial física o 'embodied AI', la unión de lo físico y lo lógico, lo analógico y lo digital. En realidad, la unión en soluciones de inteligencia artificial con robótica, por ejemplo, se viene haciendo desde hace años, pero en general la parte de inteligencia artificial se concentra en módulos concretos, por ejemplo, relacionados con la percepción (notablemente visión artificial), en la analítica predictiva a partir de datos ya generados (como en aplicaciones de mantenimiento predictivo) o últimamente, la frecuente interfaz mediante lenguaje natural y voz. Pero no hay una integración sin costuras ('seamless' como se dice en inglés) sino, simplemente, la integración de módulos. Sin embargo, la idea de las herramientas ('tools') en el mundo de la agentic AI, una idea que, en realidad, es casi lo mismo que los conectores 'de toda la vida' usados por ejemplo en RPA, unido a la existencia de modelos razonadores, abre la puerta a una arquitectura integrada de modelo generativa/discriminativo, razonador y con posibilidades de interacción con el mundo físico tanto en lectura a partir de sensores como en escritura mediante actuadores. Es cierto que la interacción con el mundo físico y analógico impone problemáticas de toda índole (imperfecciones, ruido, errores, etc) que hacen que, aunque esa integración de lo físico sea arquitectónicamente casi trivial en el punto que estamos, en la práctica pueda no ser tan sencillo conseguir soluciones sofisticadas efectivas y que funcionen de forma correcta y fiable


Un nuevo paradigma


Creo que, con todo lo anterior, la evolución de la inteligencia artificial de los últimos años, supone un nuevo paradigma sobre cómo crear y aplicar la inteligencia artificial. Un paradigma que se apoya en variantes del modelo transformer y que dada su transversalidad y potencia creo que hará, está haciendo ya, obsoletos los modelos que se han utilizado hasta hace bien poco (y todavía en uso) a los que, presumiblemente, sustituirá casi completamente, salvo quizá en analítica inteligente.

Y un paradigma al que, precisamente por su transversalidad, puede ser muy difícil desplazar salvo que suceda algún salto cualitativo que cualquiera sabe cuando se puede producir (puede que dentro de nada o puede que dentro de mucho). Sólo se me ocurre a corto plazo que puedan existir soluciones alternativas en elementos muy de nicho, precisamente porque ene se nicho y para algo muy concreto, otro tipo de modelo pueda dar mejores resultados.


No hablo de AGI 


OpenAI declara que camina hacia la AGI ('Artificial General Intelligence') y aunque resulta arriesgado negarle la posibilidad de que lo consiga, dado todo lo que ha demostrado en los últimos años, mi sensación es que esa AGI es un objetivo muy lejano, caso de que se pueda conseguir.

Me explico: ya hemos visto que si, hay grandes pasos hacia la transversalidad, y resulta más que creíble que en los próximos meses y años veamos nuevos avances, seguramente algunos espectaculares, y que nos conduzca a soluciones que, realmente, parezcan de una inteligencia general y comparable y en muchos aspectos superior a la humana.

Pero no creo que estemos, al menos todavía, en los umbrales de la inteligencia artificial fuerte. No creo que estemos ante una inteligencia artificial capaz de atender a todo lo que atiende y a todo lo que se puede adaptar una inteligencia humana. Problemas como el de la semántica (el 'grounding') estamos muy lejos de revolverlo, los mecanismos de aprendizaje de la inteligencia artificial son, en este momento, y comparados con los mecanismos humanos, tremendamente simples e ineficientes y así muchos otros temas.

Y como no creo que estemos realmente ante una inteligencia artificial realmente fuerte, y como el término AGI a mi me sugiere (y no creo que solo a mi) una inteligencia artificial fuerte, prefiero evitar ese término para referirme a los avances actuales y previsiblemente futuros, en materia de generalización. 

Y, por eso, prefiero hablar de una inteligencia artificial transversal, más que general.


Conclusiones


Sin duda, la inteligencia artificial ha dado unos pasos de gigante en los últimos años, unos pasos de gigante que la convierten en una inteligencia artificial no sólo mucho más potente, sino también más transversal, con modelos más generalistas.

Y unos pasos que no sólo se han dado en el pasado reciente sino que se están dando ahora mismo, y seguro que se darán en el futuro.

No creo que eso suponga, realmente, al menos por el momento, una inteligencia artificial fuerte, pero sí una inteligencia artificial mucho más poderosa y mucho mas transversal.


Artículos de este blog relacionados

miércoles, 21 de mayo de 2025

La inteligencia artificial transversal (IV): embodied AI y el salto a la robótica e IoT

En los tres posts anteriores de esta serie, he mostrado tres formas en que creo que la inteligencia artificial está abandonando un poco la visión de inteligencia artificial débil para convertirse en una inteligencia artificial más transversal, que no general: la superación de la división discriminativa-generativa, la omnimodalidad y la inclusión de razonamiento.

En este cuarto, y casi último post (haré sólo otro artículo a modo de recapitulación y conclusiones), abordo una de las últimas grandes tendencias: la inteligencia artificial física o 'embodied AI', es decir, el salto de la inteligencia artificial al mundo físico.


Una vieja aspiración y una vieja 'tendencia'


En realidad, la conexión entre inteligencia artificial y el mundo físico, muy especialmente en la robótica, no es algo nuevo, sino algo muy antiguo y, de hecho, y aunque esto sea sólo a título anecdótico, cuando intentamos representar en una imagen la inteligencia artificial, habitualmente recurrimos a la imagen de un robot, es decir, algo plenamente físico.

Es cierto que muchas de las apariencias de 'inteligencia' presentes en los robots, se alcanza por mecanismos que nada tienen que ver con la inteligencia artificial, notablemente mediante la implementación de pares estímulo-respuesta, los denominados comportamientos ('behaviors') que simulan de manera más que exitosa los comportamientos reflejos de los seres vivos.

Pero la inteligencia artificial está presente en la robótica desde hace años o décadas. Así, capacidades cognitivas basadas en inteligencia artificial, como la visión artificial, se emplean desde hace muchos años en robótica para tareas relativamente simples, como la detección de defectos en piezas. Aunque no sea realmente robótica, formas específicas de inteligencia artificial como el OCR son comunes en los parkings para el reconocimiento de matrículas.

En los últimos años, y más orientado hacia robótica social, la inclusión de capacidades de tratamiento de voz y de lenguaje natural, son casi comunes tanto en soluciones software como en robots físicos u otro tipo de máquinas.

Y qué decir del vehículo autónomo, una forma especializada de robot, en cuyo software hay 'toneladas' de inteligencia artificial, no sólo para percepción, sino también para planificación y navegación.

En el campo más del internet de las cosas, ya desde hace años, es relativamente común el uso de modelos predictivos para soluciones como el mantenimiento predictivo en que se aplican modelos de machine learning sobre los datos del mundo físico recogidos mediante sensores. 

Si, la hermandad de la inteligencia artificial con la robótica y otras máquinas físicas viene desde muy atrás.

¿Qué hay de nuevo, entonces?


Lo que hay de nuevo


En realidad, lo nuevo es precisamente la transversalidad, la integración de esta orientación física con modelos que hacen muchas más cosas.

En todas las soluciones que he mencionado en la sección anterior se utiliza la inteligencia artificial combinada con el mundo físico en soluciones de robótica, internet de las cosas y mas, pero se hace un poco 'en el estilo' de la inteligencia artificial débil, es decir, hay módulos inteligentes que se encargan de una tarea muy específica y sólo de esa.

La novedad es que ahora, la interacción con el mundo físico se integra de manera mucho más íntima, más natural, en modelos de inteligencia artificial que valen para muchas otras cosas.


Agentes de la Agentic AI y razonamiento


Y para entenderlo, hay que recordar brevemente qué son estos nuevos agentes de que nos habla la 'Agentic AI'. Vimos en el post anterior cómo estos agentes, implementan en modelo tradicional de agente usando como mecanismo de control un modelo de los que llamamos generativos o grandes modelos de lenguaje (aunque en los artículos anteriores de esta serie, y precisamente por su transversalidad, sugiero que habría que denominarlos con otro término).

Dado que usamos modelos generativos, estamos implementando agentes con las mismas soluciones que utilizamos para procesamiento de lenguaje natural o creación de imágenes.

Pero, además, y como vimos en el post anterior, estos modelos son ya del tipo 'razonador', es decir, capaces de crear, seguir y modificar dinámicamente planes de acción, razonando a partir de lo que van encontrando y en busca de satisfacer un objetivo. El salto que esto supone para la inteligencia artificial en general y para sus posibilidades de traslación al mundo físico es, en mi opinión, enorme.

Disponemos ya hoy en día (aunque incipientes y evolucionando y mejorando) de esos modelos capaces de 'razonar' dinámicamente y 'decidir' de forma autónoma.


Agentes y herramientas


El último ingrediente, o casi último, es la inclusión de lo que se suele denominar herramientas ('tools'). Las herramientas son algo así como módulos que el modelo, o elagente, puede invocar y que extienden sus capacidades, típicamente de conexión con el mundo exterior.

En la inteligencia artificial que es puro software, las herramientas más habituales son, por ejemplo, la búsqueda en la web mediante un motor SEO, pero ya está disponible la creación y ejecución de programas python para la lectura y análisis de datos en una hoja excel o para la creación de gráficas de tipo líneas o histogramas. Y también es posible, claro, la invocación de APIs, por ejemplo de tipo REST.

En soluciones como las que ofrece Microsoft, esto se extiende de manera natural con la visión más tradicional de los conectores que permiten la interacción con todo tipo de formatos de ficheros y con todo tipo de aplicaciones (sistemas empresariales, correo electrónico, ofimática, etc) al estilo de lo que ocurre, por ejemplo, en soluciones RPA.


La 'sencilla' extensión a la inteligencia artificial física y la embodied AI.


Conseguido lo anterior, el salto al mundo físico parece evidente, casi trivial: basta con que entre esas herramientas incluyamos 'drivers' para interactuar con el mundo físico, para la lectura de sensores o para la acción sobre actuadores.

Es cierto que el mundo físico presenta dificultades propias y que, seguramente, en las implementaciones reales, aparezcan dificultades y retos, pero la integración está servida y, en el punto en que estamos, y al menos a nivel de arquitectura o esquema general, no parece complicada.

Si el salto al mundo físico ya está listo, el uso de esos modelos generativos razonadores y 'revitaminados' en soluciones de robótica o de Internet de las cosas, por ejemplo, está igualmente servido, aportando nuevas perspectivas de inteligencia y autonomía para ese tipo de soluciones y dando un nuevo salto, casi definitivo, al mundo físico.

Las perspectivas son apasionantes.


Conclusiones


En el cuarto salto en la transversalidad de la inteligencia artificial, nos encontramos con la unión natural, e integrada con otras muchos capacidades, del mundo físico, de sensores y actuadores, que nos abren enormes perspectivas en robótica e internet de las cosas.


Artículos de este blog relacionados

miércoles, 14 de mayo de 2025

La inteligencia artificial transversal (III): razonamiento y control

El aumento de transversalidad en la inteligencia artificial  no tiene lugar únicamente por una especie de fusión de diferentes enfoques de la misma como he revisado en los dos posts anteriores en que, por una parte, hablaba de la progresiva indiferenciación entre la inteligencia artificial generativa y la discriminativa (primer post de esta serie) y, por otro, de la unificación de modalidades en los mismos modelos o aplicaciones (objeto del segundo post).

Además, esa mayor transversalidad se produce por introducción de algunos elementos nuevos. Y uno de ellos, seguramente el principal, es el objetivo de este post: el control y el razonamiento.
 

Control


Aunque en este post uno el control y el razonamiento, quiero dedicar unas líneas a verlos por separado porque, aunque conceptualmente puedan unificarse, en la práctica se tienden a usar en contextos diferentes, aludiendo a funciones algo diferentes y con implementaciones también diferentes.

En ambos casos se refieren, de alguna forma, a la 'inteligencia' que gobierna un agente (por ejemplo, un robot, ya sea hardware o software), a aquella lógica que hace que ese agente, de alguna forma, tome decisiones lógicas conforme al estado del mundo, su propio estado y sus objetivos.

En general, el término control tiende a aplicarse a soluciones algo más modestas y, con frecuencia del mundo físico y de la automatización industrial.

Así, hablamos de control cuando como los mecanismos que mantienen una cierta variable (por ejemplo, una velocidad) en el punto deseado, mediante la utilización de un bucle de realimentación y un controlador de tipo PID.

Aunque no se suele utilizar la palabra control en ese ámbito, podríamos considerar también como una forma de control poco sofisticada, aunque muy eficaz, la estrategia de comportamientos reactivos ('behaviors'), es decir el establecimiento de pares estímulo-respuesta que se utilizan en algunos robots y que revisamos en el post titulado 'Comportamientos reactivos y los conceptos de inteligencia e inteligencia artificial'.

Por decirlo de alguna forma, lo que encuadro dentro del término 'control' (porque en la literatura con frecuencia se denomina así), son mecanismos de gestión de un agente que mantienen la coherencia de su comportamiento y la consecución de sus objetivos mediante mecanismos simples, estáticos y reglados.

Razonamiento


Aunque lo que denomino 'razonamiento' no deja de ser una forma de control, se trata de un control mucho más sofisticado, mucho más flexible y mucho más próximo al funcionamiento cognitivo humano.

En este caso, no tenemos un control o comportamiento estático y reglado sino que el agente traza un plan de actuación para conseguir un objetivo (ese plan no le viene dado como, de alguna forma, sucede en los mecanismos que he agrupado en la sección de 'control'). Y no sólo eso, es que además el agente es capaz de reaccionar y cambiar dinámicamente ese plan en función de los estímulos que recibe, de cómo cambia el estado de su entorno o cómo cambia su propio estado. 

Algunas formas de razonamiento se vienen aplicando en la inteligencia artificial desde hace muchos años, incluso en la inteligencia artificial simbólica. Razonamiento serían los motores de inferencia de los sistemas expertos, y razonamiento serían también los famosos algoritmos de búsqueda en un espacio de estados.

Pero hay importantes novedades en este campo del razonamiento.

Modelos razonadores


Y esas novedades vienen ¡cómo no! del campo de la inteligencia artificial generativa (una inteligencia artificial a la que probablemente, y como argumentaba en el primer artículo de esta serie, seguramente haya que ir pensando en quitarle el apellido de 'generativa').

Esa novedad son los modelos razonadores que, por ejemplo, OpenAI ha incorporado en su serie 'o' (como el recientemente lanzado o3), aunque ciertas capacidades de razonamiento venían en modelos anteriores.

En efecto, los modelos razonadores ya son capaces de trazar un plan y decidir unas acciones para conseguir el objetivo que normalmente le viene marcado por un 'prompt'. Y no sólo son capaces de trazar ese plan sino que, en función de los resultados que obtienen en cada paso de ese plan, pueden dinámicamente cambiarlo e ir decidiendo nuevos pasos. Los resultados, por cierto, a veces y curiosamente, se los da el modelo a sí mismo, pero en otros son el resultado de invocar a herramientas que les ponen en contacto con el exterior, por ejemplo, mediante una búsqueda en la web, mediante 'screen scraping', mediante creación y ejecución de programas python, mediante invocación a APIs, etc.


Los agentes (de la 'Agentic AI')


Y si mezclamos la capacidad de razonamiento (dinámico y autónomo) con la capacidad de interacción con el exterior mediante lo que habitualmente se denomina herramientas ('tools'), ya tenemos los ingredientes para construir los famosos agentes de la 'Agentic AI'.

Nota terminológica: recalco el apellido 'de la Agentic AI' porque el concepto de agente existe desde hace décadas (e incluso siglos) y, no sólo se ha utilizado fuera del ámbito tecnológico, sino que en la propia inteligencia artificial y la robótica, se viene empleando desde hace décadas y, de hecho, es definitorio del concepto de robot e, incluso, autores tan reconocidos como Russel y Norvig, en su famoso libro de texto 'Artificial intelligence. A modern approach', centran la propia definición de inteligencia artificial en la idea de agentes.

Lo novedoso de los agentes que ahora se han puesto de moda dentro del marco de la 'agentic AI', no es su concepto, que es el mismo de siempre, sino que ahora se está empezando a conseguir, y esa es la principal promesa, que puedan ellos mismos, los agentes, decidir el plan a ejecutar sólo con recibir un objetivo en forma de 'prompt' y que puedan decidir, así mismo, qué herramienta necesitan utilizar en cada momento y realizar su invocación.

En el fondo, la realización de los nuevos y poderosos agentes software, orbita en torno a estos modelos razonadores a que aludía más arriba. 


Conclusiones


La inteligencia artificial se hace más transversal, no sólo por la fusión de enfoques hasta ahora diferenciados, como discriminación versus generación, o el tratamiento de modalidades, sino también por la inclusión de nuevas capacidades entre las que destaca la posibilidad de razonamiento que nos conduce, de cabeza, a los así llamados agentes de la 'Agentic AI'..


Artículos de este blog relacionados

martes, 13 de mayo de 2025

La inteligencia artificial transversal (II): de la multimodalidad a la omnimodalidad

Este es el segundo post de la pequeña serie que quiero dedicar hacia la, al menos en mi opinión, evolución de la inteligencia artificial hacia un enfoque mucho más transversal aunque, como expliqué en el post anterior, prefiero no darle el nombre de 'general' y quedarme en ese 'transversal' que he mencionado.

En ese post anterior me centré en la difuminación de la frontera entre inteligencia artificial generativa y discriminativa. En este voy a hablar en cierto sentido de la multimodalidad pero, por razones que explicaré luego, prefiero en realidad llamarla omnimodalidad.


Modalidades


¿Qué es eso de las modalidades? Bueno, la definición no es sencilla del todo pero el concepto sí: los diferentes tipos de medios que manejamos. Con ejemplos se entiende aún mejor: una modalidad, la más básica en el caso de la inteligencia artificial y de los modelos de lenguaje, es el texto, el lenguaje natural. Otra modalidad es la imagen, otra el vídeo y otra el sonido, por ejemplo la música o la propia voz. 

En muchas modalidades podríamos entrar en disquisiciones sobre si, por ejemplo, el sonido es una modalidad en sí misma o si los diferentes usos del sonido (música, voz, avisos sonoros, etc) son modalidades diferentes. En el caso de la imagen, podríamos quizá querer distinguir, por ejemplo, entre una imagen artística y un diagrama (por ejemplo un histograma).

Incluso, en el caso del texto, podríamos plantearnos si hablamos de cualquier texto o si una modalidad es el texto de lenguaje natural y otra modalidad basada en texto (que en este caso sí que hay mucha diferencia) es el código fuente (python, HTML o lo que sea).

A efectos de lo que quiero tratar, en realidad esa distinción fina entre lo que es una modalidad o una variante de una modalidad, realmente me es irrelevante.

Lo que sí es cierto es que hay muchos medios, muchas manifestaciones de conocimiento y de información... y que la inteligencia artificial potencialmente, y no tan potencialmente, puede trabajar con ellas, tanto como información de entrada como de salida.


La multimodalidad, que ya está aquí


Hablar de multimodalidad no es más que hacer referencia a la capacidad por parte de un modelo o de una solución de inteligencia artificial, de trabajar con diferentes tipos de modalidades.

Y eso ya está aquí. Ya hay modelos y aplicaciones, bien conocidas, que generan imágenes a partir de texto, o que te etiquetan (modalidad texto) una imagen. Lo mismo sucede con el vídeo. También podemos generar música partiendo de un texto. Y así, otros muchos casos.

Es decir, la multimodalidad ya está aquí. En algún caso porque los propios modelos sin intrínsecamente multimodales (como sucede con muchos de los que gestionan texto e imagen) y en otros casos porque es la aplicación la que, recurriendo a varios modelos o a otra forma de complementos, logra mezclar varias modalidades en la solución final que se ofrece al usuario.

Es decir, como dice el título, la multimodalidad ya está realmente aquí.


La omnimodalidad y el porqué de ese nombre 


Aunque me parece perfectamente correcto el nombre de multimodalidad, prefiero no obstante emplear otro nombre, omnimodalidad, para referirme a la idea que quiero transmitir y que es más aspiracional en estos momentos.

Y es que, aunque ya hoy en día tenemos multimodalidad, ésta es todavía limitada. Quiero decir que los modelos o aplicaciones involucran un número limitado de modalidades (las más típicas texto e imagen) y en combinaciones más o menos cerradas.

Al hablar de omnimodalidad pienso en una evolución, una ampliación, en la disposición de modelos, o por lo menos aplicaciones, que ofreciesen todas o muchas de las modalidades posibles y en todas o muchas de las combinaciones que tuvieran sentido tanto en entrada como en salida.


La necesidad de superar el término 'gran modelo de lenguaje'


Esta idea de la multimodalidad, y no digamos nada la de omnimodalidad, supera con mucho la idea de un gran modelo de lenguaje. Ya lo hace, de hecho, incluso en la fase actual de multimodalidad. De hecho, creo que ahora mismo, el término 'gran modelo de lenguaje' es realmente incorrecto, o al menos, reduccionista. Cada vez más, los modelos son más y más transversales en modalidad y no es correcto quedarse sólo en el lenguaje, por más que sea su origen y un elemento esencial.

El nombre de modelo fundacional podría ser más adecuado, por más generalista, aunque, por motivos históricos, creo que tiene connotaciones de lenguaje. De todas formas, tal vez sea ese el término adecuado o, tal vez, debamos buscar otro (por ejemplo, 'modelo omnimodal')


Conclusiones


La inteligencia artificial actual no sólo es más transversal en cuanto a la dualidad discriminación-generación. También es más transversal en modalidades, siendo capaz de tratar y mezclar diferentes medios, todavía de una manera imperfecta, pero en camino hacia lo que se me ha ocurrido denominar 'omnimodalidad'.


Artículos de este blog relacionados

viernes, 9 de mayo de 2025

La inteligencia artificial transversal (I): más que una inteligencia artificial generativa

La inteligencia artificial se encuentra en ebullición, inmersa en continuos avances, mejoras y nuevas posibilidades. En ese camino, avanza hacia lo que voy a denominar, intencionadamente, transversalidad, en lugar de emplear el término más habitual, generalidad, por razones que explicaré.

Voy a dedicar una corta serie de posts a revisar en qué sentidos se está produciendo esa transversalidad. En este primer post, comienzo hablando del borrado de la barrera entre la inteligencia artificial generativa y la inteligencia artificial discriminativa.


La aspiración a una inteligencia artificial general


Antes, explico la elección de la palabra transversalidad en lugar de emplear 'generalidad', que sería la elección más sencilla.

Entre las viejas (aunque muy actuales) aspiraciones de la inteligencia artificial, está la de emular la inteligencia artificial humana. La inteligencia humana, aparte de otras maravillosas y asombrosas características, exhibe la generalidad, es decir, la capacidad de abordar con éxito todo tipo de tareas, desde  la lectura al cálculo mental, desde tareas inconscientes como las ligadas a la percepción, la homeostasis o el control del movimiento, hasta tareas conscientes como la resolución de ecuaciones, la planificación de un viaje, o la realización de un diagrama de bloques para expresar una idea.

El mismo cerebro, el mismo y asombroso cerebro, vale para todo. Como diría mi abuela, que en paz descanse, vale 'lo mismo para un roto que para un descosido'.

Y la aspiración, fascinante al tiempo que intimidante, y quizá aterradora, sería que la inteligencia artificial hiciese lo mismo. 

Ya hace muchos años se acuñó la diferenciación entre inteligencia artificial fuerte e inteligencia artificial débil. La inteligencia artificial fuerte sería esa inteligencia artificial de propósito general, similar a la humana, mientras que la inteligencia artificial débil sería la que se concentra en problemas concretos, problemas que puede resolver muy bien, con frecuencia mejor que un humano, pero muy acotados en alcance. 

Y la inteligencia artificial, la que hemos tenido desde su nacimiento, la que en el fondo tenemos ahora mismo, es inteligencia artificial débil.

Sin embargo, hay que reconocer, que la inteligencia artificial ha avanzado en los últimos tres o cinco años en el camino de la generalización. Por decirlo de alguna forma, sigue siendo débil.. pero menos.


Una inteligencia artificial transversal


Si, avanza hacia la generalidad. Es cierto.

Sin embargo, prefiero no utilizar el término "general" y, por tanto, no subirme al carro de la denominación AGI ('Artificial General Intelligence'), a pesar de que, como término, me gusta, porque tienen connotaciones que prefiero evitar.

Si hablamos de una inteligencia artificial general, creo que directamente nos lleva a pensar en una inteligencia artificial fuerte y ya, si nos 'ponemos estupendos', en la famosa singularidad.

A pesar de los formidables avances a que hemos asistido en la inteligencia artificial en los últimos años, y a pesar de que, probablemente, podamos ser optimistas en cuanto a sus perspectivas de avance en los que están por venir, me parece que aún estamos muy lejos, mucho, de una auténtica inteligencia artificial fuerte. Así que mejor no utilizar una palabra que sugiere que estamos llegando a esa inteligencia artificial fuerte.

Pero es preciso reconocer que la inteligencia artificial se está 'generalizando' (de hecho eso es sobre lo que quiero reflexionar en la serie de posts que anunciaba al principio).

Para reflejarlo, para recoger esos avances hacia la generalidad, de momento, y sujeto a revisión, elijo el término 'transversalidad'. No es que me guste ni mucho ni poco, pero creo que me permite expresar la idea sin utilizar AGI.

Hecho este apunte, volvamos al tema principal de este post: el borrado de la frontera entre generativa y discriminativa.


Inteligencia artificial generativa vs discriminativa


No sé, realmente, cuando se acuñó el término 'inteligencia artificial discriminativa' pero yo fui consciente de él, y comencé a utilizarlo en ciertas charlas y clases, a partir del 'boom' de ChatGPT y con él de toda la inteligencia artificial generativa.

Claro, para explicar lo que significaba ese apellido "generativa" necesitabas contraponerlo con la inteligencia artificial que no era generativa, y que se denominó "discriminativa'.

En el fondo, no era difícil explicar lo que era la inteligencia artificial generativa, una inteligencia artificial orientada a la creación (generación) de contenido nuevo, inicialmente texto e imágenes y posteriormente casi cualquier tipo de medio. La creación de imágenes o noticias, por ejemplo, mediante inteligencia artificial, era generativa.

Frente a eso, la discriminativa, de alguna forma, se orienta al análisis de informaciones, y no a su generación. Así, la realización de modelos predictivos, el reconocimiento facial o el análisis de sentimiento de un texto, son tareas discriminativas. 


La generativa se hace también discriminativa


Bueno, pues uno de los pasos que creo que se está dando hacia la transversalidad es la eliminación de la barrera entre discriminativa y generativa

Desde un punto de vista descriptivo o teórico de casos de uso podemos, si queremos, mantener la distinción. Pero si bajamos a su realización técnica, esas barreras están desapareciendo a pasos agigantados.

Los modelos y arquitecturas creadas para tareas generativas, los 'Transformers', los GPTs, Los BERT o los modelos de difusión, han demostrado, y siguen demostrando, que se pueden usar tanto para tareas de generación como de discriminación.

Así, con un modelo de lenguaje tipo GPT o similar, podemos crear nuevo texto, claro, pero también podemos hacer un análisis de sentimiento o un análisis sintáctico, tareas claramente discriminativas, o el resumen de un texto o su traducción a otro idioma, tareas que considero que están a medio camino entre la discriminación y la generación, pero que ya habían sido abordadas por la inteligencia artificial discriminativa.

Igualmente, en el caso de imágenes, podemos, por ejemplo, basándonos en modelos de difusión, crear imágenes o incluso vídeos originales, es decir, tareas netamente generativas, pero también podemos asignarle una etiqueta o descripción a una imagen, tareas que considero discriminativas más que generativas. 


En busca de un nuevo término


Creo que esas barreras entre discriminativa y generativa son ya muy difusas y, probablemente, acaben desapareciendo. Así que, quizá, debamos olvidarnos de hablar de discriminativa y generativa y buscar un tercer término.

O quizá, mejor aún, haya que eliminar los 'apellidos' y volver a hablar, simplemente, de inteligencia artificial, una inteligencia artificial cada vez más potente y, si, más transversal.


Conclusiones


La inteligencia artificial avanza hacia la transversalidad, hacia la capacidad de abordar mayores alcances. En ese camino, uno de los pasos que se da es la eliminación de fronteras entre la inteligencia artificial discriminativa y la generativa.

En próximos posts, veremos otros pasos adicionales.

viernes, 2 de mayo de 2025

El nacimiento de Microsoft contado por el propio Bill Gates

'Código fuente: mis inicios' es una autobiografía de Bill Gates que cubre sólo la primera etapa de su vida, desde la niñez hasta el nacimiento y primeros pasos de Microsoft, siendo, si no me equivoco, 1977 el último año en que se desarrolla la acción. No recoge, pues, para nada, la parte principal de la historia de Microsoft, y no llega a hablar de Windows, y ni siquiera del MS-DOS.

Durante gran parte del libro, de hecho, el foco es más el propio Bill Gates, su abuela, sus padres, su hermana, sus profesores y primeros amigos y, en fin, sus experiencias, infantiles y juveniles. Nos narra su infancia más temprana e, incluso, en algún momento se remonta más atrás para referirse a la historia de sus padres y abuela.

El propio Gates nos ofrece una imagen de sí mismo como un niño de personalidad algo rara y difícil, no buen estudiante a pesar de su inteligencia. De su etapa escolar destaca todo lo relativo a su estancia en Lakeside donde, aparte de la influencia en su formación, y su afortunado acceso a una computadora, algo nada habitual en la época, se destacan algunos amigos que serían importantes para el resto de su vida, y para la propia Microsoft, como es el caso de Paul Allen.

En lo relativo al nacimiento de Microsoft y al desarrollo de la informática y los ordenadores personales, Gates nos traslada a una época donde la informática era desconocida salvo por unos pocos. Nos habla del desarrollo del lenguaje Basic, de la empresa MITS y su ordenador Altair o de los ordenadores PDP y desarrolla una narrativa donde la tecnología y el propio negocio tenían tintes casi heroicos, más de aficionados que de profesionales, muy dependiente de las personas y las individualidades, de sus esfuerzos, su visión y sus genialidades, sin olvidar los toques de pura suerte.

Haya o no algo de teatralización en esa narrativa, es sin embargo muy interesante recordar y conocer detalles del nacimiento de la informática y del ordenador personal, una revisión del pasado que en cierto sentido me ha traído un pequeño ataque de nostalgia, aunque la narración se detiene un poco antes de la época en que yo conocí ya de primera mano los avances en esa informática y ese mundo que entonces todavía no se llamaba digital, aunque lo fuese.

A pesar de tratarse de unas memorias, el estilo de redacción es bastante directo y austero, sin excesivas concesiones a la sensiblería, aunque sí hay pasajes de una cierta emoción, como el que se refiere a la muerte de su amigo Kent.

Cada capítulo se inicia con una fotografía, en general del propio Bill Gates, en la época a que se refiere el capítulo y, con frecuencia, relacionada con lo que en él se relata.

De redacción modesta, sin excesiva calidad literaria, 'Código fuente: mis inicios' tiene sin embargo, nostalgia y curiosidad aparte, el valor del testimonio de uno de los grandes personajes de nuestra época, y uno de los grandes protagonistas e impulsores de la sociedad digital en que nos encontramos inmersos.

Bill Gates

(Fuente: Entrada en Wikipedia en español)

Bill Gates
William Henry Gates III (Seattle, 28 de octubre de 1955), conocido como Bill Gates, es un magnate empresarial, desarrollador de software, inversor, autor y filántropo estadounidense. Es cofundador de Microsoft, junto con su difunto amigo de la infancia Paul Allen. Durante su carrera en Microsoft, Gates ocupó los cargos de presidente, director ejecutivo (CEO), presidente y arquitecto jefe de software, además de ser el mayor accionista individual hasta mayo de 2014. Fue uno de los principales empresarios de la revolución de las microcomputadoras de las décadas de 1970 y 1980.

Su fortuna se calcula en 129.000 millones de dólares (2023) según la revista Forbes, hecho que lo colocó como el cuarto hombre más rico del mundo. Antes del estallido de la burbuja de las punto com, su patrimonio neto ascendió a 114.100 millones de dólares, lo que lo convirtió en la décima persona más rica en toda la historia de la humanidad.​

Es uno de los empresarios más conocidos que surgieron durante los inicios de los ordenadores personales. Ha sido criticado por sus tácticas de negocios, que han sido consideradas anticompetitivas, una opinión que en algunos casos ha sido mantenida por numerosas sentencias judiciales.

Estuvo casado con Melinda Gates, con quien comparte la presidencia de la Fundación Bill y Melinda Gates, dedicada a reequilibrar oportunidades en salud y educación a nivel local, aunque también ha participado en otros países. Por ejemplo, en Nigeria con el programa para erradicar la polio, razón por la cual han sido galardonados con el Premio Príncipe de Asturias de Cooperación Internacional 2006.

Bill Gates nació el 28 de octubre de 1955.[10]​ Es hijo de William H. Gates Sr., un destacado abogado, y de Mary Gates, profesora y rectora d​ela Universidad de Washington, y directora del First Interstate Bank. Con ellos y su hermana, dos años mayor, vivió en la ciudad de Seattle, en el estado de Washington. A nivel familiar, lo apodan, "Trey": William the Third.​

Hasta sexto grado fue alumno regular de un colegio público. Cursó estudios en la escuela privada de élite de Lakeside, en Seattle. Esta escuela tenía ya una computadora en el año 1968, lo que le permitió a Gates tomar contacto con la máquina y aficionarse a la informática. También en Lakeside conoció a Paul Allen, con quien más tarde fundaría Microsoft.

El 4 de abril de 1975, siendo aún estudiante en la Universidad de Harvard, crea la empresa de software Microsoft. En 1976 abandonó la universidad y se trasladó a Albuquerque, sede de MITS, para pactar con esa empresa la cesión del 50 % del lenguaje para computadoras Basic. Al año siguiente, se enteró del éxito de la empresa Apple y de que necesitaban un intérprete de Basic.

En 1980, se reunió con representantes de IBM en Seattle. Ellos querían contar con el sistema operativo CP/M. Él les comento de la existencia de una versión adaptada llamada QDOS u 86DOS, comprometiéndose a conseguir una licencia no exclusiva a fin de adaptarla. Con ello, consiguió venderles la idea del sistema operativo MS-DOS, sin contar con esta, comprando la 86DOS a muy bajo precio al joven programador Tim Paterson. IBM necesitaba ese sistema operativo para competir con Apple, razón por la cual la negociación fue flexible. Microsoft quiso los derechos de licencia, mantenimiento, e incluso la facultad de vender el DOS a otras compañías. IBM aceptó, considerando que lo que produciría dividendos sería el hardware y no el software. Unos días después, Microsoft compró los derechos de autor del QDOS a Tim Paterson, que trabajaba para la Seattle Computer Products, por 50.000 dólares, que vendió a IBM como MS-DOS (Microsoft DOS). Lo que llama poderosamente la atención fue que IBM no comprara el MS-DOS sino que decidiera pagar a Microsoft un canon por cada copia que se vendiera junto con un IBM-PC.

Consciente de la importancia del entorno gráfico que había mostrado Apple (originalmente la interfaz gráfica y el «ratón» fueron desarrollados por Xerox PARC) en su ordenador Lisa, se propuso conseguir también el entorno gráfico y el «ratón» para operarlo. Mientras, Steve Jobs, fundador de Apple, iniciaba el desarrollo del Macintosh, Bill Gates visitó Apple. Ofrecía mejorar sus hojas de cálculo y otros programas. Amenazaba con vender su material informático a IBM, con lo que obtuvo una alianza Apple-Microsoft. Microsoft obtuvo legalmente la tecnología del entorno gráfico y del ratón, y sacó al mercado Microsoft Windows, como directo competidor de Macintosh.

Desde comienzos de siglo, el sistema operativo Microsoft Windows (en todas sus versiones) se utiliza en la mayor parte de ordenadores personales del planeta

Puedes saber más del autor, visitando su página Gates Notes, consultando su perfil en LinkedIn o siguiéndole en X donde se identifica como @BillGates.

Ficha técnica:


AUTOR: Bill Gates
EDITORIAL: Plaza & Janés
AÑO: 2025 
ISBN: 978-8401036064
PAGINAS: 368 

viernes, 25 de abril de 2025

El machine learning como fenomenología y la renuncia al conocimiento

El último post de este blog, el titulado ''Lingüistas frente a inteligencia artificial' comentaba cómo, en las primeras épocas del procesamiento del lenguaje natural, los algoritmos se basaban mucho en conocimiento lingüístico, en reglas de ese campo y, por tanto, se precisaba de la participación de lingüistas. Y cómo, sin embargo, con la evolución tecnológica del campo, con su apoyo en modelos estadísticos y, más aún, con modelos procedentes del deep learning, se prescindía de esas reglas a priori, de ese conocimiento de los lingüistas haciendo, en su lugar, que los propios modelos, durante su entrenamiento, aprendiesen los patrones y modelos subyacentes al lenguaje, con lo que se ponía en cuestión el papel de los lingüistas.

Este post es, en cierto sentido, una continuación o, más bien, una generalización del anterior, aunque en este caso lo voy a conectar con la ciencia y, sobre todo, con la filosofía.


Eso de la fenomenología


Y en efecto, utilizo, espero que de una manera no demasiado forzada, el término fenomenología procedente tanto del campo de la filosofía y que me he encontrado con cierta frecuencia en lecturas, por ejemplo, de roboética

Edmund Husserl

Investigando un poquito para este post, descubro que, aunque el término fenomenología se ha utilizado frecuentemente en filosofía (y no siempre en el mismo sentido), quien le dio relevancia y quien, podemos decir, dio forma a la manera más generalizada de entender el término, fue el filósofo Edmund Husserl, maestro, por cierto, de Heidegger, uno de los filósofos que trabajo la filosofía de la tecnología (o la técnica). 

Como ocurre con la filosofía alemana de la época, la verdad es que el tratamiento parece abstracto y complejo pero, intentando encontrar su esencia y expresarla de manera sencilla, y además de una manera que justifique cómo la utilizo en este post, he entresacado este párrafo procedente de la entrada sobre fenomenología en Wikipedia. donde, tras hacer constar que no todos los filósofos tienen una visión unitaria del concepto, lo que sí sucede es que:


todos los fenomenólogos comparten la búsqueda de un conocimiento que apela exclusivamente a la experiencia evidente, carente de hipotetización y modelos conceptuales del mundo


Y no pude, o no quise, dejar de consultar a ChatGPT pero 'rogándole' que explicase el término de forma muy sencilla... y esto es parte de lo que 'me dijo'


La fenomenología en filosofía se puede explicar de forma muy sencilla como el estudio de cómo experimentamos el mundo. Es decir, no se enfoca en cómo son las cosas en sí mismas, sino en cómo se nos aparecen o se nos presentan en la conciencia.


Estos dos párrafos recogen lo que quiero decir con fenomenología, pero, y dado que es un término también utilizado en el mundo de la ciencia, entresaco, también de Wikipedia, este parrafito:


El término fenomenología se utiliza para describir un cuerpo de conocimiento que relaciona entre sí distintas observaciones empíricas de fenómenos, de forma consistente con la teoría fundamental, pero que no se deriva directamente de la misma.


En el fondo, y espero no estar desacertado, con el término fenomenología quiero referirme al fijarse en las manifestaciones externas de objetos y entidades prescindiendo de intentar explicar su naturaleza o leyes internas. Sólo la manifestaciones externas.


IA simbólica versus machine learning


La inteligencia artificial simbólica se apoyaba en la representación explícita del conocimiento del dominio de que se tratase, y de reglas, a veces heurísticas, que gobernaban ese dominio. Así se hacía en los otrora exitosos y hoy casi olvidados sistemas expertos.

Así se hacia, en el fondo, con el procesamiento de lenguaje natural y la lingüística computacional en sus primeras fases, tal y como exponía en el post anterior.

Pero el machine learning, el paradigma dominante de la inteligencia artificial actual, no intenta tener un conocimiento a priori de un dominio. Lo que se hace es, durante el entrenamiento, darle datos, digamos que darle 'ejemplos', al algoritmo, para que sea él propio algoritmo el que descubra los patrones y leyes subyacentes. Pero que los descubra por sí mismo, sin que ningún humano, 'le explique' qué leyes rigen el dominio. Es más, con mucha frecuencia el humano no conoce realmente cuáles son esas leyes. Aún más, con cierta frecuencia está fuera del alcance humano entender completamente las leyes que el algoritmo descubre.


Machine learning y fenomenología


Así las cosas, podemos decir que, cuando usamos machine learning, y muy especialmente cuando hablamos de los grandes modelos de deep learning, especialísimamente los grandes modelos de lenguaje o los modelos fundacionales, nos fijamos en el dominio, por ejemplo el lenguaje, pero 'pasamos' de sus leyes y de su naturaleza y nos fijamos sólo en cómo se manifiesta (en libros o páginas web, por ejemplo). 

Es decir, prescindimos de formular hipótesis o modelos conceptuales y, en su lugar, observamos empíricamente' (bueno, nosotros no, el algoritmo) el dominio sobre el que trabajamos.

¿No es ese un enfoque fenomenológico? 


Una posible renuncia al conocimiento


Bueno, más allá de si realmente hablar de fenomenología en el caso que lo hago es acertado o no, de si estoy forzando el término o no, de si lo estoy entendiendo bien o no, lo que es indudable es que, cuando usamos los algoritmos más avanzados de machine learning, no partimos de leyes y modelos a priori, sino de manifestaciones (datos) de lo que aspiramos a modelar.

Y no es sólo que no partamos de leyes, es que con mucha frecuencia, y esto es 'parte de la gracia' del machine learning, ni siquiera las conocemos. Y, aún más, dado que los modelos de deep learning modernos son muy grandes, muy poco intuitivos, y muy alejados, 'en su razonamiento', del razonamiento consciente humano, realmente cuando el modelo de deep learning ha acabado su labor de aprendizaje, cuando ese  modelo ha encontrado ya el modelo del dominio, nosotros, los humanos, seguimos sin conocer cuáles son las leyes que rigen ese dominio.

Es decir, no aportamos conocimiento del dominio antes del entrenamiento y nos quedamos sin entender el modelo final que abstrae con éxito el modelo.

En cierto modo, hemos renunciado al conocimiento y nos conformamos con el modelo y el algoritmo lo adquieran de alguna manera, aunque no la entendamos, y luego hagan predicciones correctas o proporcionen respuestas correctas.

Hemos renunciado al conocimiento.


Y sin embargo...


Bueno, o no.

Es cierto que, en muchos casos, adoptamos una visión práctica y priorizamos simplemente el que el modelo sea útil, que nos aporte soluciones, que funcione. Sólo eso. No conocimiento.

Pero también es cierto que los resultados obtenidos en un modelo nos pueden hacer intuir, o más que intuir, cómo es el fenómeno real que hay detrás.

También es cierto que, por ejemplo, las soluciones analíticas, nos pueden ayudar a entender mejor nuestro negocio o a los mercados.

También es cierto que los chatbots basados en modelos fundacionales, como ChatGPT nos ayudan, y mucho, a precisamente trabajar en el ámbito del conocimiento, sirviéndonos como copilotos en tareas de aprendizaje o análisis.

También es cierto, en fin, que los modelos de machine learning nos pueden ayudar a entender los propios procesos cognitivos humanos y la naturaleza de nuestro cerebro, nuestro pensamiento y nuestro aprendizaje y ese es un campo real de investigación.

Aunque, en cierto sentido, en machine learning se adopta ese enfoque fenomenológico, y metodológicamente renunciamos a trabajar con las leyes que rigen un cierto campo, eso no debe ser, no tiene por qué ser, una barrera para nuestra propia adquisición de conocimiento. 

Está en nuestras manos adquirir más y más conocimiento con y sin machine learning. Y eso no hay tecnología, metodología ni corriente filosófica que pueda, ni quiera, impedírnoslo.


Conclusiones


La forma de hacer inteligencia artificial en el caso del machine learning, renuncia a aportar a priori un conocimiento interno del dominio o modelo a tratar, sino que es el algoritmo quien lo descubre. Eso sí, una vez descubierto, es difícil de entender a para los humanos.

Aún así, podemos y debemos enriquecer nuestro conocimiento y las herramientas de machine learning en el fondo nos ayudan a ello.

Lejos de convertirse en una renuncia, pueden ser un gran facilitador.