jueves, 22 de mayo de 2025

La inteligencia artificial transversal (y V): un nuevo paradigma

En los cuatro posts anteriores he revisado cuatro aspectos que hacen que, a mi modo de ver,  la inteligencia artificial haya dado en los últimos años (diría que en los últimos tres años) grandes pasos hacia una visión más transversal y a que, quizá, estemos ante un nuevo paradigma de inteligencia artificial.


Este es simplemente un post de recapitulación de lo visto y de sencilla reflexión sobre ello.


Recapitulando: los cuatro pasos hacia la transversalidad


Aunque no deja de ser una valoración personal, creo que existen cuatro vectores de evolución (con realizaciones ya conseguidas) de la inteligencia artificial hacia la transversalidad, cada uno de los cuales han ocupado un post de esta serie.

El primer paso es el borrado de la diferenciación entre inteligencia artificial generativa y discriminativa. Aunque, en efecto, los modelos generativos se diseñaron y construyeron pensando inicialmente en la generación de contenido nuevo (fundamentalmente texto e imágenes) y aunque, algunos modelos y arquitecturas generativas están exclusivamente orientadas a esa generación, lo cierto es que las arquitecturas dominantes, basadas fundamentalmente en el modelo transformer y en los modelos de difusión ya se utilizan tanto para tareas generativas como discriminativas, y apostaría a que se va a seguir avanzando en esa dirección.

El segundo paso es el de la mezcla de las diferentes modalidades (texto, imagen, vídeo, música, código, etc) en un solo modelo o aplicación. Esto es lo que se suele denominar multimodalidad pero, en mi post sobre el tema, preferí adoptar el nombre de omnimodalidad con la idea de ir más allá de la situación actual. En las soluciones multimodales actuales se tiende de mezclar pocas modalidades. Con frecuencia, aunque no únicamente, una de ellas es el texto y otra es imagen, video o música. Cuando hablo de omnimodalidad estoy pensando en una mezcla íntima de todo tipo de modalidades en un solo modelo o solución. Y ahí, hasta donde yo sé, no hemos llegado y no tengo claro si 'lo tenemos a punto de caramelo' o, por el contrario, es algo muy complejo y que puede tardar en llegar.

En el tercer vector entrábamos en el campo del razonamiento. La algoritmia dedicada a formas de razonamiento, planificación y toma de decisiones han estado, en general y hasta ahora, apartados de campos como la analítica o la percepción (aunque, por ejemplo, en robots móviles es imprescindible complementar la planificación con feedback perceptivo). Así, esquemas como los ya obsoletos sistemas expertos o los algoritmos de búsqueda en un espacio de estados son como mundos aparte de los modelos discriminativos y generativos. Con la aparición de los modelos razonadores, como la serie 'o' de OpenAI, el mismo modelo / solución es capaz ya de actuar como un modelo generativo y discriminativo, y también se añade el razonamiento y la planificación. Este tema del razonamiento es candente y en plena ebullición en el momento en que esto escribo, por lo que creo que caben esperar avances, puede que incluso espectaculares, en las próximas semanas y meses.

Finalmente, y como último vector de generalización, y todavía casi más como planteamiento que como grandes resultados, tenemos la inteligencia artificial física o 'embodied AI', la unión de lo físico y lo lógico, lo analógico y lo digital. En realidad, la unión en soluciones de inteligencia artificial con robótica, por ejemplo, se viene haciendo desde hace años, pero en general la parte de inteligencia artificial se concentra en módulos concretos, por ejemplo, relacionados con la percepción (notablemente visión artificial), en la analítica predictiva a partir de datos ya generados (como en aplicaciones de mantenimiento predictivo) o últimamente, la frecuente interfaz mediante lenguaje natural y voz. Pero no hay una integración sin costuras ('seamless' como se dice en inglés) sino, simplemente, la integración de módulos. Sin embargo, la idea de las herramientas ('tools') en el mundo de la agentic AI, una idea que, en realidad, es casi lo mismo que los conectores 'de toda la vida' usados por ejemplo en RPA, unido a la existencia de modelos razonadores, abre la puerta a una arquitectura integrada de modelo generativa/discriminativo, razonador y con posibilidades de interacción con el mundo físico tanto en lectura a partir de sensores como en escritura mediante actuadores. Es cierto que la interacción con el mundo físico y analógico impone problemáticas de toda índole (imperfecciones, ruido, errores, etc) que hacen que, aunque esa integración de lo físico sea arquitectónicamente casi trivial en el punto que estamos, en la práctica pueda no ser tan sencillo conseguir soluciones sofisticadas efectivas y que funcionen de forma correcta y fiable


Un nuevo paradigma


Creo que, con todo lo anterior, la evolución de la inteligencia artificial de los últimos años, supone un nuevo paradigma sobre cómo crear y aplicar la inteligencia artificial. Un paradigma que se apoya en variantes del modelo transformer y que dada su transversalidad y potencia creo que hará, está haciendo ya, obsoletos los modelos que se han utilizado hasta hace bien poco (y todavía en uso) a los que, presumiblemente, sustituirá casi completamente, salvo quizá en analítica inteligente.

Y un paradigma al que, precisamente por su transversalidad, puede ser muy difícil desplazar salvo que suceda algún salto cualitativo que cualquiera sabe cuando se puede producir (puede que dentro de nada o puede que dentro de mucho). Sólo se me ocurre a corto plazo que puedan existir soluciones alternativas en elementos muy de nicho, precisamente porque ene se nicho y para algo muy concreto, otro tipo de modelo pueda dar mejores resultados.


No hablo de AGI 


OpenAI declara que camina hacia la AGI ('Artificial General Intelligence') y aunque resulta arriesgado negarle la posibilidad de que lo consiga, dado todo lo que ha demostrado en los últimos años, mi sensación es que esa AGI es un objetivo muy lejano, caso de que se pueda conseguir.

Me explico: ya hemos visto que si, hay grandes pasos hacia la transversalidad, y resulta más que creíble que en los próximos meses y años veamos nuevos avances, seguramente algunos espectaculares, y que nos conduzca a soluciones que, realmente, parezcan de una inteligencia general y comparable y en muchos aspectos superior a la humana.

Pero no creo que estemos, al menos todavía, en los umbrales de la inteligencia artificial fuerte. No creo que estemos ante una inteligencia artificial capaz de atender a todo lo que atiende y a todo lo que se puede adaptar una inteligencia humana. Problemas como el de la semántica (el 'grounding') estamos muy lejos de revolverlo, los mecanismos de aprendizaje de la inteligencia artificial son, en este momento, y comparados con los mecanismos humanos, tremendamente simples e ineficientes y así muchos otros temas.

Y como no creo que estemos realmente ante una inteligencia artificial realmente fuerte, y como el término AGI a mi me sugiere (y no creo que solo a mi) una inteligencia artificial fuerte, prefiero evitar ese término para referirme a los avances actuales y previsiblemente futuros, en materia de generalización. 

Y, por eso, prefiero hablar de una inteligencia artificial transversal, más que general.


Conclusiones


Sin duda, la inteligencia artificial ha dado unos pasos de gigante en los últimos años, unos pasos de gigante que la convierten en una inteligencia artificial no sólo mucho más potente, sino también más transversal, con modelos más generalistas.

Y unos pasos que no sólo se han dado en el pasado reciente sino que se están dando ahora mismo, y seguro que se darán en el futuro.

No creo que eso suponga, realmente, al menos por el momento, una inteligencia artificial fuerte, pero sí una inteligencia artificial mucho más poderosa y mucho mas transversal.


Artículos de este blog relacionados

miércoles, 21 de mayo de 2025

La inteligencia artificial transversal (IV): embodied AI y el salto a la robótica e IoT

En los tres posts anteriores de esta serie, he mostrado tres formas en que creo que la inteligencia artificial está abandonando un poco la visión de inteligencia artificial débil para convertirse en una inteligencia artificial más transversal, que no general: la superación de la división discriminativa-generativa, la omnimodalidad y la inclusión de razonamiento.

En este cuarto, y casi último post (haré sólo otro artículo a modo de recapitulación y conclusiones), abordo una de las últimas grandes tendencias: la inteligencia artificial física o 'embodied AI', es decir, el salto de la inteligencia artificial al mundo físico.


Una vieja aspiración y una vieja 'tendencia'


En realidad, la conexión entre inteligencia artificial y el mundo físico, muy especialmente en la robótica, no es algo nuevo, sino algo muy antiguo y, de hecho, y aunque esto sea sólo a título anecdótico, cuando intentamos representar en una imagen la inteligencia artificial, habitualmente recurrimos a la imagen de un robot, es decir, algo plenamente físico.

Es cierto que muchas de las apariencias de 'inteligencia' presentes en los robots, se alcanza por mecanismos que nada tienen que ver con la inteligencia artificial, notablemente mediante la implementación de pares estímulo-respuesta, los denominados comportamientos ('behaviors') que simulan de manera más que exitosa los comportamientos reflejos de los seres vivos.

Pero la inteligencia artificial está presente en la robótica desde hace años o décadas. Así, capacidades cognitivas basadas en inteligencia artificial, como la visión artificial, se emplean desde hace muchos años en robótica para tareas relativamente simples, como la detección de defectos en piezas. Aunque no sea realmente robótica, formas específicas de inteligencia artificial como el OCR son comunes en los parkings para el reconocimiento de matrículas.

En los últimos años, y más orientado hacia robótica social, la inclusión de capacidades de tratamiento de voz y de lenguaje natural, son casi comunes tanto en soluciones software como en robots físicos u otro tipo de máquinas.

Y qué decir del vehículo autónomo, una forma especializada de robot, en cuyo software hay 'toneladas' de inteligencia artificial, no sólo para percepción, sino también para planificación y navegación.

En el campo más del internet de las cosas, ya desde hace años, es relativamente común el uso de modelos predictivos para soluciones como el mantenimiento predictivo en que se aplican modelos de machine learning sobre los datos del mundo físico recogidos mediante sensores. 

Si, la hermandad de la inteligencia artificial con la robótica y otras máquinas físicas viene desde muy atrás.

¿Qué hay de nuevo, entonces?


Lo que hay de nuevo


En realidad, lo nuevo es precisamente la transversalidad, la integración de esta orientación física con modelos que hacen muchas más cosas.

En todas las soluciones que he mencionado en la sección anterior se utiliza la inteligencia artificial combinada con el mundo físico en soluciones de robótica, internet de las cosas y mas, pero se hace un poco 'en el estilo' de la inteligencia artificial débil, es decir, hay módulos inteligentes que se encargan de una tarea muy específica y sólo de esa.

La novedad es que ahora, la interacción con el mundo físico se integra de manera mucho más íntima, más natural, en modelos de inteligencia artificial que valen para muchas otras cosas.


Agentes de la Agentic AI y razonamiento


Y para entenderlo, hay que recordar brevemente qué son estos nuevos agentes de que nos habla la 'Agentic AI'. Vimos en el post anterior cómo estos agentes, implementan en modelo tradicional de agente usando como mecanismo de control un modelo de los que llamamos generativos o grandes modelos de lenguaje (aunque en los artículos anteriores de esta serie, y precisamente por su transversalidad, sugiero que habría que denominarlos con otro término).

Dado que usamos modelos generativos, estamos implementando agentes con las mismas soluciones que utilizamos para procesamiento de lenguaje natural o creación de imágenes.

Pero, además, y como vimos en el post anterior, estos modelos son ya del tipo 'razonador', es decir, capaces de crear, seguir y modificar dinámicamente planes de acción, razonando a partir de lo que van encontrando y en busca de satisfacer un objetivo. El salto que esto supone para la inteligencia artificial en general y para sus posibilidades de traslación al mundo físico es, en mi opinión, enorme.

Disponemos ya hoy en día (aunque incipientes y evolucionando y mejorando) de esos modelos capaces de 'razonar' dinámicamente y 'decidir' de forma autónoma.


Agentes y herramientas


El último ingrediente, o casi último, es la inclusión de lo que se suele denominar herramientas ('tools'). Las herramientas son algo así como módulos que el modelo, o elagente, puede invocar y que extienden sus capacidades, típicamente de conexión con el mundo exterior.

En la inteligencia artificial que es puro software, las herramientas más habituales son, por ejemplo, la búsqueda en la web mediante un motor SEO, pero ya está disponible la creación y ejecución de programas python para la lectura y análisis de datos en una hoja excel o para la creación de gráficas de tipo líneas o histogramas. Y también es posible, claro, la invocación de APIs, por ejemplo de tipo REST.

En soluciones como las que ofrece Microsoft, esto se extiende de manera natural con la visión más tradicional de los conectores que permiten la interacción con todo tipo de formatos de ficheros y con todo tipo de aplicaciones (sistemas empresariales, correo electrónico, ofimática, etc) al estilo de lo que ocurre, por ejemplo, en soluciones RPA.


La 'sencilla' extensión a la inteligencia artificial física y la embodied AI.


Conseguido lo anterior, el salto al mundo físico parece evidente, casi trivial: basta con que entre esas herramientas incluyamos 'drivers' para interactuar con el mundo físico, para la lectura de sensores o para la acción sobre actuadores.

Es cierto que el mundo físico presenta dificultades propias y que, seguramente, en las implementaciones reales, aparezcan dificultades y retos, pero la integración está servida y, en el punto en que estamos, y al menos a nivel de arquitectura o esquema general, no parece complicada.

Si el salto al mundo físico ya está listo, el uso de esos modelos generativos razonadores y 'revitaminados' en soluciones de robótica o de Internet de las cosas, por ejemplo, está igualmente servido, aportando nuevas perspectivas de inteligencia y autonomía para ese tipo de soluciones y dando un nuevo salto, casi definitivo, al mundo físico.

Las perspectivas son apasionantes.


Conclusiones


En el cuarto salto en la transversalidad de la inteligencia artificial, nos encontramos con la unión natural, e integrada con otras muchos capacidades, del mundo físico, de sensores y actuadores, que nos abren enormes perspectivas en robótica e internet de las cosas.


Artículos de este blog relacionados

miércoles, 14 de mayo de 2025

La inteligencia artificial transversal (III): razonamiento y control

El aumento de transversalidad en la inteligencia artificial  no tiene lugar únicamente por una especie de fusión de diferentes enfoques de la misma como he revisado en los dos posts anteriores en que, por una parte, hablaba de la progresiva indiferenciación entre la inteligencia artificial generativa y la discriminativa (primer post de esta serie) y, por otro, de la unificación de modalidades en los mismos modelos o aplicaciones (objeto del segundo post).

Además, esa mayor transversalidad se produce por introducción de algunos elementos nuevos. Y uno de ellos, seguramente el principal, es el objetivo de este post: el control y el razonamiento.
 

Control


Aunque en este post uno el control y el razonamiento, quiero dedicar unas líneas a verlos por separado porque, aunque conceptualmente puedan unificarse, en la práctica se tienden a usar en contextos diferentes, aludiendo a funciones algo diferentes y con implementaciones también diferentes.

En ambos casos se refieren, de alguna forma, a la 'inteligencia' que gobierna un agente (por ejemplo, un robot, ya sea hardware o software), a aquella lógica que hace que ese agente, de alguna forma, tome decisiones lógicas conforme al estado del mundo, su propio estado y sus objetivos.

En general, el término control tiende a aplicarse a soluciones algo más modestas y, con frecuencia del mundo físico y de la automatización industrial.

Así, hablamos de control cuando como los mecanismos que mantienen una cierta variable (por ejemplo, una velocidad) en el punto deseado, mediante la utilización de un bucle de realimentación y un controlador de tipo PID.

Aunque no se suele utilizar la palabra control en ese ámbito, podríamos considerar también como una forma de control poco sofisticada, aunque muy eficaz, la estrategia de comportamientos reactivos ('behaviors'), es decir el establecimiento de pares estímulo-respuesta que se utilizan en algunos robots y que revisamos en el post titulado 'Comportamientos reactivos y los conceptos de inteligencia e inteligencia artificial'.

Por decirlo de alguna forma, lo que encuadro dentro del término 'control' (porque en la literatura con frecuencia se denomina así), son mecanismos de gestión de un agente que mantienen la coherencia de su comportamiento y la consecución de sus objetivos mediante mecanismos simples, estáticos y reglados.

Razonamiento


Aunque lo que denomino 'razonamiento' no deja de ser una forma de control, se trata de un control mucho más sofisticado, mucho más flexible y mucho más próximo al funcionamiento cognitivo humano.

En este caso, no tenemos un control o comportamiento estático y reglado sino que el agente traza un plan de actuación para conseguir un objetivo (ese plan no le viene dado como, de alguna forma, sucede en los mecanismos que he agrupado en la sección de 'control'). Y no sólo eso, es que además el agente es capaz de reaccionar y cambiar dinámicamente ese plan en función de los estímulos que recibe, de cómo cambia el estado de su entorno o cómo cambia su propio estado. 

Algunas formas de razonamiento se vienen aplicando en la inteligencia artificial desde hace muchos años, incluso en la inteligencia artificial simbólica. Razonamiento serían los motores de inferencia de los sistemas expertos, y razonamiento serían también los famosos algoritmos de búsqueda en un espacio de estados.

Pero hay importantes novedades en este campo del razonamiento.

Modelos razonadores


Y esas novedades vienen ¡cómo no! del campo de la inteligencia artificial generativa (una inteligencia artificial a la que probablemente, y como argumentaba en el primer artículo de esta serie, seguramente haya que ir pensando en quitarle el apellido de 'generativa').

Esa novedad son los modelos razonadores que, por ejemplo, OpenAI ha incorporado en su serie 'o' (como el recientemente lanzado o3), aunque ciertas capacidades de razonamiento venían en modelos anteriores.

En efecto, los modelos razonadores ya son capaces de trazar un plan y decidir unas acciones para conseguir el objetivo que normalmente le viene marcado por un 'prompt'. Y no sólo son capaces de trazar ese plan sino que, en función de los resultados que obtienen en cada paso de ese plan, pueden dinámicamente cambiarlo e ir decidiendo nuevos pasos. Los resultados, por cierto, a veces y curiosamente, se los da el modelo a sí mismo, pero en otros son el resultado de invocar a herramientas que les ponen en contacto con el exterior, por ejemplo, mediante una búsqueda en la web, mediante 'screen scraping', mediante creación y ejecución de programas python, mediante invocación a APIs, etc.


Los agentes (de la 'Agentic AI')


Y si mezclamos la capacidad de razonamiento (dinámico y autónomo) con la capacidad de interacción con el exterior mediante lo que habitualmente se denomina herramientas ('tools'), ya tenemos los ingredientes para construir los famosos agentes de la 'Agentic AI'.

Nota terminológica: recalco el apellido 'de la Agentic AI' porque el concepto de agente existe desde hace décadas (e incluso siglos) y, no sólo se ha utilizado fuera del ámbito tecnológico, sino que en la propia inteligencia artificial y la robótica, se viene empleando desde hace décadas y, de hecho, es definitorio del concepto de robot e, incluso, autores tan reconocidos como Russel y Norvig, en su famoso libro de texto 'Artificial intelligence. A modern approach', centran la propia definición de inteligencia artificial en la idea de agentes.

Lo novedoso de los agentes que ahora se han puesto de moda dentro del marco de la 'agentic AI', no es su concepto, que es el mismo de siempre, sino que ahora se está empezando a conseguir, y esa es la principal promesa, que puedan ellos mismos, los agentes, decidir el plan a ejecutar sólo con recibir un objetivo en forma de 'prompt' y que puedan decidir, así mismo, qué herramienta necesitan utilizar en cada momento y realizar su invocación.

En el fondo, la realización de los nuevos y poderosos agentes software, orbita en torno a estos modelos razonadores a que aludía más arriba. 


Conclusiones


La inteligencia artificial se hace más transversal, no sólo por la fusión de enfoques hasta ahora diferenciados, como discriminación versus generación, o el tratamiento de modalidades, sino también por la inclusión de nuevas capacidades entre las que destaca la posibilidad de razonamiento que nos conduce, de cabeza, a los así llamados agentes de la 'Agentic AI'..


Artículos de este blog relacionados

martes, 13 de mayo de 2025

La inteligencia artificial transversal (II): de la multimodalidad a la omnimodalidad

Este es el segundo post de la pequeña serie que quiero dedicar hacia la, al menos en mi opinión, evolución de la inteligencia artificial hacia un enfoque mucho más transversal aunque, como expliqué en el post anterior, prefiero no darle el nombre de 'general' y quedarme en ese 'transversal' que he mencionado.

En ese post anterior me centré en la difuminación de la frontera entre inteligencia artificial generativa y discriminativa. En este voy a hablar en cierto sentido de la multimodalidad pero, por razones que explicaré luego, prefiero en realidad llamarla omnimodalidad.


Modalidades


¿Qué es eso de las modalidades? Bueno, la definición no es sencilla del todo pero el concepto sí: los diferentes tipos de medios que manejamos. Con ejemplos se entiende aún mejor: una modalidad, la más básica en el caso de la inteligencia artificial y de los modelos de lenguaje, es el texto, el lenguaje natural. Otra modalidad es la imagen, otra el vídeo y otra el sonido, por ejemplo la música o la propia voz. 

En muchas modalidades podríamos entrar en disquisiciones sobre si, por ejemplo, el sonido es una modalidad en sí misma o si los diferentes usos del sonido (música, voz, avisos sonoros, etc) son modalidades diferentes. En el caso de la imagen, podríamos quizá querer distinguir, por ejemplo, entre una imagen artística y un diagrama (por ejemplo un histograma).

Incluso, en el caso del texto, podríamos plantearnos si hablamos de cualquier texto o si una modalidad es el texto de lenguaje natural y otra modalidad basada en texto (que en este caso sí que hay mucha diferencia) es el código fuente (python, HTML o lo que sea).

A efectos de lo que quiero tratar, en realidad esa distinción fina entre lo que es una modalidad o una variante de una modalidad, realmente me es irrelevante.

Lo que sí es cierto es que hay muchos medios, muchas manifestaciones de conocimiento y de información... y que la inteligencia artificial potencialmente, y no tan potencialmente, puede trabajar con ellas, tanto como información de entrada como de salida.


La multimodalidad, que ya está aquí


Hablar de multimodalidad no es más que hacer referencia a la capacidad por parte de un modelo o de una solución de inteligencia artificial, de trabajar con diferentes tipos de modalidades.

Y eso ya está aquí. Ya hay modelos y aplicaciones, bien conocidas, que generan imágenes a partir de texto, o que te etiquetan (modalidad texto) una imagen. Lo mismo sucede con el vídeo. También podemos generar música partiendo de un texto. Y así, otros muchos casos.

Es decir, la multimodalidad ya está aquí. En algún caso porque los propios modelos sin intrínsecamente multimodales (como sucede con muchos de los que gestionan texto e imagen) y en otros casos porque es la aplicación la que, recurriendo a varios modelos o a otra forma de complementos, logra mezclar varias modalidades en la solución final que se ofrece al usuario.

Es decir, como dice el título, la multimodalidad ya está realmente aquí.


La omnimodalidad y el porqué de ese nombre 


Aunque me parece perfectamente correcto el nombre de multimodalidad, prefiero no obstante emplear otro nombre, omnimodalidad, para referirme a la idea que quiero transmitir y que es más aspiracional en estos momentos.

Y es que, aunque ya hoy en día tenemos multimodalidad, ésta es todavía limitada. Quiero decir que los modelos o aplicaciones involucran un número limitado de modalidades (las más típicas texto e imagen) y en combinaciones más o menos cerradas.

Al hablar de omnimodalidad pienso en una evolución, una ampliación, en la disposición de modelos, o por lo menos aplicaciones, que ofreciesen todas o muchas de las modalidades posibles y en todas o muchas de las combinaciones que tuvieran sentido tanto en entrada como en salida.


La necesidad de superar el término 'gran modelo de lenguaje'


Esta idea de la multimodalidad, y no digamos nada la de omnimodalidad, supera con mucho la idea de un gran modelo de lenguaje. Ya lo hace, de hecho, incluso en la fase actual de multimodalidad. De hecho, creo que ahora mismo, el término 'gran modelo de lenguaje' es realmente incorrecto, o al menos, reduccionista. Cada vez más, los modelos son más y más transversales en modalidad y no es correcto quedarse sólo en el lenguaje, por más que sea su origen y un elemento esencial.

El nombre de modelo fundacional podría ser más adecuado, por más generalista, aunque, por motivos históricos, creo que tiene connotaciones de lenguaje. De todas formas, tal vez sea ese el término adecuado o, tal vez, debamos buscar otro (por ejemplo, 'modelo omnimodal')


Conclusiones


La inteligencia artificial actual no sólo es más transversal en cuanto a la dualidad discriminación-generación. También es más transversal en modalidades, siendo capaz de tratar y mezclar diferentes medios, todavía de una manera imperfecta, pero en camino hacia lo que se me ha ocurrido denominar 'omnimodalidad'.


Artículos de este blog relacionados

viernes, 9 de mayo de 2025

La inteligencia artificial transversal (I): más que una inteligencia artificial generativa

La inteligencia artificial se encuentra en ebullición, inmersa en continuos avances, mejoras y nuevas posibilidades. En ese camino, avanza hacia lo que voy a denominar, intencionadamente, transversalidad, en lugar de emplear el término más habitual, generalidad, por razones que explicaré.

Voy a dedicar una corta serie de posts a revisar en qué sentidos se está produciendo esa transversalidad. En este primer post, comienzo hablando del borrado de la barrera entre la inteligencia artificial generativa y la inteligencia artificial discriminativa.


La aspiración a una inteligencia artificial general


Antes, explico la elección de la palabra transversalidad en lugar de emplear 'generalidad', que sería la elección más sencilla.

Entre las viejas (aunque muy actuales) aspiraciones de la inteligencia artificial, está la de emular la inteligencia artificial humana. La inteligencia humana, aparte de otras maravillosas y asombrosas características, exhibe la generalidad, es decir, la capacidad de abordar con éxito todo tipo de tareas, desde  la lectura al cálculo mental, desde tareas inconscientes como las ligadas a la percepción, la homeostasis o el control del movimiento, hasta tareas conscientes como la resolución de ecuaciones, la planificación de un viaje, o la realización de un diagrama de bloques para expresar una idea.

El mismo cerebro, el mismo y asombroso cerebro, vale para todo. Como diría mi abuela, que en paz descanse, vale 'lo mismo para un roto que para un descosido'.

Y la aspiración, fascinante al tiempo que intimidante, y quizá aterradora, sería que la inteligencia artificial hiciese lo mismo. 

Ya hace muchos años se acuñó la diferenciación entre inteligencia artificial fuerte e inteligencia artificial débil. La inteligencia artificial fuerte sería esa inteligencia artificial de propósito general, similar a la humana, mientras que la inteligencia artificial débil sería la que se concentra en problemas concretos, problemas que puede resolver muy bien, con frecuencia mejor que un humano, pero muy acotados en alcance. 

Y la inteligencia artificial, la que hemos tenido desde su nacimiento, la que en el fondo tenemos ahora mismo, es inteligencia artificial débil.

Sin embargo, hay que reconocer, que la inteligencia artificial ha avanzado en los últimos tres o cinco años en el camino de la generalización. Por decirlo de alguna forma, sigue siendo débil.. pero menos.


Una inteligencia artificial transversal


Si, avanza hacia la generalidad. Es cierto.

Sin embargo, prefiero no utilizar el término "general" y, por tanto, no subirme al carro de la denominación AGI ('Artificial General Intelligence'), a pesar de que, como término, me gusta, porque tienen connotaciones que prefiero evitar.

Si hablamos de una inteligencia artificial general, creo que directamente nos lleva a pensar en una inteligencia artificial fuerte y ya, si nos 'ponemos estupendos', en la famosa singularidad.

A pesar de los formidables avances a que hemos asistido en la inteligencia artificial en los últimos años, y a pesar de que, probablemente, podamos ser optimistas en cuanto a sus perspectivas de avance en los que están por venir, me parece que aún estamos muy lejos, mucho, de una auténtica inteligencia artificial fuerte. Así que mejor no utilizar una palabra que sugiere que estamos llegando a esa inteligencia artificial fuerte.

Pero es preciso reconocer que la inteligencia artificial se está 'generalizando' (de hecho eso es sobre lo que quiero reflexionar en la serie de posts que anunciaba al principio).

Para reflejarlo, para recoger esos avances hacia la generalidad, de momento, y sujeto a revisión, elijo el término 'transversalidad'. No es que me guste ni mucho ni poco, pero creo que me permite expresar la idea sin utilizar AGI.

Hecho este apunte, volvamos al tema principal de este post: el borrado de la frontera entre generativa y discriminativa.


Inteligencia artificial generativa vs discriminativa


No sé, realmente, cuando se acuñó el término 'inteligencia artificial discriminativa' pero yo fui consciente de él, y comencé a utilizarlo en ciertas charlas y clases, a partir del 'boom' de ChatGPT y con él de toda la inteligencia artificial generativa.

Claro, para explicar lo que significaba ese apellido "generativa" necesitabas contraponerlo con la inteligencia artificial que no era generativa, y que se denominó "discriminativa'.

En el fondo, no era difícil explicar lo que era la inteligencia artificial generativa, una inteligencia artificial orientada a la creación (generación) de contenido nuevo, inicialmente texto e imágenes y posteriormente casi cualquier tipo de medio. La creación de imágenes o noticias, por ejemplo, mediante inteligencia artificial, era generativa.

Frente a eso, la discriminativa, de alguna forma, se orienta al análisis de informaciones, y no a su generación. Así, la realización de modelos predictivos, el reconocimiento facial o el análisis de sentimiento de un texto, son tareas discriminativas. 


La generativa se hace también discriminativa


Bueno, pues uno de los pasos que creo que se está dando hacia la transversalidad es la eliminación de la barrera entre discriminativa y generativa

Desde un punto de vista descriptivo o teórico de casos de uso podemos, si queremos, mantener la distinción. Pero si bajamos a su realización técnica, esas barreras están desapareciendo a pasos agigantados.

Los modelos y arquitecturas creadas para tareas generativas, los 'Transformers', los GPTs, Los BERT o los modelos de difusión, han demostrado, y siguen demostrando, que se pueden usar tanto para tareas de generación como de discriminación.

Así, con un modelo de lenguaje tipo GPT o similar, podemos crear nuevo texto, claro, pero también podemos hacer un análisis de sentimiento o un análisis sintáctico, tareas claramente discriminativas, o el resumen de un texto o su traducción a otro idioma, tareas que considero que están a medio camino entre la discriminación y la generación, pero que ya habían sido abordadas por la inteligencia artificial discriminativa.

Igualmente, en el caso de imágenes, podemos, por ejemplo, basándonos en modelos de difusión, crear imágenes o incluso vídeos originales, es decir, tareas netamente generativas, pero también podemos asignarle una etiqueta o descripción a una imagen, tareas que considero discriminativas más que generativas. 


En busca de un nuevo término


Creo que esas barreras entre discriminativa y generativa son ya muy difusas y, probablemente, acaben desapareciendo. Así que, quizá, debamos olvidarnos de hablar de discriminativa y generativa y buscar un tercer término.

O quizá, mejor aún, haya que eliminar los 'apellidos' y volver a hablar, simplemente, de inteligencia artificial, una inteligencia artificial cada vez más potente y, si, más transversal.


Conclusiones


La inteligencia artificial avanza hacia la transversalidad, hacia la capacidad de abordar mayores alcances. En ese camino, uno de los pasos que se da es la eliminación de fronteras entre la inteligencia artificial discriminativa y la generativa.

En próximos posts, veremos otros pasos adicionales.

viernes, 2 de mayo de 2025

El nacimiento de Microsoft contado por el propio Bill Gates

'Código fuente: mis inicios' es una autobiografía de Bill Gates que cubre sólo la primera etapa de su vida, desde la niñez hasta el nacimiento y primeros pasos de Microsoft, siendo, si no me equivoco, 1977 el último año en que se desarrolla la acción. No recoge, pues, para nada, la parte principal de la historia de Microsoft, y no llega a hablar de Windows, y ni siquiera del MS-DOS.

Durante gran parte del libro, de hecho, el foco es más el propio Bill Gates, su abuela, sus padres, su hermana, sus profesores y primeros amigos y, en fin, sus experiencias, infantiles y juveniles. Nos narra su infancia más temprana e, incluso, en algún momento se remonta más atrás para referirse a la historia de sus padres y abuela.

El propio Gates nos ofrece una imagen de sí mismo como un niño de personalidad algo rara y difícil, no buen estudiante a pesar de su inteligencia. De su etapa escolar destaca todo lo relativo a su estancia en Lakeside donde, aparte de la influencia en su formación, y su afortunado acceso a una computadora, algo nada habitual en la época, se destacan algunos amigos que serían importantes para el resto de su vida, y para la propia Microsoft, como es el caso de Paul Allen.

En lo relativo al nacimiento de Microsoft y al desarrollo de la informática y los ordenadores personales, Gates nos traslada a una época donde la informática era desconocida salvo por unos pocos. Nos habla del desarrollo del lenguaje Basic, de la empresa MITS y su ordenador Altair o de los ordenadores PDP y desarrolla una narrativa donde la tecnología y el propio negocio tenían tintes casi heroicos, más de aficionados que de profesionales, muy dependiente de las personas y las individualidades, de sus esfuerzos, su visión y sus genialidades, sin olvidar los toques de pura suerte.

Haya o no algo de teatralización en esa narrativa, es sin embargo muy interesante recordar y conocer detalles del nacimiento de la informática y del ordenador personal, una revisión del pasado que en cierto sentido me ha traído un pequeño ataque de nostalgia, aunque la narración se detiene un poco antes de la época en que yo conocí ya de primera mano los avances en esa informática y ese mundo que entonces todavía no se llamaba digital, aunque lo fuese.

A pesar de tratarse de unas memorias, el estilo de redacción es bastante directo y austero, sin excesivas concesiones a la sensiblería, aunque sí hay pasajes de una cierta emoción, como el que se refiere a la muerte de su amigo Kent.

Cada capítulo se inicia con una fotografía, en general del propio Bill Gates, en la época a que se refiere el capítulo y, con frecuencia, relacionada con lo que en él se relata.

De redacción modesta, sin excesiva calidad literaria, 'Código fuente: mis inicios' tiene sin embargo, nostalgia y curiosidad aparte, el valor del testimonio de uno de los grandes personajes de nuestra época, y uno de los grandes protagonistas e impulsores de la sociedad digital en que nos encontramos inmersos.

Bill Gates

(Fuente: Entrada en Wikipedia en español)

Bill Gates
William Henry Gates III (Seattle, 28 de octubre de 1955), conocido como Bill Gates, es un magnate empresarial, desarrollador de software, inversor, autor y filántropo estadounidense. Es cofundador de Microsoft, junto con su difunto amigo de la infancia Paul Allen. Durante su carrera en Microsoft, Gates ocupó los cargos de presidente, director ejecutivo (CEO), presidente y arquitecto jefe de software, además de ser el mayor accionista individual hasta mayo de 2014. Fue uno de los principales empresarios de la revolución de las microcomputadoras de las décadas de 1970 y 1980.

Su fortuna se calcula en 129.000 millones de dólares (2023) según la revista Forbes, hecho que lo colocó como el cuarto hombre más rico del mundo. Antes del estallido de la burbuja de las punto com, su patrimonio neto ascendió a 114.100 millones de dólares, lo que lo convirtió en la décima persona más rica en toda la historia de la humanidad.​

Es uno de los empresarios más conocidos que surgieron durante los inicios de los ordenadores personales. Ha sido criticado por sus tácticas de negocios, que han sido consideradas anticompetitivas, una opinión que en algunos casos ha sido mantenida por numerosas sentencias judiciales.

Estuvo casado con Melinda Gates, con quien comparte la presidencia de la Fundación Bill y Melinda Gates, dedicada a reequilibrar oportunidades en salud y educación a nivel local, aunque también ha participado en otros países. Por ejemplo, en Nigeria con el programa para erradicar la polio, razón por la cual han sido galardonados con el Premio Príncipe de Asturias de Cooperación Internacional 2006.

Bill Gates nació el 28 de octubre de 1955.[10]​ Es hijo de William H. Gates Sr., un destacado abogado, y de Mary Gates, profesora y rectora d​ela Universidad de Washington, y directora del First Interstate Bank. Con ellos y su hermana, dos años mayor, vivió en la ciudad de Seattle, en el estado de Washington. A nivel familiar, lo apodan, "Trey": William the Third.​

Hasta sexto grado fue alumno regular de un colegio público. Cursó estudios en la escuela privada de élite de Lakeside, en Seattle. Esta escuela tenía ya una computadora en el año 1968, lo que le permitió a Gates tomar contacto con la máquina y aficionarse a la informática. También en Lakeside conoció a Paul Allen, con quien más tarde fundaría Microsoft.

El 4 de abril de 1975, siendo aún estudiante en la Universidad de Harvard, crea la empresa de software Microsoft. En 1976 abandonó la universidad y se trasladó a Albuquerque, sede de MITS, para pactar con esa empresa la cesión del 50 % del lenguaje para computadoras Basic. Al año siguiente, se enteró del éxito de la empresa Apple y de que necesitaban un intérprete de Basic.

En 1980, se reunió con representantes de IBM en Seattle. Ellos querían contar con el sistema operativo CP/M. Él les comento de la existencia de una versión adaptada llamada QDOS u 86DOS, comprometiéndose a conseguir una licencia no exclusiva a fin de adaptarla. Con ello, consiguió venderles la idea del sistema operativo MS-DOS, sin contar con esta, comprando la 86DOS a muy bajo precio al joven programador Tim Paterson. IBM necesitaba ese sistema operativo para competir con Apple, razón por la cual la negociación fue flexible. Microsoft quiso los derechos de licencia, mantenimiento, e incluso la facultad de vender el DOS a otras compañías. IBM aceptó, considerando que lo que produciría dividendos sería el hardware y no el software. Unos días después, Microsoft compró los derechos de autor del QDOS a Tim Paterson, que trabajaba para la Seattle Computer Products, por 50.000 dólares, que vendió a IBM como MS-DOS (Microsoft DOS). Lo que llama poderosamente la atención fue que IBM no comprara el MS-DOS sino que decidiera pagar a Microsoft un canon por cada copia que se vendiera junto con un IBM-PC.

Consciente de la importancia del entorno gráfico que había mostrado Apple (originalmente la interfaz gráfica y el «ratón» fueron desarrollados por Xerox PARC) en su ordenador Lisa, se propuso conseguir también el entorno gráfico y el «ratón» para operarlo. Mientras, Steve Jobs, fundador de Apple, iniciaba el desarrollo del Macintosh, Bill Gates visitó Apple. Ofrecía mejorar sus hojas de cálculo y otros programas. Amenazaba con vender su material informático a IBM, con lo que obtuvo una alianza Apple-Microsoft. Microsoft obtuvo legalmente la tecnología del entorno gráfico y del ratón, y sacó al mercado Microsoft Windows, como directo competidor de Macintosh.

Desde comienzos de siglo, el sistema operativo Microsoft Windows (en todas sus versiones) se utiliza en la mayor parte de ordenadores personales del planeta

Puedes saber más del autor, visitando su página Gates Notes, consultando su perfil en LinkedIn o siguiéndole en X donde se identifica como @BillGates.

Ficha técnica:


AUTOR: Bill Gates
EDITORIAL: Plaza & Janés
AÑO: 2025 
ISBN: 978-8401036064
PAGINAS: 368