Este es simplemente un post de recapitulación de lo visto y de sencilla reflexión sobre ello.
Recapitulando: los cuatro pasos hacia la transversalidad
Aunque no deja de ser una valoración personal, creo que existen cuatro vectores de evolución (con realizaciones ya conseguidas) de la inteligencia artificial hacia la transversalidad, cada uno de los cuales han ocupado un post de esta serie.
El primer paso es el borrado de la diferenciación entre inteligencia artificial generativa y discriminativa. Aunque, en efecto, los modelos generativos se diseñaron y construyeron pensando inicialmente en la generación de contenido nuevo (fundamentalmente texto e imágenes) y aunque, algunos modelos y arquitecturas generativas están exclusivamente orientadas a esa generación, lo cierto es que las arquitecturas dominantes, basadas fundamentalmente en el modelo transformer y en los modelos de difusión ya se utilizan tanto para tareas generativas como discriminativas, y apostaría a que se va a seguir avanzando en esa dirección.
El segundo paso es el de la mezcla de las diferentes modalidades (texto, imagen, vídeo, música, código, etc) en un solo modelo o aplicación. Esto es lo que se suele denominar multimodalidad pero, en mi post sobre el tema, preferí adoptar el nombre de omnimodalidad con la idea de ir más allá de la situación actual. En las soluciones multimodales actuales se tiende de mezclar pocas modalidades. Con frecuencia, aunque no únicamente, una de ellas es el texto y otra es imagen, video o música. Cuando hablo de omnimodalidad estoy pensando en una mezcla íntima de todo tipo de modalidades en un solo modelo o solución. Y ahí, hasta donde yo sé, no hemos llegado y no tengo claro si 'lo tenemos a punto de caramelo' o, por el contrario, es algo muy complejo y que puede tardar en llegar.
En el tercer vector entrábamos en el campo del razonamiento. La algoritmia dedicada a formas de razonamiento, planificación y toma de decisiones han estado, en general y hasta ahora, apartados de campos como la analítica o la percepción (aunque, por ejemplo, en robots móviles es imprescindible complementar la planificación con feedback perceptivo). Así, esquemas como los ya obsoletos sistemas expertos o los algoritmos de búsqueda en un espacio de estados son como mundos aparte de los modelos discriminativos y generativos. Con la aparición de los modelos razonadores, como la serie 'o' de OpenAI, el mismo modelo / solución es capaz ya de actuar como un modelo generativo y discriminativo, y también se añade el razonamiento y la planificación. Este tema del razonamiento es candente y en plena ebullición en el momento en que esto escribo, por lo que creo que caben esperar avances, puede que incluso espectaculares, en las próximas semanas y meses.
Finalmente, y como último vector de generalización, y todavía casi más como planteamiento que como grandes resultados, tenemos la inteligencia artificial física o 'embodied AI', la unión de lo físico y lo lógico, lo analógico y lo digital. En realidad, la unión en soluciones de inteligencia artificial con robótica, por ejemplo, se viene haciendo desde hace años, pero en general la parte de inteligencia artificial se concentra en módulos concretos, por ejemplo, relacionados con la percepción (notablemente visión artificial), en la analítica predictiva a partir de datos ya generados (como en aplicaciones de mantenimiento predictivo) o últimamente, la frecuente interfaz mediante lenguaje natural y voz. Pero no hay una integración sin costuras ('seamless' como se dice en inglés) sino, simplemente, la integración de módulos. Sin embargo, la idea de las herramientas ('tools') en el mundo de la agentic AI, una idea que, en realidad, es casi lo mismo que los conectores 'de toda la vida' usados por ejemplo en RPA, unido a la existencia de modelos razonadores, abre la puerta a una arquitectura integrada de modelo generativa/discriminativo, razonador y con posibilidades de interacción con el mundo físico tanto en lectura a partir de sensores como en escritura mediante actuadores. Es cierto que la interacción con el mundo físico y analógico impone problemáticas de toda índole (imperfecciones, ruido, errores, etc) que hacen que, aunque esa integración de lo físico sea arquitectónicamente casi trivial en el punto que estamos, en la práctica pueda no ser tan sencillo conseguir soluciones sofisticadas efectivas y que funcionen de forma correcta y fiable
Un nuevo paradigma
Creo que, con todo lo anterior, la evolución de la inteligencia artificial de los últimos años, supone un nuevo paradigma sobre cómo crear y aplicar la inteligencia artificial. Un paradigma que se apoya en variantes del modelo transformer y que dada su transversalidad y potencia creo que hará, está haciendo ya, obsoletos los modelos que se han utilizado hasta hace bien poco (y todavía en uso) a los que, presumiblemente, sustituirá casi completamente, salvo quizá en analítica inteligente.
Y un paradigma al que, precisamente por su transversalidad, puede ser muy difícil desplazar salvo que suceda algún salto cualitativo que cualquiera sabe cuando se puede producir (puede que dentro de nada o puede que dentro de mucho). Sólo se me ocurre a corto plazo que puedan existir soluciones alternativas en elementos muy de nicho, precisamente porque ene se nicho y para algo muy concreto, otro tipo de modelo pueda dar mejores resultados.
No hablo de AGI
OpenAI declara que camina hacia la AGI ('Artificial General Intelligence') y aunque resulta arriesgado negarle la posibilidad de que lo consiga, dado todo lo que ha demostrado en los últimos años, mi sensación es que esa AGI es un objetivo muy lejano, caso de que se pueda conseguir.
Me explico: ya hemos visto que si, hay grandes pasos hacia la transversalidad, y resulta más que creíble que en los próximos meses y años veamos nuevos avances, seguramente algunos espectaculares, y que nos conduzca a soluciones que, realmente, parezcan de una inteligencia general y comparable y en muchos aspectos superior a la humana.
Pero no creo que estemos, al menos todavía, en los umbrales de la inteligencia artificial fuerte. No creo que estemos ante una inteligencia artificial capaz de atender a todo lo que atiende y a todo lo que se puede adaptar una inteligencia humana. Problemas como el de la semántica (el 'grounding') estamos muy lejos de revolverlo, los mecanismos de aprendizaje de la inteligencia artificial son, en este momento, y comparados con los mecanismos humanos, tremendamente simples e ineficientes y así muchos otros temas.
Y como no creo que estemos realmente ante una inteligencia artificial realmente fuerte, y como el término AGI a mi me sugiere (y no creo que solo a mi) una inteligencia artificial fuerte, prefiero evitar ese término para referirme a los avances actuales y previsiblemente futuros, en materia de generalización.
Y, por eso, prefiero hablar de una inteligencia artificial transversal, más que general.
Conclusiones
Sin duda, la inteligencia artificial ha dado unos pasos de gigante en los últimos años, unos pasos de gigante que la convierten en una inteligencia artificial no sólo mucho más potente, sino también más transversal, con modelos más generalistas.
Y unos pasos que no sólo se han dado en el pasado reciente sino que se están dando ahora mismo, y seguro que se darán en el futuro.
No creo que eso suponga, realmente, al menos por el momento, una inteligencia artificial fuerte, pero sí una inteligencia artificial mucho más poderosa y mucho mas transversal.
Artículos de este blog relacionados
- La inteligencia artificial transversal (IV): embodied AI y el salto a la robótica e IoT
- La inteligencia artificial transversal (III): razonamiento y control
- La inteligencia artificial transversal (II): de la multimodalidad a la omnimodalidad
- La inteligencia artificial transversal (I): más que una inteligencia artificial generativa
No hay comentarios:
Publicar un comentario