martes, 13 de mayo de 2025

La inteligencia artificial transversal (II): de la multimodalidad a la omnimodalidad

Este es el segundo post de la pequeña serie que quiero dedicar hacia la, al menos en mi opinión, evolución de la inteligencia artificial hacia un enfoque mucho más transversal aunque, como expliqué en el post anterior, prefiero no darle el nombre de 'general' y quedarme en ese 'transversal' que he mencionado.

En ese post anterior me centré en la difuminación de la frontera entre inteligencia artificial generativa y discriminativa. En este voy a hablar en cierto sentido de la multimodalidad pero, por razones que explicaré luego, prefiero en realidad llamarla omnimodalidad.


Modalidades


¿Qué es eso de las modalidades? Bueno, la definición no es sencilla del todo pero el concepto sí: los diferentes tipos de medios que manejamos. Con ejemplos se entiende aún mejor: una modalidad, la más básica en el caso de la inteligencia artificial y de los modelos de lenguaje, es el texto, el lenguaje natural. Otra modalidad es la imagen, otra el vídeo y otra el sonido, por ejemplo la música o la propia voz. 

En muchas modalidades podríamos entrar en disquisiciones sobre si, por ejemplo, el sonido es una modalidad en sí misma o si los diferentes usos del sonido (música, voz, avisos sonoros, etc) son modalidades diferentes. En el caso de la imagen, podríamos quizá querer distinguir, por ejemplo, entre una imagen artística y un diagrama (por ejemplo un histograma).

Incluso, en el caso del texto, podríamos plantearnos si hablamos de cualquier texto o si una modalidad es el texto de lenguaje natural y otra modalidad basada en texto (que en este caso sí que hay mucha diferencia) es el código fuente (python, HTML o lo que sea).

A efectos de lo que quiero tratar, en realidad esa distinción fina entre lo que es una modalidad o una variante de una modalidad, realmente me es irrelevante.

Lo que sí es cierto es que hay muchos medios, muchas manifestaciones de conocimiento y de información... y que la inteligencia artificial potencialmente, y no tan potencialmente, puede trabajar con ellas, tanto como información de entrada como de salida.


La multimodalidad, que ya está aquí


Hablar de multimodalidad no es más que hacer referencia a la capacidad por parte de un modelo o de una solución de inteligencia artificial, de trabajar con diferentes tipos de modalidades.

Y eso ya está aquí. Ya hay modelos y aplicaciones, bien conocidas, que generan imágenes a partir de texto, o que te etiquetan (modalidad texto) una imagen. Lo mismo sucede con el vídeo. También podemos generar música partiendo de un texto. Y así, otros muchos casos.

Es decir, la multimodalidad ya está aquí. En algún caso porque los propios modelos sin intrínsecamente multimodales (como sucede con muchos de los que gestionan texto e imagen) y en otros casos porque es la aplicación la que, recurriendo a varios modelos o a otra forma de complementos, logra mezclar varias modalidades en la solución final que se ofrece al usuario.

Es decir, como dice el título, la multimodalidad ya está realmente aquí.


La omnimodalidad y el porqué de ese nombre 


Aunque me parece perfectamente correcto el nombre de multimodalidad, prefiero no obstante emplear otro nombre, omnimodalidad, para referirme a la idea que quiero transmitir y que es más aspiracional en estos momentos.

Y es que, aunque ya hoy en día tenemos multimodalidad, ésta es todavía limitada. Quiero decir que los modelos o aplicaciones involucran un número limitado de modalidades (las más típicas texto e imagen) y en combinaciones más o menos cerradas.

Al hablar de omnimodalidad pienso en una evolución, una ampliación, en la disposición de modelos, o por lo menos aplicaciones, que ofreciesen todas o muchas de las modalidades posibles y en todas o muchas de las combinaciones que tuvieran sentido tanto en entrada como en salida.


La necesidad de superar el término 'gran modelo de lenguaje'


Esta idea de la multimodalidad, y no digamos nada la de omnimodalidad, supera con mucho la idea de un gran modelo de lenguaje. Ya lo hace, de hecho, incluso en la fase actual de multimodalidad. De hecho, creo que ahora mismo, el término 'gran modelo de lenguaje' es realmente incorrecto, o al menos, reduccionista. Cada vez más, los modelos son más y más transversales en modalidad y no es correcto quedarse sólo en el lenguaje, por más que sea su origen y un elemento esencial.

El nombre de modelo fundacional podría ser más adecuado, por más generalista, aunque, por motivos históricos, creo que tiene connotaciones de lenguaje. De todas formas, tal vez sea ese el término adecuado o, tal vez, debamos buscar otro (por ejemplo, 'modelo omnimodal')


Conclusiones


La inteligencia artificial actual no sólo es más transversal en cuanto a la dualidad discriminación-generación. También es más transversal en modalidades, siendo capaz de tratar y mezclar diferentes medios, todavía de una manera imperfecta, pero en camino hacia lo que se me ha ocurrido denominar 'omnimodalidad'.


Artículos de este blog relacionados

No hay comentarios:

Publicar un comentario