lunes, 10 de marzo de 2025

Modelos fundacionales versus modelos tradicionales de machine learning

La existencia de los modelos generativos, tanto modelos de lenguaje como modelos multimodales, están cambiando, o más bien añadiendo, nuevas perspectivas al trabajo con inteligencia artificial y, en este caso, estoy pensando en la aplicación de la inteligencia artificial en empresas u organizaciones concretas, y no tanto en el desarrollo general de algoritmos o modelos.


Trabajo 'tradicional' con machine learning


Hasta hace aproximadamente dos o tres años, cuando se produjo la explosión de la inteligencia artificial generativa creo que, aunque sea de manera sin duda simplificada, podríamos decir que había (y hay todavía, claro) dos formas de construir soluciones basadas en inteligencia artificial o adaptar la inteligencia artificial a empresas y organizaciones concretas:


  • La primera trataba de construir modelos de machine learning para el análisis y la predicción con datos de la empresa. Los algoritmos como tal están definidos pero la adaptación, el entrenamiento para los datos de la empresa u organización se realiza localmente. Es la forma de trabajar fundamentalmente en analítica inteligente y en la construcción de modelos predictivos, por ejemplo. 

  • Reutilización de capacidades ya funcionales de inteligencia artificial: se trataría de utilizar, sin modificar, modelos o capacidades basadas en inteligencia artificial para construir soluciones apoyadas en ellas pero sin modificarlas. Es la forma de trabajar fundamentalmente en automatización inteligente. Así, los robots industriales, por ejemplo, utilizan capacidades de visión artificial, los robots RPA ('Robotic Process Automation') utilizan capacidades de reconocimiento óptico de caracteres (OCR, 'Optical Character Recognition') o de entendimiento de lenguaje natural, y los chatbots tradicionales utilizan también capacidades de entendimiento de lenguaje natural y de reconocimiento y generación de voz. 


Por supuesto que es una forma de resumirlo bastante simplificada pero creo que sí representa las formas de trabajo mayoritarias y muchos de los que trabajan con inteligencia artificial se verán reflejados en ellas.  


Trabajo con modelos fundacionales


Aunque las formas anteriores de trabajo siguen siendo de actualidad, la aparición de los modelos generativos, digamos los modelos fundacionales, introducen cambios y novedades.

Por una parte, ponen al alcance de usuarios 'normales' sin especialización técnica ni mucho menos en inteligencia artificial, hacer uso de capacidades avanzadas para multitud de tareas, sin más que usar las herramientas, sobre todo las tipo chatbot como ChatGPT, y donde gana importancia la habilidad del usuario para formular las preguntas o peticiones de la mejor forma posible usando las técnicas recogidas bajo el concepto de 'prompt engineering'. Incluso, se añaden cada vez más, capacidades para que el usuario se haga pequeñas automatizaciones como las Tareas de ChatGPT.

Además de eso, y de nuevo al alcance de cualquier usuario, cada vez más y más herramientas ofimáticas, como Office 365 o herramientas de videoconferencia como Zoom o Teams, o herramientas de desarrollo y así un largo y creciente etcétera, incluyen capacidades y asistentes basados en inteligencia artificial.

A nivel ya de grupos de desarrollo en gran medida las aplicaciones en torno a los modelos fundacionales se construyen tomando un modelo ya existente y que resulte adecuado y se intenta personalizar el modelo, si es necesario, y usarlo de la mejor forma posible. En el camino de la personalización se dispone de los mecanismos como el fine tunning o el uso de RAG ('Retrieval Augmented Generation').

Y, finalmente, se abre el camino de los agentes que, sin embargo y pese a ser una idea novedosa, recuerda mucho, como ya comenté en el post 'La hibridación de los robots software: agentes frente a RPA y robots conversacionales', a la forma en que se ha trabajado hasta la fecha en RPA o en agentes conversacionales.


Una caracterización de lo diferencial del trabajo con modelos fundacionales


Si yo tuviera que hacer una caracterización rápida de las principales diferencias que traen consigo los modelos fundacionales, diría, a bote pronto, lo siguiente:


  • La posibilidad de cambiar de manera notable el comportamiento, simplemente, mediante instrucciones en lenguaje natural ('prompt engineering'), en lugar de hacerlo mediante instrucciones en un lenguaje de programación o reglas formales de algún tipo.

  • La generalidad de los modelos subyacentes (que por ello llamamos fundacionales) y que valen para multitud de tareas diferentes y la facilidad para usar modelos de una altísima potencia

  • La naturaleza 'no exacta' ni cien por cien previsible del resultado que producen lo que que lleva a tener que tomar precauciones cuando se utilicen en automatización industrial o de procesos por ejemplo, o cuando la eficiencia sea clave, o en el caso tareas críticas donde 'no se puede fallar' y donde no se admiten sorpresas.


Las tres diferencias según Chip Huyen


Leyendo el último libro de Chip Huyen titulado, 'AI Engineering: Building Applications with Foundation Models', me encuentro con que Huyen, autora también de un fantástico libro sobre machine learning, 'Designing Machine Learning Systems', y un poco, creo, comparando con lo que ella misma había escrito, identifica tres diferencias fundamentales entre el trabajo con modelos de machine learning, digamos tradicionales (objeto de su libro anterior), y la creación de soluciones con modelos fundacionales (objeto de su último libro). Ella destaca las tres siguientes diferencias:


  • En el machine learning 'tradicional', tú tienes que entrenar tu propio modelo, mientras que en trabajando con modelos fundacionales se usa un modelo que ya ha sido entrenado (o, al menos, añado yo, pre-entrenado)

  • Al trabajar con modelos fundacionales se trabaja con modelos mayores, que consumen más recursos y presentan una mayor latencia. Eso pone más presión en la optimización tanto del entrenamiento como de la inferencia y la necesidad de personal especializado en el uso de GPUs y grandes clústers.

  • Los modelos fundacionales generan respuestas abiertas lo cual les confiere flexibilidad pero también mayor dificultad de evaluación.


La autora resumen esas tres diferencias en el hecho de que, en el machine learning tradicional el foco está en el desarrollo de modelos, mientras que en desarrollo basado en modelos fundacionales (lo que ella llama ingeniería de IA) el foco está en la adaptación y evaluación de modelos existentes.


Conclusiones


El trabajo con modelos fundacionales lleva a una forma diferente de trabajo en el campo de la inteligencia artificial. Una forma que, al menos por el momento, no sustituye a la anterior, pero que sí introduce nuevos métodos y técnicas de trabajo y donde el foco está más en el mejor uso de modelos existentes y su explotación mediante un buen 'prompting', 'fine tunning' o RAG y en una algo más difícil evaluación del desempeño de eso modelos.


No hay comentarios:

Publicar un comentario