miércoles, 15 de enero de 2025

Tendencias en el desarrollo y entrenamiento de modelos generativos

En los dos post anteriores a éste que nos ocupa, he visitado algunas visiones generales sobre los modelos generativos y los grandes modelos de lenguaje .

En concreto, he revisado una comparativa con la cognición humana y  una identificación de los retos que afrontan para el futuro, y todo ello basado en la argumentación que hace Ben Auffart al final de su libro 'Generative AI with LangChain'.

En este post, y basándome en la misma fuente, comentaré algunas tendencias en el desarrollo de modelos generativos que identifica el mismo autor, recalcando, como hice en el post anterior, que el libro está publicado en Diciembre de 2023 por lo que el panorama técnico y competitivo puede haber experimentado alguna ligera evolución, aunque creo que no cambian las ideas básicas. 


La escala del entrenamiento de los modelos generativos


Por un lado, el autor menciona el incremento en el esfuerzo en el entrenamiento de los modelos. En concreto aporta un dato en que dice que el tiempo de entrenamiento de los modelos, se dobla cada ocho meses, lo cual no se pude ver compensado, desde un punto de vista de coste, por el hecho de que, exista también la denominada Ley de Rock según la cual el coste de los procesadores de tipo GPU ('Graphical Processing Unit') o TPU ('Tensor Processing Unit')  empleados se reduce a la mitad cada cuatro años.

Como ilustración, aporta la siguiente gráfica, creada por Epoch.ai y que se puede conseguir en este enlace, donde se muestra la evolución del esfuerzo de entrenamiento, mostrando en abscisas el tiempo y en ordenadas el número de FLOPS ('Floating Point OPerations'), es decir el número de operaciones con números en coma flotante necesarios para entrenar un modelo. Dentro de esos ejes, se representan  mediante pequeños círculos, los modelos concretos.



A modo de curiosidad, y como forma de tener un orden de magnitud, según esta fuente el entrenamiento del modelo GPT-4 de OpenAI realizó 2,1 x 1025 FLOPs, empleó un dataset de entrenamiento con 4,9 x 1012 puntos de datos, duró 95 días, consumió 2,2 x 104 Kilowatios y costó 41 millones de dólares. Por su parte, el entrenamiento del modelo Gemini 1.0 Ultra, realizó 5,0 x 1025 FLOPs, duró 100 días, consumió 2,4 x 104 Kilowatios y costó 30 millones de dólares

Aunque se trabaja en alternativas, de momento hay una correlación fuerte entre el desempeño del modelo y las magnitudes como el tamaño del propio modelo, su conjunto de datos de entrenamiento y el esfuerzo computacional empleado en ese entrenamiento.  

Estos volúmenes, y las economías de escala necesarias, hace concluir al autor, cosa que confirma la experiencia, que estos modelos estarán concentrados en las manos de las grandes empresas tecnológicas. 

Como forma de reducir estas magnitudes, se buscan cosas como mejorar la calidad de los datos de entrenamiento o revisar el diseño del propio modelo. también se plantea la opción de modelos de nicho que pueden dar una excelente calidad en sus resultados, siendo sin embargo modelos más modestos en cuanto a tamaño y necesidades de datos y computacionales para su entrenamiento.


Técnicas para una IA generativa más accesible y efectiva


Tras esto, el autor recoge brevemente algunas técnicas o enfoques para conseguir unos modelos efectivos pero más accesibles.


  • Arquitecturas simplificadas: arquitecturas de los modelos más sencillas lo que facilita su gestión, mejora su interpretabilidad y reduce los costes

  • Generación de datos sintéticos: es decir, creación de datos artificiales que simplifiquen la obtención de datasets de entrenamiento y contribuyan a proteger la privacidad

  • Destilado del modelo: es decir, uso del 'transfer learning', transfiriendo conocimiento de un gran modelo a otros menores, más baratos y de más sencillo despliegue

  • Optimización de motores de inferencia: mediante la creación de 'frameworks' que optimicen el uso del hardware y con ello la eficiencia y velocidad de ejecución de los modelos

  • Aceleradores hardware para IA dedicados: desarrollo y uso de hardware especializado, como han sido hasta la fecha las GPUs y las TPUs

  • Datos públicos: un poco bajo la filosofía 'open data', disponibilidad de datasets públicos, incluyendo datos sintéticos y con una visión que favorece, de nuevo, la privacidad e incluso la equidad.

  • Cuantización: es decir, reducción del número de bits usados para representar los números, perdiendo algo de precisión pero consiguiendo muy buenas mejoras en cuanto a eficiencia.

  • Bases de conocimiento: Incorporación de bases de conocimiento, con información factual, lo que reduce las alucinaciones.

  • RAG ('Retrieval Augmented Generation'): en línea con el punto anterior, enriquecer la generación de texto con el apoyo del conocimiento recogido en fuentes relevantes.

  • Aprendizaje federado: Modelo descentralizado y distribuido de entrenamiento que favorece la escalabilidad

  • Multimodalidad: trabajo no sólo con texto sino con otras modalidades como imagen, vídeo o sonido.


Conclusiones


Quizá, la gran conclusión posible sea que si, en efecto, los modelos de lenguaje son grandes y costosos, y parece difícil evitar la concentración de poder en este ámbito en las grandes empresas tecnológicas, pero que hay multitud de líneas de trabajo y mejora muy serias y prometedoras para mejorar tanto los resultados de los modelos, como su eficiencia computacional y, por tanto su coste e impacto medioambiental.


No hay comentarios:

Publicar un comentario