'Generative deep learning' es un libro técnico que explica las llamadas redes generativas (un subconjunto del deep learning) tanto en sus principios de funcionamiento como su aplicación en diferentes campos de, llamémosle, creatividad como son la generación de textos, imágenes o música.
El libro, de una estructura muy clara, se compone de diez capítulos agrupados en dos partes, como sigue:
- 'I. INTRODUCTION TO GENERATIVE DEEP LEARNING' : Proporciona, de manera transversal, los conceptos fundamentales de los modelos generativos y, sobre todo, se explican las dos grandes opciones actuales: los autocodificadores variacionales y las redes adversarias, para lo cual ocupa los cuatro primeros capítulos:
- '1. Generative modeling' : Aborda en el alto nivel el campo del modelado generativo, estudiando el tipo de problemas que se quieren resolver desde una perspectiva probabilista.
- '2. Deep learning' : Proporciona una guía sobre deep learning con sus herramientas y técnicas incluyendo una pequeña introducción a Keras-
- '3. Variational autoencoders' : Se explica el primero de los grandes modelos generativos: los autocodificadores variacionales y se aplica a casos como la generación de caras o la modificación de imágenes existentes.
- '4. Generative adversarial networks' : Explica el segundo gran grupo de modelos generativos: las redes adversarias.
- 'II. TEACHING MACHINES TO PAINT, WRITE, COMPOSE AND PLAY' : Una segunda parte con una orientación más de aplicación dónde se explica el uso de los modelos vistos en la primera parte para la creación de imágenes, la escritura automática, la creación de música y los juegos.
- '5. Paint' : Se aborda el 'dibujado' artificial para lo cual se explican dos arquitecturas. En primer lugar CycleGAN que permite convertir una fotografía en un cuadro con un estilo determinado (y al contrario). Y luego se la técnica de de transferencia de estilo que permite modificar una fotografía para convertirla en un cuadro que da la impresión de haber sido pintado por un artista.
- '6. Write' : Se estudia ahora la escritura automática para lo cual se explica en primer lugar el funcionamiento de las redes recurrentes (RNN). También se explica un caso diferente: un generador de preguntas-respuestas basado en una arquitectura de codificador-decodificador.
- '7. Compose' : Se pasa ahora a la composición o generación de música, razonando que es un problema muy similar a los problemas de generación secuencial ya vistos con el texto pero con particularidades como son la existencia del tono o el ritmo. Se muestra cómo, en efecto, muchas de las técnicas usadas para la generación de texto son aplicables al caso de la música y se explica una arquitectura específica, MuseGAN que usa redes adversarias para la generación de música.
- '8. Play' : Basándose en un artículo de David Ha, se explica como la conjunción de redes generativas y aprendizaje supervisado puede llevarnos a soluciones capaces de trabajar en un mundo imaginado, un entorno que un agente usa, a modo de simulador, para su propio entrenamiento y se ejemplifica con un algoritmo que aprende a conducir un coche lo más rápido posible en una pista de carreras
- '9. The future of generative modeling' : Resume el paisaje actual del modelado generativo y repasa las técnicas vistas en el libro. Además, echa un vistazo al futuro especulando sobre cómo las tecnologías más avanzadas usadas hoy día podrían hacernos cambiar la forma en que concebimos la creatividad y si será posible o no llegar a conseguir algún día una inteligencia artificial creativa con unos resultados indistinguibles de los producidos por el ser humano.
- '10. Conclusion' : Un breve capítulo de cierre con algunas reflexiones casi personales y en donde expone una hipótesis: que el cerebro y por tanto eventualmente los agentes inteligentes reaccionan no sólo a su entorno sino al entendimiento de su propio funcionamiento.
A pesar de que la algoritmia de que trata el libro es avanzada y de cierta complejidad, lo cierto es que la explicación es bastante clara y asequible, complementada además con ejemplos de código fundamentalmente en Keras, que permiten a desarrolladores probar con ejemplos reales.
La verdad es que es un libro que he disfrutado, aparte de porque el tema me parece interesantísimo, también porque el autor lo explica de una forma que considero muy adecuada: técnica y realista pero bastante comprensible.
No se trata, evidentemente de un libro para cualquier tipo de público pero sí muy recomendable para cualquiera con una base técnica mediana y que desee conocer este tipo de soluciones de inteligencia artificial.
David Foster
David Foster |
Socio fundador de Data Science Partners (ADSP), una consultora basada en Londres que proporciona soluciones innovadoras en Ciencia de Datos.
Autor de 'Generative Deep Learning: Teaching Machines to Paint, Write, Compose and Play'
David Foster tiene un grado en Matemáticas por el Trinity College, Cambridge, Reino Unido y un Máster en Investigación de Operaciones por la University of Warwick.
Ha ganado varias competiciones internacionales de machine learning.
Puedes saber más del autor visitando su perfil en LinkedIn o siguiéndole en twitter donde se identifica como @applied_data.
Ficha técnica:
Artículos de este blog relacionados
- Algunas diferencias entre texto e imagen que afectan a los algoritmos de deep learning
- Tres motivos por los que los modelos generativos pueden conducir a una inteligencia artificial más sofisticada
- Modelos generativos, autocodificadores variacionales y el ingenio humano
- Unas ideas muy preliminares sobre modelos generativos
No hay comentarios:
Publicar un comentario