martes, 13 de diciembre de 2022

Los agentes conversacionales explicados por Michael McTear

'Conversational AI', subtitulado 'Dialogue Systems, Conversational Agents, and Chatbots' es un libro dedicado a agentes conversacionales que, al contrario que otros que he tenido la oportunidad de leer, se centra más en los conceptos. algoritmos y tecnologías de base más que lanzarse, como la mayoría, a herramientas concretas y a la forma de implementarlos paso a paso.

El autor distingue tres tipos de sistemas:
  • Basados en reglas
  • Estadísticos y basados en datos
  • Neuronales extremo a extremo
Y ese planteamiento le sirve como línea base de argumentación.

Con ese punto de partida, el libro, de mediana tirando a corta extensión, se estructura en tan solo seis capítulos, como sigue:
  • '1. Introducing Dialogue Systems:' Un capítulo introductorio que comienza definiendo lo que es un sistema dialógico ('dialogue system') que es como el autor denomina habitualmente a los sistemas conversacionales, y luego intentando dar razones de por qué desarrollar este tipo de sistemas. Luego hace un repaso histórico y a continuación desarrolla cómo percibe la situación actual, describiendo algunas de las manifestaciones de este tipo de sistemas como son sus implementaciones en sistemas de mensajería, en smartphones, en altavoces inteligentes o en vehículos. Finalmente realiza una clasificación, según la iniciativa, de los sistemas dialógicos y da algunas ideas sobre su diseño y desarrollo.

  • '2. Rule-Based Dialogue Systems Architecture, Methods and Tools:' Capítulo dedicado al primer tipo de sistemas que identifica el autor, los más primitivos si se quiere, los basados en reglas. Primero explica los elementos técnicos constituyentes como el reconocimiento de voz, el procesamiento de lenguaje natural, la gestión de la conversación (o el diálogo) y la conversión texto-voz. Luego detalla cómo se hace el diseño de este tipo de sistemas para terminar con una panorámica de la tipología de herramientas que se utilizan.

  • '3. Statistical Data-Driven Dialogue Systems:' Acomete ahora el segundo tipo, los de naturaleza estadística. De nuevo, describe cómo se plantean sus elementos, el entendimiento de lenguaje natural, la gestión del diálogo y la generación de lenguaje para, en la segunda parte del capítulo, entrar, con cierta extensión, en el aprendizaje por refuerzo y en el uso de modelos de Markov.

  • '4. Evaluating Dialogue Systems:' Hace, en cierto sentido, un paréntesis, antes de describir el último tipo de sistema, para hablar de la evaluación de los sistemas dialógicos distinguiendo en el tratamiento entre los sistemas orientados a tarea y los sistemas de dominio abierto. Finaliza presentando algunos 'frameworks' para la evaluación y razonando sobre la mejor forma de evaluar este tipo de sistemas.

  • '5. End-to-End Neural Dialogue Systems:' Ahora si, entra en el tercer tipo de sistemas dialógicos, aquellos basados en redes neuronales funcionando extremo a extremo. Comienza introduciendo elementos de redes neuronales, con foco, lógicamente, en redes recurrentes (RNN), las LSTM ('Long Short Term Memory') y las redes codificador-decodificador. Luego trata, primero, los sistemas orientados a a teraeas y a continuación los de dominio abierto deteniéndose en algunos tan conocidos como el GPT-3 de OpenAI, el Meena de Google o el BlenderBot de Facebook (Meta). Pasa a continuación a considerar dos aspectos específicos como son la inconsistebcia o el afecto y finaliza tratando y ejemplificando concursos existentes, conjuntos de datos disponibles etc.

  • '6. Challenges and Future Directions:' Último capítulo donde se tratan, de una forma un poco dispersa, varios elementos de trabajo actual y perspectiva futura como son el uso de la multimodalidad, la introducción de elementos visuales y fundamentación visual, la eficiencia en datos, el uso en robots sociales o internet de las cosas y aspectos sociales y éticos, entre otros.
Un pequeño detalle, pero algo incómodo es que el autor, siguiendo una práctica habitual en textos académicos, es generoso en el uso de referencias bibliográficas algo que, por su abundancia, en algunos momentos, o al menos esa ha sido mi impresión, incomoda la lectura y dificulta seguir el hilo.

Por lo demás, me ha parecido un libro actualizado, muy bien estructurado, interesante, panorámico y bastante diferente a lo que me suelo encontrar en otros libros sobre chatbots o agentes conversacionales.

Bastante recomendable, sin duda.

Michael McTear

(Fuente: Traducción y ligera elaboración propia de su perfil en Informa Connect)

Michael McTear
Michael McTear es un profesor emérito de la Ulster University con especial interés en tecnologías de lenguaje hablado. Ha estado investigando en este campo de los sistemas de dialogo hablado durante más de 20 años y es autor de varios libros, incluyendo 'Spoken Dialogue Technology: Toward The Conversational User Interface' (2004), 'Spoken Dialogue Systems' (2010) con Kristiina Jokinen, 'The Conversational Interface: Talking to Smart Devices' (2016) con Zoraida Callejas y David Griol y 'Conversational AI' (2020).

Michael ha realizado keynotes y tutoriales en muchas conferencias y talleres académicos incluyendo SpeechTEK, Conversational Interaction, ProjectVoice, REWORK AI Assistant Summit y las European Chatbot Conferences.

Michael está involucrado en varios proyectos de investigación y desarrollo investigando el uso de agentes conversacionales en proyectos socialmente relevantes como la monitorización de la salud mental.

Puedes saber más del autor visitando su perfil en LinkedIn o siguiéndole en Twitter donde se identifica como @MichaelMcTear.

Ficha técnica:

No hay comentarios:

Publicar un comentario