lunes, 25 de abril de 2022

Diez retos y líneas de evolución de los agentes conversacionales

Todo la disciplina de la Inteligencia Artificial se encuentra en rápida evolución. Eso incluye  todo el campo relativo al procesamiento del lenguaje natural y de la voz y alcanza de lleno, por tanto, al mundo de los agentes conversacionales, ya sean estos chatbots, voice bots, robots sociales o, en general, las diferentes formas de agentes que identificamos en el artículo 'Cinco tipos de agentes conversacionales'.

Nos preguntamos ahora cuáles son las principales áreas de trabajo, los principales retos a que se enfrentan hoy en día los científicos, técnicos y lingüistas que trabajan en este campo de los agentes conversacionales.

Al final de su libro 'Conversational AI. Dialogue systems, conversational agents and chatbots', el profesor Michael McTear identifica diez retos o direcciones de futuro para los sistemas dialógicos (sistemas de diálogo o agentes conversacionales).

Veámoslos muy brevemente.


1. Multimodalidad


La mayoría de los agentes conversacionales utilizan fundamentalmente dos modalidades: el texto y la voz. Sin embargo, la interacción persona-máquina puede involucrar otras modalidades como son el tacto, las imágenes o el vídeo.

En este empeño, se distingue entre lo que se denomina la fusión multimodal, es decir, el procesamiento de una entrada multimodal, y la fisión multimodal, que se ocupa de la salida multimodal

Algunas de las ventajas de esta multimodalidad son la flexibilidad, permitiendo al usuario elegir la forma de entrada que más le convenga y la reducción de errores y problemas asociados a la referencia anafórica, al disponer el agente de nuevas entradas, como el feedback visual, para la desambiguación. 


2. Diálogo visual


Se trata de la combinación de la visión artificial con la inteligencia artificial conversacional de forma que los agentes conversacionales puedan mantener un diálogo con los humanos sobre un contenido visual. Esto puede aportar mucho en áreas como la robótica o la ayuda a personas con limitaciones visuales.


3. Entrenamiento con datos escasos


Se trata de conseguir entrenar a sistemas o algoritmos conversacionales, muy demandantes habitualmente en datos, con unos datos escasos. Se experimenta con diferentes algoritmos y mecanismos, que incluyen el transfer learning pero buscan también otras alternativas.


4. Gráficos de conocimiento


Se trata de que los agentes conversacionales dispongan de conocimiento del mundo exterior, un conocimiento que no se limite, como sucede en muchas implementaciones actuales, a la información que han obtenido en conversaciones o interacciones previas.

Una forma de representar ese conocimiento es mediante árboles como el Google Knowledge Graph lanzado en 2012 y para el que el autor nos aporta el dato (seguramente ya superado) de que contiene 500.000 millones de hechos ('facts') sobre más de cinco mil millones de entidades.


5. Razonamiento y resolución de problemas colaborativos


Se trata de conseguir la colaboración entre el agente conversacional y otros agentes externos (incluyendo los humanos, claro) lo que implica que el agente sea capaz de razonar no sólo sobre sus propias acciones sino también sobra la de el o los agentes con que colabora.


6. Fenómenos en el discurso y el diálogo


McTear agrupa bajo este epígrafe una serie de elementos dispersos que afectan al diálogo y la conversación. 

Así nos habla, por ejemplo, de las problemáticas de referencia a objetos y entidades de diversas formas (co-referencia, referencia anafórica, etc)

También se refiere a problemáticas y retos como son la detección de cambios en la materia de la conversación, las conversaciones con múltiples intervinientes (no solo dos), procesado incremental (anticiparse a lo que el humano u otro agente va a decir) y al cambio de turnos en el diálogo.


7. Sistemas conversacionales híbridos


Se trataría enfoques que combinarían en la conversación las tres grandes formas actuales de implementar la estrategia de la conversación: basada en reglas, estadística y neuronal, tres formas a cuya explicación el autor ha dedicado gran parte de su libro en capítulos precedentes al abordaje de los retos y tendencias.


8. Diálogo con robots sociales


El diálogo en el caso de los robots sociales ofrece  algunas particularidades. Una de ellas, que ya mencionábamos en un artículo anterior, es que éstos son capaces de detectar y utilizar elementos de lenguaje no verbal como los gestos, la distancia o el movimiento.

Además, en el caso de los robots sociales, además de la interacción cara a cara (lo que denomina el micro entorno) se suele disponer de información procedente tanto de sus sensores como la accesible a través de internet, lo que constituye el macroentorno. 


9. Diálogo e Internet de las Cosas


Se trataría ahora de la incorporación de elementos conversacionales en más y más dispositivos interconectados mediante Internet de las Cosas. Estos elementos conversacionales proporcionan interfaces más naturales a esos dispositivos y, por cierto, formarían parte decisiva de lo que he llamado 'la explosión robótica'. 


10. Problemáticas sociales y éticas


Finalmente, se recogen las problemáticas de naturaleza social y ética como la adquisición de comportamientos inadecuados, los sesgos, la prevención de salidas ofensivas, el uso para extender noticias falsas, etc y también las posibilidades de su uso para el bien.


Conclusión


El campo de los agentes conversacionales, con mucho foco en el tratamiento del lenguaje, es un área apasionante dentro de la inteligencia artificial, tanto por sus grandes posibilidades de aplicación como porque, quizá, el lenguaje es una de las manifestaciones más tangibles de inteligencia.

Hay mucha investigación, experimentación e implantación en marcha y, seguro que, en los aspectos que menciona McTear, y en algunos otros, vamos a ver cosas sorprendentes y emocionantes en los próximos meses y años. 


No hay comentarios:

Publicar un comentario