miércoles, 2 de diciembre de 2020

Tres componentes técnicos esenciales para el reconocimiento de la emoción en la voz

Muchos son los canales por los que los humanos expresamos las emociones. Y muchas son las fuentes de información (y los sensores y algoritmos) que un sistema artificial debe utilizar si quiere aprovechar esa riqueza expresiva para detectar emociones.

Uno de los canales que más utilizamos los humanos es la voz, la voz que expresa en lenguaje natural, mediante denotación y connotación, nuestros  pensamientos y emociones. Pero mucha información emocional acompaña a la fonética, al timbre, a la entonación.

La detección de la emoción con base en la voz, es un desafío tecnológico y algorítmico. En el libro libro 'The Oxford Handbook of Affective Computing'  se identifican tres componentes que se consideran fundamentales para un sistema de reconocimiento de emociones basado en voz. Son los siguientes:


  • Etiquetado de emociones: Definición e implementación de un sistema de etiquetado de emociones que proporcione la base para la computación. Al fin y al cabo, la detección de emociones suele reducirse a un problema de los denominados de clasificación en que, ante una entrada más o menos compleja, respondemos con una salida que es una etiqueta de categoría y, en este caso, buscamos las categorías que mejor estructuran las emociones.

  • Normalización: Transformación de las señales originales en una señales normalizadas que eliminen el efecto en la voz de otros aspectos que no tienen que ver con las emociones.

  • Algoritmos: Una algoritmia basada, como no es difícil de imaginar, en machine learning y que sea capaz de implementar un modelo que, ante una señal normalizada (componente 2) sea capaz de proporcionar una etiqueta (componente 1) que represente adecuadamente la emoción expresada.


Un esquema claro, aunque mucho más fácil de expresar que, evidentemente, de diseñar e implementar.


No hay comentarios:

Publicar un comentario