Acceso Abierto
Desarrollo e implementación de un sistema para detectar y explicar patrones emocionales en la voz en escenas de películas usando redes neuronales y clasificadores interpretativos
Cargando...
Fecha
2025-12-29
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Católica de Santa María
Resumen
Las personas desean comunicarse y ser comprendidas, siendo esencial la expresión emocional, pero su uso implica un desafío de precisión, rapidez, interpretación y eficacia, que puede ser simplificado con Inteligencia Artificial (AI). Analizar las emociones a menudo se vincula con gran experiencia en el área o sistemas complejos multidisciplinarios, influenciables por factores contextuales, difíciles de comprender, en servicios poco adaptativos o muy limitados. El sistema busca detectar y explicar patrones emocionales, entre características numéricas de la voz y representaciones visuales Mel, usando modelos interpretativos que vinculan razonamiento intermedio (embeddings) en una arquitectura combinada de Redes Neuronales Convolucionales (Convolutional Neural Networks, CNN) y Transformadores (Transformers). El sistema propuesto ofrece precisión, explicabilidad y una solución viable, reproducible y de bajo costo
computacional para el análisis emocional en voz, con potencial en educación, salud y tecnologías interactivas. Este estudio tecnológico y aplicado, con un enfoque exploratorio y explicativo, usa las decisiones simplificadas de árboles de decisión (decision trees, DT) junto a
LassoCV (Least Absolute Shrinkage and Selection Operator cross-validation) para detectar patrones entre las bases de datos de entrenamiento y muestra. Se encontró que hasta el 87% de representaciones embeddings en la base de datos de CREMA-D (Crowd-sourced Emotional Multimodal Actors Dataset) (41/42) y el 62% en EMO-STIM (Emotional Film Clips with Discrete and Componential Assessment) (59/68) podrían ser explicadas por características vocales. Los modelos interpretativos (surrogate models) lograron un coeficiente de determinación (R2) de 0.76, un error cuadrático medio (MSE) de 0.00165 y su raíz (RMSE) de 0.041, correspondientes a una representación con 10 características, con fidelidad superior al 98%, y etiquetas emocionales con precisión del 99.7% usando arquitectura CNN básica, con soporte complementario de transformadores. El estudio demuestra que muchas decisiones del modelo se basan en una amplia gama de características vocales. Esto sugiere que tanto la expresión como la respuesta de emociones básicas no solo se apoya en las más convencionales o evidentes.
Descripción
Palabras clave
Inteligencia artificial emocional, redes neuronales convolucionales, interpretabilidad