Desarrollo e implementación de un sistema para detectar y explicar patrones emocionales en la voz en escenas de películas usando redes neuronales y clasificadores interpretativos

Monje Bolivar, Ronaldo Alejandro

Acceso Abierto

Desarrollo e implementación de un sistema para detectar y explicar patrones emocionales en la voz en escenas de películas usando redes neuronales y clasificadores interpretativos

Archivos

71.0710.IS.pdf (3.21 MB)

71.0710.IS.RT.pdf (21.7 MB)

Autorización_71.0710.IS.pdf (196.73 KB)

Fecha

2025-12-29

Autores

Monje Bolivar, Ronaldo Alejandro

Editor

Universidad Católica de Santa María

Nivel de acceso

Acceso Abierto

Resumen

Las personas desean comunicarse y ser comprendidas, siendo esencial la expresión emocional, pero su uso implica un desafío de precisión, rapidez, interpretación y eficacia, que puede ser simplificado con Inteligencia Artificial (AI). Analizar las emociones a menudo se vincula con gran experiencia en el área o sistemas complejos multidisciplinarios, influenciables por factores contextuales, difíciles de comprender, en servicios poco adaptativos o muy limitados. El sistema busca detectar y explicar patrones emocionales, entre características numéricas de la voz y representaciones visuales Mel, usando modelos interpretativos que vinculan razonamiento intermedio (embeddings) en una arquitectura combinada de Redes Neuronales Convolucionales (Convolutional Neural Networks, CNN) y Transformadores (Transformers). El sistema propuesto ofrece precisión, explicabilidad y una solución viable, reproducible y de bajo costo computacional para el análisis emocional en voz, con potencial en educación, salud y tecnologías interactivas. Este estudio tecnológico y aplicado, con un enfoque exploratorio y explicativo, usa las decisiones simplificadas de árboles de decisión (decision trees, DT) junto a LassoCV (Least Absolute Shrinkage and Selection Operator cross-validation) para detectar patrones entre las bases de datos de entrenamiento y muestra. Se encontró que hasta el 87% de representaciones embeddings en la base de datos de CREMA-D (Crowd-sourced Emotional Multimodal Actors Dataset) (41/42) y el 62% en EMO-STIM (Emotional Film Clips with Discrete and Componential Assessment) (59/68) podrían ser explicadas por características vocales. Los modelos interpretativos (surrogate models) lograron un coeficiente de determinación (R2) de 0.76, un error cuadrático medio (MSE) de 0.00165 y su raíz (RMSE) de 0.041, correspondientes a una representación con 10 características, con fidelidad superior al 98%, y etiquetas emocionales con precisión del 99.7% usando arquitectura CNN básica, con soporte complementario de transformadores. El estudio demuestra que muchas decisiones del modelo se basan en una amplia gama de características vocales. Esto sugiere que tanto la expresión como la respuesta de emociones básicas no solo se apoya en las más convencionales o evidentes.

Palabras clave

Inteligencia artificial emocional, redes neuronales convolucionales, interpretabilidad

URI

https://hdl.handle.net/20.500.12920/16878

Colecciones

Ingeniería de Sistemas

Página completa del ítem

Desarrollo e implementación de un sistema para detectar y explicar patrones emocionales en la voz en escenas de películas usando redes neuronales y clasificadores interpretativos

Archivos

Fecha

Autores

Título de la revista

ISSN de la revista

Título del volumen

Editor

Nivel de acceso

Resumen

Descripción

Palabras clave

Citación

URI

Colecciones