Desarrollo e implementación de un sistema para detectar y explicar patrones emocionales en la voz en escenas de películas usando redes neuronales y clasificadores interpretativos

dc.contributor.advisorEsquicha Tejada, José David
dc.contributor.authorMonje Bolivar, Ronaldo Alejandro
dc.date.accessioned2026-05-13T16:41:48Z
dc.date.available2026-05-13T16:41:48Z
dc.date.issued2025-12-29
dc.description.abstractLas personas desean comunicarse y ser comprendidas, siendo esencial la expresión emocional, pero su uso implica un desafío de precisión, rapidez, interpretación y eficacia, que puede ser simplificado con Inteligencia Artificial (AI). Analizar las emociones a menudo se vincula con gran experiencia en el área o sistemas complejos multidisciplinarios, influenciables por factores contextuales, difíciles de comprender, en servicios poco adaptativos o muy limitados. El sistema busca detectar y explicar patrones emocionales, entre características numéricas de la voz y representaciones visuales Mel, usando modelos interpretativos que vinculan razonamiento intermedio (embeddings) en una arquitectura combinada de Redes Neuronales Convolucionales (Convolutional Neural Networks, CNN) y Transformadores (Transformers). El sistema propuesto ofrece precisión, explicabilidad y una solución viable, reproducible y de bajo costo computacional para el análisis emocional en voz, con potencial en educación, salud y tecnologías interactivas. Este estudio tecnológico y aplicado, con un enfoque exploratorio y explicativo, usa las decisiones simplificadas de árboles de decisión (decision trees, DT) junto a LassoCV (Least Absolute Shrinkage and Selection Operator cross-validation) para detectar patrones entre las bases de datos de entrenamiento y muestra. Se encontró que hasta el 87% de representaciones embeddings en la base de datos de CREMA-D (Crowd-sourced Emotional Multimodal Actors Dataset) (41/42) y el 62% en EMO-STIM (Emotional Film Clips with Discrete and Componential Assessment) (59/68) podrían ser explicadas por características vocales. Los modelos interpretativos (surrogate models) lograron un coeficiente de determinación (R2) de 0.76, un error cuadrático medio (MSE) de 0.00165 y su raíz (RMSE) de 0.041, correspondientes a una representación con 10 características, con fidelidad superior al 98%, y etiquetas emocionales con precisión del 99.7% usando arquitectura CNN básica, con soporte complementario de transformadores. El estudio demuestra que muchas decisiones del modelo se basan en una amplia gama de características vocales. Esto sugiere que tanto la expresión como la respuesta de emociones básicas no solo se apoya en las más convencionales o evidentes.
dc.formatapplication/pdf
dc.identifier.urihttps://hdl.handle.net/20.500.12920/16878
dc.language.isospa
dc.publisherUniversidad Católica de Santa Maríaes_ES
dc.publisher.countryPE
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/es_ES
dc.sourceUniversidad Católica de Santa Maríaes_ES
dc.sourceRepositorio de la Universidad Católica de Santa María - UCSMes_ES
dc.subjectInteligencia artificial emocional
dc.subjectredes neuronales convolucionales
dc.subjectinterpretabilidad
dc.subject.ocdehttps://purl.org/pe-repo/ocde/ford#1.02.01
dc.titleDesarrollo e implementación de un sistema para detectar y explicar patrones emocionales en la voz en escenas de películas usando redes neuronales y clasificadores interpretativos
dc.typeinfo:eu-repo/semantics/bachelorThesis
dc.type.versioninfo:eu-repo/semantics/publishedVersion
renati.advisor.dni43635330
renati.advisor.orcid0000-0002-0191-7174
renati.author.dni70254726
renati.discipline612076
renati.jurorRosas Paredes, Karina
renati.jurorGuevara Puente De La Vega, Karim
renati.jurorAngulo Osorio, Javier Fernando
renati.levelhttps://purl.org/pe-repo/renati/level#tituloProfesional
renati.typehttps://purl.org/pe-repo/renati/type#tesis
thesis.degree.disciplineIngeniería de Sistemas
thesis.degree.grantorUniversidad Católica de Santa María.Facultad de Ciencias e Ingenierías Físicas y Formaleses_ES
thesis.degree.nameIngeniero de Sistemas

Archivos

Bloque original
Mostrando 1 - 3 de 3
Cargando...
Miniatura
Nombre:
71.0710.IS.pdf
Tamaño:
3.21 MB
Formato:
Adobe Portable Document Format
No hay miniatura disponible
Nombre:
71.0710.IS.RT.pdf
Tamaño:
21.7 MB
Formato:
Adobe Portable Document Format
No hay miniatura disponible
Nombre:
Autorización_71.0710.IS.pdf
Tamaño:
196.73 KB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descripción: