Implemetación de clasificador de noticias en idioma español para la identificación de Fake News mediante el análisis, traducción automática y validación de un conjunto de datos en inglés, y el uso de técnicas de aprendizaje máquina y procesamiento de lenguaje natural
Loading...
Date
2021-07-01
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Católica de Santa María
Abstract
El presente trabajo presenta la implementación de un clasificador de noticias que
permite la identificación de noticias falsas en el idioma español. Dicho clasificador se basa en
el entrenamiento de modelos de aprendizaje automático supervisado mediante el uso de
técnicas y herramientas de procesamiento de lenguaje natural.
Uno de los mayores desafíos de este trabajo es la escasez de conjuntos de datos en
español que puedan ser utilizados para el entrenamiento de los modelos de aprendizaje
automático. Como respuesta a este desafío, se hace uso de la metodología del backtranslation
y de la métrica METEOR (Banerjee y Lavie 2005) para la evaluación de la traducción
automática de un conjunto de datos de noticias falsas en idioma inglés hacia el idioma español.
Dicho conjunto de datos traducido es después utilizado como fuente de datos para el
entrenamiento del modelo de aprendizaje automático.
Debido a que ningún modelo de aprendizaje automático puede utilizar una muestra
textual directamente para su entrenamiento, se realiza la implementación de un transformador
que permite la extracción de características semánticas, sintácticas y de polaridad. Las
características semánticas son extraídas mediante el uso de un modelo de aprendizaje
automático que permite la obtención de vectores de palabras que codifican las relaciones
semánticas y de significado entre palabras. Las características sintácticas son expresadas
mediante la obtención de etiquetas de parte del discurso y de nombres de entidades. Las
características de polaridad son obtenidas con un léxico de sentimientos en el idioma español.
Se realiza además el despliegue de dicho modelo en un sistema web para su uso por
usuarios externos.
Description
Keywords
Inteligencia artificial, Aprendizaje automático, Aprendizaje máquina, Vectorización, Análisis de sentimientos