Implemetación de clasificador de noticias en idioma español para la identificación de Fake News mediante el análisis, traducción automática y validación de un conjunto de datos en inglés, y el uso de técnicas de aprendizaje máquina y procesamiento de lenguaje natural

Loading...
Thumbnail Image

Date

2021-07-01

Journal Title

Journal ISSN

Volume Title

Publisher

Universidad Católica de Santa María

Abstract

El presente trabajo presenta la implementación de un clasificador de noticias que permite la identificación de noticias falsas en el idioma español. Dicho clasificador se basa en el entrenamiento de modelos de aprendizaje automático supervisado mediante el uso de técnicas y herramientas de procesamiento de lenguaje natural. Uno de los mayores desafíos de este trabajo es la escasez de conjuntos de datos en español que puedan ser utilizados para el entrenamiento de los modelos de aprendizaje automático. Como respuesta a este desafío, se hace uso de la metodología del backtranslation y de la métrica METEOR (Banerjee y Lavie 2005) para la evaluación de la traducción automática de un conjunto de datos de noticias falsas en idioma inglés hacia el idioma español. Dicho conjunto de datos traducido es después utilizado como fuente de datos para el entrenamiento del modelo de aprendizaje automático. Debido a que ningún modelo de aprendizaje automático puede utilizar una muestra textual directamente para su entrenamiento, se realiza la implementación de un transformador que permite la extracción de características semánticas, sintácticas y de polaridad. Las características semánticas son extraídas mediante el uso de un modelo de aprendizaje automático que permite la obtención de vectores de palabras que codifican las relaciones semánticas y de significado entre palabras. Las características sintácticas son expresadas mediante la obtención de etiquetas de parte del discurso y de nombres de entidades. Las características de polaridad son obtenidas con un léxico de sentimientos en el idioma español. Se realiza además el despliegue de dicho modelo en un sistema web para su uso por usuarios externos.

Description

Keywords

Inteligencia artificial, Aprendizaje automático, Aprendizaje máquina, Vectorización, Análisis de sentimientos

Citation