Análisis comparativo de los puntajes obtenidos por Chat GPT-4o, Gemini Advanced y Copilot al aplicarlas en el examen del Concurso Nacional de Admisión al Residentado Médico, realizado por el Consejo Nacional de Residentado Medico (CONAREME), de los años 2017-2024. Perú.

Calderon Paiva, Gabriel Alberto; Medina Suarez, Joshua Andree

Acceso Abierto

Análisis comparativo de los puntajes obtenidos por Chat GPT-4o, Gemini Advanced y Copilot al aplicarlas en el examen del Concurso Nacional de Admisión al Residentado Médico, realizado por el Consejo Nacional de Residentado Medico (CONAREME), de los años 2017-2024. Perú.

Archivos

70.3035.M.pdf (2.59 MB)

70.3035.M.RT.pdf (9.06 MB)

Autorización_70.3035.M.pdf (221.49 KB)

Fecha

2025-03-06

Autores

Calderon Paiva, Gabriel Alberto

Medina Suarez, Joshua Andree

Editor

Universidad Católica de Santa María

Resumen

Introducción: La inteligencia artificial (IA) ha revolucionado la educación médica y la práctica clínica, proporcionando herramientas innovadoras para la resolución de preguntas complejas. En el contexto del Concurso Nacional de Admisión al Residentado Médico en Perú, es necesario evaluar y comparar el desempeño de distintos modelos de IA para determinar su aplicabilidad y utilidad en escenarios médico-educativos. Objetivo: Comparar los puntajes obtenidos al aplicar los modelos de inteligencia artificial Chat GPT-4o, Gemini Advanced y Copilot al examen del Concurso Nacional de Admisión al Residentado Médico 2017-2024 de Perú. Material y métodos: Se realizó un estudio comparativo de los resultados obtenidos al aplicar los tres modelos de inteligencia artificial en los exámenes comprendidos en el periodo 2017- 2024. Las preguntas fueron clasificadas en seis áreas temáticas: Ciencias Básicas, Medicina Interna, Ginecología y Obstetricia, Pediatría, Cirugía y Salud Pública. Se calcularon porcentajes de aciertos en cada examen por cada modelo de IA, y se realizó un análisis estadístico de varianza (ANOVA) y pruebas post hoc para determinar diferencias significativas. Resultados: El análisis de varianza no identificó diferencias estadísticamente significativas entre los modelos evaluados (p = 0.188). Copilot obtuvo un promedio de aciertos y desviación de 89.81% (σ=3.43), mostrando una variabilidad moderada en los porcentajes obtenidos por año. ChatGPT-4º alcanzó un porcentaje de aciertos de 89.01% (σ=4.30) con una alta variabilidad en años específicos. Gemini Advanced alcanzó un porcentaje de aciertos de 86.18% (σ=2.26), presentando una mayor consistencia interanual. En el análisis por bloques temáticos, en los bloques de Ciencias Básicas y Medicina Interna se evidenció altos porcentajes en los aciertos y similitudes entre estos, en contraste con las áreas de Cirugía y Salud Pública, que tuvieron los más bajos porcentajes de aciertos y una mayor diferencia entre estos. Copilot fue el modelo que más destaco en el porcentaje de aciertos al evaluar los bloques temáticos, ocupando el mayor porcentaje en Ciencias Básicas y el menor en Salud Pública. Conclusiones: Nuestro estudio evidenció que no existen diferencias significativas en el rendimiento de los modelos de inteligencia artificial al aplicarlas en los exámenes de Residentado Médico de Perú. Los tres modelos obtuvieron porcentajes satisfactorios de aciertos y demostraron su capacidad de proporcionar explicaciones fundamentadas, resaltando su potencial como herramientas complementarias en la educación médica.

Palabras clave

Inteligencia Artificial, Educación Médica, Residentado Médico

URI

https://hdl.handle.net/20.500.12920/14771

Colecciones

Medicina Humana

Página completa del ítem

Análisis comparativo de los puntajes obtenidos por Chat GPT-4o, Gemini Advanced y Copilot al aplicarlas en el examen del Concurso Nacional de Admisión al Residentado Médico, realizado por el Consejo Nacional de Residentado Medico (CONAREME), de los años 2017-2024. Perú.

Archivos

Fecha

Autores

Título de la revista

ISSN de la revista

Título del volumen

Editor

Resumen

Descripción

Palabras clave

Citación

URI

Colecciones