Acceso Abierto
Análisis comparativo de los puntajes obtenidos por Chat GPT-4o, Gemini Advanced y Copilot al aplicarlas en el examen del Concurso Nacional de Admisión al Residentado Médico, realizado por el Consejo Nacional de Residentado Medico (CONAREME), de los años 2017-2024. Perú.
Cargando...
Fecha
2025-03-06
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Católica de Santa María
Resumen
Introducción: La inteligencia artificial (IA) ha revolucionado la educación médica y la práctica
clínica, proporcionando herramientas innovadoras para la resolución de preguntas complejas.
En el contexto del Concurso Nacional de Admisión al Residentado Médico en Perú, es
necesario evaluar y comparar el desempeño de distintos modelos de IA para determinar su
aplicabilidad y utilidad en escenarios médico-educativos.
Objetivo: Comparar los puntajes obtenidos al aplicar los modelos de inteligencia artificial Chat
GPT-4o, Gemini Advanced y Copilot al examen del Concurso Nacional de Admisión al
Residentado Médico 2017-2024 de Perú.
Material y métodos: Se realizó un estudio comparativo de los resultados obtenidos al aplicar
los tres modelos de inteligencia artificial en los exámenes comprendidos en el periodo 2017-
2024. Las preguntas fueron clasificadas en seis áreas temáticas: Ciencias Básicas, Medicina
Interna, Ginecología y Obstetricia, Pediatría, Cirugía y Salud Pública. Se calcularon porcentajes
de aciertos en cada examen por cada modelo de IA, y se realizó un análisis estadístico de
varianza (ANOVA) y pruebas post hoc para determinar diferencias significativas.
Resultados: El análisis de varianza no identificó diferencias estadísticamente significativas
entre los modelos evaluados (p = 0.188). Copilot obtuvo un promedio de aciertos y desviación
de 89.81% (σ=3.43), mostrando una variabilidad moderada en los porcentajes obtenidos por
año. ChatGPT-4º alcanzó un porcentaje de aciertos de 89.01% (σ=4.30) con una alta
variabilidad en años específicos. Gemini Advanced alcanzó un porcentaje de aciertos de
86.18% (σ=2.26), presentando una mayor consistencia interanual. En el análisis por bloques
temáticos, en los bloques de Ciencias Básicas y Medicina Interna se evidenció altos porcentajes
en los aciertos y similitudes entre estos, en contraste con las áreas de Cirugía y Salud Pública,
que tuvieron los más bajos porcentajes de aciertos y una mayor diferencia entre estos. Copilot
fue el modelo que más destaco en el porcentaje de aciertos al evaluar los bloques temáticos,
ocupando el mayor porcentaje en Ciencias Básicas y el menor en Salud Pública.
Conclusiones: Nuestro estudio evidenció que no existen diferencias significativas en el
rendimiento de los modelos de inteligencia artificial al aplicarlas en los exámenes de
Residentado Médico de Perú. Los tres modelos obtuvieron porcentajes satisfactorios de aciertos
y demostraron su capacidad de proporcionar explicaciones fundamentadas, resaltando su
potencial como herramientas complementarias en la educación médica.
Descripción
Palabras clave
Inteligencia Artificial, Educación Médica, Residentado Médico