Análisis comparativo de los puntajes obtenidos por Chat GPT-4o, Gemini Advanced y Copilot al aplicarlas en el examen del Concurso Nacional de Admisión al Residentado Médico, realizado por el Consejo Nacional de Residentado Medico (CONAREME), de los años 2017-2024. Perú.

Apaza Tososcahua de Palma, Sandra LeonorCalderon Paiva, Gabriel AlbertoMedina Suarez, Joshua Andree2025-03-112025-03-112025-03-06https://hdl.handle.net/20.500.12920/14771Introducción: La inteligencia artificial (IA) ha revolucionado la educación médica y la práctica clínica, proporcionando herramientas innovadoras para la resolución de preguntas complejas. En el contexto del Concurso Nacional de Admisión al Residentado Médico en Perú, es necesario evaluar y comparar el desempeño de distintos modelos de IA para determinar su aplicabilidad y utilidad en escenarios médico-educativos. Objetivo: Comparar los puntajes obtenidos al aplicar los modelos de inteligencia artificial Chat GPT-4o, Gemini Advanced y Copilot al examen del Concurso Nacional de Admisión al Residentado Médico 2017-2024 de Perú. Material y métodos: Se realizó un estudio comparativo de los resultados obtenidos al aplicar los tres modelos de inteligencia artificial en los exámenes comprendidos en el periodo 2017- 2024. Las preguntas fueron clasificadas en seis áreas temáticas: Ciencias Básicas, Medicina Interna, Ginecología y Obstetricia, Pediatría, Cirugía y Salud Pública. Se calcularon porcentajes de aciertos en cada examen por cada modelo de IA, y se realizó un análisis estadístico de varianza (ANOVA) y pruebas post hoc para determinar diferencias significativas. Resultados: El análisis de varianza no identificó diferencias estadísticamente significativas entre los modelos evaluados (p = 0.188). Copilot obtuvo un promedio de aciertos y desviación de 89.81% (σ=3.43), mostrando una variabilidad moderada en los porcentajes obtenidos por año. ChatGPT-4º alcanzó un porcentaje de aciertos de 89.01% (σ=4.30) con una alta variabilidad en años específicos. Gemini Advanced alcanzó un porcentaje de aciertos de 86.18% (σ=2.26), presentando una mayor consistencia interanual. En el análisis por bloques temáticos, en los bloques de Ciencias Básicas y Medicina Interna se evidenció altos porcentajes en los aciertos y similitudes entre estos, en contraste con las áreas de Cirugía y Salud Pública, que tuvieron los más bajos porcentajes de aciertos y una mayor diferencia entre estos. Copilot fue el modelo que más destaco en el porcentaje de aciertos al evaluar los bloques temáticos, ocupando el mayor porcentaje en Ciencias Básicas y el menor en Salud Pública. Conclusiones: Nuestro estudio evidenció que no existen diferencias significativas en el rendimiento de los modelos de inteligencia artificial al aplicarlas en los exámenes de Residentado Médico de Perú. Los tres modelos obtuvieron porcentajes satisfactorios de aciertos y demostraron su capacidad de proporcionar explicaciones fundamentadas, resaltando su potencial como herramientas complementarias en la educación médica.application/pdfspainfo:eu-repo/semantics/openAccessInteligencia ArtificialEducación MédicaResidentado MédicoAnálisis comparativo de los puntajes obtenidos por Chat GPT-4o, Gemini Advanced y Copilot al aplicarlas en el examen del Concurso Nacional de Admisión al Residentado Médico, realizado por el Consejo Nacional de Residentado Medico (CONAREME), de los años 2017-2024. Perú.info:eu-repo/semantics/bachelorThesishttps://purl.org/pe-repo/ocde/ford#3.00.00