Los investigadores evalúan el desempeño de ChatGPT al resumir resúmenes médicos

En un estudio reciente publicado en The Annals of Family Medicine, los investigadores evaluaron la eficacia del Chat Generative Pretrained Transformer (ChatGPT) para resumir resúmenes médicos para ayudar a los médicos. El estudio tuvo como objetivo determinar la calidad, la precisión y el sesgo de los resúmenes generados por ChatGPT, proporcionando información sobre su potencial como herramienta para digerir grandes cantidades de literatura médica en medio de las limitaciones de tiempo que enfrentan los profesionales de la salud.

Altas calificaciones de calidad y precisión

El estudio utilizó ChatGPT para condensar 140 resúmenes médicos de 14 revistas diversas, reduciendo el contenido en un promedio del 70%. A pesar de algunas imprecisiones y alucinaciones detectadas en una pequeña fracción de los resúmenes, los médicos calificaron altamente los resúmenes por su calidad y precisión. Los hallazgos sugieren que ChatGPT tiene el potencial de ayudar a los médicos a revisar la literatura médica de manera eficiente, ofreciendo resúmenes concisos y precisos en medio del abrumador volumen de información.

Los investigadores seleccionaron 10 artículos de cada una de 14 revistas que cubren diversos temas y estructuras médicas. Le encargaron a ChatGPT resumir estos artículos y evaluaron la calidad, precisión, sesgo y relevancia de los resúmenes generados en diez campos médicos. El estudio encontró que ChatGPT condensó exitosamente resúmenes médicos en un promedio del 70%, obteniendo altas calificaciones de los revisores médicos por su calidad y precisión.

Implicaciones para la asistencia sanitaria

A pesar de las altas calificaciones, el estudio identificó graves imprecisiones y alucinaciones en un pequeño número de resúmenes. Estos errores abarcaron desde datos críticos omitidos hasta interpretaciones erróneas de los diseños de los estudios, que potencialmente podrían alterar la interpretación de los hallazgos de la investigación. Sin embargo, el desempeño de ChatGPT al resumir resúmenes médicos se consideró confiable y se observó un sesgo mínimo.

Si bien ChatGPT demostró una fuerte alineación con las evaluaciones humanas a nivel de revista, su desempeño al identificar la relevancia de artículos individuales para especialidades médicas específicas fue menos impresionante. Esta discrepancia destacó una limitación en la capacidad de ChatGPT para identificar con precisión la relevancia de artículos singulares dentro del contexto más amplio de las especialidades médicas.

El estudio proporciona información valiosa sobre el potencial de la IA, en particular ChatGPT, para ayudar a los médicos a revisar la literatura médica de manera eficiente. Si bien ChatGPT se muestra prometedor a la hora de resumir resúmenes médicos con alta calidad y precisión, se necesita más investigación para abordar las limitaciones y mejorar su rendimiento en contextos médicos específicos.

Las investigaciones futuras podrían centrarse en perfeccionar la capacidad de ChatGPT para reconocer la relevancia de artículos individuales para especialidades médicas específicas. Además, los esfuerzos para mitigar las imprecisiones y alucinaciones en los resúmenes generados podrían mejorar aún más la utilidad de las herramientas de inteligencia artificial en entornos de atención médica.

Fuente: https://www.cryptopolitan.com/chatgpt-in-summarizing-medical-abstracts/