Autores del artículo: Marthe Larsen, Camilla F. Aglen, Christoph I. Lee, Solveig R. Hoff, Håkon Lund-Hanssen, Kristina Lång, Jan F. Nygård, Giske Ursin, Solveig Hofvind. (Radiology 2022; 000:1-9. Published Online: Mar 9 2022. https://doi.org/10.1148/radiol.212381)
Sintetizado por el Dr. Javier Rico Pianeta (Centro médico Diagnóstico Científico Integral, Capital Federal, Argentina)
El objetivo de este trabajo fue comparar el rendimiento de un sistema de Inteligencia Artificial (IA) comercialmente disponible con una lectura doble de rutina en estudios mamográficos con consenso, como se realiza en un programa de detección basado en la población.
En todo el mundo, más de medio millón de mujeres mueren de cáncer de mama cada año. Para reducir esta carga, la detección mamográfica se ha implementado en muchos países durante las últimas décadas. Estos programas de detección, junto con mejores opciones de tratamiento, han dado como resultado una reducción de al menos un 30 % en la mortalidad por cáncer de mama entre las participantes.
La Inteligencia Artificial (IA) ha mostrado resultados prometedores para la detección del cáncer en exámenes mamográficos. Sin embargo, los resultados informados provienen principalmente de estudios pequeños con conjuntos de datos enriquecidos, y aún persisten lagunas en evidencias relacionadas con el uso de IA en entornos de detección reales. Los estudios retrospectivos sobre conjuntos de datos clínicos que utilizan exámenes consecutivos brindan la oportunidad de validar de forma independiente los sistemas de IA antes de la evaluación en estudios prospectivos. Además, las características histopatológicas de los cánceres identificados por IA deben investigarse para garantizar la detección de cánceres de mama clínicamente significativos que conducirían a una reducción de la mortalidad por cáncer de mama.
El sistema de IA proporciona una puntuación en la evaluación de cada seno. Se utiliza la puntuación más alta de todas las vistas para asignar una puntuación general (puntuación AI). La puntuación de la IA oscila entre 1 y 10 y se basa en una «puntuación bruta» con una precisión de cuatro o cinco puntos decimales. Los puntajes de AI son puntajes brutos redondeados al número entero más cercano.
En estudios recientes se utilizó Transpara versión 1.7.0, un sistema de inteligencia artificial disponible comercialmente para la interpretación automatizada de mamografías desarrollado por ScreenPoint Medical. El sistema de IA utiliza redes neuronales convolucionales para analizar mamogramas y se entrena con mamogramas de diferentes programas de detección y varios proveedores.
La exploración de los mamogramas a través de IA se realiza teniendo en cuenta tres umbrales diferentes para seleccionar exámenes sospechosos o no sospechosos.
Los umbrales se definen prospectivamente. Con el umbral 1, una puntuación bruta superior a 9,00 (una puntuación AI de 10) se define como «seleccionada» por el sistema AI, y los exámenes con una puntuación inferior a 10 se definen como «no seleccionados».
El umbral 2 representaba una tasa de selección igual a la tasa de consenso (puntuación bruta > 9,13) y se utiliza para explorar el rendimiento de la IA cuando el número de exámenes seleccionados por el sistema como sospechosos es similar al número de exámenes seleccionados por los radiólogos.
El umbral 3 corresponde a una tasa de selección igual a la tasa individual promedio observada de interpretaciones positivas por parte de los especialistas.
En cuanto a las variables del examen, los datos de detección incluyen la interpretación del radiólogo, el resultado del consenso, los procedimientos que se realizan en las revisiones y los resultados finales, incluidas las características histopatológicas del tumor. Las características de los cánceres invasivos incluyen el tipo histológico, el diámetro del tumor, el grado 1-3 de Nottingham, la afectación de los ganglios linfáticos y el subtipo inmunohistoquímico. El subtipo se clasifica en cinco grupos. Las características histopatológicas del DCIS (carcinoma ductal in situ) incluyen el diámetro del tumor y el grado 1–3 de Van Nuys.
El propósito de esta revisión es evaluar un sistema de inteligencia artificial (IA) para la detección de cáncer de mama en mamografías. El rendimiento del sistema de IA se comparó con el de los radiólogos en un entorno independiente de doble lectura con consenso.
Similar al desafío de definir la combinación ideal de dos radiólogos en lectura doble, se necesita más investigación para encontrar la combinación óptima de radiólogos y sistemas de IA. Por ejemplo, cuando se usa IA como un sistema independiente para identificar casos verdaderos negativos que pueden prescindir por completo de la interpretación del radiólogo, es fundamental obtener una puntuación baja precisa en las mamografías sin cánceres perdidos. El uso de una puntuación AI de 10 como umbral en un entorno independiente podría dar como resultado que el 10 % de los exámenes requieran la interpretación de un radiólogo o el 10 % de los exámenes seleccionados directamente para el consenso.
Si los radiólogos utilizan un sistema de IA en un entorno de detección, se espera que su evaluación y las tasas de recuperación dependan de las puntuaciones de IA. Se desconocen el momento y el formato óptimos para presentar las puntuaciones de la IA y es necesario seguir investigando para encontrar la configuración óptima. El efecto de recibir una puntuación de IA alta puede dar lugar a una dependencia excesiva del sistema de IA sin que un radiólogo mantenga su propia vigilancia o a una atención reducida a otras áreas sospechosas (sesgo de automatización).
Se necesitan estudios prospectivos para comprender mejor las características pronósticas de los casos seleccionados y no seleccionados por IA. También se necesita más investigación para comprender cómo la cantidad relativamente grande de exámenes negativos con una puntuación de IA alta puede influir en la tasa de recuperación y la tasa de resultados falsos positivos.
Conclusión
La proporción de cánceres detectados por mamografía no seleccionados por el sistema de Inteligencia Artificial en los tres umbrales evaluados, sigue siendo objeto de estudio, ya que el rendimiento general del sistema de IA es prometedor según el tipo de cáncer detectado.