Ciencias Técnicas y Aplicadas

Artículo de Revisión

Eficiencia de modelos de predicción de COVID-19 usando curvas ROC y matriz de confusión

Efficiency of COVID-19 prediction models using ROC curves and confusion matrix

Eficiência de modelos de previsão de COVID-19 usando curvas ROC e matriz de confusão

Correspondencia: cristianl.inca@espoch.edu.ec

*Recibido: 26 de febrero del 2022 *Aceptado: 14 de marzo de 2022 * Publicado: 26 de abril de 2022

I. Facultad de Informática y Electrónica, Escuela Superior Politécnica de Chimborazo (ESPOCH), Riobamba, Ecuador.

II. Facultad de Ciencias Exactas y Naturales, Pontificia Universidad Católica del Ecuador, Ecuador.

III. Facultad de Recursos Naturales, Escuela Superior Politécnica de Chimborazo (ESPOCH), Riobamba, Ecuador.

IV. Facultad de Informática y Electrónica, Escuela Superior Politécnica de Chimborazo (ESPOCH), Riobamba, Ecuador.

Resumen

Utilizando ecuaciones matemáticas es posible diseñar programas informáticos que facilitan la predicción de datos para facilitar la toma de decisiones para el diagnóstico de pacientes afectados por el COVID 19. Con el objetivo de revisar las experiencias en el uso de la curva ROC y la matriz de confusión para la evaluación de programas informáticos para determinar su precisión en pro de garantizar que la información generada por los mismos sea confiable para el diagnóstico correcto y oportuno del COVID 19, se realizó una revisión de la literatura para identificar y evaluar artículos académicos para la evaluación de la calidad de la información generada por programas informáticos en la predicción de casos positivos por COVID 19. Los resultados demuestran que las curvas ROC y la matriz de confusión son métodos útiles para evaluar la eficiencia de programas informáticos garantizando así una adecuada precisión de los datos. El uso de las curvas ROC y la matriz de confusión permitió evaluar con éxito la calidad de los programas informáticos usados para la predicción del COVID-19, la precisión de los modelos matemáticos no depende del algoritmo usado, sino que en gran parte depende de la técnica usada para el levantamiento de la información.

Palabras clave: estimación; modelización; simulación; software.

Abstract

Using mathematical equations, it is possible to design computer programs that facilitate the prediction of data to facilitate decision making for the diagnosis of patients affected by COVID 19. With the objective of reviewing the experiences in the use of the ROC curve and the confusion matrix for the evaluation of computer programs to determine their accuracy in order to guarantee that the information generated by them is reliable for the correct and timely diagnosis of COVID 19, a review of the literature was carried out to identify and evaluate academic articles for the evaluation of the quality of the information generated by computer programs in the prediction of positive cases of COVID 19. The results demonstrate that ROC curves and the confusion matrix are useful methods for assessing the efficiency of computer programs to ensure adequate data accuracy. The use of ROC curves and the confusion matrix made it possible to successfully evaluate the quality of the software used for the prediction of COVID-19, the accuracy of the mathematical models does not depend on the algorithm used, but depends largely on the technique used for the collection of the information.

Keywords: estimation; modeling; simulation; software.

Resumo

Usando equações matemáticas, é possível projetar programas de computador que facilitem a previsão de dados para facilitar a tomada de decisão para o diagnóstico de pacientes acometidos por COVID 19. Com o objetivo de revisar as experiências no uso da curva ROC e da matriz de confusão para avaliação de programas de computador para determinar sua precisão, a fim de garantir que as informações geradas por eles sejam confiáveis para o diagnóstico correto e oportuno do COVID 19, foi realizada uma revisão da literatura para identificar e avaliar artigos acadêmicos para avaliação do qualidade das informações geradas por programas de computador na previsão de casos positivos para COVID 19. Os resultados mostram que as curvas ROC e a matriz de confusão são métodos úteis para avaliar a eficiência dos programas de computador, garantindo a precisão adequada dos dados. O uso de curvas ROC e a matriz de confusão permitiram avaliar com sucesso a qualidade dos programas de computador usados para a previsão do COVID-19, a precisão dos modelos matemáticos não depende do algoritmo usado, mas depende em grande parte da técnica usado para coletar informações.

Palavras-chave: estimativa; modelagem; simulação; Programas.

Introducción

El COVID-19 se ha convertido en una epidemia, lo que causa un grave impacto en la salud y en la vida de muchas personas a nivel mundial. De ahí la importancia de tener la capacidad de detectar a los pacientes infectados con la suficiente antelación y someterlos a cuidados especiales (Gao et al., 2021).

Las predicciones a partir de programas informáticos a partir de la modelización matemática han sido empleadas con frecuencia en diferentes áreas como en la producción agrícola, la climatología, la sismología y en los últimos tiempos este tipo de aplicaciones ha cobrado auge en el campo de la epidemiologia para la predicción del comportamiento de la pandemia causada por el COVID-19 y poder tomar las medidas sanitarias para su disminución (Jewell et al., 2020).

Las matemáticas aplicadas en especial al manejo de los sistemas se han basado en la generación de modelos, originados a partir de ecuaciones que permiten la predicción de comportamiento de los datos, los cuales pueden ser usados en programas informáticos para le predicción de hechos a futuros que facilitan la toma de decisiones (Antle, 2019).

Los programas informáticos han permitido la automatización de muchos procesos en la vida real, sin embargo, no todo es sencillo dado que la utilidad de la información obtenida dependerá de la calidad de los datos, si la información no fue rigurosamente levantada, los algoritmos llevados cabo por el modelo arrojaran información poco confiable, que llevará a la toma inadecuada de decisiones (Yucalar et al., 2020).

Para conocer si un sistema informático es eficiente es necesario evaluar que tan preciso es el mismo, esto quiere decir que al comparar la información arrojada por el modelo la misma sea lo más similar a la información real, por lo general la validación de un programa se logra al comparar los datos simulados con los datos reales y obtener la menor tasa de error posible, lo que garantiza la precisión del programa (Obuchowski et al., 2018).

Las matemáticas a través de aplicaciones estadísticas han permitido establecer protocolos los cuales permitan la evaluación de diferentes métodos como son la matriz de confusión y las curvas ROC cuya aplicación ha sido empleada con éxito en algunos campos de las ciencias e ingeniería, así como en el diagnóstico de enfermedades y cuya eficacia como método de validación serán discutidas en el presente artículo.

Las curvas ROC (Receiver Operating Characteristic) se crean trazando la sensibilidad (verdadero positivo) en el eje y contra 1 especificidad (verdadero negativo) en el eje x para cada valor encontrado en una muestra de individuos positivos o negativos. Las curvas ROC trazan el equilibrio entre la sensibilidad y la especificidad para todos los valores de corte posibles y la precisión global de la prueba. Para expresar numéricamente la precisión diagnóstica de una prueba, calculamos el ASC, que estima la probabilidad de que un individuo aleatorio que sea positivo tenga un valor más alto en la prueba que uno sea negativo. La probabilidad oscila entre el 0% (ASC = 0) y el 100% (ASC = 1) (Hoo et al., 2017).

La matriz de confusión es una herramienta más usada para obtener información acerca de desempeño de un algoritmo, dicho en otras palabras, nos permite medir la exactitud de los resultados obtenidos por un programa y los resultados reales. La matriz de confusión, también se le conoce como matriz de error o tabla de contingencia, debido a que funciona como herramienta estadística para el análisis de observaciones emparejadas (López et al., 2018).

El objetivo de la presente investigación por lo tanto fue revisar las experiencias en el uso de la matriz de confusión y la curva ROC para la evaluación de programas informáticos para la detección de COVID-19, de tal manera de determinar y evaluar el rendimiento de los modelo en pro de garantizar que la información generada por los mismos sea confiable y garantice la toma de decisiones en los hospitales y centros médicos a decidir quién necesita recibir atención primero, en los momentos en el sistema está desbordado.

Métodos

El alcance de esta revisión sistemática está orientado en el uso de procedimientos matemáticos como la matriz de confusión para evaluar la eficiencia de programas informáticos usados en el diagnóstico de COVID-19 , para ello se revisaron programas desde el año 2020 hasta el mes de julio de 2021, donde aplicando las metodologías previamente mencionadas para la evaluación de programas informáticos que ayuden en la toma de decisiones en hospitales y centros médicos para determinar quién necesita recibir atención primero, en los momentos en el sistema está desbordado para la pandemia del COVID-19, la investigación está basada en la metodología de Kitchenham et al. (2009) y se formado una pregunta de investigación, que se aborda en el desarrollo.

Pregunta de investigación

La pregunta de investigación general que se planteó es la siguiente: ¿Cómo los procedimientos matemáticas Curvas ROC y matriz de confusión permiten verificar la eficiencia de programas informáticos de predicción en términos de precisión, margen de error y sensibilidad?

Las preguntas específicas son:

¿Qué tan precisos son los programas informáticos empleados para la predicción y diagnóstico del COVID-19?
¿La evaluación de los programas informáticos, usando la curva ROC y la matriz de confusión son suficiente para tomar decisiones en relación a la calidad suministrada por los programas informáticos evaluados para el diagnóstico del COVID 19?

Proceso de selección de documentos

En este trabajo de investigación, se realizó una revisión de la literatura con el fin de identificar y evaluar artículos académicos, revisados por pares ciegos, relacionados con el uso de dos procedimientos matemáticos: curvas ROC y matriz de confusión para la evaluación de la calidad de la información generada por modelos predictivos basado en algoritmos para determinar quién necesita recibir atención primero, en los momentos en el sistema está desbordado para la pandemia del COVID-19, La revisión de la literatura se llevó a cabo utilizando una plataforma de servicio de búsqueda Simmons. La cual está conectada a una amplia gama de bases de datos, incluyendo: Emerald texto completo; Science Direct; Medline (a través de EBSCOhost); PubMed; ProQuest); CINAHL (vía EBSCOhost); ABI / Inform Complete (ProQuest); Scopus. Los términos de búsqueda incluían palabras claves como programas informáticos, COVID-19, área bajo la curva ROC, matriz de confusión, precisión, margen de error y sensibilidad.

La búsqueda dio lugar a 120 artículos utilizados en esta revisión. Para la extracción de datos se seleccionaron 10 artículos, para lo cual se consideró: año, autor, título y número de citaciones (Tabla 1).

Tabla 1. Artículos seleccionados ordenados según el número de citaciones.

Año	Autor	Titulo	Citas
2020	Zhang et al.	Clinically applicable AI system for accurate diagnosis, quantitative measurements, and prognosis of COVID-19 pneumonia using computed tomography	284
2020	Minaee et al.	Deep-covid: Predicting covid-19 from chest x-ray images using deep transfer learning	230
2020	Jin et al.	Development and evaluation of an artificial intelligence system for COVID-19 diagnosis	165
2020	Panwar et al.	Application of deep learning for fast detection of COVID-19 in X-Rays using nCOVnet.	152
2020	Jahangiri et al.	The sensitivity and specificity analyses of ambient temperature and population size on the transmission rate of the novel coronavirus (COVID-19) in different provinces of Iran	91
2020	Wu et al.	Development of a clinical decision support system for severity risk prediction and triage of COVID-19 patients at hospital admission: an international multicentre study.	78
2020	Mangal et al.	CovidAID: COVID-19 detection using chest X-ray	53
2020	Pourhomayoun & Shakibi	Predicting mortality risk in patients with COVID-19 using artificial intelligence to help medical decision-making	49
2020	Civit-Masot et al.	Deep learning system for COVID-19 diagnosis aid using X-ray pulmonary images	45
2020	Sedik et al.	Deploying machine and deep learning models for efficient data-augmented detection of COVID-19 infections	43

Los artículos seleccionados fueron orientados en revisar primero la información existente con relación al uso de las curvas ROC y la matriz de precisión para validar programas informáticos que ayuden en la toma de decisión en hospitales y centros médicos para determinar quién necesita recibir atención primero, en los momentos en el sistema está desbordado para la pandemia del COVID-19.

Con relación a la evaluación de programas informáticos y que parámetros son usados para evaluar la calidad de los programas informáticos como son precisión; sensibilidad; especificidad; falso positivo y falso negativo, cuyos términos se describen a continuación.

De ese grupo de artículos se seleccionaron programas informáticos para el diagnóstico del COVID basados en redes neuronales, modelo de aprendizaje por transferencia y algoritmo de inteligencia artificial, los cuales se describen a continuación:

Redes neuronales: formada por neuronas artificiales que se encuentran interconectadas entre si y distribuidas por capas donde, por las cuales fluye la información las neuronas contenidas en cada capa se conectan con las neuronas de las siguientes capas constituyendo así lo que se conoce como aprendizaje artificial (Asanza et al., 2018).

Modelo de aprendizaje por transferencia: El aprendizaje por transferencia se origina como un medio por el cual es posible transferir el conocimiento de un dominio de origen a un dominio de destino, el mismo considera que puede existir diferencia entre los dominios de los datos de entrenamiento y de los datos de prueba, permitiendo así que los dominios de las tareas y las distribuciones utilizadas en el entrenamiento y la prueba sean diferentes entre sí (Lu et al., 2015).

Algoritmo de inteligencia artificial

Un algoritmo es un conjunto ordenado de instrucciones, operaciones y procesos que permiten desarrollar una tarea específica o encontrar la solución ante un problema planteado. No son más que una serie de instrucciones preestablecidas que orientan las decisiones a tomar. Constituyen parte fundamental de cualquier sistema de inteligencia artificial y se entrenan a través del suministro de la mayor cantidad de datos posibles, siendo capaces de clasificar imágenes en apenas unos segundos, facilitando así la toma de decisiones (Bordignon et al., 2020).

Criterios de inclusión y exclusión (criterios IC/EC)

Los datos fueron aceptados o eliminados de acuerdo con criterios específicos, que se enumeran a continuación.

Criterios de inclusión:

- IC1: Sólo se consideraron y clasificaron como “artículo”, “conferencia” o “revisión” escritos en español o inglés.

- IC2: Trabajos que presentan los procedimientos matemáticos curvas ROC y matriz de confusión y que midan parámetros de precisión, sensibilidad y margen de error

- IC3: Artículos publicados desde el año 2020 hasta el mes de octubre de 2021.

Criterios de exclusión

- EC1: Documentos duplicados, si el mismo documento se encontró en más de una base de datos, sólo se consideró la versión más antigua. Los trabajos del mismo autor en los que el contenido se repite a lo largo de todo el libro, con la única diferencia del título, también se excluyeron bajo este criterio.

- EC2: Trabajos que no se relacionan con los procedimientos matemáticos considerados para la evaluación de la calidad de los programas informáticos de predicción.

- EC3: También se excluyeron los trabajos incompletos (sólo resumen) o no accesibles.

Resultados y discusión

Previo a discutir sobre la eficiencia de los modelos para el diagnóstico del COVID-19, en la figura 1, se describen los principales usados en los modelos matemáticos para su predicción, destacando que los más usados son aquellos basados en redes neuronales con 28,57 %, seguido de los modelos de aprendizaje de transferencia con 28, 43 % y los algoritmos de inteligencia artificial con 21,43 %, las ventajas de cada uno de estos modelos se discuten a continuación.

Figura 1. Modelos utilizados con mayor frecuencia para el diagnóstico del COVID-19

Para evaluar la calidad de los métodos empleados para el diagnóstico del COVID-19, se emplearon los procedimientos matemáticos conocidos como matrices de confusión para conocer las medidas de los modelos de pronósticos y la curva ROC para determinar la capacidad discriminante de estos, Para cada método se determinaron las variables precisión especificidad, tasa de error, así como el área bajo la curva ROC, los resultados se observan en la tabla 2.

Tabla 2. Evaluación de calidad de un modelo de predicción de COVID 19

Método	Precisión	Sensibilidad	Especificidad	Área bajo curva RO
Inteligencia artificial	92,49	94,93	91,13	0,97
Redes neuronales	88,10	98,00	90,00	0,88
Aprendizaje profundo	97,40	100,00	100	0.98

Los diferentes métodos evaluados en estudio y los resultados más relevantes para el diagnóstico del COVID 19 se describen a continuación:

Zhang et al. (2020) Desarrollaron un sistema de Inteligencia Artificial (IA) que puede diagnosticar la Neumonía por nuevo coronavirus (NPC) asociada al COVID-19 y diferenciarla de otras neumonías comunes en controles normales, el sistema fue capaz de diferenciar la NPC de otras dos clases (otras neumonías comunes y controles normales) con una precisión del 92,49%, una sensibilidad del 94,93%, una especificidad del 91,13% y un área bajo la característica operativa del receptor (AUROC) de 0,9797.

Mientras que Minaee et al. (2020), utilizaron el aprendizaje por transferencia en un subconjunto de 2000 radiogramas para entrenar cuatro redes neuronales convolucionales populares, incluyendo ResNet18, ResNet50, SqueezeNet y DenseNet-121, encontrando que estos modelos alcanzaron una tasa de sensibilidad del 98% (± 3%), mientras que tenían una tasa de especificidad de alrededor del 90%.

Por su parte Jin et al. (2020), al evaluar un método basado en una red neuronal de aprendizaje profundo denominado nCOVnet, el cual es un método de cribado rápido alternativo que puede utilizarse para detectar el COVID-19, los resultados encontrados fueron satisfactorios consiguiendo una sensibilidad del 97,62% y una especificidad del 78,57%, una probabilidad del 97,62%. Esto implica que es posible detectar COVID-19 en pacientes infectados, con un error de sólo el 2,38%., mientras que la especificidad se refiere a la medida de los verdaderos negativos (VN) o pacientes negativos a COVID-19 en este caso, por lo que el modelo capaz de predecir correctamente que una persona no está infectado por COVID-19.

Con respecto a la precisión de este modelo los resultados de la curva ROC, se muestra que el modelo propuesto está por encima del nivel de umbral con 0,88095, lo cual indica que el modelo entra en el buen rango de clasificación, y también se considera "excelente" en el campo del diagnóstico médico.

Estos resultados fueron sustentados por las investigaciones llevadas a cabo por Civit-Masot et al. (2020), Quienes encontraron resultados más alentadores para el diagnóstico de COVID-19, usando el modelo de aprendizaje profundo, estos autores encontraron que el modelo tuvo un área bajo la curva (AUC) de 0,987 e intervalo de confianza (IC) del 95% y una precisión del 97,4% en el conjunto de entrenamiento; mientras que tuvo un AUC de 0,892 y una precisión del 81,9% en el conjunto de prueba. En el análisis del subgrupo de pacientes que tenían COVID-19 no grave en el momento del ingreso, el modelo alcanzó un AUC de 0,955 y 0,923 y una precisión del 97,0 y el 81,6% en los subgrupos de Honghu y Nanchang, respectivamente. En este mismo orden de ideas Sedik et al. (2020), Encontraron una alta sensibilidad en la identificación de COVID-19, en torno al 100% cuando usaron un método de diagnóstico basado en aprendizaje profundo, con un alto grado de especificidad, lo que indica que puede utilizarse como prueba de cribado, las curvas ROC son superiores a 0,9 para todas las clases consideradas, lo que demuestra la alta precisión del modelo para el correcto diagnóstico del COVID-19, por su parte Wu et al. (2020), encontraron un precisión de 88 % y 85 % al evaluar dos algoritmos basados en aprendizaje automático.

Así mismo Mangal et al. (2020), al evaluar un modelo de aprendizaje por transferencia para el diagnóstico del COVID-19, encontraron que la precisión del modelo vario de 74,4% al 87,5%, mientras que la sensibilidad del mismo estuvo entre 75,0% al 96,9% y la especificidad reportada fue de 55,0% al 88,0%, encontrándose que el mismo funcionaba mejor con respecto al índice de gravedad de la neumonía, para el diagnóstico de la enfermedad, mientras que Pourhomayoun y Shakibi, (2020), al evaluar este mismo modelo alcanzaron una tasa de sensibilidad del 98% ( ± 3%), con una tasa de especificidad de alrededor del 90 %.

Una de las ventajas de este modelo fue la precisión predictiva del modelo mediante el uso de la matriz de confusión, dado que modelo discriminó correctamente al 97,7% de los pacientes del grupo no grave y al 95,8% de los pacientes del grupo grave con una precisión del 97,4% y una tasa de error del 2,6%. En el conjunto de pruebas, el 78,5% de los pacientes del grupo no grave y el 87,5% de los pacientes del grupo grave fueron identificados correctamente por este modelo.

Otros de los métodos empleados para el diagnóstico del COVID-19 es el uso de algoritmos de inteligencia artificial, el cual fue empleado con éxito por Jahangiri et al.(2020), quienes encontraron un 93% de precisión en la predicción de la tasa de mortalidad, cuando se utilizaron varios algoritmos de aprendizaje automático, Vector de apoyo (SVM), redes neuronales artificiales, bosques aleatorios de decisión, la regresión logística y la red de vecinos más cercana (KNN) Vecino más cercano (KNN) para predecir la tasa de mortalidad en pacientes con COVID-19.

La eficiencia y calidad del modelo no solo depende de la potencia del modelo matemático, sino que depende la forma como fueron tomados los datos para el diagnóstico de la enfermedad, en este sentido los métodos de diagnósticos médicos más empleados son las imágenes radiográfica y radiológicas con 46,15 %, seguido de las tomografías axial computarizada (TAC) con 30,77 %, mientras que diagnóstico clínico al paciente se emplea en tan solo 15, 38 %, la calidad de los datos obtenidos de cada método se discuten a continuación.

Figura 2. Variables de predicción utilizadas por los modelos usados para el diagnóstico del COVID-19

El uso de imágenes radiológicas para obtener datos para el diagnóstico del COVID 19, fue empleado por Minaee et al. (2020), quienes usaron este tipo de imágenes para la construcción de un modelo de aprendizaje profundo para detectar pacientes con COVID-19 a partir de sus imágenes de radiografía de tórax, para ello prepararon un conjunto de datos de 5000 radiografías de tórax a partir de los conjuntos de datos disponibles públicamente, las imágenes que muestran la presencia de la enfermedad COVID-19 fueron identificadas por un radiólogo certificado, igualmente el uso de mediante el análisis de las radiografías de los pacientes fue empleado por Culebras et al. (2020), para buscar los indicadores visuales encontrados en las imágenes de la radiografía de tórax de los pacientes con COVID-19, mientras que Magal et al. (2020), para detectar pacientes con COVID-19, emplearon imágenes de radiografía de tórax.

Métodos de mayor sensibilidad fueron utilizados por Zhang et al. (2020), Quienes emplearon una gran base de datos de tomografía computarizada (TC) de 3.777 pacientes, lo que permitió desarrollar un sistema de Inteligencia Artificial para diagnosticas que puede diagnosticar la Neumonía por nuevo coronavirus (NPC) asociada a COVID-19 y diferenciarla de otras neumonías comunes y de los controles normales, el cual puede ayudar a los radiólogos y a los médicos a realizar un diagnóstico rápido, especialmente cuando el sistema sanitario está sobrecargado. En este mismo orden de ideas Jin et al.(2020), al desarrollar una herramienta asistida por inteligencia artificial utilizando imágenes de tomografía computarizada (TC) para predecir la gravedad de la enfermedad.

A pesar de la mayoría de los modelos son basados en métodos clínicos bien sea por imagen por diagnóstico clínico de pacientes, en Irán (Gordo et al., 2021), evaluaron la relación entre los paramentos ambientales como temperatura ambiente (TA) y el tamaño de la población (TP) para el diagnóstico del COVID-19, lamentablemente los resultados obtenidos confirman que la TA y la PS tienen una baja sensibilidad y una alta sensibilidad, respectivamente. Por lo tanto, no hay ninguna razón científica para confirmar que el número de casos de COVID-19 en los climas más cálidos sea menor que el de los climas moderados o fríos.

La importancia de los modelos empleados se basa en que como se observa en la figura 3, el 45,46 % de los modelos permiten el diagnóstico oportuno y certero del COVID-19, mientras que 18,18 % de los casos permite la detección de neumonía asociadas al COVID-19 y en 18,18 % se logra la detección temprana de los casos.

Figura 3. Alcance del diagnóstico de COVID-19 y sus complicaciones, usando modelos matemáticos.

Aunque los modelos solo permiten en un 18,18 % son utilizados para la detección temprana de los casos de posible gravedad, este factor es importante para tomar las medidas necesarias para evitar el agravamiento de la enfermedad y el colapso de los centros asistenciales, por otro lado el uso de imágenes bien sea radiológicas simples o mediante tomografía para detección de las complicaciones respiratorias asociadas al COVID-19, permite reducir las muertes por la enfermedad al brindar la asistencia respiratoria al paciente, sin embargo el hallazgo más importante del uso de estos métodos es en el diagnóstico certero del COVID-19, disminuyendo la caos de falsos negativos que implicaría pacientes no diagnosticados que poda agravarse al no ser tratados oportunamente.

La importancia de desarrollar métodos rápidos de diagnóstico del COVID-19, es porque la enfermedad por coronavirus 2019 (COVID-19) está arrasando en todo el mundo y ha provocado infecciones en millones de personas, representando un alto riesgo para los pacientes con COVID-19 de mortalidad (Sánchez-Oro et al., 2020), dado que una vez que los síntomas empeoran la severidad de los mismos aumentan rápidamente; por lo tanto, la identificación a tiempo de los pacientes que pueden agravarse puede permitir una intervención temprana, prevenir la progresión de la enfermedad y ayudar a reducir la mortalidad.

Una de la principal complicación de muchos de los pacientes infectados por el virus SARS-CoV-2, es que los mismos desarrollan una neumonía (denominada neumonía por nuevos coronavirus, NPC) y evolucionan rápidamente hacia la insuficiencia respiratoria, sin embargo, el diagnóstico rápido y la identificación de los pacientes de alto riesgo para una intervención temprana son un reto (Márquez., 2020).

Por lo tanto, uno de los pasos cruciales en la lucha contra el COVID-19 es la capacidad de detectar a los pacientes infectados con la suficiente antelación y someterlos a cuidados especiales. La detección de esta enfermedad a partir de imágenes radiográficas y radiológicas es quizás una de las formas más rápidas de diagnosticar a los pacientes (López-Cabrera et al., 2020), sin embargo, las mismas tienen las desventajas de ser invasivas, consumen mucho tiempo y tienen recursos limitados, además de requerir de varios especialistas en radiología y tiempo para inspeccionar manualmente cada informe, lo que constituye una de las tareas más difíciles en una pandemia.

Dado lo expuesto anteriormente los científicos han desarrollo métodos matemáticos para la predicción rápida del COVID-19 (del Castillo, 2020), algunos han intentado establecer correlaciones entre las variables climáticas y demográficas con la prevalencia del COVID, sin embargo, este tipo de estudio no tiene ninguna evidencia científica para confirmar que el número de casos de COVID-19 en los climas más cálidos sea menor que el de los climas moderados o fríos.

Afortunadamente, el desarrollo de técnicas avanzadas de inteligencia artificial como el aprendizaje profundo han mostrado una alta efectividad en la identificación de patrones para el diagnóstico del COVID 19 (del Castillo, 2020), esto ha permitido la identificación de importantes marcadores clínicos que se correlacionaban con las propiedades de las lesiones de la neumonía asociada al coronavirus, esta herramientas combinada en conjunto con los datos clínicos, permiten proporcionar un pronóstico clínico preciso que puede ayudar a los médicos a considerar una gestión clínica temprana adecuada y asignar los recursos de forma apropiada y reducir las complicaciones de la enfermedad.

Lo diferentes estudios abordados en esta investigación utilizando redes neuronales, modelo de aprendizaje por transferencia o algoritmo de inteligencia pueden ayudar a los hospitales y centros médicos a decidir quién necesita atención primero, quién tiene mayor prioridad para ser hospitalizado, hacer el triaje de los pacientes cuando el sistema se encuentre desbordado por sobrecarga, y eliminar los retrasos en la prestación de la atención innecesaria, que no requieren atención prioritaria, generando gastos de dinero y de tiempo.

Afortunadamente al evaluar algunos de estos modelos mediante procedimientos matemáticos como las curvas ROC y la matriz de confusión, parámetros como precisión, sensibilidad, especificidad y tasa de error demuestran la alta precisión de los modelos en comparación a otros modelos de salud, lo que se refleja en un bajo número de casos falso positivos o falso negativos.

Los resultados muestran que la precisión de los modelos fue alta al ser superior al 85 %, así mismo los resultados del área bajo la curva ROC muestran un alto poder discriminante al presentar valores superiores al 85 %, lo que puede llevar a realizar clasificaciones adecuadas facilitado la toma de decisiones por la ocurrencia de un menor número de falso positivo o falso negativos, los cuales fueron similares a los presentados por (del Castillo, 2020), quien evaluó la aplicación de las ciencias de datos con el objetivo de predecir si un tumor de cáncer de mama es benigno o no, para esto se emplearon procedimientos de clasificación como las redes neuronales (You et al., 2020), bosques aleatorios (Zimmerman et al., 2018) y máquina de soporte de vectores (Mosquera et al, 2018), obteniendo con los modelos planteados alcanzan valores de precisión de 96,38; 97,10 y 99.28 % respectivamente, de sensibilidad de 97,75;95,40 y 98,94 respectivamente, de especificidad de 93,88 y de 100 % cuando se usaron bosques aleatorios y máquinas de soporte de vectores; así mismo solo se encontraron falsos positivos para el caso de redes neuronales con 2,33%, mientas que los falsos negativos fueron 4,17; 7,27 y 2,22 % y el área bajo la curva ROC de 99,50%, los resultados encontraron que indican que se pueden realizar con ellos predicciones muy acertadas, muy similares a los resultados encontrados al evaluar los diferentes modelos analizados en eta investigación para el diagnóstico del COVID-19.

Cabe destacar en cuanto a los modelos presentados para el caso de salud es importante acotar que el área médica la obtención de los datos muchas veces se hacen a partir de datos provenientes de ensayos médicos, o tomados con un alto número de repeticiones, usando equipos de alta precisión como radiografías o imágenes, cuya precisión es mayor a los datos generados en el área ambiental que presentan una mayor variabilidad (Legorreta et al., 2018).

Conclusiones

El uso de las curvas ROC y la matriz de confusión permitió evaluar con éxito la calidad de los programas informáticos usados para la predicción del COVID 19 en función de su capacidad discriminantes, precisión y detección del margen de error, lo cual garantiza que la predicción de los mismos es confiable y ayuda al diagnóstico de enfermedades y el desempeño docente.

La presión de los modelos matemáticos no depende del algoritmo usado, sino que en gran parte depende de la técnica usada para el levantamiento de la información, siendo la radiológica y el uso de imágenes los métodos más empleados, presenta a como ventaja su alta precisión con la desventaja de requerí técnicos especializados para su implementación.

El Uso de métodos precisó permitirá el diagnóstico rápido y oportuno de pacientes con COVID-19, en especial en las etapas tempranas de la enfermedad, impidiendo el colapso de los centros hospitalarios, así coma las complicaciones por enfermedades respiratorias como la neumonía, asociadas al COVID 19.

Referencias

1. Antle, J. M. (2019). Data, economics and computational agricultural science. American Journal of Agricultural Economics, 101(2), 365-382.. DOI: 10.1093/ajae/aay103

2. Asanza, W. R., & Olivo, B. M. (2018). Redes neuronales artificiales aplicadas al reconocimiento de patrones. Editorial UTMACH.

3. Bordignon, F. R. A., & Iglesias, A. A. (2020). Introducción al Pensamiento Computacional. http://saberesdigitales.unipe.edu.ar/images/recursos/UNIPE-actividades-Bebras-v2.pdf

4. Civit-Masot, J., Luna-Perejón, F., Domínguez Morales, M., & Civit, A. (2020). Deep learning system for COVID-19 diagnosis aid using X-ray pulmonary images. Applied Sciences, 10(13), 4640. DOI:10.3390/app10134640

5. Culebras, J. M., San Mauro Martin, I., & Vicente-Vacas, L. (2020). COVID-19 y otras pandemias. Journal of Negative and No Positive Results, 5(6), 644-664. DOI: 10.19230/jonnpr.3750

6. del Castillo Collazo, N. (2020). Predicción en el diagnóstico de tumores de cáncer de mama empleando métodos de clasificación. Revista de Investigación en Tecnologías de la Información: RITI, 8(15), 96-104. DOI:10.36825/RITI.08.15.010G.

7. Gao, Z., Xu, Y., Sun, C., Wang, X., Guo, Y., Qiu, S., & Ma, K. (2021). A systematic review of asymptomatic infections with COVID-19. Journal of Microbiology, Immunology and Infection, 54(1), 12-16.. DOI: 10.1016/j.jmii.2020.05.001

8. Gordo, M. P., Weiland, G. B., García, M. G., & Choperena, G. A. (2021). Aspectos radiológicos de la neumonía COVID-19: evolución y complicaciones torácicas. Radiología, 63(1), 74-88. DOI: 10.1016/j.rx.2020.11.002

9. Hoo, Z. H., Candlish, J., & Teare, D. (2017). What is an ROC curve?. Emergency Medicine Journal, 34(6), 357-359. DOI:10.1136/emermed-2017-206735

10. Jahangiri, M., Jahangiri, M., & Najafgholipour, M. (2020). The sensitivity and specificity analyses of ambient temperature and population size on the transmission rate of the novel coronavirus (COVID-19) in different provinces of Iran. Science of the Total Environment, 728, 138872. DOI: 10.1016/j.scitotenv.2020.138872.

11. Jewell, N. P., Lewnard, J. A., & Jewell, B. L. (2020). Predictive mathematical models of the COVID-19 pandemic: underlying principles and value of projections. Jama, 323(19), 1893-1894. DOI:10.1001/jama.2020.6585

12. Jin, C., Chen, W., Cao, Y., Xu, Z., Tan, Z., Zhang, X., ... & Feng, J. (2020). Development and evaluation of an artificial intelligence system for COVID-19 diagnosis. Nature communications, 11(1), 1-14. DOI: 10.3389/fbioe.2020.00898

13. Kitchenham, B., Brereton, O. P., Budgen, D., Turner, M., Bailey, J., & Linkman, S. (2009). Systematic literature reviews in software engineering–a systematic literature review. Information and software technology, 51(1), 7-15. DOI:10.1016/j.infsof.2008.09.009

14. Legorreta, G, Alanís, R, Arana L ., & Aceves, F.. (2018). Evaluación de la eficiencia de predicción a deslizamientos usando un modelo cartográfico-hidrológico: caso de estudio Cuenca la Carbonera, flanco SE del Volcán Pico de Orizaba. Investigaciones Geográficas (Mx), (95), 1-15.. DOI:10.14350/rig.58387

15. López, F. J. A., Avi, J. R., & Fernández, M. V. A. (2018). Control estricto de matrices de confusión por medio de distribuciones multinomiales. Geofocus: Revista Internacional de Ciencia y Tecnología de la Información Geográfica, (21), 6. DOI:10.21138/GF.591

16. López-Cabrera, J. D., Díaz, J. A. P., Morales, R. O., & Díaz, M. P. (2020). Revisión crítica sobre la identificación de covid-19 a partir de imágenes de rayos x de tórax usando técnicas de inteligencia Artificial. Revista Cubana de Transformación Digital, 1(3), 67-99. https://www.researchgate.net/profile/Jose-Lopez-Cabrera/publication/

17. Lu, J., Behbood, V., Hao, P., Zuo, H., Xue, S., & Zhang, G. (2015). Transfer learning using computational intelligence: A survey. Knowledge-Based Systems, 80, 14-23. https://core.ac.uk/download/pdf/208710604.pdf

18. Mangal, A., Kalia, S., Rajgopal, H., Rangarajan, K., Namboodiri, V., Banerjee, S., & Arora, C. (2020). CovidAID: COVID-19 detection using chest X-ray. arXiv preprint arXiv:2004.09803. DOI: 10.1016%2Fj.media.2020.101794

19. Márquez Díaz, J. (2020). Inteligencia artificial y Big Data como soluciones frente a la COVID-19. Revista de Bioética y Derecho, (50), 315-331. https://scielo.isciii.es/scielo.php?pid=S1886-58872020000300019&script=sci_arttext&tlng=en

20. Minaee, S., Kafieh, R., Sonka, M., Yazdani, S., & Soufi, G. J. (2020). Deep-covid: Predicting covid-19 from chest x-ray images using deep transfer learning. Medical image analysis, 65, 101794. DOI: 10.1016%2Fj.media.2020.101794

21. Mosquera, R., Castrillón, O. D., & Parra, L. (2018). Máquinas de Soporte Vectorial, Clasificador Naïve Bayes y Algoritmos Genéticos para la Predicción de Riesgos Psicosociales en Docentes de Colegios Públicos Colombianos. Información tecnológica, 29(6), 153-162. DOI:10.4067/S0718-07642018000600153

22. Obuchowski, N. A., & Bullen, J. A. (2018). Receiver operating characteristic (ROC) curves: review of methods with applications in diagnostic medicine. Physics in Medicine & Biology, 63(7), 07TR01. DOI: 10.1088/1361-6560/aab4b1

23. Predicting mortality risk in patients with COVID-19 using artificial intelligence to help medical decision-making. MedRxiv. DOI: 10.1101/2020.03.30.20047308

24. Sánchez-Oro, R., Nuez, J. T., & Martínez-Sanz, G. (2020). La radiología en el diagnóstico de la neumonía por SARS-CoV-2 (COVID-19). Medicina Clínica, 155(1), 36. DOI:10.1016%2Fj.medcli.2020.03.004

25. Sedik, A., Iliyasu, A. M., El-Rahiem, A., Abdel Samea, M. E., Abdel-Raheem, A., Hammad, M., ... & Ahmed, A. (2020). Deploying machine and deep learning models for efficient data-augmented detection of COVID-19 infections. Viruses, 12(7), 769. DOI:10.3390/v12070769

26. Wu, G., Yang, P., Xie, Y., Woodruff, H. C., Rao, X., Guiot, J., ... & Lambin, P. (2020). Development of a clinical decision support system for severity risk prediction and triage of COVID-19 patients at hospital admission: an international multicentre study. European Respiratory Journal, 56(2). DOI: 10.1183/13993003.01104-2020

27. You, J., Leskovec, J., He, K., & Xie, S. (2020, November). Graph structure of neural networks. In International Conference on Machine Learning (pp. 10881-10891). PMLR. http://proceedings.mlr.press/v119/you20b.html

28. Yucalar, F., Ozcift, A., Borandag, E., & Kilinc, D. (2020). Multiple-classifiers in software quality engineering: Combining predictors to improve software fault prediction ability. Engineering Science and Technology, an International Journal, 23(4), 938-950. DOI: 10.1016/j.jestch.2019.10.005

29. Zhang, K., Liu, X., Shen, J., Li, Z., Sang, Y., Wu, X., ... & Wang, G. (2020). Clinically applicable AI system for accurate diagnosis, quantitative measurements, and prognosis of COVID-19 pneumonia using computed tomography. Cell, 181(6), 1423-1433. DOI: 10.1016/j.cell.2020.04.045

30. Zimmerman, N., Presto, A. A., Kumar, S. P., Gu, J., Hauryliuk, A., Robinson, E. S., ... & Subramanian, R. (2018). A machine learning calibration model using random forests to improve sensor performance for lower-cost air quality monitoring. Atmospheric Measurement Techniques, 11(1), 291-313. DOI: 10.5194/amt-11-291-2018

©2022 por los autores. Este artículo es de acceso abierto y distribuido según los términos y condiciones de la licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)

(https://creativecommons.org/licenses/by-nc-sa/4.0/).|