tesis

(1)

UNIVERSIDAD NACIONAL DEL CENTRO DEL PERÚ

ESCUELA DE POSGRADO

UNIDAD DE POSGRADO DE LA FACULTAD DE INGENIERIA DE SISTEMAS

“Modelo Prospectivo de Aprendizaje Automático para la Detección de Factores Obstétricos Orientados al Pronóstico de Riesgo de Muerte Perinatal en el HRDMI El Carmen – Huancayo”

PRESENTADA POR:

JOSÉ LUIS CERRÓN PÉREZ

PARA OPTAR EL GRADO ACADÉMICO DE:

DOCTOR EN INGENIERÍA DE SISTEMAS

Huancayo – Perú

2021

(2)

UNIVERSIDAD NACIONAL DEL CENTRO DEL PERU ESCUELA DE POSGRADO

UNIDAD DE POSGRADO DE LA FACULTAD DE INGENIERIA DE SISTEMAS CIUDAD UNIVERSITARIA.

EL TAMBO- HUANCAYO # Cel.916409027

ACTA DE SUSTENTACIÓN DE TESIS

En la Plataforma de Microsoft TEAMS de la Universidad Nacional del Centro del Perú, en el CANAL DE SUSTENTACIÓN VIRTUAL – UNIDAD DE POSGRADO DE LA FACULTAD DE INGENIERIA DE SISTEMAS, a los veintidós días del mes de Abril del año dos mil veintidós, con la presencia de los 5 miembros del Jurado. Siendo las 04:00 p.m. se dio inicio al Acto de Sustentación de la Tesis del egresado del Doctorado en Ingeniería de Sistemas.

JOSE LUIS CERRON PEREZ.

El secretario dio lectura a la Resolución de la Unidad de Posgrado de la Facultad de Ingeniería de Sistemas N.º 022-2022-DUPGFIS/UNCP, luego el sustentante procedió a exponer su TESIS titulada:

“MODELO PROSPECTIVO DE APRENDIZAJE AUTOMÁTICO PARA LA DETECCIÓN DE FACTORES OBSTÉTRICOS ORIENTADOS AL PRONÓSTICO DE RIESGO DE MUERTE PERINATAL EN EL HOSPITAL REGIONAL DOCENTE MATERNO INFANTIL

EL CARMEN – HUANCAYO”

Culminada la exposición, los Miembros, Vocales del Jurado procedieron a efectuar las observaciones y preguntas respectivas. Una vez terminada la evaluación, el Secretario del Jurado invitó al Sustentante a abandonar la Plataforma de Microsoft Teams, para la deliberación del caso, pasándose luego a la calificación obteniéndose el siguiente resultado:

APROBADO BUENO (NOTA 16)

El Secretario del Jurado pidió que se una el sustentante, a conectarse a la Plataforma Microsoft Teams para dar a conocer el resultado final, que fue anunciado por el Presidente.

Se dio por terminado el Acto de Sustentación a las 5:00 p.m. del 22 de abril de dos mil veintidós, firmando a continuación los miembros del jurado.

Presidente

Dr. ANIEVAL CIRILO PEÑA ROJAS.

---

Secretario

Dr. HENRY GEORGE MAQUERA QUISPE.

---

VOCAL

Dr. HECTOR HUAMAN SAMANIEGO.

---

VOCAL

Dr. JESUS ULLOA NINAHUAMAN.

Cc.Archivo/UPGFIS.

---

VOCAL

Dr. RICHARD YURI MERCADO RIVAS.

(3)

iii ASESOR:

DR. JESÚS ULLOA NINAHUAMÁN CÓDIGO ORCID:

0000-0002-0086-5974

(4)

iv Dedicatoria

El presente trabajo de investigación va dedicado a mi esposa e hijos por su cariño y apoyo incondicional, y a toda aquella persona que tenga interés en indagar sobre el presente tema de investigación.

(5)

v Agradecimiento

Quiero expresar mi gratitud a la Universidad Nacional del Centro del Perú y a todo aquel que haya compartido sus conocimientos conmigo durante este proceso de investigación, ya que gracias a ellos crezco día a día como profesional. De igual manera, mis agradecimientos al personal de salud por permitirme realizar este trabajo a partir del acceso a su base de datos.

(6)

vi Índice de contenido

Dedicatoria ... iv

Agradecimiento ... v

Índice de contenido ... vi

Índice de tablas... viii

Índice de figuras ... ix

Resumen... xi

Abstract ... xii

Resumo... xiii

Introducción ... 14

CAPITULO I ... 16

MARCO TEORICO ... 16

1.1 Antecedentes o marco referencial ... 16

1.2 Bases teóricas y conceptuales ... 20

1.2.1 Machine Learning o Aprendizaje Automático ... 20

1.2.2 Factores obstétricos ... 27

1.2.3 Muerte perinatal ... 28

1.3 Definición de términos básicos ... 30

1.4 Hipótesis de investigación ... 33

1.4.1 Hipótesis general ... 33

1.4.2 Hipótesis específicas ... 33

1.5 Operacionalización de variables ... 33

CAPÍTULO II ... 35

DISEÑO METODOLÓGICO ... 35

2.1 Tipo y nivel de investigación ... 35

2.2 Métodos de investigación ... 35

2.3 Diseño de la investigación ... 36

2.4 Población y muestra ... 37

2.4.1 Población ... 37

2.4.2 Muestra ... 37

2.4.3 Técnica de muestreo ... 37

2.5 Técnicas e instrumentos de recopilación de datos ... 37

2.6 Técnica de procesamiento de datos ... 38

CAPÍTULO III ... 39

ANÁLISIS Y DISCUSIÓN DE RESULTADOS ... 39

3.1 Desarrollo del modelo predictivo ... 39

(7)

vii

3.1.1 Identificación de datos ... 39

3.1.2 Preparación de datos ... 40

3.1.3 Selección de los algoritmos de Machine Learning ... 43

3.1.4 Entrenamiento ... 45

3.1.5 Evaluación ... 46

3.1.6 Implementación ... 55

3.1.7 Predicción ... 56

3.1.8 Evaluar la predicción ... 57

3.2 Análisis de correlación de los factores obstétricos ... 58

3.2.1 Factores subyacentes ... 59

3.2.2 Factores inmediatos ... 67

3.2.3 Factores básicos ... 76

3.3 Resultados de la implementación del modelo predictivo... 82

3.4 Discusión de resultados ... 85

Conclusiones ... 87

Recomendaciones ... 88

Referencias bibliográficas ... 89

ANEXOS ... 95

Anexo A: Matriz de consistencia ... 96

(8)

viii Índice de tablas

Tabla 1 Operacionalización de variables ... 34

Tabla 2 Datos de mortalidad perinatal ... 58

Tabla 3 Datos de consumo de drogas ... 59

Tabla 4 Datos de registro de estudios... 62

Tabla 5 Datos de estado civil ... 65

Tabla 6 Datos de partos previos ... 68

Tabla 7 Datos de papiloma humano ... 71

Tabla 8 Datos de abortos ... 74

Tabla 9 Datos de examen pélvico ... 77

Tabla 10 Datos de examen clínico ... 80

Tabla 11 Muertes perinatales en 2020 y 2021 ... 83

(9)

ix Índice de figuras

Figura 1 Estructura de un diseño correlacional-causal ... 36

Figura 2 Vista general de la base de datos sistematizada ... 40

Figura 3 Configuración de la nueva base de datos... 41

Figura 4 Configuración y modelado hasta la edición de metadatos ... 42

Figura 5 Configuración de la selección de columnas ... 42

Figura 6 Configuración y modelado hasta la limpieza de registros incompletos... 43

Figura 7 Configuración y modelado hasta la división de datos ... 44

Figura 8 Configuración y modelado hasta el entrenamiento de datos ... 45

Figura 9 Estructura final del modelo de regresión lineal Bayesiana ... 46

Figura 10 Predicción obtenida por regresión lineal Bayesiana ... 47

Figura 11 Resultados de la evaluación de regresión lineal Bayesiana ... 47

Figura 12 Estructura final del modelo de regresión potenciada de árbol de decisión .... 48

Figura 13 Predicción obtenida por regresión potenciada de árbol de decisión ... 49

Figura 14 Resultados de la evaluación de regresión potenciada de árbol de decisión . 49 Figura 15 Estructura final del modelo de regresión de bosque de decisión ... 50

Figura 16 Resultados de la evaluación de regresión de bosque de decisión ... 51

Figura 17 Estructura final del modelo de regresión lineal ... 51

Figura 18 Resultados de la evaluación del modelo de regresión lineal ... 52

Figura 19 Estructura final del modelo de regresión de red neuronal ... 52

Figura 20 Resultados de la evaluación de regresión de red neuronal ... 53

Figura 21 Estructura final del modelo de regresión de Poison ... 54

Figura 22 Resultados de la evaluación de regresión de Poison ... 54

Figura 23 Estructura del experimento predictivo ... 55

Figura 24 Acceso a la implementación del experimento predictivo ... 56

Figura 25 Configuración del ingreso de datos para la predicción... 57

Figura 26 Prueba de normalidad: “Mortalidad perinatal” y “Consumo de drogas” ... 60

Figura 27 Correlación de Spearman: “Mortalidad perinatal” y “Consumo de drogas” ... 60

Figura 28 Gráfico de dispersión lineal: “Mortalidad perinatal” y “Consumo de drogas” . 61 Figura 29 Prueba de normalidad: “Mortalidad perinatal” y “Registro de estudios” ... 63

Figura 30 Correlación de Spearman: “Mortalidad perinatal” y “Registro de estudios” ... 63

Figura 31 Gráfico de dispersión lineal: “Mortalidad perinatal” y “Registro de estudios”. 64 Figura 32 Prueba de normalidad: “Mortalidad perinatal” y “Estado civil” ... 65

Figura 33 Correlación de Pearson: “Mortalidad perinatal” y “Estado civil” ... 66

Figura 34 Gráfico de dispersión lineal: “Mortalidad perinatal” y “Estado civil” ... 67

Figura 35 Prueba de normalidad: “Mortalidad perinatal” y “Partos previos” ... 69

(10)

x

Figura 36 Correlación de Pearson: “Mortalidad perinatal” y “Partos previos” ... 69

Figura 37 Gráfico de dispersión lineal: “Mortalidad perinatal” y “Partos previos”... 70

Figura 38 Prueba de normalidad: “Mortalidad perinatal” y “Papiloma humano” ... 72

Figura 39 Correlación de Pearson: “Mortalidad perinatal” y “Papiloma humano” ... 72

Figura 40 Gráfico de dispersión lineal: “Mortalidad perinatal” y “Papiloma humano” .... 73

Figura 41 Prueba de normalidad: “Mortalidad perinatal” y “Abortos” ... 74

Figura 42 Correlación de Pearson: “Mortalidad perinatal” y “Abortos” ... 75

Figura 43 Gráfico de dispersión lineal: “Mortalidad perinatal” y “Abortos” ... 76

Figura 44 Prueba de normalidad: “Mortalidad perinatal” y “Examen pélvico” ... 78

Figura 45 Correlación de Pearson: “Mortalidad perinatal” y “Examen pélvico” ... 78

Figura 46 Gráfico de dispersión lineal: “Mortalidad perinatal” y “Examen pélvico” ... 79

Figura 47 Prueba de normalidad: “Mortalidad perinatal” y “Examen clínico” ... 81

Figura 48 Correlación de Pearson: “Mortalidad perinatal” y “Examen clínico” ... 81

Figura 49 Gráfico de dispersión lineal: “Mortalidad perinatal” y “Examen clínico” ... 82

Figura 50 Pruebas de normalidad para la mortalidad perinatal en 2020 y 2021... 84

Figura 51 Prueba de t-Student para muestras independientes ... 84

(11)

xi Resumen

Según el informe epidemiológico nacional de marzo del 2021, la Región Junín ocupa los primeros lugares en mortalidad perinatal con un 4,61 % (47 decesos). El hospital Regional Docente Materno Infantil El Carmen tiene un total de 21 decesos al mes de marzo y un total de 49 muertes perinatales al mes de julio, siendo éste un indicador preocupante por el aumento en comparación a periodos anteriores. La presente investigación tiene como objetivo determinar un modelo prospectivo de aprendizaje automático que permita detectar cuales son los factores obstétricos inmediatos, subyacentes y básicos que influyen en una muerte perinatal, así mismo, diseñar un modelo para predecir el riesgo de muerte.

Con este propósito, se ha realizado una investigación descriptiva, usando un diseño transeccional correlacional-causal; adicionalmente se emplearon técnicas de análisis e inducción en el procesamiento de datos con Machine Learning, implementando un sistema con estructura de servicio web y extensión a uso de hojas de cálculo para determinar la probabilidad de ocurrencia de una complicación fatal. En los resultados se tiene que el modelo de regresión por red neuronal es el más confiable por su capacidad de predicción con error mínimo a partir de los factores obstétricos. También resulta que dichos factores en sus tres dimensiones son fundamentales para el diagnóstico de mortalidad. Finalmente, se propone la implementación del modelo prospectivo generado como apoyo del personal médico para una predicción más acertada y una mejora en la sistematización de la base de datos del Hospital Regional Docente Materno Infantil El Carmen.

PALABRAS CLAVE: Mortalidad perinatal, Sistema Informático Perinatal, Aprendizaje automático, servicio web.

(12)

xii Abstract

According to the national epidemiological report of March 2021, the Junín Region occupies the first places in perinatal mortality with 4.61% (47 deaths). The Maternal and Child Teaching Regional Hospital El Carmen has a total of 21 deaths as of March and a total of 49 perinatal deaths as of July, this being a worrying indicator due to the increase compared to previous periods. The objective of this research is to determine a prospective machine learning model that allows detecting the immediate, underlying and basic obstetric factors that influence perinatal death, as well as designing a model to predict the risk of death. With this purpose, a descriptive investigation has been carried out, using a correlational-causal transectional design; Additionally, analysis and induction techniques were used in data processing with Machine Learning, implementing a system with a web service structure and extension to the use of spreadsheets to determine the probability of occurrence of a fatal complication. The results show that the neural network regression model is the most reliable due to its ability to predict with minimum error from obstetric factors. It also turns out that these factors in their three dimensions are fundamental for the diagnosis of mortality. Finally, the implementation of the prospective model generated as support for the medical staff is proposed for a more accurate prediction and an improvement in the systematization of the database of the El Carmen Regional Maternal and Child Teaching Hospital.

KEY WORDS: Perinatal mortality, Perinatal Information System, Machine learning, web service.

(13)

xiii Resumo

De acordo com o boletim epidemiológico nacional de março de 2021, a região de Junín ocupa os primeiros lugares em mortalidade perinatal com 4,61% (47 óbitos). O Hospital Regional Materno-Infantil de Ensino El Carmen tem um total de 21 óbitos em março e um total de 49 óbitos perinatais em julho, sendo este um indicador preocupante devido ao aumento em relação aos períodos anteriores. O objetivo desta pesquisa é determinar um modelo prospectivo de aprendizado de máquina que permita detectar os fatores obstétricos imediatos, subjacentes e básicos que influenciam a morte perinatal, bem como projetar um modelo para prever o risco de morte. Com este objetivo, foi realizada uma investigação descritiva, utilizando um desenho transecional correlacional-causal;

Adicionalmente, foram utilizadas técnicas de análise e indução no processamento de dados com Machine Learning, implementando um sistema com estrutura de webservice e extensão ao uso de planilhas para determinar a probabilidade de ocorrência de uma complicação fatal. s resultados mostram que o modelo de regressão de rede neural é o mais confiável devido à sua capacidade de prever com o mínimo de erro de fatores obstétricos. Acontece também que esses fatores em suas três dimensões são fundamentais para o diagnóstico da mortalidade. Finalmente, propõe-se a implementação do modelo prospectivo gerado como suporte para a equipe médica para uma previsão mais precisa e uma melhoria na sistematização do banco de dados do Hospital Materno Infantil Regional El Carmen.

PALAVRAS-CHAVE: Mortalidade perinatal, Sistema de Informação Perinatal, Aprendizado de máquina, serviço web.

(14)

14 Introducción

El término de mortalidad perinatal comprende en general las muertes ocurridas durante las etapas fetal y neonatal, pudiendo ser abarcadas de forma total o parcial.

Además, se define como un indicador del bienestar materno y de la calidad obstétrica y pediátrica disponible, cuya importancia radica en el rol que tiene como proveedor de información necesaria para mejorar la salud tanto de mujeres embarazadas, como de madres primerizas y recién nacidos; lo que además conlleva implementar cambios en la política y en la práctica de la salud pública.

Según el Centro Nacional de Epidemiología, Prevención y Control de Enfermedades (2021), el registro de defunciones fetales y neonatales notificadas por DIRESAS durante el periodo 2019-2020 está encabezado por DIRIS Lima Centro, La Libertad, Cusco, Junín, Lambayeque, Puno, DIRIS Lima Norte y Huánuco. Con respecto a Junín, este departamento alcanza un total de 319 defunciones totales en 2020, abarcando un 5.93% del total nacional. De forma adicional, cabe mencionar que para el 2021 también se han encontrado datos de mortalidad perinatal. El Centro Nacional de Epidemiología y Control de Enfermedades (2021) reporta que en la semana epidemiológica N° 16, comprendida del 18 al 24 de abril del 2021, en el departamento de Junín hubo 29 muertes fetales y 35 muertes neonatales, con respecto a las 736 y 601 defunciones a nivel nacional, respectivamente. Las cifras anteriormente mencionadas muestran que efectivamente la mortalidad perinatal es un problema que sufre la región Junín, siendo suficiente motivo para investigar el tema y buscar una forma de prevención.

Ahora bien, a pesar de que existen datos de las características generales de las defunciones fetales y neonatales que tienden a desembocar en dicha mortalidad, estas solo son referentes al difunto, mientras que la información perteneciente a los factores obstétricos no se contempla como debería, a pesar de ser crucial para dicho resultado y la determinación de una muerte probable. El enunciado anterior se sustenta en varias

(15)

15 investigaciones previas que han logrado demostrar la importancia e influencia de los factores obstétricos en la mortalidad fetal y neonatal, lo que implica el almacenamiento de la información de los controles prenatales, del proceso de parto y de post parto de una mujer gestante y su recién nacido. En efecto, esta información considera varios factores, como los de alto riesgo obstétrico (ARO) relacionados con la mujer gestante como: abortos, edad, número de partos previos, cesáreas, procedencia, etc. En vista de ello, todos estos datos pueden servir para identificar los elementos cruciales del indicador de mortalidad perinatal.

Siendo así, la presente investigación busca en primer lugar, demostrar que los factores obstétricos permiten diagnosticar la muerte perinatal, empleando un modelo prospectivo de aprendizaje automático. Estos factores deben tomarse en cuenta por el personal obstétrico de los centros de salud del departamento de Junín para así poder combatir esta situación tan problemática que vive nuestra región. En segundo lugar, está el diagnóstico divido por las dimensiones existentes para los factores obstétricos.

(16)

16 CAPITULO I

MARCO TEORICO

1.1 Antecedentes o marco referencial

En primer lugar, Gamarra (2020) realizó una investigación titulada “Modelos de aprendizaje automático basado en técnicas supervisadas para la predicción de la mortalidad perinatal en la región Junín” para optar por el grado académico de Doctor en Ingeniería de Sistemas en la Universidad Nacional Federico Villareal – Perú, que tuvo como objetivo determinar cómo los modelos de aprendizaje automático basados en técnicas supervisadas dan lugar a la predicción de la mortalidad perinatal en la región Junín, además de establecer la diferencia del rendimiento de predicción entre dichos modelos. El enfoque fue cuantitativo y el diseño no experimental retrospectivo, ya que se trabajó con datos históricos registrados en la región Junín, para lo cual se tomó una muestra de 2822 eventos de muerte perinatal que comprendían afecciones en dicho periodo y otros casos.

Para la recolección de datos se empleó la Ficha de Notificación de Muerte Fetal y Neonatal además de un aplicativo enfocado en la vigilancia epidemiológica, denominado NotiWeb 3.0. Para el desarrollo de modelos predictivos se consideraron tres técnicas basadas en árboles de decisiones, red de Bayes y redes neuronales, las cuales fueron parte del pre procesamiento de datos, pasando cada modelo a través de entrenamiento y una prueba de supervisión. En los resultados se encontró que en el tercer modelo con árboles de decisión W-J48 se alcanzó un rendimiento máximo del 88.91%, en el primer modelo con el algoritmo Naive Bayes (Kernel) se llegó a un rendimiento máximo de 64.5% y en el tercer

(17)

17 modelo con Neuronal Net se obtuvo un rendimiento máximo del 75.51%. Además, para un nivel de significancia del 5%, se aceptó la hipótesis alterna de que el rendimiento de los modelos era distinto dependiendo de las técnicas de predicción empleadas. A modo de conclusión, se afirma que los modelos de aprendizaje automático basado en técnicas supervisadas determinan la predicción de la mortalidad perinatal en la Región Junín con diferentes rendimientos.

Así mismo, Iannuccilli (2018) realizó una investigación titulada “Factores de riesgo asociados a mortalidad neonatal en el servicio de neonatología del Hospital María Auxiliadora año 2016” para optar por el título profesional de Médico Cirujano en la Universidad Ricardo Palma - Perú, que tuvo como objetivo determinar los factores de riesgo asociados a la mortalidad neonatal, además de estimar la magnitud y determinar la asociación de estos. El enfoque fue cuantitativo, ya que se llevó un registro de los datos recogidos de historias clínicas, además, la muestra fue tomada utilizando la fórmula para casos y controles a partir de un grupo de pacientes menores de 28 días nacidos en el hospital en cuestión. Luego de la recolección de información, se creó una base de datos y se emplearon métodos estadísticos para el procesamiento y análisis, respectivamente. En los resultados se encontró que las variables que presentaban asociación estadísticamente significativa con la mortalidad neonatal eran los controles prenatales, la edad gestacional, el peso al nacer y el diagnóstico de sepsis. El estudio concluyó que los factores mencionados anteriormente eran determinantes para el indicador de mortalidad neonatal y que por ello, era necesario informar a la población acerca de la importancia de realizarse controles prenatales; de la misma forma, se creyó necesario capacitar al personal obstétrico con esta nueva información.

Además, Rodríguez (2018) realizo una investigación titulada “Factores de riesgo asociados con la mortalidad perinatal en gestantes atendidas en el Hospital Leoncio Prado- Huamachuco. 2016 – 2017” para optar por el título profesional de Segunda Especialidad en Emergencias Obstétricas en la Universidad César Vallejo - Perú, que tuvo como objetivo

(18)

18 determinar si los factores de riesgo sociales, obstétricos y perinatales se asociaban con la mortalidad perinatal. El diseño de la investigación fue dirigido a los casos y controles, además, se utilizó el muestreo no probabilístico por conveniencia, tomando una cantidad de 40 con respecto a 781 gestantes atendidas en el hospital en cuestión. Para la recolección de datos, se usó la técnica de análisis documental y se emplearon fichas para la revisión de historias clínicas; posteriormente, se usaron softwares para el manejo de base de datos y de estructuras estadísticas. En los resultados, se encontró que los factores cuyo OR estaba comprendido en su respectivo rango de IC eran los siguientes: edad materna, paridad, distocia de presentación, edad gestacional, control prenatal, líquido amniótico meconial, peso al nacer; siendo la única excepción el lugar de procedencia. En ese sentido, se concluyó que aquellos factores con un OR significativo eran determinantes en la mortalidad perinatal.

Por otro lado, Clavo (2017) realizó una investigación titulada “Mortalidad perinatal en preeclamsia - Instituto Nacional Materno Perinatal 2015” para optar por el grado académico de maestro en Ginecología y Obstetricia en la Universidad de San Martín de Porres - Perú, que tuvo como objetivo determinar la relación existente de la mortalidad perinatal entre pacientes con diagnóstico de preclamsia materna en el Instituto Nacional Materno Perinatal periodo enero – marzo de 2015. El estudio fue cuantitativo y de alcance descriptivo, además, se emplearon criterios de inclusión y exclusión para escoger una muestra de 47 historias clínicas de gestantes con diagnóstico con preclamsia.

Posteriormente, se emplearon registros de recolección de datos y programas estadísticos para el procesamiento de información. En los resultados se encontró que el 73.8% fueron gestantes con una edad comprendida entre 29 y 34 años, siendo las nulíparas el grupo vulnerable (45%), el 73% fue la población con una edad gestacional mayor a 37 semanas, de las cuales, 66.9% asistieron a sus controles prenatales. El 34% presentó un aborto como antecedente, el 72% registraba hipertensión previa al embarazo en la historia familiar, y el 12.77% de pacientes presentaban antecedentes personales de preclamsia. Por otro lado,

(19)

19 el termino de embarazo fue parto por vía abdominal para el 82.98%, siendo las complicaciones el desprendimiento prematuro de placenta/hemorragia uterina en un 6.5%

y el síndrome HELLP en otro 6.5%. Siendo así, se llegó a la conclusión de que el mayor porcentaje de pacientes con diagnóstico de preclamsia fueron primíparas y nulíparas, perteneciendo al rango estándar según los siguientes factores: edad, número de controles prenatales, edad gestacional, paridad, hemorragia uterina: DPP/Hemorragia uterina, síndrome HELLP).

Finalmente, Alvarado (2018) realizó una investigación titulada “Factores de riesgo asociados a mortalidad neonatal precoz y tardía en el Hospital Santa Gema de Yurimaguas – Loreto, 2012 – 2016” para optar por el título profesional de Licenciado en Enfermería en la Universidad Nacional De San Martin – Perú, que tuvo como objetivo determinar los factores de riesgo asociados a mortalidad neonatal precoz y tardía durante el periodo 2012 – 2016 en el hospital en cuestión. El estudio fue de carácter cuantitativo, además de analítico y retrospectivo ya que se tomaron en cuenta los casos y controles de una muestra de 92 recién nacidos que fallecieron en el lapso de los primeros 28 días de vida. Además, como instrumento se empleó la ficha de recolección de datos y posteriormente para el procesamiento de estos, se usó la técnica del análisis documental. En los resultados se encontró que el 66% de los casos corresponden a mortalidad neonatal precoz, mientras que el 34% restante corresponde a mortalidad neonatal tardía. Para los factores de riesgo relacionados a la gestante, se encontró que el consumo de drogas, alcohol o tabaco tenía un OR de 20.267; la diabetes, un OR de 9.867; la hipertensión arterial, un OR de 6.349; la preclampsia/eclampsia, un OR de 3.62 y la atención prenatal para menos de 6 meses, un OR de 3.592. Por otro lado, para los factores de riesgo del neonato se tuvo que la icteria neonatal tenía un OR de 9.867; las malformaciones congénitas, un OR de 8.667; la edad gestacional menor a 37 o mayor igual a 42 semanas, un OR de 7.389 y el peso menor a 2500 gramos o mayor igual a 4000 gramos, un OR de 2.586. Cabe aclarar que el OR (Ods Ratio) indica el número de veces que el factor en cuestión incrementa la probabilidad de

(20)

20 que el neonato fallezca. En ese sentido, se llegó a la conclusión de que los factores de riesgo materno con mayor significancia, estadísticamente hablando, son el consumo de drogas, alcohol o tabaco, la atención prenatal para menos de 6 meses, la diabetes y la pre- eclampsia/eclampsia. Por otro lado, los factores neonatales en cuestión influyen en su totalidad, agregando además la sepsis bacteriana - sufrimiento fetal, las infecciones y neumonías congénitas, y el retraso del crecimiento intrauterino (RCIU).

1.2 Bases teóricas y conceptuales

1.2.1 Machine Learning o Aprendizaje Automático

1.2.1.1 Generalidades del Aprendizaje Automático

Durante las últimas dos décadas, el término Machine Learning se ha visto fuertemente asociado al desarrollo tecnológico de la humanidad, y no es para menos considerando todas las aplicaciones que tiene hoy en día, además del potencial innovador que representa en varios campos de trabajo. Según Hurwitz y Kirsch (2018), esta forma de Inteligencia Artificial, también llamada Aprendizaje Automático, habilita a un determinado sistema para que sea capaz de aprender a partir de datos recibidos en vez de que requiera programación explícita. El aprendizaje automático es un proceso complejo ya que usa una amplia gama de algoritmos que mediante procesos iterativos aprende de datos que se les ha otorgado, posteriormente realiza una descripción de los mismos para al final predecir una salida a modo de resultado.

Según Smola y Vishwanathan (2010) el aprendizaje automático tiene muchas aplicaciones. Una de ellas es el “ranking” de resultados en Google, que es lo que genera el motor de búsqueda en función de las páginas web más relevantes y de la coincidencia que tengan estas con la consulta que realizó el usuario. Dicho motor pudo haber obtenido este conocimiento a partir de distintas fuentes, tales como la estructura de los enlaces web, el contenido de las páginas, la frecuencia

(21)

21 con la que los usuarios aceden a los enlaces sugeridos después de la consulta, entre otras. Una aplicación parecida a la anterior es la de los filtros colaborativos, que funciona de forma similar, pero involucrando empresas, como por ejemplo Netflix y Amazon. Por otro lado, tenemos el caso de la traducción automática de documentos de un idioma a otro, la cual puede resultar correcta incluso si el texto presenta errores gramaticales o semánticos, debido a que aprendió a partir de ejemplos previos de traducción entre dichos idiomas.

Machine Learning también tiene aplicaciones en el campo de la seguridad.

Por ejemplo, para el control de acceso por reconocimiento facial es necesario tener un sistema que pueda aprender que rasgos son relevantes para identificar a una persona, el propietario en cuestión, siendo capaz de etiquetar rostros ajenos como

“desconocidos”.

Por último, pero no menos importante, se tiene el caso de la clasificación. El aprendizaje automático sirve de mucha utilidad para este típico problema, por ejemplo, cuando se llevan a cabo los filtros de spam en el correo de los usuarios, estos se realizan tomando en cuenta su historial de acciones con respecto a correos previos y la tendencia que tiene el propietario de abrirlos.

1.2.1.2 Datos en el aprendizaje automático

Según Smola y Vishwanathan (2010) los problemas con tipos de datos parecidos pueden resolverse con técnicas muy similares en la mayoría de los casos.

Siendo así, se tienen las siguientes estructuras de datos:

Vectores: Son las entidades más básicas que podemos encontrar en cualquier trabajo. Por ejemplo, una entidad dedicada a la salud humana podría estar interesada en obtener un vector de variables características de un paciente (presión sanguínea, peso, altura, nivel de colesterol, sexo) para inferir la esperanza de vida del sujeto en cuestión.

(22)

22 Listas: Se emplean en el caso de que los vectores no tengan un número fijo de variables. En el ejemplo anterior, se puede considerar que los parámetros mencionados pueden no ser suficientes.

Conjuntos: Pueden aparecer en problemas de aprendizaje que tienen un largo número de potenciales causas para un efecto, las cuales no están bien determinadas. Por ejemplo, para inferir la toxicidad de una especie de hongos se toman en cuenta varios de sus componentes, de los cuales no todos serán determinantes.

Matrices: Son una estructura conveniente para representar relaciones entre pares de variables. Por ejemplo, para el registro de la clientela de una empresa, las filas pueden representar clientes, mientras que las columnas productos; generando así combinaciones de utilidad, como la calificación de los productos por parte de un usuario.

Imágenes: Se pueden describir como arreglos bidimensionales de números, es decir, matrices. Suelen tener una representación muy cruda, sin embargo, esta también puede presentar coherencia espacial y estructura multiresolución.

Video: Añade una dimensión temporal a las imágenes, lo que permite representarlo como un arreglo tridimensional.

Árboles y gráficos: Son frecuentemente usados para describir relaciones entre colecciones de objetos. Por ejemplo, en las páginas web de tiendas online, se encuentran productos muy bien organizados por categorías, las cuales, a su vez contienen otras sub clasificaciones, que implican una relación de pertenencia entre ellas y el producto.

Cadenas: Estructuras parecidas a los arreglos, pera más simples en la composición de sus elementos. Se usan con frecuencia en los campos de bioinformática y procesamiento natural del lenguaje.

Estructuras compuestas: Es la forma de representación de datos más común, que consiste en la combinación de las estructuras mencionas con

(23)

23 anterioridad. Por ejemplo, una página web puede contener imágenes, texto, tablas, que a su vez, contienen números y listas, formando nodos en un interfaz gráfico de páginas web entrelazadas entre sí.

Por otro lado, cabe mencionar que no solo es importante la estructura de datos, sino el tamaño de esta. Según Hurwitz & Kirsch (2018) la precisión de un modelo de Machine Learning puede mejorar sustancialmente si es entrenado con Big Data, un término que alude a cualquier fuente de datos que cumple con las siguientes características: un volumen extremadamente grande de datos, la capacidad de mover esos datos a gran velocidad, una amplia variedad de fuentes y fuentes verídicas para los datos en cuestión. Cabe recalcar que sin una cantidad suficiente de datos, se puede caer en el error de tomar decisiones en base a pequeños subconjuntos no representativos, los cuales podrían conllevar a malinterpretar una tendencia o a perder un patrón que ya estaba emergiendo con anterioridad.

1.2.1.3 Enfoques del Machine Learning

En función de la naturaleza del problema que se está atendiendo, existen cuatro categorías del aprendizaje automático que están enfocadas en un tipo y volumen de datos determinados, según Chollet (2018) estas son:

Aprendizaje supervisado: Es el enfoque más común. Consiste en aprender a mapear datos de entrada en base a términos conocidos (etiquetas o anotaciones), a partir de un conjunto de ejemplos ya existente. Entre sus aplicaciones se encuentran el reconocimiento facial, el reconocimiento de voz, la clasificación de imágenes y la traducción de textos a otros idiomas. Este tipo de aprendizaje está basado principalmente en clasificación y regresión, sin embargo, existen variantes más exóticas.

 Generación de secuencia: Dada una imagen, predice un término que la describa. A veces, esta variante puede ser reformulada como una

(24)

24 serie de problemas de clasificación, que consiste en el entrenamiento de predicción repetida para una palabra o ficha.

 Predicción del árbol de sintaxis: A partir de una oración, se predice su descomposición en una estructura tipo árbol.

 Detección de objetos: Dada una imagen, dibuja un cuadrado

delimitador alrededor de ciertos objetos encontrados en dicha representación gráfica. Esta variante también se puede expresar como un problema de clasificación y regresión.

 Segmentación de imágenes: A partir de una imagen y a nivel de

pixeles, dibuja una máscara sobre un objeto específico.

Aprendizaje no supervisado: Esta rama del aprendizaje automático consiste en encontrar transformaciones interesantes en el ingreso de datos sin la ayuda de alguna denominación verdadera previamente establecido, con el fin de visualizar o comprimir datos, eliminar ruido y comprender mejor la correlación entre los datos disponibles. Esta variante es indispensable para el análisis de datos, y ese es el por qué se toma como un paso necesario para comprender mejor un conjunto de datos antes de intentar aplicar el aprendizaje supervisado. La reducción de dimensionalidad y la agrupación son las categorías más empleadas de este enfoque.

Aprendizaje auto-supervisado: Esta es una instancia especial del aprendizaje supervisado, pero es lo suficientemente única para tener su propia categoría. Este enfoque, a comparación del supervisado, aprende sin la necesidad de emplear etiquetas o anotaciones hechas por humanos en el proceso. Es cierto que todavía hay etiquetas involucradas en dicho aprendizaje, sin embargo, estas son generadas únicamente por los datos de entrada, que generalmente usan algoritmos heurísticos. Un ejemplo muy conocido de este enfoque son los codificadores automáticos, donde la entrada de datos sin modificar logra generar predicciones.

(25)

25 Aprendizaje reforzado: Esta variante de Machine Learning ha recibido mucha atención después de que Google DeepMind la aplicara exitosamente en el aprendizaje de cómo jugar una famosa línea de videojuegos llamada “Atari games”.

En este enfoque, un agente recibe información acerca de su entorno y consecuentemente, aprende a elegir acciones que puedan maximizar sus recompensas. Por ejemplo, una red neuronal que se usa sobre la pantalla de un videojuego y genera la salida de acciones que maximizan el puntaje puede ser entrenada por aprendizaje reforzado. De momento, sus aplicaciones son bastante básicas y no han tenido éxito significativo en cuestiones prácticas, sin embargo, se espera que en un futuro cercano este tipo de aprendizaje pueda representar soluciones en el mundo real.

1.2.1.4 Modelos de Machine Learning

Según Sandoval (2018), existen tres métodos de aplicación diferenciados:

Modelos lineales: Estos tratan de encontrar una línea que se ajuste lo mejor posible a la nube de puntos existentes. Acá resaltan modelos como la regresión lineal o de mínimos cuadrados, y la logística, más relacionada a la clasificación de variables discretas. Cabe mencionar que estos modelos no son muy efectivos, ya que agregar datos cambia la representación lineal inicial y en ese sentido, el ajuste siempre estará variando.

Modelos de árbol: Son modelos precisos, consistentes y más fáciles de interpretar, ya que construyen reglas de decisión que formarán parte de la estructura del árbol. A modo de mejora, estos modelos pueden representar relaciones más complejas que la lineal, optando por una gama más amplia para la resolución de problemas. Sin embargo, cabe aclarar que aumentar la capacidad predictiva, implica perder el rendimiento para dichos modelos. Dos estructuras muy conocidas en este ámbito son los árboles de decisión y los “random forest”, que vendrían a ser el promedio de un grupo de árboles de decisión.

(26)

26 Redes neuronales: Estas estructuras tienen el propósito de imitar la forma en que los cerebros humanos abordan los problemas, usando capas de unidades interconectadas para aprender y así inferir las posibles relaciones existentes entre los datos ingresados a dicho modelo. Estas estructuras pueden ajustarse y mejorar su aprendizaje a medida que cambian los datos, además, son muy útiles cuando se quiere trabajar con datos no etiquetados. Entre sus aplicaciones, tenemos el reconocimiento de imágenes o videos, una tarea que se ajusta de forma perfecta, ya que requiere un mecanismo complejo. Entre sus deficiencias, están la lentitud del entrenamiento y la necesidad de una gran capacidad de cómputo.

1.2.1.5 Microsoft Azure

Microsoft Azure es un conjunto de servicios localizados en la nube que tienen la función de ser un apoyo a nivel de organización y al momento de satisfacer necesidades comerciales. Presenta ventajas de mucha utilidad, como la reducción de costos en hardware, el ahorro personal para algún proyecto y la seguridad que otorga Microsoft.

Los servicios de entrada en Azure se diferencian en dos grupos, almacenamiento y virtualización. El segundo grupo cuenta con el servicio de levantamiento de servidores virtuales, sea cual sea el sistema operativo, lo que además conlleva a otras posibilidades de trabajo en dicho software. Las distintas vertientes de la virtualización comprenden el análisis de datos en tiempo real, el desarrollo de Bases de Datos y Contenedores, el uso de redes, y lo que cobra más importancia en la presente investigación, la Inteligencia Artificial y Machine Learning, llevando a cabo el desarrollo de servicios cognitivos, bots u otros servicios dotados de inteligencia artificial.

Según Microsoft (s.f.), Azure Machine Learning es un servicio de aprendizaje automático de nivel empresarial que sirve para crear e implementar modelos de inteligencia artificial con más rapidez. Este servicio resulta muy práctico, ya que

(27)

27 agiliza la creación de modelos con el modo automatizado, accediendo a eficaces funciones de la ingeniería, la selección de algoritmos y el barrido de hiperparámetros, todo ello gracias a sus herramientas y paneles especializados.

1.2.2 Factores obstétricos

1.2.2.1 Factores de riesgo en la salud y enfermedad

En aspectos generales, se denomina factor de riesgo a cualquier aspecto o circunstancia detectable de un individuo o grupo de personas que esté asociada con la potencial probabilidad de sufrir algún tipo de perjuicio en la salud, sea una enfermedad o lesión. A pesar de que estos factores aparecen individualmente, suelen coexistir e interactuar entre ellos, representando generalmente relaciones de correlación o causalidad (Australian Institute of Health and Welfare [AIHW], 2020).

Según la European Patients’ Academy on Therapeutic Innovation [EUPATI]

(2015) los factores de riesgo se clasifican de la siguiente forma:

Tipo conductual: Conformadas por las decisiones que el sujeto en estudio ha elegido llevar a cabo, por lo que pueden reducirse o eliminarse mediante modificaciones en los hábitos y el estilo de vida. Estos son tabaquismo, alcoholismo, falta de actividad física, mala alimentación, etc.

Tipo fisiológico: Son los riesgos relacionados con el organismo y su funcionamiento, que además pueden ser influenciados por la genética o el estilo de vida. Son por ejemplo la obesidad, el colesterol alto, la presión arterial alta, etc.

Tipo demográfico: Características generales de una población, como la edad, el género, el sueldo, etc.

Tipo medioambiental: Involucran factores sociales y económicos, así como biológicos y químicos. Entre estos se encuentran el acceso a agua potable, el grado de contaminación del aire, el entorno social, etc.

(28)

28 Tipo genético: Relacionados enteramente con los genes de la persona en estudio.

Cabe aclarar que es posible reducir la exposición a varios factores de riesgo, y que de esa forma, se podría mejorar considerablemente la salud y la expectativa de vida de las personas.

1.2.2.2 Factores de riesgo obstétrico

Según Sánchez (2019) son factores de riesgo relacionados a la gestante que se detectan en un proceso de embarazo, los cuales pueden tener repercusiones negativas tanto en la salud de la madre como del feto. Según Romero et al. (2010), los factores de riesgo obstétrico se clasifican de la siguiente forma:

Factores inmediatos: son aquellos que provienen del propio individuo, como los factores congénitos, las enfermedades infecciosas, la situación nutricional, etc.

Factores subyacentes: son los que provienen de las comunidades y hogares, como el nivel de educación, el acceso limitado a la atención médica y obstétrica, las condiciones medioambientales, etc.

Factores básicos: son aquellos que provienen de la sociedad, tales como la pobreza, las brechas salariales, la exclusión social, la discriminación por pertenecía a grupos minoritarios, etc.

1.2.3 Muerte perinatal

1.2.3.1 Periodo perinatal

Delimitar el periodo perinatal ha sido una labor confusa desde hace años, pues varias instituciones de renombre han modificado el límite inferior de dicho periodo, ofreciendo un abanico de opciones al momento de elegir la semana desde la que se hará el conteo de muertes perinatales. Primeramente, la Organización Mundial de la Salud [OMS] (1984) afirmó que “es recomendable usar el periodo

(29)

29 perinatal I, que ocurre desde las 28 semanas de gestación (feto con 1000 g o más) hasta antes de los 7 días (antes de las 168 horas completas) de vida”, proponiendo el inicio del conteo en la semana 28. Sin embargo, posteriormente la misma OMS (2006) anunció que la muerte perinatal es “la muerte de un bebé entre la semana 22 de gestación (o peso de 500 gramos) y los siete días después del nacimiento”, definición que se está usando para contabilizar las muertes en el presente trabajo, siendo además la más recomendada.

Adicionalmente, se toman en cuenta las variaciones temporales de la muerte perinatal, siendo estas la precoz y la tardía. Según la OMS (2006) la muerte perinatal precoz abarca “las muertes perinatales ocurridas durante los siete primeros días de vida”, mientras que la muerte perinatal tardía abarca “las muertes ocurridas después del séptimo día, pero antes de los 28 días completos de vida”.

1.2.3.2 Mortalidad perinatal como indicador

La mortalidad perinatal (TMP) se define como un indicador del bienestar materno y de la calidad obstétrica y pediátrica disponible, cuya importancia radica en el rol que tiene como proveedor de información necesaria para mejorar la salud tanto de mujeres embarazadas, como de madres primerizas y recién nacidos; lo que además conlleva implementar cambios en la política y en la práctica de la salud pública. En términos numéricos, es la proporción entre el número de defunciones perinatales y el número total de nacimientos.

Por otro lado, cabe aclarar que la recolección precisa de datos para este indicador es complicada, pues el conteo de defunciones suele verse afectado por la omisión de embarazos perdidos y el registro tardío de defunciones infantiles, además de que los datos en cuestión difícilmente están disponibles a nivel nacional (Ramírez, 1999).

(30)

30 1.3 Definición de términos básicos

Según Schwarcz et al. (2012) un aborto clínico es “la interrupción espontánea o provocada de una gestación antes de las 22 semanas, contando desde el primer día de la última menstruación normal, con un peso aproximado de 500 gramos o 25 cm”.

La OMS (2001) define la autopsia verbal como “un proceso concebido para facilitar la identificación de las defunciones maternas cuando la certificación médica es insuficiente mediante la reconstrucción de los eventos que rodean a los fallecimientos acaecidos en la comunidad”.

La Oficina General de Tecnologías de la Información (2018) afirma que la causa básica de la defunción es “la enfermedad o lesión que inició la secuencia de eventos patológicos que condujeron directamente a la muerte, o las circunstancias del accidente o violencia que produjo la lesión fatal”.

Según la Oficina General de Tecnologías de la Información (2018) la causa directa de muerte es “la enfermedad o afección que produce la muerte directamente”.

Así mismo, de acuerdo a la Oficina General de Tecnologías de la Información (2018) las causas de defunción son “todas aquellas enfermedades, estados morbosos o lesiones que produjeron la muerte o contribuyeron a ella, y las circunstancias del accidente o de la violencia que produjo dichas lesiones”.

Según la OMS (2001) la defunción fetal se define como “la muerte de un producto de la concepción, antes de su expulsión o extracción completa del cuerpo de la gestante, sin importar la duración del embarazo”.

Rojas et al. (2020) afirma que la evitabilidad es la relación entre los factores salud, enfermedad y muerte con respecto a la capacidad de influencia que tiene la sociedad en ella.

(31)

31 De acuerdo a la OMS (2010) el feto se define como “el producto de la fecundación desde el fin del desarrollo embrionario, a las 8 semanas después de la fecundación, hasta el aborto o el nacimiento”.

Según la Oficina General de Epidemiología (2005) la muerte materna directa es “la que resulta de complicaciones obstétricas del embarazo, parto y puerperio, así como de intervenciones, omisiones, tratamiento incorrecto, o de una cadena de acontecimientos originada en cualquiera de las circunstancias mencionadas”.

La Oficina General de Epidemiología (2005) define la muerte materna indirecta como “la que resulta de una enfermedad existente desde antes del embarazo o de una enfermedad que evoluciona durante este, no debida a causas obstétricas directas, pero sí agravadas por los efectos fisiológicos del embarazo”.

Así mismo, la Oficina General de Epidemiología (2005) afirma que la muerte materna tardía es “la muerte de una mujer por causas obstétricas directas o indirectas, después de los 42 días siguientes a la terminación del embarazo”.

Según la Oficina General de Epidemiología (2005) la muerte materna es “la muerte de una mujer mientras está embarazada o dentro de los 42 días siguientes a la terminación del embarazo, debida a cualquier causa relacionada con la gestación o su forma de atención, pero no por causas accidentales o incidentales”

De acuerdo a la Oficina General de Epidemiología (2005) las muertes relacionadas con el embarazo se definen como “la muerte de una mujer mientras está en embarazo o dentro de los 42 días siguientes a la terminación del mismo, independientemente de la causa. A diferencia de la muerte materna, esta sí incluye muertes por accidente, homicidio o suicidio”.

Según el Ministerio de Salud de Chile (2015) los niveles de atención son una

“clasificación de los grados de complejidad de los hospitales y/o centros asistenciales, de

(32)

32 acuerdo con la tecnología y el personal responsable de cada actividad, intervención o procedimiento de salud. Los grados de complejidad son bajo, mediano y alto”.

El Ministerio de Salud de Chile (2015) afirma que el parto término hace referencia al “embarazo entre 37-42 semanas o 259-293 días completos”.

De acuerdo al Ministerio de Salud de Chile (2015) el parto postérmino hace referencia al “embarazo de 42 o más semanas o 294 días o más”.

Según el Ministerio de Salud de Chile (2015) el parto prematuro es “el parto antes de las 37 semanas o 259 días”.

De acuerdo a la OMS (2003) el período embrionario es la “etapa medida a partir de la cuarta hasta la octava semana, durante la que ocurre la organogénesis del embrión”.

La OMS (2003) define el período fetal como la “fase del desarrollo que se inicia en la semana nueve de la gestación humana hasta el nacimiento”.

La OMS (2003) afirma que el período perinatal es aquel que “comienza desde el nacimiento y termina 28 días completos después”.

Según la OMS (2003) el período perinatal es aquel que “inicia al cumplir 22 semanas completas o 154 días de gestación y termina a los 7 días completos después del parto”.

De acuerdo al Ministerio de Salud de Chile (2015) el peso al nacer es “el primer peso del feto o RN obtenido después del nacimiento, preferentemente medido la 1° hora de vida, antes de la pérdida sensible postnatal de (expresada en gramos)”.

El Ministerio de Salud de Chile (2015) afirma que el peso bajo al nacer hace referencia a “recién nacidos con pesos <2500 gramos, independiente de la edad gestacional”.

(33)

33 Según el Ministerio de Salud de Chile (2015) el peso muy bajo al nacer hace referencia a “recién nacidos con pesos <1500 gramos”.

Así mismo, el Ministerio de Salud de Chile (2015) afirma que el peso extremadamente bajo al nacer hace referencia a “recién nacidos con pesos <1000 gramos”.

1.4 Hipótesis de investigación

1.4.1 Hipótesis general

El modelo prospectivo de aprendizaje automático para la detección de factores obstétricos permite pronosticar el riesgo de muerte perinatal en el Hospital Regional Docente Materno Infantil El Carmen – Huancayo.

1.4.2 Hipótesis específicas

Los factores obstétricos inmediatos permiten pronosticar mediante un modelo de aprendizaje automático el riesgo de muerte perinatal en el Hospital Regional Docente Materno Infantil El Carmen – Huancayo.

Los factores obstétricos subyacentes permiten pronosticar mediante un modelo de aprendizaje automático el riesgo de muerte perinatal en el Hospital Regional Docente Materno Infantil El Carmen – Huancayo.

Los factores obstétricos básicos permiten pronosticar mediante un modelo de aprendizaje automático el riesgo de muerte perinatal en el Hospital Regional Docente Materno Infantil El Carmen – Huancayo.

1.5 Operacionalización de variables

Variable Independiente: Factores Obstétricos

Variable Dependiente: Muerte perinatal

(34)

34 Tabla 1 Operacionalización de variables

Operacionalización de variables

VARIABLES DEFINICION CONCEPTUAL DIMENSIONES INDICADORES

VARIABLE INDEPENDIENTE

Factores Obstétricos

Factor externo o intrínseco a la mujer que puede generar algún tipo de complicación durante el

embarazo, parto, puerperio.

También que puede alterar de alguna forma el normal el desarrollo o supervivencia de producto.

Factores inmediatos (Provienen del individuo)

Antecedentes Obstétricos Riesgos obstétricos Riesgos congénitos Antecedentes mórbidos Factores subyacentes

(Provienen de los

hogares y comunidades)

Nivel de educación Nivel socio – económico

Acceso a los servicios de salud Nivel de atención

Factores básicos (Provienen de la sociedad)

Recursos humanos para la prestación de salud Recursos económicos para la prestación de salud Recursos tecnológicos para la prestación de salud VARIABLE

DEPENDIENTE Muerte Perinatal

La muerte perinatal se define como la de ocurrencia de un mortinato y las defunciones de nacidos vivos

producidos en los primeros siete días de vida

Mortinatos Partos/muertes institucionales

Partos/muertes extramurales

(35)

35 CAPÍTULO II

DISEÑO METODOLÓGICO

2.1 Tipo y nivel de investigación

La presente investigación es de tipo aplicada según su propósito, ya que se enfoca en el propósito fundamental de resolver un problema en un contexto real, usando conocimientos de Machine Learning, a fin de aplicarlos en la determinación de factores obstétricos y en la predicción de mortalidad perinatal, en provecho de la sociedad. Así mismo es de tipo cuasi-experimental. Se afirma esto porque a pesar de que se pretende manipular la variable independiente a partir de la predicción, que en este caso son los factores obstétricos que pueden estar involucrados con las muertes perinatales; no se posee un control total sobre dichos factores. Según Hernández (2014) con respecto al nivel de investigación, se tiene que es descriptiva y relacional, pues busca especificar las propiedades y perfiles de los grupos implicados en el análisis de la mortalidad perinatal.

Además, se describen tendencias de dicha población y se busca asociarlas con los factores obstétricos.

2.2 Métodos de investigación

En esta investigación se has utilizado el método cuantitativo. Este método es el más adecuado porque se hará un análisis de miles de registros de la base de datos del sistema de egresos hospitalarios y del sistema de información perinatal, implicando datos

(36)

36 numéricos o cuantitativos muy grandes. Además, dado que se enfatizan los datos, el método es inductivo, pues este análisis se hará de forma independiente e individual para los casos de riesgo o muerte perinatal, empleando para ello un modelo de aprendizaje automático. Dicho modelo permitirá determinar la causalidad entre la variable independiente (factores obstétricos) y la variable dependiente (muerte perinatal) a fin de entender su comportamiento y los efectos percibidos por la segunda variable. El modelo también permitirá establecer una estructura generalizada y validada de pronóstico, la cual será útil para futuros casos de seguimiento prenatal y tendrá el objetivo de reducir el riesgo de muertes perinatales registradas en la Región Junín.

2.3 Diseño de la investigación

La presente investigación es de diseño transeccional correlacional-causal, esto se debe a que las causas y los efectos ya existen en el mundo real, cuyos datos fueron recolectados en un tiempo único, y son los mismos que serán analizados y utilizados en todo el proceso de entrenamiento – aprendizaje del modelo predictivo, además de tener un rol fundamental en la validación del modelo de aprendizaje automático. En ese sentido, la presente investigación tendrá un diseño prospectivo, ya que se establecen las relaciones causales a partir de la variable independiente.

Figura 1 Estructura de un diseño correlacional-causal Estructura de un diseño correlacional-causal

Nota. Tomado de Hernández, 2014.

(37)

37 2.4 Población y muestra

2.4.1 Población

La unidad de análisis de la presente investigación está conformada por todas las personas que han recibido atención obstétrica en la región Junín por un parto institucional y una muerte perinatal durante el periodo de tiempo comprendido entre el año 2000 y el año 2020; además, dicha atención mencionada está registrada en el sistema de información de egresos hospitalarios y el sistema informático perinatal del Ministerio de Salud. El sistema cuenta con una cantidad total de 90 813 registros.

2.4.2 Muestra

La muestra está conformada por 70 426 registros de personas que han recibido atención obstétrica en la región Junín por un parto institucional y una muerte perinatal durante el periodo de tiempo comprendido entre el año 2000 y el año 2020.

2.4.3 Técnica de muestreo

La técnica de muestreo ha sido no probabilística o dirigida, pues según Hernández (2014) esta supone un procedimiento de selección orientado por las características de la investigación, que en nuestro caso serían registros completos y limpios, más que por un criterio estadístico de generalización.

2.5 Técnicas e instrumentos de recopilación de datos

La fuente de información empleada para el presente trabajo de investigación es el registro administrativo evidenciado en la historia clínica de egresos hospitalarios y del sistema perinatal del sistema de salud de la región Junín. Este registro constituye la fuente de datos más valiosa que emplean en la actualidad todas las dependencias de salud que pertenecen al Ministerio de Salud, ya con fines de conocer las características de la población, evaluar la atención brindada, etc. Por otro lado, el Ministerio de Salud también

(38)

38 cuenta con un sistema informático perinatal que almacena todos los datos registrados a partir de los historiales clínicos existentes hasta el momento.

2.6 Técnica de procesamiento de datos

El procesamiento de datos se realizó a través del uso de técnicas de inteligencia artificial, agentes inteligentes, proceso evolutivo artificial y redes de comportamiento. Estos elementos permitieron dar origen a un modelo de aprendizaje automático que permite determinar los factores obstétricos inmediatos que influyen en una muerte perinatal, con el propósito de predecir la probabilidad de ocurrencia de éste y que influye en el índice de mortalidad. Así mismo se utilizó SPSS para validar la hipótesis de la investigación.

(39)

39 CAPÍTULO III

ANÁLISIS Y DISCUSIÓN DE RESULTADOS

3.1 Desarrollo del modelo predictivo

3.1.1 Identificación de datos

La fuente de información empleada para el presente trabajo de investigación es el registro administrativo evidenciado en la historia clínica de egresos hospitalarios y del sistema perinatal del sistema de salud de la región Junín. Este registro constituye la fuente de datos más valiosa que emplean en la actualidad todas las dependencias de salud que pertenecen al Ministerio de Salud, ya con fines de conocer las características de la población, evaluar la atención brindada, etc. Por otro lado, el Ministerio de Salud también cuenta con un sistema informático perinatal que almacena todos los datos registrados a partir de los historiales clínicos existentes hasta el momento. Finalmente, cabe recalcar que los datos empleados en el presente trabajo fueron extraídos del periodo de tiempo comprendido entre el año 2000 y el año 2021, usando los datos hasta noviembre del 2020 para el entrenamiento del modelo, los datos de diciembre del 2020 para evaluar la predicción, y los datos del 2021 para verificar los beneficios de implementar el modelo.

(40)

40 3.1.2 Preparación de datos

3.1.2.1 Base de Datos en Excel

Primeramente, se extrae un archivo de Excel con los registros suficientes para generar una base de datos funcional a partir de la proporcionada por el Ministerio de Salud. El archivo inicial llamado “muerte_perinatal.xls” tiene una presentación incompleta y desorganizada. Adicionalmente, se tiene otro archivo con la equivalencia de las variables indicadas, el cual se emplea para generar las cabeceras del archivo anterior. Posteriormente, se eliminan aquellas variables con exceso de campos vacíos y también aquellas que no forman parte de los factores obstétricos o no tienen relevancia en base a nuestro marco teórico, ya sea por falta de correlación o por duplicación. De momento, las únicas excepciones a dicha eliminación son los campos de “DNI” y “Nombres”, además de las últimas columnas relacionadas directamente a la muerte perinatal. Finalmente, se cambian los colores de todas las variables según las categorías de factores obstétricos a las que pertenecen. El archivo final está titulado como “DataBack.xlsx”.

Figura 2 Vista general de la base de datos sistematizada Vista general de la base de datos sistematizada

Posteriormente, se realiza una transformación del tipo de archivo, convirtiendo “DataBack.xlsx” a “DataBack.csv”, procurando que el nuevo formato

(41)

41 no tenga caracteres exclusivos del idioma español y que la separación de valores sea realizada únicamente por comas, requisitos indispensables para pasar a la siguiente fase en Microsoft Machine Learning Studio (classic).

3.1.2.2 Base de datos en Microsoft Machine Learning Studio (classic)

Para poder implementar inteligencia artificial al presente trabajo, se usa la plataforma de Microsoft Machine Learning Studio (classic). Lo primero que se implementa es la base de datos como “New Dataset” a partir del archivo local

“DataBack.csv”. Para ello se realiza una configuración específica.

Figura 3 Configuración de la nueva base de datos Configuración de la nueva base de datos

Ahora la base de datos ha sido implementada en la plataforma y ya puede emplearse para realizar diversas operaciones.

3.1.2.3 Creación del experimento

Primeramente, se crea un nuevo entorno para trabajar, con el formato de

“New Experiment”, el cual es titulado como “Mortalidad Perinatal”. Luego, se procede a trabajar en dicho lienzo en blanco.

(42)

42 Para empezar, se implementa la base de datos “DataBack.csv”.

Seguidamente, se une el módulo “Edit Metadata” y se configura de tal forma que todas las cabeceras tengan un nombre representativo. Luego, se ejecuta el modelo.

Figura 4 Configuración y modelado hasta la edición de metadatos Configuración y modelado hasta la edición de metadatos

Después se agrega el módulo “Select Columns in Dataset” y se configura con el propósito de excluir las variables que no sean determinantes en la predicción o que presenten información repetida, para finalmente ejecutar el modelo.

Figura 5 Configuración de la selección de columnas Configuración de la selección de columnas

(43)

43 El siguiente paso es conectar el módulo “Clean Missing Data” a la estructura ya creada. Este módulo sirve para eliminar los registros que tengan algún campo vacío, con tal de que todos los datos con los que se trabaje estén completos. Se realiza su respectiva configuración y luego se ejecuta.

Figura 6 Configuración y modelado hasta la limpieza de registros incompletos Configuración y modelado hasta la limpieza de registros incompletos

Hasta este punto, los datos ya están completamente preparados para la implementación de algoritmos.

3.1.3 Selección de los algoritmos de Machine Learning

En el presente trabajo se implementan diversos algoritmos enfocados en la predicción que nos ofrece Microsoft Machine Learning Studio (classic), estos están ubicados en la sección de módulos llamada “Machine Learning”, subsección “Initialize Model” y tópico “Regression”. Dicha ubicación nos ofrece ocho algoritmos: Bayesian Linear Regression (regresión lineal Bayesiana), Boosted Decision Tree Regression (regresión potenciada de árbol de decisión), Decision Forest Regression (regresión de bosque de decisión), Fast Forest Quantile Regression (regresión rápida de bosque por cuantiles), Linear Regression (regresión lineal), Neural Network Regression (regresión de red

(44)

44 neuronal), Ordinal Regression (regresión ordinal) y Poison Regression (regresión de Poison). Para una evaluación y selección del mejor modelo, se usan los algoritmos anteriormente mencionados, se realiza una comparativa de resultados y se toma el más óptimo, con el margen de error más pequeño. Cabe aclarar que las únicas excepciones serán los algoritmos Fast Forest Quantile Regression (regresión rápida de bosque por cuantiles) y Ordinal Regression (regresión ordinal), pues el primero no genera un coeficiente de determinación en la evaluación y el segundo requiere un ingreso previo de valores binarios.

Para poder usar cualquiera de los algoritmos anteriormente mencionados, primero es necesario dividir los datos entre los que serán entrenados y los que serán usados en la puntuación. Para ello, se usa el módulo “Split Data” y se configura la sección “Fraction of rows in the first output” con el porcentaje de datos que se busca entrenar, que en este caso será de 0.75 (75%), dejando un 25% restante para la evaluación. También es importante realizar la división de forma aleatoria. Finalmente, se ejecuta el modelo.

Figura 7 Configuración y modelado hasta la división de datos Configuración y modelado hasta la división de datos

(45)

45 Hasta este punto, el procedimiento es el mismo para los ocho algoritmos disponibles, sin embargo, en los pasos siguientes el proceso variará dependiendo del tipo de regresión elegida.

3.1.4 Entrenamiento

Primeramente, se conecta el módulo “Split Data” al puerto derecho de “Train Model”

y luego, se conecta el módulo del algoritmo de regresión elegido al puerto izquierdo de

“Train Model”, que en este caso será el módulo de “Bayesian Linear Regression”. En el módulo de entrenamiento, se selecciona la variable que se busca predecir y se ejecuta el modelo.

Figura 8 Configuración y modelado hasta el entrenamiento de datos Configuración y modelado hasta el entrenamiento de datos

Para el entrenamiento de los otros siete modelos se usa la misma estructura anterior, con la diferencia de que el módulo de regresión cambia para cada caso.