4. Procesamiento inteligente de datos socio-demográficos
4.8. Representación espacial
4.8.1. Cálculo de Mortalidad Infantil
Una vez imputados los datos ausentes de la variable graesc realizamos los cálculos para la mortalidad infantil.
La Tabla 4.17 muestra la tasa de mortalidad infantil por rango de edades, con el método indirecto para el cálculo de la mortalidad infantil2 propuesto por Brass cuya ecuación de estimación es:
q(x) = k(i) ∗ D(i) (4.1)
2
Figura 4.25: Mapa temático cluster 01 Tabla 4.17: Mortalidad Infantil por rango de edades
Rango edad Tot. mujeres THNV THVA D(i) P(i) q(x) 15-19 2,355 2,755 2,711 0.016 1.1699 0.0065 20-24 8,268 12,398 12,083 0.025 1.4995 0.0163 25-29 10,955 22,478 12,123 0.029 2.0518 0.0268 30-34 10,835 27,628 32,657 0.027 2.5498 0.0281 35-39 10,179 31,059 4,338 0.032 3.0512 0.0350 40-44 8,964 30,458 5,331 0.037 3.3978 0.0403 45-50 9,106 34,329 4,338 0.045 3.7699 0.0489 donde,
q(x) es la probabilidad de morir entre el nacimiento y la edad exacta x.
k(i) es valor que refleja cuanto influyen factores independientes de la
mortalidad sobre D(i).
K(i) = a(i) + b(i) ∗ P 1 P 2+ c(i)
P 2
P 3 (4.2)
Con P1, P2 y P3 la tasa de maternidad media del rango de mujeres más fértil: 15-19, 20-24, 25-29. En los trabajos [111] y [24] realizados
por Trusell y Coele se estiman los multiplicadores a(i), b(i) y c(i), para el modelo de Brass.
D(i) es la proporción de hijos fallecidos y todos los nacidos vivos en
cada rango de edad.
D(i) = 1 −T otal_hijos_vivos_actualmente(T HV A)
T otal_hijos_nacidos_vivos(T HN V ) (4.3) P (i) tasa de maternidad media que se calcula:
P (i) = T otal_hijos_nacidos_vivos T otal_mujeres_rango_edadi
(4.4) Si a esto añadimos los datos de grado escolar podemos analizar la mor- talidad infantil con brechas educativas.
Tabla 4.18: Datos según rango edad y nivel educación
Rango de edad Nivel Educación 15-19 20-24 25-29 30-34 35-39 40-44 45-49 Total 2,355 8,268 10,955 10,835 10,179 89,64 9,106 q(x) 0.0065 0.0163 0.0268 0.0281 0.0350 0.0403 0.0489 Ninguno 17 42 73 109 125 116 197 Primaria 947 3,319 4,603 4,562 4,428 3,947 4,450 Secundaria 1,389 3,459 3,883 3,612 3,252 2,755 2,556 Superior 2 1,408 2,222 2,345 2,148 1,887 1,693 Posgrado 0 40 174 207 226 259 210
La Tabla 4.18 muestra los datos de mortalidad con rango de edades y el nivel de educación. Si analizamos el primer grupo mujeres en el rango de edad de 15 a 19 años, presenta una tasa baja de mortalidad y el nivel de educación en mayor porcentaje corresponde a mujeres con educación secundaria (58.98 %), mientras que el mayor valor para la tasa de mortali- dad está presente en el rango 45 a 50 y el nivel de educación en términos de mayor porcentaje corresponde a mujeres con educación básica (48 %).
4.9.
Conclusiones
Se han comparado métodos auto-organizativos no supervisados como SOM y GNG para organizar los datos en clusters, encontrando que SOM- jerárquico obtiene mejores resultados.
La generación de clusters mediante SOM-Cluster Jerárquico beneficia el proceso de imputación de datos, la precisión de los algoritmos utilizados aumenta en relación a los clusters generados de forma manual mediante el cantón de residencia como se puede ver en la Tabla 4.15, en donde las dos últimas columnas muestran la precisión global en los dos casos mencionados.
La precisión de los algoritmos de aprendizaje automático y de las téc- nicas estadísticas mejoran en relación a si se aplican las técnicas al dataset completo o sobre los clusters generados de forma manual.
Obtener mejores resultados en la imputación genera menor error al realizar el análisis de la tasa de mortalidad con brechas educativas.
Conclusiones
En este capítulo se presentan las principales conclusiones extraídas del trabajo realizado. Este capítulo está organizado de la siguiente forma: la sección 5.1 presenta las conclusiones finales obtenidas del presente trabajo, la sección 5.2 lista las principales contribuciones realizadas en el tema de investigación, la sección 5.3 lista las pu- blicaciones realizadas durante el presente trabajo y, finalmente, la sección 5.4 presenta posibles opciones de trabajos futuros.
5.1.
Conclusiones
En este trabajo se presenta una metodología orientada al procesamien- to de datos provenientes de censos o encuestas a través de algoritmos de aprendizaje automático. La propuesta se basa en el análisis previo de las características de los grandes volúmenes de datos, técnicas estadísticas y algoritmos de aprendizaje automático, ausencia de datos, alta dimensiona- lidad y tipos de datos.
En las pruebas preliminares fue necesario introducir cambios en los modelos habituales de procesamiento de datos debido a que la variable a clasificar es de naturaleza categórica y el umbral que separa cada categoría no es sencillo de determinar a partir del resto de variables.
En el primer paso de la metodología se obtiene un conjunto de datos completo que permite probar la eficiencia de los algoritmos, para cumplir con este propósito se utiliza Pairwise Deletion y Listwise Deletion con la
finalidad de eliminar todas las observaciones que presentan al menos un valor ausente o fuera de rango.
Como siguiente paso en la metodología, se realizaron pruebas con dis- tintos algoritmos. Mediante técnicas de aprendizaje automático no super- visado y redes neuronales artificiales se planteó la creación de grupos (clus- ters) que comparten características similares. A cada grupo se le aplicaron las distintas técnicas de clasificación: estadísticas y de aprendizaje auto- mático.
La generación de grupos (clusters) de forma manual utilizando varia- bles que delimitan las áreas de estudios (DPA) mejora el rendimiento de las técnicas de imputación tradicional (técnicas estadísticas, ver sección 3.4.2.1) en comparación con la imputación del conjunto de datos completo (ver tablas 3.6 y 3.8).
Debido a que una agrupación manual de datos permite mejorar la pre- cisión de la clasificación de datos en el problema planteado se propuso la generación de grupos de información de forma automática y aplicar los métodos de imputación sobre cada uno de estos grupos.
Con la generación de grupos de forma automática se verificó un au- mento en la precisión utilizando técnicas estadísticas y un aumento en la precisión de algunos métodos de aprendizaje automático supervisado (ver Tabla 4.11).
La metodología propuesta para la imputación de datos incorpora una etapa previa:
Generación del dataset de entrenamiento de los métodos de clasifi- cación.
Generación de grupos de información para procesarlos de forma in- dependiente.
El procesamiento de grandes volúmenes de datos suele tener altos cos- tes computacionales y tiempos elevados de procesamiento, el generar clus- ters y realizar la imputación sobre cada cluster de forma independiente contribuye también a reducir el tiempo de procesamiento y bajar el coste computacional.
Finalmente, se presentaron los resultados individuales de aplicar la me- todología sobre el dataset obtenido en la etapa de procesamiento utilizando la generación de grupos de forma jerárquico (cluster jerárquico) sobre los vectores representativos (codebooks) obtenidos luego de aplicar el méto- do SOM sobre el conjunto de datos. Estos resultados se muestran en el anexo B.
5.2.
Contribuciones
Las principales contribuciones realizadas durante el desarrollo del es- te trabajo están relacionadas con la imputación de datos provenientes de censos y encuestas:
1. Revisión exhaustiva del estado de arte de las características de los grandes volúmenes de datos y técnicas de aprendizaje automático orientadas al procesamiento de datos.
2. Desarrollo de una metodología para el pre–procesamiento de infor- mación demográfica a través de técnicas para el manejo de datos perdidos.
Definición de pasos básicos en la etapa de pre-procesamiento que permitan obtener un dataset de calidad para ser procesa- do y garantice resultados aceptables al ejecutar algoritmos de clasificación, selección de variables o clusterización.
Implementación de combinaciones de técnicas para mejorar el proceso de selección de variables y generación de clusters. 3. Desarrollo de una metodología basada en aprendizaje automático
para la imputación de valores perdidos o ausentes.
Aplicación de técnicas de aprendizaje automático no supervisa- do (agrupamiento de datos o clustering) sobre información de- mográfica para agrupar información relacionada previo al paso de imputación de datos.
Aplicación de técnicas de redes neuronales artificiales (ANN) para la generación de grupos sobre información demográfica. Aplicación de técnicas de aprendizaje automático supervisado (clasificación de datos) basada en la generación previa de clus- ters para la imputación de datos perdidos.
5.3.
Publicaciones
Como resultado de la investigación realizada, se publicaron los siguien- tes artículos:
Artículos publicados en revistas científicas:
• Jaime Salvador-Meneses, Zoila Ruiz-Chavez, and Jose Garcia- Rodriguez. Compressed kNN: K-Nearest Neighbors with
Data Compression. Entropy, 2019. Impact Factor (JCR 2017):
2.305, 5-Year Impact Factor (JCR 5-Year 2017): 2.303.
• Jaime Salvador, Zoila Ruiz, and Jose Garcia-Rodriguez. A re-
view of infrastructures to process big multimedia data.
International Journal of Computer Vision and Image Processing (IJCVIP), 7(3):54–64, 2017.
Artículos publicados en conferencias internacionales:
• Zoila Ruiz-Chavez, Jaime Salvador-Meneses, Cristina Mejía- Astudillo and Soledad Díaz-Quilachamín. Analysis of dogs’s
abandonment problem using georeferenced multi-agent systems. MACHINE LEARNING METHODS APPLIED TO
BIG DATA ANALYSIS, PROCESSING AND VISUALIZATION (MLBDAPV). IWINAC 2019. Lecture Notes in Computer Scien- ce, vol 11487. Springer.
• Jaime Salvador-Meneses, Zoila Ruiz-Chavez, and Jose Garcia- Rodriguez. Categorical big data processing. In Hujun Yin,
David Camacho, Paulo Novais, and Antonio J. Tallón-Ballesteros, editors, Intelligent Data Engineering and Automated Learning – IDEAL 2018, pages 245–252, Cham, November 2018. Springer International Publishing.
• Zoila Ruiz-Chavez, Jaime Salvador-Meneses, Jose Garcia-Rodriguez, and Antonio J. Tallón- Ballesteros. Data pre-processing to
apply multiple imputation techniques: A case study on real-world census data. In Hujun Yin, David Camacho, Pau-
lo Novais, and Antonio J. Tallón-Ballesteros, editors, Intelligent Data Engineering and Automated Learning – IDEAL 2018, pa- ges 288–295, Cham, 2018. Springer International Publishing. • Zoila Ruiz-Chavez, Jaime Salvador-Meneses, and Jose Garcia-
Rodriguez. Machine learning methods based preproces-
sing to improve categorical data classification. In Hu-
jun Yin, David Camacho, Paulo Novais, and Antonio J. Tallón- Ballesteros, editors, Intelligent Data Engineering and Automa- ted Learning – IDEAL 2018, pages 297–304, Cham, 2018. Sprin- ger International Publishing.
• Z. Ruiz-Chavez, J. Salvador-Meneses, S. Díaz-Quilachamín and C. Mejía-Astudillo. Solid Waste Management using Geo-
referenced Multi-agent Systems, pages 1-6. IEEE Latin
American Conference on Computational Intelligence (LA-CCI), Gudalajara, Mexico, 2018.
• Z. Ruiz-Chavez, J. Salvador-Meneses, S. Díaz-Quilachamín and C. Mejía-Astudillo. Solid Waste Management using Geo-
referenced Multi-agent Systems*, pages 1-6. IEEE Third
Ecuador Technical Chapters Meeting (ETCM), Cuenca, 2018. • Jaime Salvador-Meneses, Zoila Ruiz-Chavez, and Jose Garcia-
Rodriguez. Low level big data compression. In Proceedings of the 10th International Joint Conference on Knowledge Dis- covery, Knowledge Engineering and Knowledge Management - Volume 1: KDIR„ pages 353–358. INSTICC, SciTePress, 2018. • Jaime Salvador-Meneses, Zoila Ruiz-Chavez, and Jose Garcia-
Rodriguez. Low level big data processing. In Proceedings of the 10th International Joint Conference on Knowledge Dis- covery, Knowledge Engineering and Knowledge Management - Volume 1: KDIR„ pages 347–352. INSTICC, SciTePress, 2018. • Zoila Ruiz, Jaime Salvador, and Jose Garcia-Rodriguez. A Sur-
vey of Machine Learning Methods for Big Data, pages
259–267. In: Ferrández Vicente J., Álvarez-Sánchez J., de la Paz López F., Toledo Moreo J., Adeli H. (eds) Biomedical Appli- cations Based on Natural and Artificial Computing. IWINAC 2017. Lecture Notes in Computer Science, vol 10338. Springer, Cham.
• Jaime Salvador, Zoila Ruiz, and Jose Garcia-Rodriguez. Big
Data Infrastructure: A Survey, pages 249–258. In: Ferrán-
dez Vicente J., Álvarez-Sánchez J., de la Paz López F., Toledo Moreo J., Adeli H. (eds) Biomedical Applications Based on Na- tural and Artificial Computing. IWINAC 2017. Lecture Notes in Computer Science, vol 10338. Springer, Cham.
5.4.
Trabajo futuro
En relación a la implementación de la metodología propuesta, como trabajo futuros se propone:
1. Extender las pruebas a otros tipos de encuestas tales como Violencia de Género con el fin de encontrar relaciones con posibles causas que desencadenen en violencia y generen alertas.
2. Generalizar la generación de cluster utilizando SOM y variando las topologías y tamaños de malla con la finalidad de obtener grupos más homogéneos.
3. Extender el análisis de mortalidad infantil al conjunto de datos com- pleto (encuesta completa del país).
4. Implementar la clasificación y generación de grupos mediante mé- tricas de distancia más apropiadas para la información considerada (información categórica).
5. Implementar el procesamiento de clusters utilizando programación paralela multicore o con aceleración GPU con la finalidad de procesar el dataset completo.
6. Incrementar combinaciones de algoritmos en cada etapa, incluidas las variaciones con técnicas estadísticas.
7. Fusionar los datos de encuestas con datos provenientes de redes so- ciales.
Detalle clusters creados
manualmente
En este anexo se presenta el detalle de los clusters presentados en la sección 3.6.3.
La Tabla A.1 corresponde a la tabla presentada en la sección 3.6.3.2.
Tabla A.1: Detalle clusters generados manualmente
No. cluster Tot. elementos Mediana Moda To. NA 1 30,351 13 8 6,049 2 6,882 9 8 1,355 3 4,978 8 8 1,031 4 14,354 8 8 2,873 5 1,967 8 8 401 6 2,130 8 8 423
1 ds$median1<-with(ds, impute(ds$graescna, median1) ) 2 ds$moda1<-with(ds, impute(ds$graescna, moda1) ) 3
4 dataset2<-hotdeck(ds, variable="graescna") 5 ds$hotdeck1<-dataset2$graescna
6 dataset2<-NULL
A.1.
Cluster 1
La Figura A.1 presenta la distribución por categoría de la variable graesc para el primer cluster.
Figura A.1: Cluster 1 - Detalle variable graesc
La Tabla A.2 muestra los resultados de aplicar la imputación al primer cluster utilizando los métodos descritos en la sección 3.4.2.1.
Tabla A.2: Cluster 1 - Imputación
Método Imputados válidos Imputados con error Precisión ( %) Mediana 214 5,835 3.54 Moda 1,353 4,696 22.37 Hot-deck 670 5,379 11.08