Minería de datos aplicada a los cambios en la estructura de la variable desempleo: caso estudio: el estado Mérida

Texto completo

(1)

(2) Proyecto de Grado. Presentado ante la ilustre Universidad de Los Andes como requisito parcial para obtener el Tı́tulo de Ingeniero de Sistemas. Minerı́a de Datos aplicada a los cambios en la estructura de la variable desempleo. Caso de estudio: El estado Mérida Por. Br. Amaru-yawa Reyes R Tutor: Prof. Gerardo Colmenares Cotutor: Prof. Josefa Ramoni. Junio 2008 c 2008 Universidad de Los Andes Mérida, Venezuela.

(3) Minerı́a de Datos aplicada a los cambios en la estructura de la variable desempleo. Caso de estudio: El estado Mérida Br. Amaru-yawa Reyes R Proyecto de Grado — Investigación de Operaciones, 105 páginas Resumen: El estudio realizado estuvo dirigido, a conocer los cambios en la estructura de la variable del desempleo y en consecuencia cambios en la estructura de la fuerza laboral, usando métodos y técnicas de Minerı́a de Datos aplicados a las Encuestas de Hogares por Muestreo (EHM) (1995-2005), realizado por el Instituto Nacional de Estadı́sticas (INE). La importancia de este estudio radica en el aprovechamiento de la variedad de métodos y técnicas disponibles en la Minerı́a de Datos para indagar en la aparente tendencia que ha venido mostrando la variable desempleo a través del tiempo. La técnica multivariante, análisis de correspondencia múltiple (ACM), no sólo permitió definir las cuatro categorı́as referentes a la actividad dentro del mercado laboral, sino que dio a conocer que sı́ existe un cambio en la estructura de la variable del desempleo y por ende un cambio en la estructura de la fuerza laboral para el periodo 1999-2005. Estas categorı́as fueron usadas para realizar la clasificación de las instancias por medio de árboles de clasificación, mediante el algoritmo C4.5 (versión mejorada de ID3). El estudio permitió afirmar que usando árboles de decisión, no solo realizó una excelente clasificación, sino que dio a conocer las aparentes inconsistencias encontradas en los datos de las EHM para el periodo antes mencionado. En consecuencia, el ACM resultó ser un buen preprocesador para lograr adquirir conocimiento de los cambios en la estructura en el tiempo mediante el análisis exhaustivo a las observaciones usando C4.5. Del mismo modo, se demostró, la fuerte equivalencia entre la variable proporcionada por ACM y la variable observada en EHM, garantizando, ası́, una buena confiabilidad del método seguido en esta investigación. Palabras clave: Encuesta, Hogares por Muestreo, Fuerza de Trabajo, Desempleo, Minerı́a de Datos, Inteligencia Artificial..

(4) Índice Índice de Tablas. vi. Índice de Figuras. viii. 1 Introducción. 1. 1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.3. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.4. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 1.4.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 1.4.2. Objetivos especı́ficos . . . . . . . . . . . . . . . . . . . . . . . .. 6. 1.5. Justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 1.6. Limitaciones de la investigación . . . . . . . . . . . . . . . . . . . . . .. 8. 1.7. Organización del documento . . . . . . . . . . . . . . . . . . . . . . . .. 8. 2 Fuerza de trabajo y encuestas de hogares por muestreo. 10. 2.1. Fuerza de trabajo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 10. 2.2. Principales definiciones relativas a la fuerza de trabajo . . . . . . . . .. 11. 2.3. Encuesta de hogares por muestreo . . . . . . . . . . . . . . . . . . . . .. 13. 2.4. Organismo ejecutor de la EHM . . . . . . . . . . . . . . . . . . . . . .. 14. 2.5. Finalidad de la encuesta . . . . . . . . . . . . . . . . . . . . . . . . . .. 14. 2.6. Periodos de referencia . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 14. 2.7. Criterios de selección de la muestra . . . . . . . . . . . . . . . . . . . .. 15. 2.8. Variables investigadas . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. iii.

(5) 3 Minerı́a de datos. 20. 3.1. Minerı́a de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. 3.2. Etapas principales aplicadas a la minerı́a de datos . . . . . . . . . . . .. 22. 3.2.1. Determinación de los objetivos . . . . . . . . . . . . . . . . . . .. 22. 3.2.2. Preprocesamiento de los datos . . . . . . . . . . . . . . . . . . .. 22. 3.2.3. Selección de las variables . . . . . . . . . . . . . . . . . . . . .. 22. 3.2.4. Determinación del modelo . . . . . . . . . . . . . . . . . . . . .. 23. 3.2.5. Análisis de los resultados . . . . . . . . . . . . . . . . . . . . . .. 23. 3.3. Minerı́a de datos: Análisis estadı́stico multivariante y análisis exploratorio de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1. Variables con Valores Atı́picos (Diagrama de cajas y bigotes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 24. Análisis de correspondencia múltiple . . . . . . . . . . . . . . .. 25. Minerı́a de datos e inteligencia artificial . . . . . . . . . . . . . . . . . .. 26. 3.4.1. ¿Qué es la IA? . . . . . . . . . . . . . . . . . . . . . . . . . . .. 26. 3.4.2. Algoritmo de búsqueda mediante un modelo de arboles de clasi-. 3.3.2 3.4. 24. ficación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Minerı́a de datos y análisis estadı́stico multivariante.. 27 36. 4.1. Fusión de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 36. 4.2. Reducción del número de variables . . . . . . . . . . . . . . . . . . . .. 38. 4.2.1. Variables demográficas . . . . . . . . . . . . . . . . . . . . . . .. 39. 4.2.2. Variables Fuerza Laboral (perı́odo 1995-1998) . . . . . . . . . .. 39. 4.2.3. Variables Fuerza Laboral (periodo 1999-2005) . . . . . . . . . .. 41. 4.3. Variables con valores atı́picos . . . . . . . . . . . . . . . . . . . . . . .. 43. 4.4. Variables originales, variables transformadas y variables de salida. . . .. 44. 4.4.1. Variables Originales . . . . . . . . . . . . . . . . . . . . . . . .. 44. 4.4.2. Variables transformadas . . . . . . . . . . . . . . . . . . . . . .. 44. 4.4.3. Variables de salida . . . . . . . . . . . . . . . . . . . . . . . . .. 47. 5 Minerı́a de datos e inteligencia artificial: algoritmo de búsqueda mediante el modelo de árbol de decisión C4.5. 48.

(6) 5.1. Inteligencia artificial . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 48. 5.1.1. Modelo del árbol de decisión C4.5 . . . . . . . . . . . . . . . . .. 49. 5.1.2. Parámetros requeridos por el modelo J48 . . . . . . . . . . . . .. 49. 5.1.3. Modos de evaluación del clasificador C4.5 . . . . . . . . . . . . .. 49. 5.1.4. Preparación de los datos . . . . . . . . . . . . . . . . . . . . . .. 50. 6 Resultados y análisis realizados 6.1. 6.2. Minerı́a de datos y análisis estadı́stico multivariante . . . . . . . . . . .. 54. 6.1.1. Variable de salida (periodo 95-98) . . . . . . . . . . . . . . . . .. 55. 6.1.2. Variable de salida (periodo 99-05) . . . . . . . . . . . . . . . . .. 62. Minerı́a de datos e IA . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 68. 6.2.1. Modos de evaluación del clasificador J48 para el bloque de registros 95-98 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.2.2 6.3. 54. 69. Modo de evaluación del clasificador J48 para el bloque de registros 99-05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 81. Minerı́a de datos y Tablas de contingencia . . . . . . . . . . . . . . . .. 91. 6.3.1. Variable de salida 95-98 y variable PP22 . . . . . . . . . . . . .. 91. 6.3.2. Variable de salida 99-05 y variable pp29 . . . . . . . . . . . . .. 93. 6.3.3. Variable de salida 94-98 y variable CODSUM . . . . . . . . . .. 96. 6.3.4. Variable de salida 99-05 y variable CODSUM . . . . . . . . . .. 97. 7 Conclusiones y recomendaciones. 99. 7.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 99. 7.2. Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100. Bibliografı́a. 102. A Diccionario de variables. Fuente EHM. 105.

(7) Índice de Tablas 1.1. Indicador de la tasa de desocupación en Venezuela desde 1999-2007 . .. 4.1. Variables originales correspondientes a los años 95-05, que serán usadas para el estudio. Fuente INE . . . . . . . . . . . . . . . . . . . . . . . .. 4.2. 46. Variable (nivel educativo) a la cual se le redujo el número de categorı́as. Fuente: Estimaciones propias . . . . . . . . . . . . . . . . . . . . . . .. 4.6. 45. Variables continúas trasformadas a variables categóricas. Fuente: Estimaciones propias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.5. 45. Variables transformadas correspondientes a los años 1995 a 2005, que serán usadas para el estudio. Fuente: Estimaciones propias . . . . . . .. 4.4. 42. Variables originales correspondientes a los años 1995 a 2005 sin modificaciones. Fuente INE . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.3. 3. 46. Variable (tiempo de residencia) a la cual se le redujo el número de categorı́as Fuente: Estimaciones propias . . . . . . . . . . . . . . . . . . .. 46. 5.1. Variables de entrada con su respectivo número de categorı́as . . . . . .. 50. 5.2. Sub-muestra de los datos en formato .arff. . . . . . . . . . . . . . . . .. 52. 6.1. Muestra las categorı́as de cada variable colocadas de manera ascendente. 59. 6.2. Muestra las categorı́as formada por el conglomerado n◦ 1 . . . . . . . .. 59. 6.3 6.4. ◦. 60. ◦. 60. ◦. Muestra las categorı́as formada por el conglomerado n 2 . . . . . . . . Muestra las categorı́as formada por el conglomerado n 3 . . . . . . . .. 6.5. Muestra las categorı́as formada por el conglomerado n 4 . . . . . . . .. 61. 6.6. Muestra las categorı́as formada por el conglomerado n◦ 5 . . . . . . . .. 61. 6.7. Descripción de la variable de salida . . . . . . . . . . . . . . . . . . . .. 62. vi.

(8) 6.8. Muestra las categorı́as de cada variable colocadas de manera ascendente. 65. 6.9. Muestra la categorı́a formada por el conglomerado n◦ 1 . . . . . . . . .. 65. 6.10 Muestra la categorı́a formada por el conglomerado n◦ 2 . . . . . . . . .. 66. 6.11 Muestra la categorı́a formada por el conglomerado n◦ 3 . . . . . . . . .. 66. 6.12 Muestra la categorı́a formada por el conglomerado n◦ 4 . . . . . . . . .. 67. 6.13 Muestra la categorı́a formada por el conglomerado n◦ 5 . . . . . . . . .. 67. 6.14 Variable de salida 99-05 . . . . . . . . . . . . . . . . . . . . . . . . . .. 68. 6.15 Muestra los modelos de evaluación usados con sus respectivos errores.. 70. 6.16 Muestra una de las ramas del árbol generado para el bloque de datos 95-98 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 76. 6.17 Muestra una de las ramas del árbol generado para el bloque de datos 95-98 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 76. 6.18 Muestra una de las ramas del árbol generado para el bloque de datos 95-98 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 80. 6.19 Reglas generadas por el sub-árbol formado por la rama izquierda de la variable pp36 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 83. 6.20 Reglas generadas por el subárbol formado por la rama derecha de la variable pp36 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 84. 6.21 Reglas generadas por el subárbol formado por la rama derecha de la variable pp39 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 85. 6.22 Reglas generadas por el subárbol formado por la raı́z pp29 hasta el nodo pp39 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 89. 6.23 Reglas generadas por el subárbol formado por el nodo pp29 . . . . . . .. 90. 6.24 Reglas generadas por el subárbol formado por el nodo pp39 . . . . . . .. 90. 6.25 Tabla de contingencia: variable de salida (95-98) y pp22 . . . . . . . .. 92. 6.26 Tabla de contingencia: variable de salida (95-05) y pp29 . . . . . . . .. 94. 6.27 Tabla de contingencia: variable de salida (95-98) y CODSUM . . . . .. 97. 6.28 Tabla de contingencia: variable de salida (99-05) y CODSUM . . . . .. 98.

(9) Índice de Figuras 1.1. Esquema que muestra la PEA y la PEI . . . . . . . . . . . . . . . . . .. 2. 3.1. Jerarquı́a del conocimiento . . . . . . . . . . . . . . . . . . . . . . . . .. 21. 3.2. Etapas de la minerı́a de datos . . . . . . . . . . . . . . . . . . . . . . .. 23. 3.3. Ejemplo de un árbol de clasificación . . . . . . . . . . . . . . . . . . . .. 29. 4.1. Agrupación y extracción de la información por estado para cada registro 38. 4.2. Diagrama de caja y bigotes de la variable edad (pp12). Fuente Estimaciones propias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 44. 6.1. Resultados del ACM, para el periodo 95-98. Fuente: Estimaciones propias 55. 6.2. Resultados del ACM, para el periodo 95-98, luego de eliminar las variables. Fuente: Estimaciones propias. . . . . . . . . . . . . . . . . . . .. 6.3. Resultados del ACM, para las variables demográficas en el periodo 95-98. Fuente: Estimaciones propias.. 6.4. 58. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 63. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 64. muestra el árbol generado por el algoritmo J48 para el bloque de datos 95-98. 6.8. . . . . . . . . . . . . . . . . . . . . . . . . . . .. Resultados del ACM, para las variables fuerza laboral 95-98. Fuente: Estimaciones propias.. 6.7. 57. Resultados del ACM, para las variables fuerza laboral 95-98. Fuente: Estimaciones propias.. 6.6. . . . . . . . . . . . . . . . . . . . . . .. Resultados del ACM, para las variables fuerza laboral 95-98. Fuente: Estimaciones propias.. 6.5. 56. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 72. Muestra el número de registros en cada variable . . . . . . . . . . . . .. 73. viii.

(10) 6.9. muestra el árbol podado generado por el algoritmo J48 para el bloque de datos 95-98 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 75. 6.10 muestra el árbol podado generado por el algoritmo J48 para el bloque de datos 95-98, con valores ausentes . . . . . . . . . . . . . . . . . . . .. 79. 6.11 muestra el árbol generado por el algoritmo J48 para el bloque de datos 99-05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 82. 6.12 Muestra el número de registros en cada variable . . . . . . . . . . . . .. 86. 6.13 muestra el árbol generado por el algoritmo J48 para el bloque de datos 99-05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 88. 6.14 Muestra el número de registros que contiene cadacategorı́a . . . . . . .. 93. 6.15 Muestra el número de registros que contiene cada categorı́a . . . . . . .. 95.

(11) Capı́tulo 1 Introducción 1.1. Introducción. Según Giordani (2004), la fuerza de trabajo representa uno de los componentes fundamentales de la generación de riqueza junto a otros como el capital, la tecnologı́a, y los recursos naturales. Visto como un factor de producción, resulta un elemento indispensable para lograr el producto social que se intenta construir. De la población en edad para trabajar se diferencian dos grupos: primero, la fuerza de trabajo que en términos de medición estadı́stica equivale al concepto de Población Económicamente Activa (PEA), está definida por aquellas personas mayores de una edad determinada (15 años), que se encuentran disponibles para la producción. Además, se incluyen aquellos que tengan un empleo, ası́ como aquellas personas que sin tenerlo lo buscan o tienen expectativas de obtenerlo; segundo Población Económicamente Inactiva (PEI), comprende a todas las personas que se encuentran fuera de la fuerza de trabajo y se hallan en las siguientes categorı́as: Estudiantes, oficios del hogar, rentistas, jubilados y pensionados. En el paı́s continuamente se están suscitando procesos de cambios dentro del mercado laboral, las personas que pertenecen a PEA pueden pasar a formar parte de PEI, es decir, pueden dejar de trabajar o de buscar trabajo para asistir a un centro de enseñanza, realizar oficios del hogar, etc. Igualmente las personas que son laboralmente inactivas pueden pasar a formar parte de PEA; es decir, pueden comenzar a.

(12) 1.1 Introducción. 2. trabajar o buscar un empleo. La figura 1.1 muestra la estructura actual de la fuerza de trabajo o PEA y la estructura de PEI. Figura 1.1: Esquema que muestra la PEA y la PEI. Si se da continuidad a la estructura de la dinámica laboral, dentro de la fuerza de trabajo se encontrarán los ocupados y desocupados, los ocupados son todas aquellas personas que tienen un trabajo por el cual están recibiendo algún tipo de remuneración; y los desocupados, son las personas que no tienen trabajo pero que desean tenerlo y recientemente han hecho un esfuerzo para conseguirlo. Una de las formas de estudiar los cambios de la estructura en la fuerza laboral, es conociendo los cambios en la estructura del desempleo y esta se mide a través de la tasa de desocupación. Es por ello que el presente estudio se basa en conocer si existen cambios en la variable desempleo, lo que equivalen a cambios en la estructura de la fuerza laboral..

(13) 1.1 Introducción. 3. Según Elı́as (2007), al hacer referencia al Informe Mensual Situación de la Fuerza de Trabajo en Venezuela, señala que la tasa de desocupación del 2007 (8.0%) es la más baja que se registra desde 1999, cuando comenzó la difusión del indicador con periodicidad mensual, como lo muestra la serie histórica que sigue: Año 1999 2000 2001 2002 2003 2004 2005 2006 2007 %. 14.6. 14.7. 14.5. 15.9. 19.1. 16.3. 12.1. 10.2. 8.0. Tabla 1.1: Indicador de la tasa de desocupación en Venezuela desde 1999-2007 La distribución de la población económicamente activa, especı́ficamente la tasa de desocupación que registra el Instituto Nacional de Estadı́stica (INE) para 1999, ha sufrido variaciones en contraste con los valores que se tienen para el año del 2007, tal como se muestra en la tabla 1.1, sin poder conocer con exactitud cuál es el margen de variación dado que las estadı́sticas mensuales del INE no las muestran. Es por ello que surge la inquietud de realizar este estudio para analizar si existen cambios en la estructura de la variable desempleo a través del tiempo y por ende cambios en la estructura de la fuerza de trabajo (figura 1.1, estructura actual). Para ello se emplean las Encuestas de Hogares por Muestreo (EHM) del perı́odo comprendido entre el primer semestre del año 1995 y el segundo semestre del año 2005, un periodo de 10 años, especı́ficamente los registros del estado Mérida, que es el caso bajo estudio. En las últimas décadas se han utilizado muchos métodos estadı́sticos y computacionales para observar e inferir el comportamiento de los datos que afectan la fuerza laboral. Es por ello que se utilizara para la realización de este estudio el descubrimiento de conocimiento en base de datos, como concepto de minerı́a o exploración heurı́stica a grandes volúmenes históricos de datos con la combinación de técnicas tradicionales en la estadı́stica con aquellas desarrolladas en el área de la inteligencia artificial. En esta investigación, se exploran herramientas tales como Análisis de Correspondencia Múltiple (ACM) y algoritmos de búsqueda especı́ficamente árboles de clasificación (AC), como una de las técnicas alternativas y populares para el reconocimiento de caracterı́sticas o patrones que indican cuáles son las variables que identifican la fuerza de trabajo y cuál es el comportamiento que ellas siguen. En estos experimentos, según Wang (2004),la Minerı́a de Datos (MD) es la que ha tenido mayor aceptación.

(14) 1.2 Antecedentes. 4. debido al amplio rango de aplicaciones que esta técnica posee.. 1.2. Antecedentes. Antes de comenzar el estudio referente a los cambios en la estructura de la variable desempleo, es importante realizar una revisión bibliográfica para conocer algunas investigaciones que se hayan realizado relacionadas con la fuerza laboral. Es importante destacar que cada una de las referencias revisadas tiene su aplicación muy especı́fica pero todas, tal como se propone este trabajo, tendientes a buscar respuestas en el área laboral en alguno de los fenómenos que la explican parcial o totalmente. Freije (2004), realizó un trabajo utilizando paneles rotatorios de datos derivados de las Encuestas de Hogares por Muestreo para identificar por medios estadı́sticos y econométricos, el impacto de cambios en el salario mı́nimo sobre la probabilidad de cambios en el empleo de trabajadores urbanos del sector privado en Venezuela. En general, según el autor, se logra identificar un efecto positivo en la probabilidad de pasar a situación de desempleo o inactividad, para los trabajadores con ingresos por debajo del salario mı́nimo inicial o entre el salario mı́nimo inicial y el nuevo salario mı́nimo producido por la polı́tica de aumento. Además, se obtiene resultados que permiten aseverar que la probabilidad de desempleo, tiempo parcial o cambio de sector, es mayor entre los trabajadores del sector formal, mientras que la probabilidad de inactividad es mayor entre los del sector informal. Sin embargo, no se identifica un efecto adicional sobre tales trabajadores como consecuencia de cambios en el salario mı́nimo. Se logra observar un aumento en la probabilidad de desempleo para trabajadores sujetos a cambios de salarios mı́nimo, pero dicho efecto es pequeño y estadı́sticamente no significativo. También se observa una disminución en la probabilidad de cambio de sector, esta vez significativo. En otras palabras, hay evidencia de que los trabajadores en el fondo de la distribución salarial tienen una mayor probabilidad de cambios en el empleo (en particular a pasar de inactivos a desempleados), pero no se logra identificar si dicha probabilidad es inherente a tales trabajadores o si, además, los cambios en salario mı́nimo incrementan dicha probabilidad. Los resultados, de acuerdo al autor,.

(15) 1.3 Planteamiento del problema. 5. son robustos a cambios en la definición de empleo formal e informal, ası́ como a modificaciones en la clasificación de la posición de ingreso inicial. El trabajo de Freije es de suma importancia para el presente estudio, ya que da a conocer los cambios producidos dentro del mercado laboral lo cual ofrece información para realizar comparaciones con los resultados obtenidos en este estudio. Por otro lado,Riutort (2004) realizó un trabajo titulado “Ingreso, Desigualdad y Reducción de la Pobreza en Venezuela“, con la finalidad de investigar las posibilidades de reducir la pobreza en Venezuela y, en especial la pobreza crı́tica. Las estimaciones que se realizaron a lo largo del estudio se hicieron utilizando la Encuesta de Hogares por Muestreo. Dado que el nivel de pobreza alcanzado depende del comportamiento del ingreso real per cápita y del nivel de desigualdad, en una primera parte del trabajo se establece como criterio la relación entre crecimiento real y pobreza y la relación entre desigualdad y pobreza. Adicionalmente, se establecen combinaciones entre crecimiento y reducción de la desigualdad que permitan reducir la pobreza crı́tica a la mitad en 15 años. Finalmente, se buscaron escenarios alternativos factibles dentro de la curva de isopobreza que cambiaran las estrategias de crecimiento y de reducción de la desigualdad seguidas dentro de los últimos 15 años. Teniendo en cuenta que los objetivos planteados en las estrategias de crecimiento se pueden lograr mediante múltiples combinaciones de otras variables, se procedió a la desagregación del ingreso per cápita en sus componentes. Esto permitió condicionar el logro de las metas de crecimiento y, por lo tanto, el logro de reducción de la pobreza. La importancia de este trabajo radicaba en lograr el objetivo planteado, la reducción de la pobreza, gracias a las múltiples combinaciones de variables y el comportamiento que se originó entre ellas, metodologı́a que sirvió de ayuda para la realización de este estudio.. 1.3. Planteamiento del problema. Tal como se muestra en la tabla 1.1 desde el año de 1999 hasta el año del 2007, la variable desempleo ha sufrido algunas variaciones cualitativas y cuantitativas, las cuales introducen problemas a la hora de comparar las estadı́sticas entre un periodo y otro; estos reportes son dados a conocer periódicamente por el INE, pero en ninguna.

(16) 1.4 Objetivos. 6. de estas cifras se da a conocer la información detallada de las causas que provoca esta variación, se conoce que dentro del mercado laboral se suscitan algunos cambios, es decir, que una persona ocupada puede pasar a formar parte de la población desocupada o su inverso; que las personas que pertenecen a la PEA pasan a formar parte de la PEI o de la PEI pasar a formar parte de la PEA, tal como se explicó anteriormente, sin embargo no se da a conocer a qué se deben estos cambios o las causas que lo originan, razón por la cual surge la inquietud de realizar esta investigación con el objeto de observar si existen cambios en la variable desempleo y por ende cambios en la estructura de la fuerza laboral tanto en su definición, como en los cambios en sus patrones de medición. Para lograr este objetivo se hace uso de Minerı́a de Datos, ya que abarca una variedad de métodos estadı́sticos y computacionales tales como técnicas de análisis multivariante y técnicas en Inteligencia Artificial (IA) que permiten investigar la existencia de relaciones y patrones de comportamiento en los datos. Para esto se emplean los datos registrados en las EHM, como referencia oficial disponible mediante el organismo ejecutor y ente rector del Sistema Estadı́stico Nacional (SEN); INE.. 1.4. Objetivos. Los objetivos generales y especı́ficos propuestos en la investigación se describen en los siguientes apartados:. 1.4.1. Objetivo general. Descubrir y analizar los cambios, si existen, en la estructura de la variable desempleo a partir de los datos generados por las Encuestas de Hogares por Muestreo (EHM), utilizando técnicas de Minerı́a de Datos.. 1.4.2. Objetivos especı́ficos. • Realizar una preparación previa de los registros de las EHM, mediante un preprocesamiento que permita la organización adecuada de las muestras disponibles en el tiempo de registro desde 1995 hasta 2005. Simultáneamente, estandarizar.

(17) 1.5 Justificación. 7. algunas variables para establecer escalas uniformes de medida y extraer el componente de variables que inciden en el fenómeno del desempleo: variables demográficas y variables de la fuerza laboral. • Aplicar técnicas de análisis multivariante para variables cualitativas como un mecanismo adicional de preprocesamiento de los datos. Los resultados obtenidos de esta reducción permiten el agrupamiento de las variables existentes en unas nuevas no registradas que definen la estructura de la fuerza laboral y ası́, realizar un reconocimiento exhaustivo de las variables, tanto originales como no observadas (no registradas). • Aplicar minerı́a de datos, empleando inteligencia artificial para ejecutar algoritmos de búsqueda a través de árboles de decisión que permitan conocer la razón de los cambios en la estructura de la variable desempleo detectada en el objetivo anterior. • Comparar los resultados obtenidos en la composición de la estructura de la variable desempleo con la observada a través de las EHM • Caracterizar el comportamiento de la tasa de desocupación entre los años 1999 y 2005.. 1.5. Justificación. Claramente se ve una aparente tendencia que ha venido mostrando la variable de desempleo a lo largo del tiempo, tal como se muestra en la tabla 1.1 y como lo señalo Freije (2004), sin embargo no se ha dado a conocer con exactitud a que se deben dichos cambios, es por ello que surge la inquietud de realizar esta investigación para ver si existen cambios en la definición de la variable desempleo y por ende cambios en la estructura de la fuerza de trabajo, ası́ como en los patrones de medición. Otro de los puntos que impulsó a la realización de esta investigación es dar a conocer la importancia de realizar en cualquier estudio una fase de preprocesamiento. Dentro de la minerı́a de datos, existen técnicas de análisis multivariantes que permiten.

(18) 1.6 Limitaciones de la investigación. 8. observar el comportamiento de las variables entre ellas, ası́ como el descubrimiento de conocimiento obtenido mediante la construcción de variables latentes; en esta fase también se realiza una inspección de los datos para detectar posibles incoherencias que pudieran llevar a conclusiones erróneas. Esta etapa es importante realizarla previa a la utilización formal de los datos. En las investigaciones consultadas relacionadas con la fuerza de trabajo se puede notar que ambas han sido conducidas bajo métodos estadı́sticos y econométricos, lo que resulta interesante utilizar técnicas de IA especı́ficamente arboles de decisión ya que no solo tiene una alta capacidad de clasificación, sino que lo hace por medio de unas reglas de decisión que se dan a conocer.. 1.6. Limitaciones de la investigación. Una de las limitantes en esta investigación es la manera como se encuentra estructurada las EHM. Fue necesario organizarlas de manera coherente para hacer más conveniente el estudio. Las EHM recaban información de manera semestral y en cada registro semestral se encuentran todos los estados, como el caso de estudio es el estado Mérida fue necesario ordenar y extraer sólo los registros pertenecientes a esta entidad y fusionar todos los registros para realizar el estudio más cómodo. Otra limitante es que en las EHM se utilizan un gran número de variables para recopilar la información y estas cambian su denominación a lo largo del tiempo, ası́ como también eliminan variables a partir de un periodo dado e introducen unas nuevas, debido a esto fue necesario realizar el estudio a dos bloques de registros distintos, desde el año 1995 hasta el año 1998, y desde el año 1999 hasta el 2005.. 1.7. Organización del documento. En este documento se presentan 7 capı́tulos incluyendo este capı́tulo introductorio. En el capı́tulo 2 se describe algunos términos relacionados con la fuerza laboral ası́ como también la estructura actual de las EHM: definición, sus objetivos, finalidad de la encuesta, variables investigadas y los periodos de referencias para realizar las encuestas..

(19) 1.7 Organización del documento. 9. El capitulo 3 contiene todos los fundamentos teóricos de la minerı́a de datos necesarios para la realización de este estudio. El capitulo 4 explica la parte experimental inicial de la minerı́a de datos, el preprocesamiento de los datos: la manera como se encuentra estructurada las EHM originalmente y como se organiza dicha encuesta, ası́ como también el análisis de técnicas estadı́sticas multivariantes y técnicas de análisis exploratorio de datos. El capitulo 5 presenta la parte experimental de IA dentro de la minerı́a de datos, especı́ficamente el uso de arboles de clasificación. El capitulo 6 contiene los análisis y resultados obtenidos mediante las técnicas de análisis multivariantes y las técnicas de IA. Por último, el capitulo 7 presenta las conclusiones que se destacan en el estudio y las recomendaciones que podrı́an ser tomadas en cuenta para la continuación de este proyecto o la realización de nuevos proyectos..

(20) Capı́tulo 2 Fuerza de trabajo y encuestas de hogares por muestreo 2.1. Fuerza de trabajo. Según Bartra (1973), la fuerza de trabajo constituye el elemento básico y activo de la producción. Es la capacidad del hombre para producir los bienes materiales e intelectuales que requiere. Este término fue acuñado por Karl Marx, en su obra el Manifiesto del Partido Comunista y desarrollado luego con mayor profundidad en El Capital. Hace referencia a la capacidad fı́sica y mental, inherente a todo ser humano de realizar un trabajo. Es importante distinguir entre “Fuerza de Trabajo” y “Trabajo”. El último es la materialización, la concreción del potencial representado por la primera. El trabajo es producto del gasto de fuerza de trabajo humano. El valor de la fuerza de trabajo es el necesario para su reproducción, o dicho de otra forma, es el contenido en los bienes que forman la canasta de consumo obrero que varı́a en su composición en distintas culturas y en distintos momentos de las historia..

(21) 2.2 Principales definiciones relativas a la fuerza de trabajo. 2.2. 11. Principales definiciones relativas a la fuerza de trabajo. A manera de establecer terminologı́a común en lo referente al sector laboral y además, de disponer de un glosario general se incluye a continuación algunas definiciones según INE (2007). Población económicamente activa: Está constituida solo por las personas de 15 años y más, con disposición y disponibilidad para trabajar en el periodo de referencia, que es la semana anterior al dı́a de la entrevista. En cuanto a la tasa de actividad, se refiere al porcentaje de la población económicamente activa con respecto a la población total de 15 años y más. Población económicamente inactiva: Son aquellas personas de 15 años y más, estudiantes, amas de casa, rentistas, pensionados, jubilados y trabajadores familiares que trabajan menos de 15 horas a la semana. Para pertenecer a este grupo estas personas deben además cumplir con la condición de no haber hecho gestiones para conseguir empleo en el periodo de referencia. La tasa de inactividad es el porcentaje de la Población económicamente inactiva con respecto a la población total de 15 años y más. Población ocupada: Personas de 15 años y más de edad, de uno u otro sexo, quienes declararon que estaban trabajando o tenı́an un empleo, durante la semana anterior al dı́a de la entrevista. La tasa de ocupación es el porcentaje de la población ocupada con respecto a la población económicamente activa. Población Desocupada: Personas de 15 años y más, de uno u otro sexo, quienes declararon que durante la semana anterior al dı́a de la entrevista no estaban trabajando y estaban buscando trabajo con remuneración. Asimismo, se incluyen aquellas personas que nunca han trabajado y buscan trabajo por primera vez. La tasa de desocupación es el porcentaje de la población desocupada con respecto a la población económicamente activa. Población ocupada en el sector formal de la economı́a : Se considera que una persona está ocupada en el sector formal cuando labora en empresas de cinco personas o más, tanto del sector público como del sector privado. También se incluyen.

(22) 2.2 Principales definiciones relativas a la fuerza de trabajo. 12. a los trabajadores por cuenta propia profesionales universitarios. El porcentaje de formalidad es la relación porcentual de la población ocupada en el Sector Formal con respecto al total de la población ocupada. Población ocupada en el sector informal de la economı́a: Los trabajadores del Sector informal son aquellas personas ocupadas como servicio doméstico, trabajadores por cuenta propia no profesionales (tales como vendedores, artesanos, conductores, pintores, carpinteros, buhoneros, etc.). También se incluyen en este sector a los patronos, empleados, obreros y trabajadores familiares que laboran en empresas con menos de cinco personas ocupadas. El porcentaje de informalidad es la relación entre la población ocupada en el sector informal con respecto al total de la población ocupada. Sector empleador público: Se considera que una persona está ocupada en el Sector Público cuando labora en ministerios u organismos de la administración nacional, regional, estatal o municipal, universidades o instituciones de educación superior del Estado o en empresas con capital mayoritariamente del Estado. Sector empleador privado: Se considera que una persona está ocupada en el sector privado cuando labora en compañı́as anónimas o empresas familiares o en organizaciones no lucrativas (Scout, iglesias, etc.). Ramas de actividad económica: Se refiere a la naturaleza de los bienes y servicios que realizan el negocio, organización o empresa en el cual la persona económicamente activa se desempeña o desempeñaba. Ocupación: Es el tipo o clase de trabajo que efectúa una persona económicamente activa, ocupada, durante el perı́odo de referencia, o la desempeñada por una persona económicamente activa, desocupada, en su último trabajo. Categorı́a de ocupación: Es la relación entre una persona ocupada y el trabajo desempeñado. Estas categorı́as son: i) Empleado u obrero en el sector público, ii) Empleado u obrero en empresa privada. iii) Patrono o empleador, iv) Trabajador por cuenta propia, v) Miembro de cooperativa, vi) Sociedades de personas (o de hecho), vii) Ayudante o auxiliar..

(23) 2.3 Encuesta de hogares por muestreo. 2.3. 13. Encuesta de hogares por muestreo. De acuerdo a INE (2007) desde el año de 1967 se realiza en Venezuela las EHM que es una investigación aplicada estadı́sticamente y con propósitos múltiples. Surge con la necesidad de obtener información sobre la estructura, evolución del mercado de trabajo y las caracterı́sticas socioeconómicas de la población, especialmente en relación con variables susceptibles a modificaciones significativas en el corto plazo. A partir de las variables investigadas en la encuesta, se producen indicadores como la tasa de actividad económica, tasa de desempleo, tasa de cesantı́a, porcentaje de ocupados en el sector informal, entre otros. Igualmente, se producen una serie de tabulaciones, las cuales no limitan la información de la que puede disponer el investigador, para realizar sus propias investigaciones según sus necesidades de análisis, para lo cual la información generada por la encuesta se organiza para que permita un manejo sencillo y flexible de todas las variables investigadas, cuya única limitante está referida al alcance que el tamaño de la muestra permita. El programa de Encuestas de Hogares por Muestreo el cual se puso en funcionamiento de manera permanente a partir del segundo semestre del año 1967, contó con el apoyo incondicional de los gobiernos, responsables del suministro presupuestario que mantiene activo el proyecto. De igual manera, contaron con el apoyo de recursos humanos formados en universidades e institutos educativos nacionales e internacionales brindando nuevas técnicas y métodos para el mejoramiento continuo del diseño y de la puesta en marcha del proyecto. Según Seijas (citado en Bolı́var, 1997) este programa ha logrado mantenerse por más de treinta años por contar con la flexibilidad para incorporar de manera ágil y sólida los ajustes que se han requerido. En vista de que en una población permanentemente activa existen muchas caracterı́sticas que pueden variar de un perı́odo a otro, y el programa debe adecuarse a registrar los cambios para que se puedan presentar en la población, a fin de garantizar que la información producida sea fiel reflejo de las realidades socioeconómicas por las que ha atravesado el paı́s. Numerosos han sido los ajustes que han debido experimentar las Encuestas de Hogares por Muestreo durante estos casi cuarenta años. Sin embargo, ha logrado esos cambios sin necesidad de interrumpir el programa, convirtiéndose ası́ en el más antiguo de América Latina..

(24) 2.4 Organismo ejecutor de la EHM. 2.4. 14. Organismo ejecutor de la EHM. El instituto nacional de estadı́stica (INE) es el organismo ejecutor de la EHM y ente rector de sistema estadı́stico nacional (SEN) tiene la responsabilidad de ofrecer a los usuarios, además de los resultados de la investigación, poner a la disposición información referida a los aspectos metodológicos que sirven de base a este programa estadı́stico.. 2.5. Finalidad de la encuesta. • Proporcionar en forma oportuna y confiable a los organismos de planificación nacional y regional SEN, a las entidades gubernamentales, privadas y cientı́ficas y al público en general, la información sobre la estructura y evolución de la fuerza de trabajo y en particular, sobre el fenómeno del empleo y desempleo, como insumo para el análisis que pueda derivar en toma de decisiones. • Proporcionar a través de encuestas complementarias información para organismos oficiales que ası́ lo requieran, cuya temática tenga que ver con personas, hogar o la vivienda, para el análisis de temas especı́ficos. • Determinar las caracterı́sticas socioeconómicas y socio demográficas de la fuerza de trabajo. • Obtener elementos de análisis necesarios para diagnosticar los desequilibrios que se registran en el mercado de trabajo por el lado de la oferta, en términos de las caracterı́sticas económicas y sociales de la población. 2.6. Periodos de referencia. Según INE (2007) los periodos de referencias para recabar la información dada por los encuestados son: Para obtener el dato individual: para considerar el dato que ofrece el encuestado es la semana anterior a la realización de la encuesta..

(25) 2.7 Criterios de selección de la muestra. 15. Periodo en que se recaba la información (estimaciones): la fecha central del periodo correspondiente para recabar la informacion. Semestral (fechas aproximadas): 1er semestre: 30 de marzo. 2do semestre: 30 de septiembre. Trimestral (fechas aproximadas):1er trimestre: 15 de febrero. 2do trimestre: 15 de mayo. 3er trimestre: 15 de agosto. 4to trimestre: 15 de noviembre. Mensual: a nivel nacional dı́a 15 de cada mes. Actualmente la EHM realiza la encuesta de manera semestral. Periodo para recolectar la información: 1er semestre: 24 semanas, que van desde la semana 3 a la semana 26 del año. 2do semestre: 24 semanas, que van desde la semana 27 a la semana 50 del año.. 2.7. Criterios de selección de la muestra. La muestra es una selección aleatoria de viviendas y la entrevista se aplica a todos y cada uno de los hogares pertenecientes a dichas viviendas y dentro de cada hogar, a cada uno de los habitantes habituales. Por lo tanto, los hogares que conforman la muestra son todos aquellos pertenecientes a las viviendas seleccionadas. En foros realizados por el Instituto Nacional de Estadı́stica, señalan que actualmente, la muestra de cada semestre está conformada por 47.625 viviendas, considerándose que el tamaño de esta muestra es suficiente para generar resultados para la población total del paı́s. Sin embargo, no se logra la entrevista para todas las viviendas, por alguno de los siguientes motivos: Viviendas desocupadas, en ruinas, de uso vacacional, utilizadas como almacén o negocio, o porque en aquellas que están ocupadas no está la persona que puede dar información o en caso contrario se niegan a darla. Las EHM se realiza con periodicidad semestral, pero cada hogar será entrevistado mientras este seleccionada en la muestra la vivienda a la cual él pertenece. Hasta el año 2001 en su primer semestre las viviendas permanecı́an en la muestra durante seis semestres consecutivos a esto se le conoce cómo ”Rotación de la Muestra”, el cual consistı́a en que cada semestre salı́a 1/6 de las viviendas de la muestra, que fueron entrevistadas durante seis semestres seguidos; está proporción es reemplazada por un nuevo grupo de viviendas (1/6) incorporándose al panel de muestra..

(26) 2.8 Variables investigadas. 16. Según Gil (2008) a partir del segundo semestre del 2001 se cambió esta modalidad de rotación por una que es aplicada a aquellas viviendas que sólo hayan sido encuestadas durante los últimos tres años y ya muestren cansancio los informantes, rehusándose a dar información tal que esto implique un aumento en la tasa de no respuesta en dicha entidad.. 2.8. Variables investigadas. Las variables investigadas en la EHM según INE (2007) se pueden clasificar en los grupos que se señalan a continuación: a. Vertical de hábitat: se refieren a la condición de vida del hogar. Caracterı́sticas de la vivienda: se refiere a la tipologı́a constructiva, tenencia y densidad habitacional, incluyen: tipo de vivienda, condiciones fı́sicas (materiales predominantes en paredes, piso y techo), total de cuartos de la vivienda, número de cuartos para dormir, tenencia de la vivienda, servicio de agua, servicio de redes de disposición de excretas, total de salas de baño con ducha, servicios de la vivienda. Caracterı́sticas del hogar: Identifica los servicios disponibles para el hogar, ejemplo: tipo de vivienda, total de cuartos para dormir, uso exclusivo de baños con ducha o regadera, disponibilidad de artefactos domésticos, total de automóviles de uso particular, tenencia de la vivienda, dependencia de los gastos del hogar. b. Variables sociodemográficas: involucran un conjunto de caracterı́sticas referidas a las unidades familiares y a la población. Unidad familiar de convivencia: identificación del hogar,tipo de hogar. Unidad familiar de parentesco: núcleo familiar, parentesco con el jefe de hogar, determinación de núcleos familiares dentro del hogar, situación conyugal. Variables de población: Sexo, Edad en años cumplidos, fecha de nacimiento, lugar de nacimiento, fecha de llegada al paı́s (para nacidos en el exterior), presentación en el registro civil, tiempo de residencia en la entidad. Estas variables.

(27) 2.8 Variables investigadas. 17. son de relativa importancia para identificar demográficamente la fuerza laboral. c. Variables de caracterı́sticas educativas: identifican el conjunto de condiciones de vida vinculables a la incorporación de la población al sistema escolar formal y a los sistemas no formales, particularmente los de capacitación para el trabajo. Las variables que considera en este renglón son: Alfabetismo, Nivel de escolaridad, Asistencia a centro de enseñanza, Razones por las que no asiste regularmente a un centro de enseñanza. Estas variables también son tomadas en cuenta para el estudio, como parte del conjunto de variables demográficas. d. Variables de condición de actividad y fuerza de trabajo: estas variables identifican aquellos aspectos básicos socio-ocupacionales que se vinculan claramente con las condiciones de vida de los hogares. Situación en la fuerza de trabajo para la población ocupada – Actividad realizada en la semana de referencia – Realizada, durante la semana de referencia, con pago en dinero – Tenencia de trabajo o negocio. de no trabajar en la semana de referencia Caracterı́sticas de la población económicamente activa Para la población ocupada – Actividad, adicional a su trabajo principal, realizada, por la cual recibió ingresos. – Número de horas trabajadas durante la semana pasada, en su actividad principal – Número de horas trabajadas normalmente a la semana, en su actividad principal , adicional a su trabajo principal, realizada, normalmente, por la cual percibe ingresos – Número de horas trabajada normalmente en todos sus trabajos o negocios.

(28) 2.8 Variables investigadas. 18. – Ha hecho algo en el último mes para trabajar horas adicionales (disposición) – Ha hecho algo en los últimos dos a doce meses para trabajar (disposición) – Disponibilidad para empezar a trabajar – Tenencia de segundo trabajo – Horas trabajas en la semana de referencia – Horas normales de trabajo a la semana – Ocupación – Actividad económica – Tamaño de la empresa – Figura Jurı́dica de la empresa para la cual trabaja Para la población desocupada – Intención de trabajar en los dos últimos meses – Intención de trabajar en la semana de referencia – Motivo por el cual no está buscando trabajo actualmente – Tiempo de cesantı́a – Ocupación en su último trabajo – Actividad económica de su último trabajo – Categorı́a de ocupación en su último trabajo – Motivo del desempleo Caracterı́sticas de la población económicamente inactiva – Tipo de ocupación – Identificación de tareas que realiza en el trabajo – Categorı́a de ocupación – Rama de actividad económica.

(29) 2.8 Variables investigadas. 19. – Personas ocupadas en el sector informal – Lugar de desempeño del trabajo Del conjunto de variables antes señalado se va hacer más énfasis para la realización de este estudio, a las variables de condición de actividad y fuerza de trabajo, estas incluyen a las variables: situación en la fuerza de trabajo para la población ocupada y caracterı́sticas de la población económicamente activa e inactiva..

(30) Capı́tulo 3 Minerı́a de datos 3.1. Minerı́a de datos. En los últimos años se ha elevado la capacidad de generar y almacenar información. Según Vallejos (2006) se ha estimado que la cantidad de datos en el mundo almacenados en bases de datos se duplica cada 20 meses. Sin embargo, dentro de estas masas de datos existe una cantidad de información oculta que solo puede ser descubierta por la minerı́a de datos. La minerı́a de datos es un mecanismo de exploración de datos para la explotación o descubrimiento de nuevos conocimientos en grandes volúmenes históricos de datos mediante patrones de búsqueda capaces de construir información valiosa inexistente, y en algunos casos inviable, por las técnicas clásicas de recuperación de información. Sin embargo, tal como lo señala Fayyad et al. (1996): “La minerı́a de datos es un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos”, o como lo dice Molina et al. (2001): “Es la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión”. En la figura 3.1 se ilustra la jerarquı́a que existe en una base de datos entre datos, información y conocimiento. Se observa igualmente el volumen de datos que presenta en cada nivel y el valor que le da el responsable del estudio a esa jerarquı́a. El área interna.

(31) 3.1 Minerı́a de datos. 21. dentro del triángulo representa los objetivos que se han propuesto. La separación del triángulo representa como los datos y la información están relacionados, pero no la información y el conocimiento.. Figura 3.1: Jerarquı́a del conocimiento. La minerı́a de datos, o descubrimiento de conocimiento en Bases de Datos, abarca una variedad de métodos estadı́sticos y computacionales para investigar la existencia de relaciones y patrones de comportamiento en almacenamientos electrónicos de datos. Según Sananes et al. (s.f.) Relaciones y patrones emergentes pueden sugerir al investigador explicaciones causales que puedan ser verificadas posteriormente o bien pueden sugerir estrategias de acción para lograr ciertos objetivos de cambio. El descubrimiento de conocimiento en base de datos (En inglés, Knowledge Data Discovery, KDD) combina las técnicas tradicionales con numerosos recursos desarrollados en el área de la inteligencia artificial..

(32) 3.2 Etapas principales aplicadas a la minerı́a de datos. 3.2. 22. Etapas principales aplicadas a la minerı́a de datos. El proceso de KDD consiste en usar métodos de minerı́a de datos(algoritmos) para extraer lo que se considera como conocimiento de acuerdo a la especificación de ciertos parámetros usando una base de datos junto con preprocesamientos y postprocesamientos. Rivera (2006) describe las etapas que involucran una minerı́a de datos, los cuales sintetiza en los pasos que se señalan a continuación. 3.2.1. Determinación de los objetivos. Delimitar los objetivos que se desean bajo la orientación del especialista en minerı́a de datos.. 3.2.2. Preprocesamiento de los datos. se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos, mediante las técnicas de análisis multivariantes y técnicas de análisis exploratorios de datos, tales como: análisis de correspondencia múltiple, diagrama de cajas y bigotes, clusters, etc. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de minerı́a de datos. 3.2.3. Selección de las variables. Aún después de haber sido preprocesado los datos, en la mayorı́a de los casos se tiene una cantidad abrumadora de datos y de variables. La selección de caracterı́sticas reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, cuidando de no perder la calidad del modelo de conocimiento obtenido del proceso de minerı́a. Los métodos para la selección de caracterı́sticas son básicamente dos: aquellos basados en la elección de los mejores atributos del problema y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurı́sticos..

(33) 3.2 Etapas principales aplicadas a la minerı́a de datos. 3.2.4. 23. Determinación del modelo. Mediante una técnica de minerı́a de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos. Las máquinas de aprendizaje o inteligencia artificial contribuyen a la construcción del modelo de conocimiento más apropiado para el conjunto de datos que se está explorando.. 3.2.5. Análisis de los resultados. Finalmente se realiza una interpretación y evaluación de los resultados, se verifica si los resultados obtenidos son coherentes y se compara con los conseguidos por el análisis estadı́stico o de visualización gráfica. Interpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el proceso, quizás con otros datos, otros algoritmos, otras metas y otras estrategias. Este es un paso crucial en donde se requiere tener conocimiento del dominio. La interpretación puede beneficiarse de procesos de visualización, y sirve también para borrar patrones redundantes o irrelevantes. De esta manera estas etapas podrı́an convertirse en un proceso iterativo involucrando la aplicación de varios algoritmos de minerı́a de datos. En la figura 3.2 se desarrolla el esquema hasta la obtención del conocimiento, partiendo de la base de datos de interés.. Figura 3.2: Etapas de la minerı́a de datos.

(34) 3.3 Minerı́a de datos: Análisis estadı́stico multivariante y análisis exploratorio de datos 24. 3.3. Minerı́a de datos: Análisis estadı́stico multivariante y análisis exploratorio de datos. Martinez (2007) señala que previa a cualquier utilización formal, los datos deben ser examinados para detectar posibles anomalı́as que pudieran llevar a conclusiones erróneas. Las técnicas estadı́sticas de análisis exploratorio de datos y análisis multivariante han sido aplicadas en un número creciente de áreas de conocimiento, debido a que son particularmente apropiadas para el estudio de grandes volúmenes de datos, en los que es imposible, dado el tamaño, observar de inmediato sus caracterı́sticas estructurales Anderson (1958). El uso apropiado de técnicas para el análisis de datos como: diagrama de cajas y bigotes, análisis de correspondencia múltiple, etc., puede mitigar los inconvenientes más comunes como: datos faltantes, valores atı́picos, colinealidad, etc.. 3.3.1. Variables con Valores Atı́picos (Diagrama de cajas y bigotes). Segun Hawkins (1980) los valores atı́picos u ‘outliers‘ son aquellos casos para los que una, dos o múltiples variables toman valores extremos que los hace diferir del comportamiento del resto de la muestra y permiten al investigador sospechar que han sido generados por mecanismos distintos al resto Un problema con la distribución de los valores de una variable, ocurre cuando existen valores extremos no representativos. Para mayores volúmenes de casos podrı́a haber diversos valores extremos y hay que tratar de identificarlos y eliminarlos. Según Nettleton (2003) Si no se eliminan, estos valores, pueden perjudicar las estadı́sticas de los datos en su conjunto. De las técnicas más populares que permiten detectar estos valores atı́picos, son los diagramas de cajas y bigotes o “boxplot”. Esta técnica permite ver aquellas observaciones que se encuentran alejadas de la masa de datos; es decir, no guardan ningún tipo de relación con respecto al resto. El gráfico consiste en un rectángulo (caja), donde los.

(35) 3.3 Minerı́a de datos: Análisis estadı́stico multivariante y análisis exploratorio de datos 25. lados más largos muestran el recorrido intercuartı́lico. Este rectángulo está dividido por un segmento vertical que indica donde se posiciona la mediana y por lo tanto su relación con el cuartil superior (percentil 75 del vector de datos) y el cuartil inferior (percentil 25 del vector de datos). Si la cantidad de números es impar, la mediana es el número que se encuentra en medio de ese conjunto de números ordenados. Si la cantidad de números en el conjunto es par, la mediana se calcula como el promedio de los números centrales ordenados. Este rectángulo se ubica a escala sobre un segmento que tiene como extremos los valores mı́nimo y máximo de la variable. Estos segmentos que quedan a la izquierda y a la derecha de la caja se llaman bigotes. Freund et al. (1992). 3.3.2. Análisis de correspondencia múltiple. Considerada como técnica de reducción del número de variables y construcción de variables no observadas. Permite medir la asociación lineal presente entre las variables; es decir, construye un diagrama cartesiano basado en la relación de dependencia e independencia de un conjunto de variables cualitativas de carácter categórico. La correspondencia es un análisis descriptivo y exploratorio diseñado para analizar tablas simples en ambos sentidos y en múltiples sentidos que contienen un cierto grado de correspondencia entre las filas y columnas. Los resultados proporcionan información que es de naturaleza similar a las producidas por las técnicas de análisis factorial, y permiten explorar la estructura de variables categóricas incluidas en la tabla. Por medio de un gráfico se representa conjuntamente las distintas modalidades de la tabla de contingencia que se origina de la combinación de las categorı́as entre las variables que se están estudiando. La proximidad entre los puntos representados está relacionada con el nivel de asociación entre dichas modalidades. Dı́az (2002) señaló que el Análisis de Correspondencia Múltiple (ACM) busca aquellas variables o factores cercanos (altamente correlacionados) con todos los grupos de modalidades..

(36) 3.4 Minerı́a de datos e inteligencia artificial. 3.4. 26. Minerı́a de datos e inteligencia artificial. La tecnologı́a informática o computacional con algoritmos secuenciales ha superado enormemente a los humanos en algunas tareas, como las operaciones matemáticas. Sin embargo, existen muchas tareas que son triviales para los humanos pero que resultan complicadas para los ordenadores, tales como el procesamiento del lenguaje natural, el reconocimiento de formas, el proceso de la visión, etc. Con este motivo se han desarrollado las técnicas denominadas de Inteligencia Artificial (IA).. 3.4.1. ¿Qué es la IA?. Según Nils (2001) la inteligencia Artificial, es una definición amplia y un tanto circular, tiene por objeto el estudio del comportamiento inteligente en las máquinas. A su vez, el comportamiento inteligente supone percibir, razonar, aprender, comunicarse y actuar en entornos complejos. Una de las metas a largo plazo de la IA es el desarrollo de máquinas que puedan hacer todas estas cosas igual, o incluso mejor, que los humanos. Otra meta de la IA es llegar a comprender este tipo de comportamiento, sea en las máquinas, en los humanos o en otros animales. Los términos de IA son ampliamente utilizados tanto por separados como de forma conjunta. Se propone, en principio, algunas definiciones: “La inteligencia artificial estudia cómo lograr que las máquinas realicen tareas que, por el momento, son realizadas mejor por los seres humanos” Rich & Kinight (1994) “Se denomina inteligencia artificial a la rama de la informática que desarrolla procesos que imitan a la inteligencia de los seres vivos. La principal aplicación de esta ciencia es la creación de máquinas para la automatización de tareas que requieran un comportamiento inteligente”. enciclopedia libre (2007) “El ofrecimiento por parte de la máquina de comportamiento parecido al humano que es capaz de acomodarse o ajustarse a una disposición o situación real o ficticia y poder escoger de acuerdo a una serie de particularidades para dar una respuesta rápida y lo más acertada posible ”. Costa (1995) Todas estas definiciones hacen referencia a la idea de lograr un comportamiento inteligente semejante al humano; sin embargo, dentro de la IA también se estudian.

(37) 3.4 Minerı́a de datos e inteligencia artificial. 27. aquellos problemas que le resulten difı́ciles a los humanos. Como indican Rich & Kinight (1994), las técnicas de IA tienen tres caracterı́sticas principales que las diferencian de los otros métodos: • La búsqueda para explorar las distintas posibilidades en aquellos problemas donde los pasos a seguir no estén claramente definidos. • El empleo de conocimiento que permite explotar la estructura y relaciones del mundo o dominio al que pertenece el problema, y la reducción del número de posibilidades por considerar, tal como hacemos los humanos. • La abstracción que proporciona la manera de generalizar para los casos intrı́nsicamente similares. Según Guerrero & Lopez (2001) la minerı́a de datos se divide en dos escuelas de pensamiento, la inteligencia artificial convencional y la inteligencia computacional. Este estudio será referido a la convencional y tiene que ver con métodos que actualmente se conocen como máquinas de aprendizaje, se caracteriza por el formalismo y el análisis estadı́stico. Algunos métodos de esta rama incluyen: sistemas expertos, redes bayesianas, inteligencia artificial basada en comportamientos, árboles de decisión, etc.. 3.4.2. Algoritmo de búsqueda mediante un modelo de arboles de clasificación. Los arboles de clasificación, también llamados árboles de decisión, son uno de los métodos de aprendizaje inductivo supervisado no paramétrico más utilizados en la búsqueda de nuevo conocimiento. Los sistemas basados en árboles de decisión forman una familia llamada TDIDT (Top-Down Induction of Decision Trees). Según Larrañanaga et al. (s.f.) los algoritmos pertenecientes a esta familia pueden ser contemplados como uniformizador de la mayorı́a de los algoritmos de inducción de arboles de clasificación a partir de un conjunto de datos conteniendo patrones etiquetados..

(38) 3.4 Minerı́a de datos e inteligencia artificial. 28. Estructura de un árbol de clasificación Básicamente la estructura principal de los arboles de clasificación pertenecientes a la familia TDIDT es la misma y están formados por: Nodos: Nombres o identificadores de los atributos. Ramas: Posibles valores del atributo asociado al nodo. Hojas: Conjuntos ya clasificados de ejemplos y etiquetados con el nombre de una clase. Construcción de los árboles de decisión Dentro de la familia de árboles TDIDT, se encuentran los algoritmos de clasificación el ID3 y el C4.5. Según Espino (2005) el esqueleto de este método para construir un árbol de decisión a partir de un conjunto de datos de entrenamiento T es muy simple. Sean las clases {C1, C2,. . ., Ck}. Existen tres posibilidades: 1. T contiene uno o más casos, todos pertenecientes a una única clase Cj: El árbol de decisión para T es una hoja identificando la clase Cj. 2. T no contiene ningún caso: El árbol de decisión es una hoja, pero la clase asociada debe ser determinada por información que no pertenece a T. 3. T contiene casos pertenecientes a varias clases: En este caso, la idea es refinar T en subconjuntos de casos que tiendan, o parezcan tender, hacia una única clase. Tal y como puede verse en la Figura 3.3, las variables predictoras X están representadas en el árbol de clasificación insertadas en un cı́rculo; mientras que las hojas del árbol por medio de un rectángulo, en el cual se inserta el valor de la variable clase que el árbol de clasificación asigna a aquellos casos que bajan por las correspondientes ramas del árbol de clasificación. El árbol de clasificación de la Figura 3.3 tiene para todas las ramas una profundidad de 2, siendo este concepto de profundidad el que proporciona una idea de la complejidad.

(39) 3.4 Minerı́a de datos e inteligencia artificial. 29. del árbol de clasificación y para los efectos de minerı́a, el nivel de complejidad de búsqueda de nuevos patrones de conocimiento.. Figura 3.3: Ejemplo de un árbol de clasificación. Algoritmo ID3 Uno de los algoritmos de inducción de arboles de clasificación más populares es el denominado ID3, introducido por Quinlan (n.d.). El criterio de decisión escogido para seleccionar la variable más informativa está basado en el concepto de cantidad de información mutua entre dicha variable y la variable clase. La terminologı́a usada en este contexto para denominar a la cantidad de información mutua es la de ganancia de información (information gain). Esta ganancia de información está basada en la entropı́a que es la cantidad de bits, en promedio, que harı́an falta para codificar mensajes que indicaran las clases de los ejemplos; una baja entropı́a indica que el atributo es uniforme y una alta entropı́a que el atributo es variado e interesante. Esto es debido a que I (C—X) = H(C) - H (C—X), siendo I (C—X) la ganancia de información resultante de dividir al sub conjunto C, según el atributo X. Lo que.

(40) 3.4 Minerı́a de datos e inteligencia artificial. 30. viene a representar dicha cantidad de información mutua entre X y C es la reducción en incertidumbre en C debida al conocimiento del valor de la variable X. Donde: H(c) =. X. p(c)log2 p(c). c. H(c|x) = −. XX c. p(x, c) log2 p(c|x). x. Siendo H(c) la entropı́a del conjunto de datos y H (c—x) la entropı́a que tendrı́a los conjuntos restantes de la división de datos según el atributo x. Matemáticamente se demuestra que este criterio de selección de variables utilizado por el algoritmo ID3 no es justo ya que favorece la elección de variables con mayor número de valores, es decir, que tienen mayor probabilidad de ser elegidas aquellas variables que tenga un mayor números de categorı́as. Además, el algoritmo ID3 efectúa una selección de variables previa denominada preprunning que consiste en efectuar un test de independencia entre cada variable predictora Xi y la variable clase C, de tal manera que para la inducción del árbol de clasificación tan sólo se van a considerar aquellas variables predictoras para las que se rechaza el test de hipótesis de independencia. Algoritmo C4.5 Quinlan (1993) propone una mejora del algoritmo ID3, al que denomina C4.5, este algoritmo genera un árbol de decisión a partir de los datos mediante particiones realizadas recursivamente. El árbol se construye mediante la estrategia de profundidad-primero (depth-first). El algoritmo C4.5 utiliza una técnica heurı́stica conocida como proporción de ganancia (gain ratio). Es una medida basada en información que considera diferentes números y diferentes probabilidades de los resultados de las pruebas. El algoritmo considera todas las pruebas posibles que pueden dividir el conjunto de datos y selecciona la prueba que le haya generado la mayor ganancia de información. Para cada atributo discreto, se considera una prueba con n resultados, siendo n el número de valores posibles que puede tomar el atributo. Para cada atributo continuo,.

(41) 3.4 Minerı́a de datos e inteligencia artificial. 31. se realiza una prueba binaria sobre cada uno de los valores que toma el atributo en los datos. En cada nodo, el sistema debe decidir cuál prueba escoge para dividir los datos. Según Espino (2005) los tres tipos de pruebas posibles propuestas para el C4.5 son: • La prueba estándar para las variables discretas, con un resultado y una rama para cada valor posible de la variable. • Una prueba más compleja, basada en una variable discreta, en donde los valores posibles son asignados a un número variable de grupos con un resultado posible para cada grupo, en lugar de para cada valor. • Si una variable A tiene valores numéricos continuos, se realiza una prueba binaria con resultados A<= Z y A > Z, para lo cual debe determinarse el valor lı́mite Z. Todas estas pruebas se evalúan observando la ganancia resultante de la división de datos que producen. Ha sido útil agregar una restricción adicional: para cualquier división, al menos dos de los subconjuntos Ci deben contener un número razonable de casos. Esta restricción, que evita las subdivisiones casi triviales, es tenida en cuenta solamente cuando el conjunto C es pequeño. Caracterı́sticas del algoritmo C4.5 • Permite trabajar con valores continuos para los atributos, separando los posibles resultados en 2 ramas Ai<=N y Ai>N. • Los árboles son menos frondosos, ya que cada hoja cubre una distribución de clases no una clase en particular. • Utiliza el método “divide y vencerás” para generar el árbol de decisión inicial a partir de un conjunto de datos de entrenamiento. • Se basa en la utilización del criterio de proporción de ganancia (gain ratio), definido como I(Xi,C)/H(Xi). De esta manera se consigue evitar que las variables con mayor número de categorı́as salgan beneficiadas en la selección. • Es Recursivo..

(42) 3.4 Minerı́a de datos e inteligencia artificial. 32. Atributos usados por el algoritmo C4.5 Los atributos o variables poseen caracterı́sticas propias que las diferencian una de otras, existen algoritmos que solo se desarrollan para atributos en particular, en el caso del algoritmo C4.5, los atributos para los cuales se desarrollo dicho algoritmo son los siguientes: Atributos de valores continuos: El algoritmo C4.5 no solo se desarrolla para atributos de valores discretos como en el caso del algoritmo ID3 también se pueden incorporar atributos con valores continuos, se transforma estas variables o atributos en variables categóricas; es decir, se dividen estos valores en intervalos discretos, de forma que el atributo tendrá siempre valores comprendidos en uno de estos intervalos. Medidas alternativas en la selección de atributos: El algoritmo ID3 utiliza la ganancia de información, para la elección del atributo, sin embargo estos atributos no son buenos predictores de la función objetivo para nuevos ejemplos, ya que dicha ganancia introduce un sesgo que favorece a los atributos con muchos valores distintos, debido a que dividen el conjunto de ejemplos en muchos subconjuntos, lo que hace que la ganancia de información sea alta. Una medida alternativa que propuso Quinlan (1993) fue la gain ratio (proporción de ganancia) ganancia que usa el algoritmo C4.5 y que ha resultado un éxito. Atributos con valores perdidos: En ciertos casos existen atributos de los cuales conocemos su valor para algunos ejemplos, y para otros no. En estos casos lo más común es estimar el valor basándose en otros ejemplos de los que sı́ conocemos el valor. Normalmente se fija la atención en los demás ejemplos de ese mismo nodo. Ası́, al ejemplo de valor desconocido se le da el valor que más aparezca en los demás ejemplos. Ventajas del algoritmo C4.5 • Evitar sobre-ajuste de los datos. • Determinar que tan profundo debe crecer el árbol de decisión. • Reducir errores en la poda (prunning). • Condicionar la Post-Poda.

(43) 3.4 Minerı́a de datos e inteligencia artificial. 33. • Manejar atributos continuos. • Escoger un rango de medida apropiado. • Manejo de datos de entrenamiento con valores faltantes. • Mejora la eficiencia computacional. • Las reglas de decisión son simples y legibles, por tanto la interpretación de los resultados es directa e intuitiva. • Es robusta frente a datos atı́picos u observaciones mal etiquetadas. • Es computacionalmente rápido Sobre-ajuste (overfitting) A medida que se divide un nodo creando un sub árbol, se añaden niveles a los arboles de clasificación, refinando tanto las hipótesis, que describan muy bien los ejemplos utilizados en el aprendizaje, sin embargo el error de clasificación puede aumentar al evaluar estos ejemplos. Es decir, clasifica muy bien los datos de entrenamiento pero luego no sabe generalizar al conjunto de prueba. Es debido a que aprende hasta el ruido del conjunto de entrenamiento. Este efecto es, por supuesto, indeseado. Hay varias causas posibles para que esto ocurra, las principales son: • Exceso de ruido (lo que se traduce en nodos adicionales). • Un conjunto de entrenamiento demasiado pequeño como para ser una muestra representativa de la verdadera función objetivo. • Hay varias estrategias para evitar el sobre-ajuste en los datos. Pueden ser agrupadas en dos clases: estrategias que frenan el crecimiento del árbol antes de que llegue a clasificar perfectamente los ejemplos del conjunto de entrenamiento y estrategias que permiten que el árbol crezca completamente, y después realizan una poda..

(44) 3.4 Minerı́a de datos e inteligencia artificial. 34. Post prunning (post poda) La post poda se realiza luego de haber sido generado el árbol de clasificación, podando las ramas necesarias para mejorar su rendimiento y a su vez obtener un árbol más sencillo y cómodo de estudiar. Pero además el C4.5 convierte el árbol a un conjunto de reglas antes de podarlo. Hay tres razones principales para hacer esto: • Ayuda a distinguir entre los diferentes contextos en los que se usa un nodo de decisión, debido a que cada camino de la raı́z a una hoja se traduce en una regla distinta. • Deja de existir la distinción entre nodos que están cerca de la raı́z y los que están lejos. Ası́ no hay problemas para reorganizar el árbol si se poda un nodo intermedio. • Mejora la legibilidad. Las reglas suelen ser más fáciles de entender. Pseudocódigo de C4.5 Según Espino (2005) el pseucódigo del algoritmo C4.5 es el siguiente: Función C4.5 R: conjunto de atributos no clasificadores, C: atributo clasificador, S: conjunto de entrenamiento, devuelve un árbol de decisión Comienzo Si S está vacı́o, Devolver un único nodo con Valor Falla; para formar el nodo raı́z Si todos los registros de S tienen el mismo valor para el atributo clasificador, Devolver un único nodo con dicho valor; un único nodo para todos Si R está vacı́o, Devolver un único nodo con el valor más frecuente del atributo clasificador en los registros de S [Nota: habrá errores, es decir, registros que no estarán bien clasificados, en este caso];.