Minería de datos aplicada a los cambios en la estructura de la variable desempleo: caso estudio: el estado Mérida
Texto completo
(2) Proyecto de Grado. Presentado ante la ilustre Universidad de Los Andes como requisito parcial para obtener el Tı́tulo de Ingeniero de Sistemas. Minerı́a de Datos aplicada a los cambios en la estructura de la variable desempleo. Caso de estudio: El estado Mérida Por. Br. Amaru-yawa Reyes R Tutor: Prof. Gerardo Colmenares Cotutor: Prof. Josefa Ramoni. Junio 2008 c 2008 Universidad de Los Andes Mérida, Venezuela.
(3) Minerı́a de Datos aplicada a los cambios en la estructura de la variable desempleo. Caso de estudio: El estado Mérida Br. Amaru-yawa Reyes R Proyecto de Grado — Investigación de Operaciones, 105 páginas Resumen: El estudio realizado estuvo dirigido, a conocer los cambios en la estructura de la variable del desempleo y en consecuencia cambios en la estructura de la fuerza laboral, usando métodos y técnicas de Minerı́a de Datos aplicados a las Encuestas de Hogares por Muestreo (EHM) (1995-2005), realizado por el Instituto Nacional de Estadı́sticas (INE). La importancia de este estudio radica en el aprovechamiento de la variedad de métodos y técnicas disponibles en la Minerı́a de Datos para indagar en la aparente tendencia que ha venido mostrando la variable desempleo a través del tiempo. La técnica multivariante, análisis de correspondencia múltiple (ACM), no sólo permitió definir las cuatro categorı́as referentes a la actividad dentro del mercado laboral, sino que dio a conocer que sı́ existe un cambio en la estructura de la variable del desempleo y por ende un cambio en la estructura de la fuerza laboral para el periodo 1999-2005. Estas categorı́as fueron usadas para realizar la clasificación de las instancias por medio de árboles de clasificación, mediante el algoritmo C4.5 (versión mejorada de ID3). El estudio permitió afirmar que usando árboles de decisión, no solo realizó una excelente clasificación, sino que dio a conocer las aparentes inconsistencias encontradas en los datos de las EHM para el periodo antes mencionado. En consecuencia, el ACM resultó ser un buen preprocesador para lograr adquirir conocimiento de los cambios en la estructura en el tiempo mediante el análisis exhaustivo a las observaciones usando C4.5. Del mismo modo, se demostró, la fuerte equivalencia entre la variable proporcionada por ACM y la variable observada en EHM, garantizando, ası́, una buena confiabilidad del método seguido en esta investigación. Palabras clave: Encuesta, Hogares por Muestreo, Fuerza de Trabajo, Desempleo, Minerı́a de Datos, Inteligencia Artificial..
(4) Índice Índice de Tablas. vi. Índice de Figuras. viii. 1 Introducción. 1. 1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.3. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.4. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 1.4.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 1.4.2. Objetivos especı́ficos . . . . . . . . . . . . . . . . . . . . . . . .. 6. 1.5. Justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 1.6. Limitaciones de la investigación . . . . . . . . . . . . . . . . . . . . . .. 8. 1.7. Organización del documento . . . . . . . . . . . . . . . . . . . . . . . .. 8. 2 Fuerza de trabajo y encuestas de hogares por muestreo. 10. 2.1. Fuerza de trabajo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 10. 2.2. Principales definiciones relativas a la fuerza de trabajo . . . . . . . . .. 11. 2.3. Encuesta de hogares por muestreo . . . . . . . . . . . . . . . . . . . . .. 13. 2.4. Organismo ejecutor de la EHM . . . . . . . . . . . . . . . . . . . . . .. 14. 2.5. Finalidad de la encuesta . . . . . . . . . . . . . . . . . . . . . . . . . .. 14. 2.6. Periodos de referencia . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 14. 2.7. Criterios de selección de la muestra . . . . . . . . . . . . . . . . . . . .. 15. 2.8. Variables investigadas . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. iii.
(5) 3 Minerı́a de datos. 20. 3.1. Minerı́a de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. 3.2. Etapas principales aplicadas a la minerı́a de datos . . . . . . . . . . . .. 22. 3.2.1. Determinación de los objetivos . . . . . . . . . . . . . . . . . . .. 22. 3.2.2. Preprocesamiento de los datos . . . . . . . . . . . . . . . . . . .. 22. 3.2.3. Selección de las variables . . . . . . . . . . . . . . . . . . . . .. 22. 3.2.4. Determinación del modelo . . . . . . . . . . . . . . . . . . . . .. 23. 3.2.5. Análisis de los resultados . . . . . . . . . . . . . . . . . . . . . .. 23. 3.3. Minerı́a de datos: Análisis estadı́stico multivariante y análisis exploratorio de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1. Variables con Valores Atı́picos (Diagrama de cajas y bigotes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 24. Análisis de correspondencia múltiple . . . . . . . . . . . . . . .. 25. Minerı́a de datos e inteligencia artificial . . . . . . . . . . . . . . . . . .. 26. 3.4.1. ¿Qué es la IA? . . . . . . . . . . . . . . . . . . . . . . . . . . .. 26. 3.4.2. Algoritmo de búsqueda mediante un modelo de arboles de clasi-. 3.3.2 3.4. 24. ficación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Minerı́a de datos y análisis estadı́stico multivariante.. 27 36. 4.1. Fusión de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 36. 4.2. Reducción del número de variables . . . . . . . . . . . . . . . . . . . .. 38. 4.2.1. Variables demográficas . . . . . . . . . . . . . . . . . . . . . . .. 39. 4.2.2. Variables Fuerza Laboral (perı́odo 1995-1998) . . . . . . . . . .. 39. 4.2.3. Variables Fuerza Laboral (periodo 1999-2005) . . . . . . . . . .. 41. 4.3. Variables con valores atı́picos . . . . . . . . . . . . . . . . . . . . . . .. 43. 4.4. Variables originales, variables transformadas y variables de salida. . . .. 44. 4.4.1. Variables Originales . . . . . . . . . . . . . . . . . . . . . . . .. 44. 4.4.2. Variables transformadas . . . . . . . . . . . . . . . . . . . . . .. 44. 4.4.3. Variables de salida . . . . . . . . . . . . . . . . . . . . . . . . .. 47. 5 Minerı́a de datos e inteligencia artificial: algoritmo de búsqueda mediante el modelo de árbol de decisión C4.5. 48.
(6) 5.1. Inteligencia artificial . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 48. 5.1.1. Modelo del árbol de decisión C4.5 . . . . . . . . . . . . . . . . .. 49. 5.1.2. Parámetros requeridos por el modelo J48 . . . . . . . . . . . . .. 49. 5.1.3. Modos de evaluación del clasificador C4.5 . . . . . . . . . . . . .. 49. 5.1.4. Preparación de los datos . . . . . . . . . . . . . . . . . . . . . .. 50. 6 Resultados y análisis realizados 6.1. 6.2. Minerı́a de datos y análisis estadı́stico multivariante . . . . . . . . . . .. 54. 6.1.1. Variable de salida (periodo 95-98) . . . . . . . . . . . . . . . . .. 55. 6.1.2. Variable de salida (periodo 99-05) . . . . . . . . . . . . . . . . .. 62. Minerı́a de datos e IA . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 68. 6.2.1. Modos de evaluación del clasificador J48 para el bloque de registros 95-98 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.2.2 6.3. 54. 69. Modo de evaluación del clasificador J48 para el bloque de registros 99-05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 81. Minerı́a de datos y Tablas de contingencia . . . . . . . . . . . . . . . .. 91. 6.3.1. Variable de salida 95-98 y variable PP22 . . . . . . . . . . . . .. 91. 6.3.2. Variable de salida 99-05 y variable pp29 . . . . . . . . . . . . .. 93. 6.3.3. Variable de salida 94-98 y variable CODSUM . . . . . . . . . .. 96. 6.3.4. Variable de salida 99-05 y variable CODSUM . . . . . . . . . .. 97. 7 Conclusiones y recomendaciones. 99. 7.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 99. 7.2. Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100. Bibliografı́a. 102. A Diccionario de variables. Fuente EHM. 105.
(7) Índice de Tablas 1.1. Indicador de la tasa de desocupación en Venezuela desde 1999-2007 . .. 4.1. Variables originales correspondientes a los años 95-05, que serán usadas para el estudio. Fuente INE . . . . . . . . . . . . . . . . . . . . . . . .. 4.2. 46. Variable (nivel educativo) a la cual se le redujo el número de categorı́as. Fuente: Estimaciones propias . . . . . . . . . . . . . . . . . . . . . . .. 4.6. 45. Variables continúas trasformadas a variables categóricas. Fuente: Estimaciones propias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.5. 45. Variables transformadas correspondientes a los años 1995 a 2005, que serán usadas para el estudio. Fuente: Estimaciones propias . . . . . . .. 4.4. 42. Variables originales correspondientes a los años 1995 a 2005 sin modificaciones. Fuente INE . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.3. 3. 46. Variable (tiempo de residencia) a la cual se le redujo el número de categorı́as Fuente: Estimaciones propias . . . . . . . . . . . . . . . . . . .. 46. 5.1. Variables de entrada con su respectivo número de categorı́as . . . . . .. 50. 5.2. Sub-muestra de los datos en formato .arff. . . . . . . . . . . . . . . . .. 52. 6.1. Muestra las categorı́as de cada variable colocadas de manera ascendente. 59. 6.2. Muestra las categorı́as formada por el conglomerado n◦ 1 . . . . . . . .. 59. 6.3 6.4. ◦. 60. ◦. 60. ◦. Muestra las categorı́as formada por el conglomerado n 2 . . . . . . . . Muestra las categorı́as formada por el conglomerado n 3 . . . . . . . .. 6.5. Muestra las categorı́as formada por el conglomerado n 4 . . . . . . . .. 61. 6.6. Muestra las categorı́as formada por el conglomerado n◦ 5 . . . . . . . .. 61. 6.7. Descripción de la variable de salida . . . . . . . . . . . . . . . . . . . .. 62. vi.
(8) 6.8. Muestra las categorı́as de cada variable colocadas de manera ascendente. 65. 6.9. Muestra la categorı́a formada por el conglomerado n◦ 1 . . . . . . . . .. 65. 6.10 Muestra la categorı́a formada por el conglomerado n◦ 2 . . . . . . . . .. 66. 6.11 Muestra la categorı́a formada por el conglomerado n◦ 3 . . . . . . . . .. 66. 6.12 Muestra la categorı́a formada por el conglomerado n◦ 4 . . . . . . . . .. 67. 6.13 Muestra la categorı́a formada por el conglomerado n◦ 5 . . . . . . . . .. 67. 6.14 Variable de salida 99-05 . . . . . . . . . . . . . . . . . . . . . . . . . .. 68. 6.15 Muestra los modelos de evaluación usados con sus respectivos errores.. 70. 6.16 Muestra una de las ramas del árbol generado para el bloque de datos 95-98 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 76. 6.17 Muestra una de las ramas del árbol generado para el bloque de datos 95-98 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 76. 6.18 Muestra una de las ramas del árbol generado para el bloque de datos 95-98 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 80. 6.19 Reglas generadas por el sub-árbol formado por la rama izquierda de la variable pp36 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 83. 6.20 Reglas generadas por el subárbol formado por la rama derecha de la variable pp36 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 84. 6.21 Reglas generadas por el subárbol formado por la rama derecha de la variable pp39 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 85. 6.22 Reglas generadas por el subárbol formado por la raı́z pp29 hasta el nodo pp39 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 89. 6.23 Reglas generadas por el subárbol formado por el nodo pp29 . . . . . . .. 90. 6.24 Reglas generadas por el subárbol formado por el nodo pp39 . . . . . . .. 90. 6.25 Tabla de contingencia: variable de salida (95-98) y pp22 . . . . . . . .. 92. 6.26 Tabla de contingencia: variable de salida (95-05) y pp29 . . . . . . . .. 94. 6.27 Tabla de contingencia: variable de salida (95-98) y CODSUM . . . . .. 97. 6.28 Tabla de contingencia: variable de salida (99-05) y CODSUM . . . . .. 98.
(9) Índice de Figuras 1.1. Esquema que muestra la PEA y la PEI . . . . . . . . . . . . . . . . . .. 2. 3.1. Jerarquı́a del conocimiento . . . . . . . . . . . . . . . . . . . . . . . . .. 21. 3.2. Etapas de la minerı́a de datos . . . . . . . . . . . . . . . . . . . . . . .. 23. 3.3. Ejemplo de un árbol de clasificación . . . . . . . . . . . . . . . . . . . .. 29. 4.1. Agrupación y extracción de la información por estado para cada registro 38. 4.2. Diagrama de caja y bigotes de la variable edad (pp12). Fuente Estimaciones propias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 44. 6.1. Resultados del ACM, para el periodo 95-98. Fuente: Estimaciones propias 55. 6.2. Resultados del ACM, para el periodo 95-98, luego de eliminar las variables. Fuente: Estimaciones propias. . . . . . . . . . . . . . . . . . . .. 6.3. Resultados del ACM, para las variables demográficas en el periodo 95-98. Fuente: Estimaciones propias.. 6.4. 58. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 63. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 64. muestra el árbol generado por el algoritmo J48 para el bloque de datos 95-98. 6.8. . . . . . . . . . . . . . . . . . . . . . . . . . . .. Resultados del ACM, para las variables fuerza laboral 95-98. Fuente: Estimaciones propias.. 6.7. 57. Resultados del ACM, para las variables fuerza laboral 95-98. Fuente: Estimaciones propias.. 6.6. . . . . . . . . . . . . . . . . . . . . . .. Resultados del ACM, para las variables fuerza laboral 95-98. Fuente: Estimaciones propias.. 6.5. 56. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 72. Muestra el número de registros en cada variable . . . . . . . . . . . . .. 73. viii.
(10) 6.9. muestra el árbol podado generado por el algoritmo J48 para el bloque de datos 95-98 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 75. 6.10 muestra el árbol podado generado por el algoritmo J48 para el bloque de datos 95-98, con valores ausentes . . . . . . . . . . . . . . . . . . . .. 79. 6.11 muestra el árbol generado por el algoritmo J48 para el bloque de datos 99-05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 82. 6.12 Muestra el número de registros en cada variable . . . . . . . . . . . . .. 86. 6.13 muestra el árbol generado por el algoritmo J48 para el bloque de datos 99-05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 88. 6.14 Muestra el número de registros que contiene cadacategorı́a . . . . . . .. 93. 6.15 Muestra el número de registros que contiene cada categorı́a . . . . . . .. 95.
(11) Capı́tulo 1 Introducción 1.1. Introducción. Según Giordani (2004), la fuerza de trabajo representa uno de los componentes fundamentales de la generación de riqueza junto a otros como el capital, la tecnologı́a, y los recursos naturales. Visto como un factor de producción, resulta un elemento indispensable para lograr el producto social que se intenta construir. De la población en edad para trabajar se diferencian dos grupos: primero, la fuerza de trabajo que en términos de medición estadı́stica equivale al concepto de Población Económicamente Activa (PEA), está definida por aquellas personas mayores de una edad determinada (15 años), que se encuentran disponibles para la producción. Además, se incluyen aquellos que tengan un empleo, ası́ como aquellas personas que sin tenerlo lo buscan o tienen expectativas de obtenerlo; segundo Población Económicamente Inactiva (PEI), comprende a todas las personas que se encuentran fuera de la fuerza de trabajo y se hallan en las siguientes categorı́as: Estudiantes, oficios del hogar, rentistas, jubilados y pensionados. En el paı́s continuamente se están suscitando procesos de cambios dentro del mercado laboral, las personas que pertenecen a PEA pueden pasar a formar parte de PEI, es decir, pueden dejar de trabajar o de buscar trabajo para asistir a un centro de enseñanza, realizar oficios del hogar, etc. Igualmente las personas que son laboralmente inactivas pueden pasar a formar parte de PEA; es decir, pueden comenzar a.
(12) 1.1 Introducción. 2. trabajar o buscar un empleo. La figura 1.1 muestra la estructura actual de la fuerza de trabajo o PEA y la estructura de PEI. Figura 1.1: Esquema que muestra la PEA y la PEI. Si se da continuidad a la estructura de la dinámica laboral, dentro de la fuerza de trabajo se encontrarán los ocupados y desocupados, los ocupados son todas aquellas personas que tienen un trabajo por el cual están recibiendo algún tipo de remuneración; y los desocupados, son las personas que no tienen trabajo pero que desean tenerlo y recientemente han hecho un esfuerzo para conseguirlo. Una de las formas de estudiar los cambios de la estructura en la fuerza laboral, es conociendo los cambios en la estructura del desempleo y esta se mide a través de la tasa de desocupación. Es por ello que el presente estudio se basa en conocer si existen cambios en la variable desempleo, lo que equivalen a cambios en la estructura de la fuerza laboral..
(13) 1.1 Introducción. 3. Según Elı́as (2007), al hacer referencia al Informe Mensual Situación de la Fuerza de Trabajo en Venezuela, señala que la tasa de desocupación del 2007 (8.0%) es la más baja que se registra desde 1999, cuando comenzó la difusión del indicador con periodicidad mensual, como lo muestra la serie histórica que sigue: Año 1999 2000 2001 2002 2003 2004 2005 2006 2007 %. 14.6. 14.7. 14.5. 15.9. 19.1. 16.3. 12.1. 10.2. 8.0. Tabla 1.1: Indicador de la tasa de desocupación en Venezuela desde 1999-2007 La distribución de la población económicamente activa, especı́ficamente la tasa de desocupación que registra el Instituto Nacional de Estadı́stica (INE) para 1999, ha sufrido variaciones en contraste con los valores que se tienen para el año del 2007, tal como se muestra en la tabla 1.1, sin poder conocer con exactitud cuál es el margen de variación dado que las estadı́sticas mensuales del INE no las muestran. Es por ello que surge la inquietud de realizar este estudio para analizar si existen cambios en la estructura de la variable desempleo a través del tiempo y por ende cambios en la estructura de la fuerza de trabajo (figura 1.1, estructura actual). Para ello se emplean las Encuestas de Hogares por Muestreo (EHM) del perı́odo comprendido entre el primer semestre del año 1995 y el segundo semestre del año 2005, un periodo de 10 años, especı́ficamente los registros del estado Mérida, que es el caso bajo estudio. En las últimas décadas se han utilizado muchos métodos estadı́sticos y computacionales para observar e inferir el comportamiento de los datos que afectan la fuerza laboral. Es por ello que se utilizara para la realización de este estudio el descubrimiento de conocimiento en base de datos, como concepto de minerı́a o exploración heurı́stica a grandes volúmenes históricos de datos con la combinación de técnicas tradicionales en la estadı́stica con aquellas desarrolladas en el área de la inteligencia artificial. En esta investigación, se exploran herramientas tales como Análisis de Correspondencia Múltiple (ACM) y algoritmos de búsqueda especı́ficamente árboles de clasificación (AC), como una de las técnicas alternativas y populares para el reconocimiento de caracterı́sticas o patrones que indican cuáles son las variables que identifican la fuerza de trabajo y cuál es el comportamiento que ellas siguen. En estos experimentos, según Wang (2004),la Minerı́a de Datos (MD) es la que ha tenido mayor aceptación.
(14) 1.2 Antecedentes. 4. debido al amplio rango de aplicaciones que esta técnica posee.. 1.2. Antecedentes. Antes de comenzar el estudio referente a los cambios en la estructura de la variable desempleo, es importante realizar una revisión bibliográfica para conocer algunas investigaciones que se hayan realizado relacionadas con la fuerza laboral. Es importante destacar que cada una de las referencias revisadas tiene su aplicación muy especı́fica pero todas, tal como se propone este trabajo, tendientes a buscar respuestas en el área laboral en alguno de los fenómenos que la explican parcial o totalmente. Freije (2004), realizó un trabajo utilizando paneles rotatorios de datos derivados de las Encuestas de Hogares por Muestreo para identificar por medios estadı́sticos y econométricos, el impacto de cambios en el salario mı́nimo sobre la probabilidad de cambios en el empleo de trabajadores urbanos del sector privado en Venezuela. En general, según el autor, se logra identificar un efecto positivo en la probabilidad de pasar a situación de desempleo o inactividad, para los trabajadores con ingresos por debajo del salario mı́nimo inicial o entre el salario mı́nimo inicial y el nuevo salario mı́nimo producido por la polı́tica de aumento. Además, se obtiene resultados que permiten aseverar que la probabilidad de desempleo, tiempo parcial o cambio de sector, es mayor entre los trabajadores del sector formal, mientras que la probabilidad de inactividad es mayor entre los del sector informal. Sin embargo, no se identifica un efecto adicional sobre tales trabajadores como consecuencia de cambios en el salario mı́nimo. Se logra observar un aumento en la probabilidad de desempleo para trabajadores sujetos a cambios de salarios mı́nimo, pero dicho efecto es pequeño y estadı́sticamente no significativo. También se observa una disminución en la probabilidad de cambio de sector, esta vez significativo. En otras palabras, hay evidencia de que los trabajadores en el fondo de la distribución salarial tienen una mayor probabilidad de cambios en el empleo (en particular a pasar de inactivos a desempleados), pero no se logra identificar si dicha probabilidad es inherente a tales trabajadores o si, además, los cambios en salario mı́nimo incrementan dicha probabilidad. Los resultados, de acuerdo al autor,.
(15) 1.3 Planteamiento del problema. 5. son robustos a cambios en la definición de empleo formal e informal, ası́ como a modificaciones en la clasificación de la posición de ingreso inicial. El trabajo de Freije es de suma importancia para el presente estudio, ya que da a conocer los cambios producidos dentro del mercado laboral lo cual ofrece información para realizar comparaciones con los resultados obtenidos en este estudio. Por otro lado,Riutort (2004) realizó un trabajo titulado “Ingreso, Desigualdad y Reducción de la Pobreza en Venezuela“, con la finalidad de investigar las posibilidades de reducir la pobreza en Venezuela y, en especial la pobreza crı́tica. Las estimaciones que se realizaron a lo largo del estudio se hicieron utilizando la Encuesta de Hogares por Muestreo. Dado que el nivel de pobreza alcanzado depende del comportamiento del ingreso real per cápita y del nivel de desigualdad, en una primera parte del trabajo se establece como criterio la relación entre crecimiento real y pobreza y la relación entre desigualdad y pobreza. Adicionalmente, se establecen combinaciones entre crecimiento y reducción de la desigualdad que permitan reducir la pobreza crı́tica a la mitad en 15 años. Finalmente, se buscaron escenarios alternativos factibles dentro de la curva de isopobreza que cambiaran las estrategias de crecimiento y de reducción de la desigualdad seguidas dentro de los últimos 15 años. Teniendo en cuenta que los objetivos planteados en las estrategias de crecimiento se pueden lograr mediante múltiples combinaciones de otras variables, se procedió a la desagregación del ingreso per cápita en sus componentes. Esto permitió condicionar el logro de las metas de crecimiento y, por lo tanto, el logro de reducción de la pobreza. La importancia de este trabajo radicaba en lograr el objetivo planteado, la reducción de la pobreza, gracias a las múltiples combinaciones de variables y el comportamiento que se originó entre ellas, metodologı́a que sirvió de ayuda para la realización de este estudio.. 1.3. Planteamiento del problema. Tal como se muestra en la tabla 1.1 desde el año de 1999 hasta el año del 2007, la variable desempleo ha sufrido algunas variaciones cualitativas y cuantitativas, las cuales introducen problemas a la hora de comparar las estadı́sticas entre un periodo y otro; estos reportes son dados a conocer periódicamente por el INE, pero en ninguna.
(16) 1.4 Objetivos. 6. de estas cifras se da a conocer la información detallada de las causas que provoca esta variación, se conoce que dentro del mercado laboral se suscitan algunos cambios, es decir, que una persona ocupada puede pasar a formar parte de la población desocupada o su inverso; que las personas que pertenecen a la PEA pasan a formar parte de la PEI o de la PEI pasar a formar parte de la PEA, tal como se explicó anteriormente, sin embargo no se da a conocer a qué se deben estos cambios o las causas que lo originan, razón por la cual surge la inquietud de realizar esta investigación con el objeto de observar si existen cambios en la variable desempleo y por ende cambios en la estructura de la fuerza laboral tanto en su definición, como en los cambios en sus patrones de medición. Para lograr este objetivo se hace uso de Minerı́a de Datos, ya que abarca una variedad de métodos estadı́sticos y computacionales tales como técnicas de análisis multivariante y técnicas en Inteligencia Artificial (IA) que permiten investigar la existencia de relaciones y patrones de comportamiento en los datos. Para esto se emplean los datos registrados en las EHM, como referencia oficial disponible mediante el organismo ejecutor y ente rector del Sistema Estadı́stico Nacional (SEN); INE.. 1.4. Objetivos. Los objetivos generales y especı́ficos propuestos en la investigación se describen en los siguientes apartados:. 1.4.1. Objetivo general. Descubrir y analizar los cambios, si existen, en la estructura de la variable desempleo a partir de los datos generados por las Encuestas de Hogares por Muestreo (EHM), utilizando técnicas de Minerı́a de Datos.. 1.4.2. Objetivos especı́ficos. • Realizar una preparación previa de los registros de las EHM, mediante un preprocesamiento que permita la organización adecuada de las muestras disponibles en el tiempo de registro desde 1995 hasta 2005. Simultáneamente, estandarizar.
(17) 1.5 Justificación. 7. algunas variables para establecer escalas uniformes de medida y extraer el componente de variables que inciden en el fenómeno del desempleo: variables demográficas y variables de la fuerza laboral. • Aplicar técnicas de análisis multivariante para variables cualitativas como un mecanismo adicional de preprocesamiento de los datos. Los resultados obtenidos de esta reducción permiten el agrupamiento de las variables existentes en unas nuevas no registradas que definen la estructura de la fuerza laboral y ası́, realizar un reconocimiento exhaustivo de las variables, tanto originales como no observadas (no registradas). • Aplicar minerı́a de datos, empleando inteligencia artificial para ejecutar algoritmos de búsqueda a través de árboles de decisión que permitan conocer la razón de los cambios en la estructura de la variable desempleo detectada en el objetivo anterior. • Comparar los resultados obtenidos en la composición de la estructura de la variable desempleo con la observada a través de las EHM • Caracterizar el comportamiento de la tasa de desocupación entre los años 1999 y 2005.. 1.5. Justificación. Claramente se ve una aparente tendencia que ha venido mostrando la variable de desempleo a lo largo del tiempo, tal como se muestra en la tabla 1.1 y como lo señalo Freije (2004), sin embargo no se ha dado a conocer con exactitud a que se deben dichos cambios, es por ello que surge la inquietud de realizar esta investigación para ver si existen cambios en la definición de la variable desempleo y por ende cambios en la estructura de la fuerza de trabajo, ası́ como en los patrones de medición. Otro de los puntos que impulsó a la realización de esta investigación es dar a conocer la importancia de realizar en cualquier estudio una fase de preprocesamiento. Dentro de la minerı́a de datos, existen técnicas de análisis multivariantes que permiten.
(18) 1.6 Limitaciones de la investigación. 8. observar el comportamiento de las variables entre ellas, ası́ como el descubrimiento de conocimiento obtenido mediante la construcción de variables latentes; en esta fase también se realiza una inspección de los datos para detectar posibles incoherencias que pudieran llevar a conclusiones erróneas. Esta etapa es importante realizarla previa a la utilización formal de los datos. En las investigaciones consultadas relacionadas con la fuerza de trabajo se puede notar que ambas han sido conducidas bajo métodos estadı́sticos y econométricos, lo que resulta interesante utilizar técnicas de IA especı́ficamente arboles de decisión ya que no solo tiene una alta capacidad de clasificación, sino que lo hace por medio de unas reglas de decisión que se dan a conocer.. 1.6. Limitaciones de la investigación. Una de las limitantes en esta investigación es la manera como se encuentra estructurada las EHM. Fue necesario organizarlas de manera coherente para hacer más conveniente el estudio. Las EHM recaban información de manera semestral y en cada registro semestral se encuentran todos los estados, como el caso de estudio es el estado Mérida fue necesario ordenar y extraer sólo los registros pertenecientes a esta entidad y fusionar todos los registros para realizar el estudio más cómodo. Otra limitante es que en las EHM se utilizan un gran número de variables para recopilar la información y estas cambian su denominación a lo largo del tiempo, ası́ como también eliminan variables a partir de un periodo dado e introducen unas nuevas, debido a esto fue necesario realizar el estudio a dos bloques de registros distintos, desde el año 1995 hasta el año 1998, y desde el año 1999 hasta el 2005.. 1.7. Organización del documento. En este documento se presentan 7 capı́tulos incluyendo este capı́tulo introductorio. En el capı́tulo 2 se describe algunos términos relacionados con la fuerza laboral ası́ como también la estructura actual de las EHM: definición, sus objetivos, finalidad de la encuesta, variables investigadas y los periodos de referencias para realizar las encuestas..
(19) 1.7 Organización del documento. 9. El capitulo 3 contiene todos los fundamentos teóricos de la minerı́a de datos necesarios para la realización de este estudio. El capitulo 4 explica la parte experimental inicial de la minerı́a de datos, el preprocesamiento de los datos: la manera como se encuentra estructurada las EHM originalmente y como se organiza dicha encuesta, ası́ como también el análisis de técnicas estadı́sticas multivariantes y técnicas de análisis exploratorio de datos. El capitulo 5 presenta la parte experimental de IA dentro de la minerı́a de datos, especı́ficamente el uso de arboles de clasificación. El capitulo 6 contiene los análisis y resultados obtenidos mediante las técnicas de análisis multivariantes y las técnicas de IA. Por último, el capitulo 7 presenta las conclusiones que se destacan en el estudio y las recomendaciones que podrı́an ser tomadas en cuenta para la continuación de este proyecto o la realización de nuevos proyectos..
(20) Capı́tulo 2 Fuerza de trabajo y encuestas de hogares por muestreo 2.1. Fuerza de trabajo. Según Bartra (1973), la fuerza de trabajo constituye el elemento básico y activo de la producción. Es la capacidad del hombre para producir los bienes materiales e intelectuales que requiere. Este término fue acuñado por Karl Marx, en su obra el Manifiesto del Partido Comunista y desarrollado luego con mayor profundidad en El Capital. Hace referencia a la capacidad fı́sica y mental, inherente a todo ser humano de realizar un trabajo. Es importante distinguir entre “Fuerza de Trabajo” y “Trabajo”. El último es la materialización, la concreción del potencial representado por la primera. El trabajo es producto del gasto de fuerza de trabajo humano. El valor de la fuerza de trabajo es el necesario para su reproducción, o dicho de otra forma, es el contenido en los bienes que forman la canasta de consumo obrero que varı́a en su composición en distintas culturas y en distintos momentos de las historia..
(21) 2.2 Principales definiciones relativas a la fuerza de trabajo. 2.2. 11. Principales definiciones relativas a la fuerza de trabajo. A manera de establecer terminologı́a común en lo referente al sector laboral y además, de disponer de un glosario general se incluye a continuación algunas definiciones según INE (2007). Población económicamente activa: Está constituida solo por las personas de 15 años y más, con disposición y disponibilidad para trabajar en el periodo de referencia, que es la semana anterior al dı́a de la entrevista. En cuanto a la tasa de actividad, se refiere al porcentaje de la población económicamente activa con respecto a la población total de 15 años y más. Población económicamente inactiva: Son aquellas personas de 15 años y más, estudiantes, amas de casa, rentistas, pensionados, jubilados y trabajadores familiares que trabajan menos de 15 horas a la semana. Para pertenecer a este grupo estas personas deben además cumplir con la condición de no haber hecho gestiones para conseguir empleo en el periodo de referencia. La tasa de inactividad es el porcentaje de la Población económicamente inactiva con respecto a la población total de 15 años y más. Población ocupada: Personas de 15 años y más de edad, de uno u otro sexo, quienes declararon que estaban trabajando o tenı́an un empleo, durante la semana anterior al dı́a de la entrevista. La tasa de ocupación es el porcentaje de la población ocupada con respecto a la población económicamente activa. Población Desocupada: Personas de 15 años y más, de uno u otro sexo, quienes declararon que durante la semana anterior al dı́a de la entrevista no estaban trabajando y estaban buscando trabajo con remuneración. Asimismo, se incluyen aquellas personas que nunca han trabajado y buscan trabajo por primera vez. La tasa de desocupación es el porcentaje de la población desocupada con respecto a la población económicamente activa. Población ocupada en el sector formal de la economı́a : Se considera que una persona está ocupada en el sector formal cuando labora en empresas de cinco personas o más, tanto del sector público como del sector privado. También se incluyen.
(22) 2.2 Principales definiciones relativas a la fuerza de trabajo. 12. a los trabajadores por cuenta propia profesionales universitarios. El porcentaje de formalidad es la relación porcentual de la población ocupada en el Sector Formal con respecto al total de la población ocupada. Población ocupada en el sector informal de la economı́a: Los trabajadores del Sector informal son aquellas personas ocupadas como servicio doméstico, trabajadores por cuenta propia no profesionales (tales como vendedores, artesanos, conductores, pintores, carpinteros, buhoneros, etc.). También se incluyen en este sector a los patronos, empleados, obreros y trabajadores familiares que laboran en empresas con menos de cinco personas ocupadas. El porcentaje de informalidad es la relación entre la población ocupada en el sector informal con respecto al total de la población ocupada. Sector empleador público: Se considera que una persona está ocupada en el Sector Público cuando labora en ministerios u organismos de la administración nacional, regional, estatal o municipal, universidades o instituciones de educación superior del Estado o en empresas con capital mayoritariamente del Estado. Sector empleador privado: Se considera que una persona está ocupada en el sector privado cuando labora en compañı́as anónimas o empresas familiares o en organizaciones no lucrativas (Scout, iglesias, etc.). Ramas de actividad económica: Se refiere a la naturaleza de los bienes y servicios que realizan el negocio, organización o empresa en el cual la persona económicamente activa se desempeña o desempeñaba. Ocupación: Es el tipo o clase de trabajo que efectúa una persona económicamente activa, ocupada, durante el perı́odo de referencia, o la desempeñada por una persona económicamente activa, desocupada, en su último trabajo. Categorı́a de ocupación: Es la relación entre una persona ocupada y el trabajo desempeñado. Estas categorı́as son: i) Empleado u obrero en el sector público, ii) Empleado u obrero en empresa privada. iii) Patrono o empleador, iv) Trabajador por cuenta propia, v) Miembro de cooperativa, vi) Sociedades de personas (o de hecho), vii) Ayudante o auxiliar..
(23) 2.3 Encuesta de hogares por muestreo. 2.3. 13. Encuesta de hogares por muestreo. De acuerdo a INE (2007) desde el año de 1967 se realiza en Venezuela las EHM que es una investigación aplicada estadı́sticamente y con propósitos múltiples. Surge con la necesidad de obtener información sobre la estructura, evolución del mercado de trabajo y las caracterı́sticas socioeconómicas de la población, especialmente en relación con variables susceptibles a modificaciones significativas en el corto plazo. A partir de las variables investigadas en la encuesta, se producen indicadores como la tasa de actividad económica, tasa de desempleo, tasa de cesantı́a, porcentaje de ocupados en el sector informal, entre otros. Igualmente, se producen una serie de tabulaciones, las cuales no limitan la información de la que puede disponer el investigador, para realizar sus propias investigaciones según sus necesidades de análisis, para lo cual la información generada por la encuesta se organiza para que permita un manejo sencillo y flexible de todas las variables investigadas, cuya única limitante está referida al alcance que el tamaño de la muestra permita. El programa de Encuestas de Hogares por Muestreo el cual se puso en funcionamiento de manera permanente a partir del segundo semestre del año 1967, contó con el apoyo incondicional de los gobiernos, responsables del suministro presupuestario que mantiene activo el proyecto. De igual manera, contaron con el apoyo de recursos humanos formados en universidades e institutos educativos nacionales e internacionales brindando nuevas técnicas y métodos para el mejoramiento continuo del diseño y de la puesta en marcha del proyecto. Según Seijas (citado en Bolı́var, 1997) este programa ha logrado mantenerse por más de treinta años por contar con la flexibilidad para incorporar de manera ágil y sólida los ajustes que se han requerido. En vista de que en una población permanentemente activa existen muchas caracterı́sticas que pueden variar de un perı́odo a otro, y el programa debe adecuarse a registrar los cambios para que se puedan presentar en la población, a fin de garantizar que la información producida sea fiel reflejo de las realidades socioeconómicas por las que ha atravesado el paı́s. Numerosos han sido los ajustes que han debido experimentar las Encuestas de Hogares por Muestreo durante estos casi cuarenta años. Sin embargo, ha logrado esos cambios sin necesidad de interrumpir el programa, convirtiéndose ası́ en el más antiguo de América Latina..
(24) 2.4 Organismo ejecutor de la EHM. 2.4. 14. Organismo ejecutor de la EHM. El instituto nacional de estadı́stica (INE) es el organismo ejecutor de la EHM y ente rector de sistema estadı́stico nacional (SEN) tiene la responsabilidad de ofrecer a los usuarios, además de los resultados de la investigación, poner a la disposición información referida a los aspectos metodológicos que sirven de base a este programa estadı́stico.. 2.5. Finalidad de la encuesta. • Proporcionar en forma oportuna y confiable a los organismos de planificación nacional y regional SEN, a las entidades gubernamentales, privadas y cientı́ficas y al público en general, la información sobre la estructura y evolución de la fuerza de trabajo y en particular, sobre el fenómeno del empleo y desempleo, como insumo para el análisis que pueda derivar en toma de decisiones. • Proporcionar a través de encuestas complementarias información para organismos oficiales que ası́ lo requieran, cuya temática tenga que ver con personas, hogar o la vivienda, para el análisis de temas especı́ficos. • Determinar las caracterı́sticas socioeconómicas y socio demográficas de la fuerza de trabajo. • Obtener elementos de análisis necesarios para diagnosticar los desequilibrios que se registran en el mercado de trabajo por el lado de la oferta, en términos de las caracterı́sticas económicas y sociales de la población. 2.6. Periodos de referencia. Según INE (2007) los periodos de referencias para recabar la información dada por los encuestados son: Para obtener el dato individual: para considerar el dato que ofrece el encuestado es la semana anterior a la realización de la encuesta..
(25) 2.7 Criterios de selección de la muestra. 15. Periodo en que se recaba la información (estimaciones): la fecha central del periodo correspondiente para recabar la informacion. Semestral (fechas aproximadas): 1er semestre: 30 de marzo. 2do semestre: 30 de septiembre. Trimestral (fechas aproximadas):1er trimestre: 15 de febrero. 2do trimestre: 15 de mayo. 3er trimestre: 15 de agosto. 4to trimestre: 15 de noviembre. Mensual: a nivel nacional dı́a 15 de cada mes. Actualmente la EHM realiza la encuesta de manera semestral. Periodo para recolectar la información: 1er semestre: 24 semanas, que van desde la semana 3 a la semana 26 del año. 2do semestre: 24 semanas, que van desde la semana 27 a la semana 50 del año.. 2.7. Criterios de selección de la muestra. La muestra es una selección aleatoria de viviendas y la entrevista se aplica a todos y cada uno de los hogares pertenecientes a dichas viviendas y dentro de cada hogar, a cada uno de los habitantes habituales. Por lo tanto, los hogares que conforman la muestra son todos aquellos pertenecientes a las viviendas seleccionadas. En foros realizados por el Instituto Nacional de Estadı́stica, señalan que actualmente, la muestra de cada semestre está conformada por 47.625 viviendas, considerándose que el tamaño de esta muestra es suficiente para generar resultados para la población total del paı́s. Sin embargo, no se logra la entrevista para todas las viviendas, por alguno de los siguientes motivos: Viviendas desocupadas, en ruinas, de uso vacacional, utilizadas como almacén o negocio, o porque en aquellas que están ocupadas no está la persona que puede dar información o en caso contrario se niegan a darla. Las EHM se realiza con periodicidad semestral, pero cada hogar será entrevistado mientras este seleccionada en la muestra la vivienda a la cual él pertenece. Hasta el año 2001 en su primer semestre las viviendas permanecı́an en la muestra durante seis semestres consecutivos a esto se le conoce cómo ”Rotación de la Muestra”, el cual consistı́a en que cada semestre salı́a 1/6 de las viviendas de la muestra, que fueron entrevistadas durante seis semestres seguidos; está proporción es reemplazada por un nuevo grupo de viviendas (1/6) incorporándose al panel de muestra..
(26) 2.8 Variables investigadas. 16. Según Gil (2008) a partir del segundo semestre del 2001 se cambió esta modalidad de rotación por una que es aplicada a aquellas viviendas que sólo hayan sido encuestadas durante los últimos tres años y ya muestren cansancio los informantes, rehusándose a dar información tal que esto implique un aumento en la tasa de no respuesta en dicha entidad.. 2.8. Variables investigadas. Las variables investigadas en la EHM según INE (2007) se pueden clasificar en los grupos que se señalan a continuación: a. Vertical de hábitat: se refieren a la condición de vida del hogar. Caracterı́sticas de la vivienda: se refiere a la tipologı́a constructiva, tenencia y densidad habitacional, incluyen: tipo de vivienda, condiciones fı́sicas (materiales predominantes en paredes, piso y techo), total de cuartos de la vivienda, número de cuartos para dormir, tenencia de la vivienda, servicio de agua, servicio de redes de disposición de excretas, total de salas de baño con ducha, servicios de la vivienda. Caracterı́sticas del hogar: Identifica los servicios disponibles para el hogar, ejemplo: tipo de vivienda, total de cuartos para dormir, uso exclusivo de baños con ducha o regadera, disponibilidad de artefactos domésticos, total de automóviles de uso particular, tenencia de la vivienda, dependencia de los gastos del hogar. b. Variables sociodemográficas: involucran un conjunto de caracterı́sticas referidas a las unidades familiares y a la población. Unidad familiar de convivencia: identificación del hogar,tipo de hogar. Unidad familiar de parentesco: núcleo familiar, parentesco con el jefe de hogar, determinación de núcleos familiares dentro del hogar, situación conyugal. Variables de población: Sexo, Edad en años cumplidos, fecha de nacimiento, lugar de nacimiento, fecha de llegada al paı́s (para nacidos en el exterior), presentación en el registro civil, tiempo de residencia en la entidad. Estas variables.
(27) 2.8 Variables investigadas. 17. son de relativa importancia para identificar demográficamente la fuerza laboral. c. Variables de caracterı́sticas educativas: identifican el conjunto de condiciones de vida vinculables a la incorporación de la población al sistema escolar formal y a los sistemas no formales, particularmente los de capacitación para el trabajo. Las variables que considera en este renglón son: Alfabetismo, Nivel de escolaridad, Asistencia a centro de enseñanza, Razones por las que no asiste regularmente a un centro de enseñanza. Estas variables también son tomadas en cuenta para el estudio, como parte del conjunto de variables demográficas. d. Variables de condición de actividad y fuerza de trabajo: estas variables identifican aquellos aspectos básicos socio-ocupacionales que se vinculan claramente con las condiciones de vida de los hogares. Situación en la fuerza de trabajo para la población ocupada – Actividad realizada en la semana de referencia – Realizada, durante la semana de referencia, con pago en dinero – Tenencia de trabajo o negocio. de no trabajar en la semana de referencia Caracterı́sticas de la población económicamente activa Para la población ocupada – Actividad, adicional a su trabajo principal, realizada, por la cual recibió ingresos. – Número de horas trabajadas durante la semana pasada, en su actividad principal – Número de horas trabajadas normalmente a la semana, en su actividad principal , adicional a su trabajo principal, realizada, normalmente, por la cual percibe ingresos – Número de horas trabajada normalmente en todos sus trabajos o negocios.
(28) 2.8 Variables investigadas. 18. – Ha hecho algo en el último mes para trabajar horas adicionales (disposición) – Ha hecho algo en los últimos dos a doce meses para trabajar (disposición) – Disponibilidad para empezar a trabajar – Tenencia de segundo trabajo – Horas trabajas en la semana de referencia – Horas normales de trabajo a la semana – Ocupación – Actividad económica – Tamaño de la empresa – Figura Jurı́dica de la empresa para la cual trabaja Para la población desocupada – Intención de trabajar en los dos últimos meses – Intención de trabajar en la semana de referencia – Motivo por el cual no está buscando trabajo actualmente – Tiempo de cesantı́a – Ocupación en su último trabajo – Actividad económica de su último trabajo – Categorı́a de ocupación en su último trabajo – Motivo del desempleo Caracterı́sticas de la población económicamente inactiva – Tipo de ocupación – Identificación de tareas que realiza en el trabajo – Categorı́a de ocupación – Rama de actividad económica.
(29) 2.8 Variables investigadas. 19. – Personas ocupadas en el sector informal – Lugar de desempeño del trabajo Del conjunto de variables antes señalado se va hacer más énfasis para la realización de este estudio, a las variables de condición de actividad y fuerza de trabajo, estas incluyen a las variables: situación en la fuerza de trabajo para la población ocupada y caracterı́sticas de la población económicamente activa e inactiva..
(30) Capı́tulo 3 Minerı́a de datos 3.1. Minerı́a de datos. En los últimos años se ha elevado la capacidad de generar y almacenar información. Según Vallejos (2006) se ha estimado que la cantidad de datos en el mundo almacenados en bases de datos se duplica cada 20 meses. Sin embargo, dentro de estas masas de datos existe una cantidad de información oculta que solo puede ser descubierta por la minerı́a de datos. La minerı́a de datos es un mecanismo de exploración de datos para la explotación o descubrimiento de nuevos conocimientos en grandes volúmenes históricos de datos mediante patrones de búsqueda capaces de construir información valiosa inexistente, y en algunos casos inviable, por las técnicas clásicas de recuperación de información. Sin embargo, tal como lo señala Fayyad et al. (1996): “La minerı́a de datos es un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos”, o como lo dice Molina et al. (2001): “Es la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión”. En la figura 3.1 se ilustra la jerarquı́a que existe en una base de datos entre datos, información y conocimiento. Se observa igualmente el volumen de datos que presenta en cada nivel y el valor que le da el responsable del estudio a esa jerarquı́a. El área interna.
(31) 3.1 Minerı́a de datos. 21. dentro del triángulo representa los objetivos que se han propuesto. La separación del triángulo representa como los datos y la información están relacionados, pero no la información y el conocimiento.. Figura 3.1: Jerarquı́a del conocimiento. La minerı́a de datos, o descubrimiento de conocimiento en Bases de Datos, abarca una variedad de métodos estadı́sticos y computacionales para investigar la existencia de relaciones y patrones de comportamiento en almacenamientos electrónicos de datos. Según Sananes et al. (s.f.) Relaciones y patrones emergentes pueden sugerir al investigador explicaciones causales que puedan ser verificadas posteriormente o bien pueden sugerir estrategias de acción para lograr ciertos objetivos de cambio. El descubrimiento de conocimiento en base de datos (En inglés, Knowledge Data Discovery, KDD) combina las técnicas tradicionales con numerosos recursos desarrollados en el área de la inteligencia artificial..
(32) 3.2 Etapas principales aplicadas a la minerı́a de datos. 3.2. 22. Etapas principales aplicadas a la minerı́a de datos. El proceso de KDD consiste en usar métodos de minerı́a de datos(algoritmos) para extraer lo que se considera como conocimiento de acuerdo a la especificación de ciertos parámetros usando una base de datos junto con preprocesamientos y postprocesamientos. Rivera (2006) describe las etapas que involucran una minerı́a de datos, los cuales sintetiza en los pasos que se señalan a continuación. 3.2.1. Determinación de los objetivos. Delimitar los objetivos que se desean bajo la orientación del especialista en minerı́a de datos.. 3.2.2. Preprocesamiento de los datos. se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos, mediante las técnicas de análisis multivariantes y técnicas de análisis exploratorios de datos, tales como: análisis de correspondencia múltiple, diagrama de cajas y bigotes, clusters, etc. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de minerı́a de datos. 3.2.3. Selección de las variables. Aún después de haber sido preprocesado los datos, en la mayorı́a de los casos se tiene una cantidad abrumadora de datos y de variables. La selección de caracterı́sticas reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, cuidando de no perder la calidad del modelo de conocimiento obtenido del proceso de minerı́a. Los métodos para la selección de caracterı́sticas son básicamente dos: aquellos basados en la elección de los mejores atributos del problema y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurı́sticos..
(33) 3.2 Etapas principales aplicadas a la minerı́a de datos. 3.2.4. 23. Determinación del modelo. Mediante una técnica de minerı́a de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos. Las máquinas de aprendizaje o inteligencia artificial contribuyen a la construcción del modelo de conocimiento más apropiado para el conjunto de datos que se está explorando.. 3.2.5. Análisis de los resultados. Finalmente se realiza una interpretación y evaluación de los resultados, se verifica si los resultados obtenidos son coherentes y se compara con los conseguidos por el análisis estadı́stico o de visualización gráfica. Interpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el proceso, quizás con otros datos, otros algoritmos, otras metas y otras estrategias. Este es un paso crucial en donde se requiere tener conocimiento del dominio. La interpretación puede beneficiarse de procesos de visualización, y sirve también para borrar patrones redundantes o irrelevantes. De esta manera estas etapas podrı́an convertirse en un proceso iterativo involucrando la aplicación de varios algoritmos de minerı́a de datos. En la figura 3.2 se desarrolla el esquema hasta la obtención del conocimiento, partiendo de la base de datos de interés.. Figura 3.2: Etapas de la minerı́a de datos.
(34) 3.3 Minerı́a de datos: Análisis estadı́stico multivariante y análisis exploratorio de datos 24. 3.3. Minerı́a de datos: Análisis estadı́stico multivariante y análisis exploratorio de datos. Martinez (2007) señala que previa a cualquier utilización formal, los datos deben ser examinados para detectar posibles anomalı́as que pudieran llevar a conclusiones erróneas. Las técnicas estadı́sticas de análisis exploratorio de datos y análisis multivariante han sido aplicadas en un número creciente de áreas de conocimiento, debido a que son particularmente apropiadas para el estudio de grandes volúmenes de datos, en los que es imposible, dado el tamaño, observar de inmediato sus caracterı́sticas estructurales Anderson (1958). El uso apropiado de técnicas para el análisis de datos como: diagrama de cajas y bigotes, análisis de correspondencia múltiple, etc., puede mitigar los inconvenientes más comunes como: datos faltantes, valores atı́picos, colinealidad, etc.. 3.3.1. Variables con Valores Atı́picos (Diagrama de cajas y bigotes). Segun Hawkins (1980) los valores atı́picos u ‘outliers‘ son aquellos casos para los que una, dos o múltiples variables toman valores extremos que los hace diferir del comportamiento del resto de la muestra y permiten al investigador sospechar que han sido generados por mecanismos distintos al resto Un problema con la distribución de los valores de una variable, ocurre cuando existen valores extremos no representativos. Para mayores volúmenes de casos podrı́a haber diversos valores extremos y hay que tratar de identificarlos y eliminarlos. Según Nettleton (2003) Si no se eliminan, estos valores, pueden perjudicar las estadı́sticas de los datos en su conjunto. De las técnicas más populares que permiten detectar estos valores atı́picos, son los diagramas de cajas y bigotes o “boxplot”. Esta técnica permite ver aquellas observaciones que se encuentran alejadas de la masa de datos; es decir, no guardan ningún tipo de relación con respecto al resto. El gráfico consiste en un rectángulo (caja), donde los.
(35) 3.3 Minerı́a de datos: Análisis estadı́stico multivariante y análisis exploratorio de datos 25. lados más largos muestran el recorrido intercuartı́lico. Este rectángulo está dividido por un segmento vertical que indica donde se posiciona la mediana y por lo tanto su relación con el cuartil superior (percentil 75 del vector de datos) y el cuartil inferior (percentil 25 del vector de datos). Si la cantidad de números es impar, la mediana es el número que se encuentra en medio de ese conjunto de números ordenados. Si la cantidad de números en el conjunto es par, la mediana se calcula como el promedio de los números centrales ordenados. Este rectángulo se ubica a escala sobre un segmento que tiene como extremos los valores mı́nimo y máximo de la variable. Estos segmentos que quedan a la izquierda y a la derecha de la caja se llaman bigotes. Freund et al. (1992). 3.3.2. Análisis de correspondencia múltiple. Considerada como técnica de reducción del número de variables y construcción de variables no observadas. Permite medir la asociación lineal presente entre las variables; es decir, construye un diagrama cartesiano basado en la relación de dependencia e independencia de un conjunto de variables cualitativas de carácter categórico. La correspondencia es un análisis descriptivo y exploratorio diseñado para analizar tablas simples en ambos sentidos y en múltiples sentidos que contienen un cierto grado de correspondencia entre las filas y columnas. Los resultados proporcionan información que es de naturaleza similar a las producidas por las técnicas de análisis factorial, y permiten explorar la estructura de variables categóricas incluidas en la tabla. Por medio de un gráfico se representa conjuntamente las distintas modalidades de la tabla de contingencia que se origina de la combinación de las categorı́as entre las variables que se están estudiando. La proximidad entre los puntos representados está relacionada con el nivel de asociación entre dichas modalidades. Dı́az (2002) señaló que el Análisis de Correspondencia Múltiple (ACM) busca aquellas variables o factores cercanos (altamente correlacionados) con todos los grupos de modalidades..
(36) 3.4 Minerı́a de datos e inteligencia artificial. 3.4. 26. Minerı́a de datos e inteligencia artificial. La tecnologı́a informática o computacional con algoritmos secuenciales ha superado enormemente a los humanos en algunas tareas, como las operaciones matemáticas. Sin embargo, existen muchas tareas que son triviales para los humanos pero que resultan complicadas para los ordenadores, tales como el procesamiento del lenguaje natural, el reconocimiento de formas, el proceso de la visión, etc. Con este motivo se han desarrollado las técnicas denominadas de Inteligencia Artificial (IA).. 3.4.1. ¿Qué es la IA?. Según Nils (2001) la inteligencia Artificial, es una definición amplia y un tanto circular, tiene por objeto el estudio del comportamiento inteligente en las máquinas. A su vez, el comportamiento inteligente supone percibir, razonar, aprender, comunicarse y actuar en entornos complejos. Una de las metas a largo plazo de la IA es el desarrollo de máquinas que puedan hacer todas estas cosas igual, o incluso mejor, que los humanos. Otra meta de la IA es llegar a comprender este tipo de comportamiento, sea en las máquinas, en los humanos o en otros animales. Los términos de IA son ampliamente utilizados tanto por separados como de forma conjunta. Se propone, en principio, algunas definiciones: “La inteligencia artificial estudia cómo lograr que las máquinas realicen tareas que, por el momento, son realizadas mejor por los seres humanos” Rich & Kinight (1994) “Se denomina inteligencia artificial a la rama de la informática que desarrolla procesos que imitan a la inteligencia de los seres vivos. La principal aplicación de esta ciencia es la creación de máquinas para la automatización de tareas que requieran un comportamiento inteligente”. enciclopedia libre (2007) “El ofrecimiento por parte de la máquina de comportamiento parecido al humano que es capaz de acomodarse o ajustarse a una disposición o situación real o ficticia y poder escoger de acuerdo a una serie de particularidades para dar una respuesta rápida y lo más acertada posible ”. Costa (1995) Todas estas definiciones hacen referencia a la idea de lograr un comportamiento inteligente semejante al humano; sin embargo, dentro de la IA también se estudian.
(37) 3.4 Minerı́a de datos e inteligencia artificial. 27. aquellos problemas que le resulten difı́ciles a los humanos. Como indican Rich & Kinight (1994), las técnicas de IA tienen tres caracterı́sticas principales que las diferencian de los otros métodos: • La búsqueda para explorar las distintas posibilidades en aquellos problemas donde los pasos a seguir no estén claramente definidos. • El empleo de conocimiento que permite explotar la estructura y relaciones del mundo o dominio al que pertenece el problema, y la reducción del número de posibilidades por considerar, tal como hacemos los humanos. • La abstracción que proporciona la manera de generalizar para los casos intrı́nsicamente similares. Según Guerrero & Lopez (2001) la minerı́a de datos se divide en dos escuelas de pensamiento, la inteligencia artificial convencional y la inteligencia computacional. Este estudio será referido a la convencional y tiene que ver con métodos que actualmente se conocen como máquinas de aprendizaje, se caracteriza por el formalismo y el análisis estadı́stico. Algunos métodos de esta rama incluyen: sistemas expertos, redes bayesianas, inteligencia artificial basada en comportamientos, árboles de decisión, etc.. 3.4.2. Algoritmo de búsqueda mediante un modelo de arboles de clasificación. Los arboles de clasificación, también llamados árboles de decisión, son uno de los métodos de aprendizaje inductivo supervisado no paramétrico más utilizados en la búsqueda de nuevo conocimiento. Los sistemas basados en árboles de decisión forman una familia llamada TDIDT (Top-Down Induction of Decision Trees). Según Larrañanaga et al. (s.f.) los algoritmos pertenecientes a esta familia pueden ser contemplados como uniformizador de la mayorı́a de los algoritmos de inducción de arboles de clasificación a partir de un conjunto de datos conteniendo patrones etiquetados..
(38) 3.4 Minerı́a de datos e inteligencia artificial. 28. Estructura de un árbol de clasificación Básicamente la estructura principal de los arboles de clasificación pertenecientes a la familia TDIDT es la misma y están formados por: Nodos: Nombres o identificadores de los atributos. Ramas: Posibles valores del atributo asociado al nodo. Hojas: Conjuntos ya clasificados de ejemplos y etiquetados con el nombre de una clase. Construcción de los árboles de decisión Dentro de la familia de árboles TDIDT, se encuentran los algoritmos de clasificación el ID3 y el C4.5. Según Espino (2005) el esqueleto de este método para construir un árbol de decisión a partir de un conjunto de datos de entrenamiento T es muy simple. Sean las clases {C1, C2,. . ., Ck}. Existen tres posibilidades: 1. T contiene uno o más casos, todos pertenecientes a una única clase Cj: El árbol de decisión para T es una hoja identificando la clase Cj. 2. T no contiene ningún caso: El árbol de decisión es una hoja, pero la clase asociada debe ser determinada por información que no pertenece a T. 3. T contiene casos pertenecientes a varias clases: En este caso, la idea es refinar T en subconjuntos de casos que tiendan, o parezcan tender, hacia una única clase. Tal y como puede verse en la Figura 3.3, las variables predictoras X están representadas en el árbol de clasificación insertadas en un cı́rculo; mientras que las hojas del árbol por medio de un rectángulo, en el cual se inserta el valor de la variable clase que el árbol de clasificación asigna a aquellos casos que bajan por las correspondientes ramas del árbol de clasificación. El árbol de clasificación de la Figura 3.3 tiene para todas las ramas una profundidad de 2, siendo este concepto de profundidad el que proporciona una idea de la complejidad.
(39) 3.4 Minerı́a de datos e inteligencia artificial. 29. del árbol de clasificación y para los efectos de minerı́a, el nivel de complejidad de búsqueda de nuevos patrones de conocimiento.. Figura 3.3: Ejemplo de un árbol de clasificación. Algoritmo ID3 Uno de los algoritmos de inducción de arboles de clasificación más populares es el denominado ID3, introducido por Quinlan (n.d.). El criterio de decisión escogido para seleccionar la variable más informativa está basado en el concepto de cantidad de información mutua entre dicha variable y la variable clase. La terminologı́a usada en este contexto para denominar a la cantidad de información mutua es la de ganancia de información (information gain). Esta ganancia de información está basada en la entropı́a que es la cantidad de bits, en promedio, que harı́an falta para codificar mensajes que indicaran las clases de los ejemplos; una baja entropı́a indica que el atributo es uniforme y una alta entropı́a que el atributo es variado e interesante. Esto es debido a que I (C—X) = H(C) - H (C—X), siendo I (C—X) la ganancia de información resultante de dividir al sub conjunto C, según el atributo X. Lo que.
(40) 3.4 Minerı́a de datos e inteligencia artificial. 30. viene a representar dicha cantidad de información mutua entre X y C es la reducción en incertidumbre en C debida al conocimiento del valor de la variable X. Donde: H(c) =. X. p(c)log2 p(c). c. H(c|x) = −. XX c. p(x, c) log2 p(c|x). x. Siendo H(c) la entropı́a del conjunto de datos y H (c—x) la entropı́a que tendrı́a los conjuntos restantes de la división de datos según el atributo x. Matemáticamente se demuestra que este criterio de selección de variables utilizado por el algoritmo ID3 no es justo ya que favorece la elección de variables con mayor número de valores, es decir, que tienen mayor probabilidad de ser elegidas aquellas variables que tenga un mayor números de categorı́as. Además, el algoritmo ID3 efectúa una selección de variables previa denominada preprunning que consiste en efectuar un test de independencia entre cada variable predictora Xi y la variable clase C, de tal manera que para la inducción del árbol de clasificación tan sólo se van a considerar aquellas variables predictoras para las que se rechaza el test de hipótesis de independencia. Algoritmo C4.5 Quinlan (1993) propone una mejora del algoritmo ID3, al que denomina C4.5, este algoritmo genera un árbol de decisión a partir de los datos mediante particiones realizadas recursivamente. El árbol se construye mediante la estrategia de profundidad-primero (depth-first). El algoritmo C4.5 utiliza una técnica heurı́stica conocida como proporción de ganancia (gain ratio). Es una medida basada en información que considera diferentes números y diferentes probabilidades de los resultados de las pruebas. El algoritmo considera todas las pruebas posibles que pueden dividir el conjunto de datos y selecciona la prueba que le haya generado la mayor ganancia de información. Para cada atributo discreto, se considera una prueba con n resultados, siendo n el número de valores posibles que puede tomar el atributo. Para cada atributo continuo,.
(41) 3.4 Minerı́a de datos e inteligencia artificial. 31. se realiza una prueba binaria sobre cada uno de los valores que toma el atributo en los datos. En cada nodo, el sistema debe decidir cuál prueba escoge para dividir los datos. Según Espino (2005) los tres tipos de pruebas posibles propuestas para el C4.5 son: • La prueba estándar para las variables discretas, con un resultado y una rama para cada valor posible de la variable. • Una prueba más compleja, basada en una variable discreta, en donde los valores posibles son asignados a un número variable de grupos con un resultado posible para cada grupo, en lugar de para cada valor. • Si una variable A tiene valores numéricos continuos, se realiza una prueba binaria con resultados A<= Z y A > Z, para lo cual debe determinarse el valor lı́mite Z. Todas estas pruebas se evalúan observando la ganancia resultante de la división de datos que producen. Ha sido útil agregar una restricción adicional: para cualquier división, al menos dos de los subconjuntos Ci deben contener un número razonable de casos. Esta restricción, que evita las subdivisiones casi triviales, es tenida en cuenta solamente cuando el conjunto C es pequeño. Caracterı́sticas del algoritmo C4.5 • Permite trabajar con valores continuos para los atributos, separando los posibles resultados en 2 ramas Ai<=N y Ai>N. • Los árboles son menos frondosos, ya que cada hoja cubre una distribución de clases no una clase en particular. • Utiliza el método “divide y vencerás” para generar el árbol de decisión inicial a partir de un conjunto de datos de entrenamiento. • Se basa en la utilización del criterio de proporción de ganancia (gain ratio), definido como I(Xi,C)/H(Xi). De esta manera se consigue evitar que las variables con mayor número de categorı́as salgan beneficiadas en la selección. • Es Recursivo..
(42) 3.4 Minerı́a de datos e inteligencia artificial. 32. Atributos usados por el algoritmo C4.5 Los atributos o variables poseen caracterı́sticas propias que las diferencian una de otras, existen algoritmos que solo se desarrollan para atributos en particular, en el caso del algoritmo C4.5, los atributos para los cuales se desarrollo dicho algoritmo son los siguientes: Atributos de valores continuos: El algoritmo C4.5 no solo se desarrolla para atributos de valores discretos como en el caso del algoritmo ID3 también se pueden incorporar atributos con valores continuos, se transforma estas variables o atributos en variables categóricas; es decir, se dividen estos valores en intervalos discretos, de forma que el atributo tendrá siempre valores comprendidos en uno de estos intervalos. Medidas alternativas en la selección de atributos: El algoritmo ID3 utiliza la ganancia de información, para la elección del atributo, sin embargo estos atributos no son buenos predictores de la función objetivo para nuevos ejemplos, ya que dicha ganancia introduce un sesgo que favorece a los atributos con muchos valores distintos, debido a que dividen el conjunto de ejemplos en muchos subconjuntos, lo que hace que la ganancia de información sea alta. Una medida alternativa que propuso Quinlan (1993) fue la gain ratio (proporción de ganancia) ganancia que usa el algoritmo C4.5 y que ha resultado un éxito. Atributos con valores perdidos: En ciertos casos existen atributos de los cuales conocemos su valor para algunos ejemplos, y para otros no. En estos casos lo más común es estimar el valor basándose en otros ejemplos de los que sı́ conocemos el valor. Normalmente se fija la atención en los demás ejemplos de ese mismo nodo. Ası́, al ejemplo de valor desconocido se le da el valor que más aparezca en los demás ejemplos. Ventajas del algoritmo C4.5 • Evitar sobre-ajuste de los datos. • Determinar que tan profundo debe crecer el árbol de decisión. • Reducir errores en la poda (prunning). • Condicionar la Post-Poda.
(43) 3.4 Minerı́a de datos e inteligencia artificial. 33. • Manejar atributos continuos. • Escoger un rango de medida apropiado. • Manejo de datos de entrenamiento con valores faltantes. • Mejora la eficiencia computacional. • Las reglas de decisión son simples y legibles, por tanto la interpretación de los resultados es directa e intuitiva. • Es robusta frente a datos atı́picos u observaciones mal etiquetadas. • Es computacionalmente rápido Sobre-ajuste (overfitting) A medida que se divide un nodo creando un sub árbol, se añaden niveles a los arboles de clasificación, refinando tanto las hipótesis, que describan muy bien los ejemplos utilizados en el aprendizaje, sin embargo el error de clasificación puede aumentar al evaluar estos ejemplos. Es decir, clasifica muy bien los datos de entrenamiento pero luego no sabe generalizar al conjunto de prueba. Es debido a que aprende hasta el ruido del conjunto de entrenamiento. Este efecto es, por supuesto, indeseado. Hay varias causas posibles para que esto ocurra, las principales son: • Exceso de ruido (lo que se traduce en nodos adicionales). • Un conjunto de entrenamiento demasiado pequeño como para ser una muestra representativa de la verdadera función objetivo. • Hay varias estrategias para evitar el sobre-ajuste en los datos. Pueden ser agrupadas en dos clases: estrategias que frenan el crecimiento del árbol antes de que llegue a clasificar perfectamente los ejemplos del conjunto de entrenamiento y estrategias que permiten que el árbol crezca completamente, y después realizan una poda..
(44) 3.4 Minerı́a de datos e inteligencia artificial. 34. Post prunning (post poda) La post poda se realiza luego de haber sido generado el árbol de clasificación, podando las ramas necesarias para mejorar su rendimiento y a su vez obtener un árbol más sencillo y cómodo de estudiar. Pero además el C4.5 convierte el árbol a un conjunto de reglas antes de podarlo. Hay tres razones principales para hacer esto: • Ayuda a distinguir entre los diferentes contextos en los que se usa un nodo de decisión, debido a que cada camino de la raı́z a una hoja se traduce en una regla distinta. • Deja de existir la distinción entre nodos que están cerca de la raı́z y los que están lejos. Ası́ no hay problemas para reorganizar el árbol si se poda un nodo intermedio. • Mejora la legibilidad. Las reglas suelen ser más fáciles de entender. Pseudocódigo de C4.5 Según Espino (2005) el pseucódigo del algoritmo C4.5 es el siguiente: Función C4.5 R: conjunto de atributos no clasificadores, C: atributo clasificador, S: conjunto de entrenamiento, devuelve un árbol de decisión Comienzo Si S está vacı́o, Devolver un único nodo con Valor Falla; para formar el nodo raı́z Si todos los registros de S tienen el mismo valor para el atributo clasificador, Devolver un único nodo con dicho valor; un único nodo para todos Si R está vacı́o, Devolver un único nodo con el valor más frecuente del atributo clasificador en los registros de S [Nota: habrá errores, es decir, registros que no estarán bien clasificados, en este caso];.
Documento similar
En cuarto lugar, se establecen unos medios para la actuación de re- fuerzo de la Cohesión (conducción y coordinación de las políticas eco- nómicas nacionales, políticas y acciones
D) El equipamiento constitucional para la recepción de las Comisiones Reguladoras: a) La estructura de la administración nacional, b) La su- prema autoridad administrativa
que hasta que llegue el tiempo en que su regia planta ; | pise el hispano suelo... que hasta que el
Para ello, trabajaremos con una colección de cartas redactadas desde allí, impresa en Évora en 1598 y otros documentos jesuitas: el Sumario de las cosas de Japón (1583),
d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que
Ciaurriz quien, durante su primer arlo de estancia en Loyola 40 , catalogó sus fondos siguiendo la división previa a la que nos hemos referido; y si esta labor fue de
En este trabajo estudiamos la obra poética en español del escritor y profesor argelino Salah Négaoui, a través de la recuperación textual y análisis de Poemas la voz, texto pu-
Las manifestaciones musicales y su organización institucional a lo largo de los siglos XVI al XVIII son aspectos poco conocidos de la cultura alicantina. Analizar el alcance y