Redes neuronales artificiales aplicadas en el sistema de calidad de una institución educativa Edición Única
Texto completo
(2) INSTTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY CAMPUS MONTERREY DIVISIÓN DE INGENIERÍA Y ARQUITECTURA PROGRAMA DE GRADUADOS EN INGENIERÍA. Los miembros del comité de tesis recomendamos que el presente proyecto de tesis presentado por el Ing. Alejandro Islas Cerón sea aceptado como requisito parcial para obtener el grado académico de:. MAESTRO EN CIENCIAS PRODUCTIVIDAD. CON. ESPECIALIDAD. EN. SISTEMAS. DE. CALIDAD. Y. Comité de tesis:. ____________________________ Francisco R. Angel-Bello Acosta, Ph. D. Asesor. __________________________ Rafael E. Bourguet Díaz, Ph. D Sinodal. ________________________ José G. Ríos Alejandro, Ph. D. Sinodal. Aprobado:. __________________________________ Francisco R. Angel-Bello Acosta, Ph. D. Director del Programa de Graduados en Ingeniería Diciembre de 2006. ii.
(3) DEDICATORIA. A Dios A mi familia A mis amigos A mis alumnos. iii.
(4) AGRADECIMIENTOS. A mi familia, a todos mis maestros, al personal de la Universidad Tecnológica de Tula-Tepeji y al gobierno de México.. iv.
(5) RESUMEN Actualmente los sistemas de calidad los encontramos en muchas de las actividades humanas. Los servicios educativos tanto públicos como privados no son la excepción. Con la implementación de un sistema de calidad se busca incrementar la eficiencia en el manejo de los recursos de la institución educativa, aumentar su prestigio, desarrollarse, pero sobre todo, satisfacer al usuario. El presente trabajo esta enfocado precisamente a la medición de la satisfacción de los egresados de la Universidad Tecnológica de Tula-Tepeji como estrategia para mejorar los procesos internos de la misma. La información obtenida de las encuestas de seguimiento de egresados se utiliza posteriormente en técnicas estadísticas y matemáticas para determinar el impacto que tiene en la satisfacción de los egresados algunas de las variables del proceso enseñanza-aprendizaje. A diferencia de otras técnicas de estadística descriptiva, el presente trabajo intenta enlazar las causas con los efectos. Dicho en otras palabras, no solo se trata de conocer el nivel de satisfacción de los egresados, sino las causas que lo originaran para después proponer acciones correctivas y preventivas. Las variables medidas en las encuestas son de tipo dicotómicas y es por ello que se aplica una red neuronal artificial clasificadora de dos tipos. El proceso consiste en encontrar el número adecuado de neuronas en la capa oculta, determinar los pesos y validar la red. Con la determinación de variables significativas obtenidas de la regresión logística binaria y con las predicciones que se pueden hacer con la red neuronal artificial, la institución contará con mayores elementos para implementar acciones correctivas acertadas y de manera oportuna.. v.
(6) INDICE Resumen...........................................................................................V CAPITULO I. Introducción 1.1 Antecedentes.............................................................................................1 1.2 Planteamiento del problema......................................................................2 1.2.1 Objetivos 1.2.2 Hipótesis 1.3 Justificación...............................................................................................3 CAPÍTULO II. Marco Teórico 2.1 Introducción................................................................................................5 2.2 ISO 9000....................................................................................................5 2.2.1 Estructura de las normas ISO9000:2000 2.2.2 Enfoque al cliente 2.3 Cómo medir la satisfacción del cliente.......................................................7 2.3.1 Diseño de encuestas de satisfacción 2.3.2 Encuesta de seguimiento de egresados para las Universidades Tecnológicas 2.3.3 Análisis y uso de la retroalimentación del cliente 2.4 Teoría estadística. Tamaño de la muestra y análisis de correlación..................................................................................................9 2.5 Regresión logística Binaria.......................................................................12 2.5.1 Significancia estadística de cada coeficiente 2.5.2 Bondad de ajuste del modelo 2.5.3 Residuales del modelo logístico 2.6 Redes neuronales artificiales para la clasificación...................................17 2.6.1 Introducción a las redes neuronales 2.6.2 Redes neuronales para la clasificación 2.6.3 Solución al problema de la separabilidad lineal 2.6.4 Formulación del problema y descripción de la metodología CAPÍTULO III. Metodología y proceso de la investigación 3.1 Descripción general..................................................................................35 3.2 Análisis de la información con regresión logística....................................37 3.2.1 Modelo logit para dificultad con el manejo de equipos especializados vi.
(7) 3.2.2 Modelo logit para dificultad con deficiencias en conocimientos generales 3.2.3 Modelo logit para dificultad con deficiencias en conocimientos específicos de su carrera 3.2.4 Modelo logit para dificultad con deficiencias en conocimientos del idioma inglés 3.2.5 Modelo logit para dificultad en el manejo de PC y software 3.2.6 Modelo logit para dificultad para trabajar en equipo 3.2.7 Modelo logit para dificultad para coordinar personas 3.2.8 Modelo logit para dificultad para tomar decisiones 3.2.9 Modelo logit para dificultad con deficiencias en comunicación oral y escrita 3.3 Análisis usando redes neuronales artificiales...........................................61 3.3.1 Red neuronal artificial para dificultad con el manejo de equipo especializado 3.3.2 Red neuronal artificial para dificultad en deficiencias en conocimientos generales 3.3.3 Red neuronal artificial para dificultad en deficiencias en conocimientos específicos de su carrera 3.3.4 Red neuronal artificial para dificultad en deficiencias en conocimientos del idioma inglés 3.3.5 Red neuronal artificial para dificultad en el manejo de PC y Software 3.3.6 Red neuronal artificial para dificultad en trabajo en equipo 3.3.7 Red neuronal artificial para dificultad en coordinar personas 3.3.8 Red neuronal artificial para dificultad en tomar decisiones 3.3.9 Red neuronal artificial para dificultad en comunicación oral y escrita CAPÍTULO IV. Análisis de resultados y conclusiones. 4.1 Análisis de los resultados obtenidos.........................................................83 4.2 Interpretación de los predictores significativos..........................................83 4.3 Uso de los resultados de las redes neuronales artificiales........................87 4.3 Conclusión.................................................................................................90 Anexos Referencias bibliográficas VITA. vii.
(8) 1. CAPÍTULO I. 1. Introducción 1.1 Antecedentes. El diseño y operación de un sistema de calidad en el área de servicios no es una tarea fácil y mucho menos cuando se trata de servicios educativos. En un servicio educativo el éxito del mismo depende en gran medida de la persona que lo recibe. La calidad del proceso de enseñanza-aprendizaje depende tanto de la institución educativa, como del alumno. El servicio educativo es más complejo que otros tipos. En un sentido muy general, cuando hablamos del área de servicios existen 2 actores principales, el cliente que es el que específica lo que desea del servicio para sentirse satisfecho y la organización que se encarga de recoger estas expectativas y diseñar todo un proceso para satisfacerlas. Cuando nos referimos a servicio educativo público de educación superior, las cosas cambian, el receptor del servicio educativo (alumno) en ocasiones debe ser tratado como cliente y en otras ocasiones como proveedor de insumos para el proceso. Existe otro actor, la sociedad, que debe ser considerado como el cliente principal, pues es la que aporta los recursos económicos para que la institución educativa siga operando, la sociedad esta representada por el poder legislativo que autoriza el presupuesto. Para cerrar el sistema tenemos que incluir a los contratadores, pues serán ellos quienes determinen los conocimientos que debe tener un egresado que recibió el servicio educativo. En resumen, la institución educativa hace estudios con los contratadores para determinar los conocimientos que demanda el mercado laboral de ciertos profesionistas y con esta información diseña sus planes de estudio. Al alumno, durante el proceso enseñanza-aprendizaje, se le considerará como cliente para.
(9) 2 evaluar su satisfacción cuando se trate de. instalaciones como laboratorios,. cafetería, canchas y otros servicios de apoyo. Pero dentro del proceso será tratado como proveedor de capacidad de aprendizaje, aptitudes, actitudes y conocimientos previos. El sistema de Universidades Tecnológicas fue creado en México en 1991. A finales de la década pasada este sistema de Universidades se certificó en la norma ISO-9000 con la intención de. incrementar la calidad de los servicios. educativos que ofrece, ajustar la pertinencia de los planes y programas de estudio e incrementar la eficiencia de los recursos económicos aportados por el estado y su prestigio como subsistema de educación público. El poder legislativo, a través de la Secretaría de Educación Pública, evalúa los resultados que está obteniendo el sistema de Universidades Tecnológicas y en función de estos asigna el presupuesto anual siguiente. 1.2 Planteamiento del problema. Parte del sistema de calidad de las Universidades tecnológicas lo constituye el seguimiento de egresados. En 2005, Adolfo Mir publica los resultados de la situación laboral de los profesionistas formados en las Universidades Tecnológicas [Mir et al., 2005]. En este trabajo se encuentran muchas estadísticas descriptivas generales, agrupadas por zonas geográficas del país. Esta información puede ser de ayuda para cualquier Universidad Tecnológica, pero falta precisión en el momento de tomar medidas correctivas que mejoren el desempeño de la misma. Actualmente se aplican encuestas de seguimiento de egresados con la intención de mejorar el servicio educativo, sin embargo los resultados obtenidos de estas encuestas son muy generales o difícilmente se pueden enlazar con las variables del proceso que los originaron. Utilizando esta misma información de las encuestas de egresados y aunándole información histórica de los mismos, pero cuando fueron alumnos, se pretende obtener una herramienta de predicción que permita hacer correcciones de las desviaciones en forma oportuna..
(10) 3 En el presente trabajo aplicaremos una red neuronal artificial clasificadora para lograr este propósito. 1.2.1 Objetivos - Estudiar la relación que existe entre las variables de entrada y las de salida del proceso. - Determinar que variables de entrada tienen mayor peso o influencia en las variables de salida usando la regresión logística binaria. - Diseñar y entrenar una red neuronal artificial para predecir el desempeño del alumno después de egresar. 1.2.2 Hipótesis Mediante una red neuronal se puede predecir parte del desempeño que un egresado tendrá en su ejercicio profesional. 1.3 Justificación. La educación pública es parte fundamental en una sociedad, a través de ella se logra el desarrollo económico y por consecuencia mejores niveles de vida. Con este antecedente, se considera necesario dar seguimiento a los egresados para saber si en efecto, el servicio educativo que recibieron contribuyó a un desarrollo integral. Teniendo en cuenta que se dispone de recursos limitados, el gobierno ha impulsado la implementación y certificación de sistemas de calidad en muchas instituciones con el objetivo de lograr mayor productividad con los recursos que se asignan y el sector educativo no ha sido la excepción. Las Universidades Tecnológicas como subsistema educativo se certificaron en ISO 9000 en 1999. El sistema exige que los resultados sean medidos de forma periódica, pero, actualmente se utilizan indicadores de actividad que solo reflejan la operación diaria de la institución, sin considerar el impacto que el servicio educativo tiene en el profesionista egresado de ellas..
(11) 4 La falta de una evaluación confiable de las instituciones educativas en gran parte se debe al desconocimiento de las expectativas del usuario que recibe el servicio educativo. Las instituciones se enfocan más a medir aspectos como el número de alumnos por computadora, la cantidad de alumnos por grupo, la cantidad de recursos económicos consumidos por alumno y muchos otros indicadores que si bien es cierto, influyen en los resultados no toman en cuenta lo que el usuario espera después de graduarse. Es por ello que son necesarias nuevas herramientas de evaluación y de predicción, que permitan tomar medidas correctivas certeras y oportunas. En este trabajo tomaremos como caso de estudio a la Universidad Tecnológica de Tula Tepeji para obtener información de sus egresados, relacionarla con registros históricos y hacer inferencias estadísticas y predicciones mediante la aplicación de la regresión logística y redes neuronales artificiales. Aunque el trabajo de investigación se centra solamente en una Universidad Tecnológica, pensamos que puede ser extendido y aplicado a otras universidades de este tipo en el país..
(12) 5. CAPÍTULO II. 2. Marco teórico. 2.1 Introducción En este capítulo daremos una breve descripción de las herramientas que se utilizarán a lo largo de este trabajo para resolver el problema propuesto. 2.2 ISO 9000. En 1987 con la finalidad de estandarizar los requisitos de calidad para los países europeos dentro del mercado común y para quienes querían hacer negocios con estos países, un organismo especializado en normatividad, la Internacional Organization for Standarization (IOS), adoptó una serie de normas de calidad escritas. Estas normas fueron revisadas en 1994 y una ves más en 2000, a esta familia se le conoce como la familia de las normas ISO 9000:2000. 2.2.1 Estructura de las normas ISO 9000: 2000. Las normas ISO 9000:2000 se enfocan en el desarrollo, documentación e implementación de procedimientos para asegurar la consistencia de las operaciones y el desempeño en los procesos de producción y prestación de servicios, con la meta de la mejora continua, y apoyadas por los principios fundamentales de la calidad total. El sistema de calidad bajo la perspectiva ISO puede resumirse en la figura 1..
(13) 6. Figura 1. Sistema de administración por calidad total. En lo que respecta a educación, la aplicación de la norma ISO 9000 tiene algunas modificaciones, el sistema de gestión de la calidad debería ser el más simple y comprensible para alcanzar los objetivos de calidad de la organización educativa. El control de la calidad es un proceso esencial en un sistema de gestión de la calidad. La medición exacta no es fácil cuando se evalúa el desempeño humano y ésta se realiza normalmente durante el proceso educativo [23]. 2.2.2 Enfoque al cliente. El enfoque al cliente es un requisito clave de ISO 9000:2000. Por ejemplo, en la sección de Responsabilidades de la dirección, uno de los requisitos es: “La alta dirección deberá asegurarse de que se determinen y cumplan los requisitos de los clientes con el objeto de aumentar su satisfacción”. Con esto, la responsabilidad del enfoque hacia el cliente recae en la alta dirección. En las secciones de Medición, análisis y mejora, la norma exige que la organización haga el.
(14) 7 seguimiento de las percepciones de los clientes acerca de si la empresa ha cumplido con los requisitos; es decir, la satisfacción del cliente [11]. 2.3 Cómo medir la satisfacción del cliente. La retroalimentación del cliente es vital para un negocio. A través de ésta, una empresa sabe si sus clientes están satisfechos con sus productos y servicios y, en ocasiones, con los productos y servicios de sus competidores. Las mediciones de la satisfacción del cliente permiten a una empresa hacer lo siguiente: 1. Descubrir las percepciones del cliente sobre la forma en que la empresa satisface a sus necesidades, e identificar las causas de la insatisfacción y las expectativas no cumplidas, así como los motivadores del deleite. 2. Comparar el desempeño de la empresa en relación con los competidores, para apoyar la planeación y mejores iniciativas estratégicas. 3. Descubrir las áreas que necesitan mejorar en el diseño y la entrega de productos y servicios, así como la capacitación y orientación para los empleados. 4. Hacer el seguimiento de las tendencias a fin de determinar si los cambios realmente dan como resultado mejoras. 2.3.1 Diseño de encuestas de satisfacción. El primer paso en el desarrollo de una encuesta de satisfacción para los clientes es determinar su propósito. Las encuestas deben estar diseñadas para proporcionar, a los usuarios de los resultados de las mismas, la información que necesitan para tomar decisiones. Una pregunta crítica a considerar es: ¿Quién es el cliente? Los directivos, compradores, usuarios finales y otras empresas que pueden ser afectados por los productos y servicios de una empresa. La siguiente pregunta a responder es quién debe realizar la encuesta. Con frecuencia las organizaciones independientes ajenas a la empresa tienen mayor credibilidad ante los entrevistados y garantizan la objetividad de los resultados..
(15) 8 En las encuestas es muy frecuente utilizar la escala Likert. Este tipo de escalas de 5 puntos permiten al cliente expresar su grado de opinión [17]. Muchos indicadores de satisfacción del cliente evalúan las características de servicio. Puede ser difícil desarrollar características mesurables de la calidad del servicio y caen en la ambigüedad. 2.3.2 Encuesta de seguimiento de egresados para las Universidades Tecnológicas. La encuesta para el seguimiento de egresados del sistema de Universidades Tecnológicas tiene como finalidad indagar acerca de cómo se incorporan los egresados al empleo. Por consiguiente, servirá para recabar información sobre el tiempo que tardan en emplearse a partir del egreso y los medios que utilizan para llegar a obtener el empleo. Respecto de los egresados que, al momento del levantamiento de los datos, no hayan comenzado a trabajar o que, habiéndolo hecho, no se encuentren empleados, se buscará averiguar las razones para ello. Dado que las Universidades Tecnológicas aspiran a que la formación que reciben sus egresados se corresponda con las necesidades de los sectores productivos de bienes y servicios de su región, en la encuesta se recogen datos acerca de las dificultades que han encontrado los egresados en el desempeño de sus puestos de trabajo [25]. También en que medida coinciden los conocimientos adquiridos y las competencias desarrolladas como estudiantes de las Universidades tecnológicas con las tareas que les son requeridas realizar en sus empleos. Como al atender las necesidades de las economías regionales también esperan las Universidades Tecnológicas responder a las aspiraciones y expectativas de sus egresados, con la encuesta se obtendrá información sobre la satisfacción de estos egresados con las recompensas que obtienen en su empleo, tanto en el ejercicio y despliegue mismo de sus conocimientos y habilidades como en el ingreso, reconocimiento profesional y desarrollo profesional que les proporciona..
(16) 9 Por último, también se averigua acerca de la evaluación que hacen los egresados, retrospectivamente, de su experiencia como alumnos de las Universidades Tecnológicas. Se recaba, así, su opinión sobre los servicios docentes, la infraestructura y el plan de estudios que cursó. La encuesta se muestra en el anexo 1. 2.3.3 Análisis y uso de la retroalimentación del cliente. Deming enfatizó la importancia de utilizar la retroalimentación del cliente para mejorar los productos y procesos de la empresa. Al analizar las tendencias en los indicadores de satisfacción del cliente y relacionar esta información con sus procesos internos, un negocio puede determinar sus progresos y las áreas en que debe mejorar. Como siguiente paso, la organización asigna a un grupo de colaboradores la responsabilidad operativa y por resultados de desarrollar planes de mejora en función de la medición de la satisfacción del cliente [11]. 2.4 Teoría estadística. Tamaño de la muestra y análisis de correlación. Cuando se desea hacer estimaciones de una proporción de una variable cualitativa de una población finita se utiliza la siguiente fórmula [25] para determinar el tamaño de la muestra:. n=. 2. B Zα. 2. p (1 − p ) 1 + ( p )(1 − p ) N. Donde n = Tamaño de la muestra. p = Proporción estimada (cuando no se tiene ni idea de la proporción que se desea estimar, se usa 0.5). B = Error máximo permisible.. α = Nivel de significancia. N = Tamaño de la población de la cuál se extraerá la muestra..
(17) 10. La correlación es una medida de una relación lineal entre dos variables aleatorias,. X. y Y , y se mide por medio del coeficiente de correlación. (poblacional). Los coeficientes de correlación van desde -1 a +1. Una correlación de 0 indica que las dos variables no tienen relación lineal entre sí. Por tanto, si una cambia, no se puede predecir en forma razonable que la otra lo haga si se utiliza una ecuación lineal (sin embargo, se podría tener una relación no lineal bien definida). Un coeficiente de correlación de +1 indica una relación lineal positiva perfecta; al aumentar la variable, la otra también lo hará. Un coeficiente de correlación de -1 también muestra una relación lineal perfecta, excepto que, cuando una variable aumenta, la otra disminuye [11]. La suposición usual es que las observaciones ( X i , Yi ), i = 1,2,..n, son variables aleatorias distribuidas de manera conjuntas obtenidas de la distribución f ( x, y ) que es una distribución normal bivariada, y que µ Y y σ Y2 son la media y la varianza de Y , y µ X y σ X2 son la media y la varianza de X , siendo ρ el coeficiente de correlación entre X y Y . El coeficiente de correlación esta definido como. ρ=. σ XY σ XσY. Donde σ XY es la covarianza entre X y Y La distribución condicionada normal de Y para un valor dado de X = x es. f Y x ( y) =. 1 2πσ Y x. 2 y−β −β x 1 0 1 exp − 2 σ Y x . Donde. β 0 = µY − µ X ρ β1 =. σY ρ σX. σY σX (1).
(18) 11 y la varianza de la distribución normal condicional de Y para un X = x dado es. σ Y2 x = σ Y2 (1 − ρ 2 ) Esto es, la distribución normal condicional de Y dado X = x es normal con media E (Y x) = β 0 + β 1 x. y varianza σ Y2 x . Por tanto, la media de la distribución condicional normal de Y dado X = x es un modelo de regresión simple. Por otra parte, existe una relación entre. el coeficiente de correlación ρ y la pendiente β1 . De la ecuación 1, se observa que si ρ = 0 entonces β 1 = 0 , lo que implica que no hay regresión de Y sobre X . Esto es, el conocimiento de X no es de ayuda para predecir Y . Para estimar los parámetros β 0 y β1 puede utilizarse el método de máxima verosimilitud. Puede demostrarse que los estimadores de máxima verosimilitud de estos parámetros son. βˆ0 = Y − βˆ1 X y n. βˆ1 =. ∑Y ( X i =1 n. i. ∑(X i =1. i. i. − X). − X )2. =. S XY S XX. Es posible obtener inferencias sobre el coeficiente de correlación ρ de este modelo. El estimador de ρ es el coeficiente de correlación muestral..
(19) 12 n. R=. ∑Y ( X i =1. i. i. − X). n n 2 − X X ( ) (Yi − Y ) 2 ∑ ∑ i i =1 i =1 . 1. = 2. S XY. [S XX S YY ]12. Las hipótesis a probar son. H0 : ρ = 0 H1 : ρ ≠ 0. El estadístico de prueba apropiado para ellas es. T0 =. R n−2 1− R2. El cuál tiene una distribución t con n − 2 grados de libertad si H 0 : ρ = 0 es verdadera. Por consiguiente, la hipótesis nula se rechaza si t 0 > t α 2. ,n −2. [26].. 2.5 Regresión Logística Binaria. Los modelos de regresión son modelos estadísticos en los que se desea conocer la relación entre: • Una variable dependiente cualitativa, dicotómica (regresión logística binaria. o binomial) y una o más variables independientes. • Una variable dependiente cualitativa que puede tomar 3 o más valores. (regresión logística multinomial) y una o más variables independientes. • Dos o más variables explicativas independientes, o covariables, ya sean. cualitativas o cuantitativas y una o más variables independientes. En nuestro estudio nos centraremos en el primer caso ya que las variables dependientes que se manejan en los modelos de esta tesis sólo pueden tomar dos posibles valores..
(20) 13 Siendo la ecuación inicial del modelo de tipo exponencial como: P( y = 1 x ) =. e β 0 + β 1 X 1 + ...+ β k X k 1 + e β 0 + β 1 X 1 + ...+ β k X k. Siendo P(y=1|X) la probabilidad de que y tome el valor 1 (presencia de la característica estudiada), en presencia de las variables Xi de i =1,…,k. Los componentes de esta ecuación son: 1. β 0 es la constante del modelo o término independiente 2. k el número de variables 3. β i los coeficientes de las variables 4. Xi las covariables que forman parte del modelo. Si dividimos la expresión anterior por su complementario, es decir, si construimos su odds (la probabilidad de la presencia de la característica estudiada entre la no presencia de la característica estudiada), obtenemos una expresión de más fácil manejo matemático:. P( y = 1 x ). 1 − P( y = 1 x ) P( y = 1 x ). 1 − P( y = 1 x ). =. e β 0 + β 1 X 1 + ...+ β k X k 1+ e. β 0 + β 1 X 1 + ...+ β k X k. −e. β 0 + β 1 X 1 + ...+ β k X k. = e β 0 + β 1 X 1 + ...+ β k X k. = e β0 + β1 X 1 +...+ β k X k. Si ahora realizamos su transformación logarítmica con el logaritmo natural, obtenemos una ecuación lineal que es lógicamente de manejo matemático aún más fácil y de mayor comprensión: P( y = 1 x ) = β 0 + β 1 X 1 + ... + β k X k ln ( ) 1 P y 1 x − = . En la expresión de la ecuación vemos a la izquierda de la igualdad el llamado logit, es decir, el logaritmo natural de los odss de la variable dependiente (esto es, el logaritmo de la razón de proporciones de tener la presencia de la característica estudiada, de éxito, etc.). El término a la derecha de la igualdad es la expresión de una recta, idéntica a la del modelo general de regresión lineal:. Yi = β 0 + β 1 X 1 + ... + β k X k.
(21) 14 Pero la regresión lineal presenta una diferencia fundamental respecto al modelo de regresión logística. En el modelo de regresión lineal se asume que los errores estándar de cada coeficiente siguen una distribución normal de media 0 y varianza constante (homoscedasticidad). En el caso del modelo de regresión logística no pueden realizarse estos supuestos pues la variable dependiente no es continua (sólo puede tomar dos valores, 0 ó 1, pero ningún valor intermedio). Si llamamos ε i al posible error i-ésimo de predicción para cada variable xi,, tendremos que el error cometido dependerá del valor que llegue a tomar la variable dependiente y, tal como vemos a continuación: Y = P(x ) + ε. Si Y = 1 ⇒ ε = 1 − P( x ) Y si Y = 0 ⇒ ε = − P( x ) Esto implica que ε sigue una distribución binomial, con media y varianza proporcionales al tamaño muestral y a P(y=1|xi) (la probabilidad de que y=1 dada la presencia de xi). Para la estimación de los coeficientes del modelo y de sus errores estándar se recurre al cálculo de estimaciones de máxima verosimilitud, es decir, estimaciones que maximicen la probabilidad de obtener los valores de la variable dependiente Y proporcionados por los datos de nuestra muestra. Estas estimaciones no son de cálculo directo, como ocurre en el caso de las estimaciones de los coeficientes de regresión de la regresión lineal múltiple por el método de los mínimos cuadrados. Para el cálculo de estimaciones máximoverosímiles se recurre a métodos iterativos. Dado que el cálculo es complejo, normalmente hay que recurrir al uso de rutinas de programación o a paquetes estadísticos. De estos métodos surgen no sólo las estimaciones de los coeficientes de regresión, sino también de sus errores estándar y de las covarianzas entre las covariables del modelo [1]..
(22) 15 2.5.1 Significancia estadística de cada uno de los coeficientes.. El siguiente paso será comprobar la significación estadística de cada uno de los coeficientes de regresión en el modelo. Para este estudio emplearemos el estadístico de Wald. El estadístico de Wald. Contrasta la hipótesis de que un coeficiente aislado H1 : β j ≠ 0. es. distinto. de. 0,. es. decir. H 0 : β 1 = β 2 = ... = β K = 0. vs. para una j al menos y sigue una distribución normal con media 0 y. varianza 1. Su valor para un coeficiente concreto viene dado por el cociente entre el valor del coeficiente y su correspondiente error estándar. La obtención de significación indica que dicho coeficiente es diferente de 0 y merece la pena su conservación en el modelo. En modelos con errores estándar grandes, el estadístico de Wald puede proporcional falsas ausencias de significación (es decir, se incrementa el error tipo II). Tampoco es recomendable su uso si se están empleando variables de diseño. Para una muestra larga: z=. βˆ ASE. Que se distribuye normal con media cero y varianza 1, la otra alternativa es usar el estadístico de Wald: w=. βˆ 2 ASE 2. Teniendo un tamaño de muestra grande este estadístico se distribuye Jicuadrada con un grado de libertad.. 2.5.2 Bondad de ajuste del modelo. 1.. El estadístico G2 o razón de verosimilitudes. Se trata de ir contrastando. cada modelo que surge de eliminar de forma aislada cada una de las variables frente al modelo completo (no se asume normalidad). La ausencia de significación implica que el modelo sin la variable no empeora respecto al modelo completo (es decir, da igual su presencia o su ausencia), por lo que.
(23) 16 según la estrategia de obtención del modelo más reducido, dicha variable debe ser eliminada del modelo ya que no aporta nada al mismo.. G 2 (M 0 | M 1 ) = −2(L0 − L1 ) = G 2 (M 0 ) − G 2 (M 1 ) Donde: M0 = Modelo reducido M1 = es el modelo más complejo posible Este estadístico es más grande cuando el ajuste de M0 es más pobre que el de M1. Cuando la muestra es grande este estadístico sigue una distribución Ji-cuadrada con grados de libertad iguales a la diferencia de los grados de libertad de los residuales de los dos modelos. 2.. Otro criterio puede ser utilizar el modelo que tenga el menor AIC.. 3.. La prueba Score. Su cálculo para el caso de una única variable viene dado por: k. ∑ xi ( y i − y ). S=. i =1. k. y (1 − y ) ∑ (xi − x ). 2. i =1. En el caso de múltiples variables hay que utilizar cálculo matricial, si bien no requiere un cálculo iterativo (precisamente su rapidez de cálculo sería su aspecto más favorable). Se sabe que este estadístico se incrementa conforme aumenta el número de variables (es decir tiende a dar significación con mayor frecuencia). 2.5.3 Residuales del modelo logistic Los estadísticos de bondad de ajuste son indicadores que resumen la calidad de ajuste del modelo. Adicionalmente a estos análisis es necesario describir la naturaleza de la falta de ajuste. Comparando los residuales que son la diferencia entre los conteos observados y predichos.. ei =. yi − ni p̂i. ni p̂i (1 − p̂i ) El estadístico de Pearson para probar el modelo ajustado satisface:.
(24) 17 n. X 2 = ∑ ei2 i =1. Cada residual Pearson al cuadrado es un componente de X2. cuando el. índice binomial es grande ni , el residual de Pearson tiene aproximadamente una distribución normal, aproximadamente con media cero pero varianza más pequeña que la normal estándar. Si el número de parámetros del modelo es menor al número de logits de la muestra los residuales son tratados separadamente de una distribución normal estándar, con valores absolutos más grandes que 2 indican posibles faltas de ajuste. 2.6 Redes neuronales 2.6.1 Introducción a las Redes neuronales Uno de los principales objetivos y preocupaciones de los científicos a lo largo de la historia ha sido diseñar y construir máquinas con cierto grado de inteligencia. Una forma diferente de abordar este problema es mediante los modelos de redes neuronales artificiales, los cuales están inspirados en el funcionamiento del cerebro humano. La neurona o célula nerviosa es la unidad funcional básica de los tejidos del sistema nervioso, incluido el cerebro. Este modelo del sistema nervioso parte de que las neuronas se comunican entre sí por medio de impulsos eléctricos y que forman una red neuronal que tiene una estructura compleja de interconexiones. La entrada a la red proviene de receptores sensitivos que están en contacto con el mundo exterior. Estos receptores envían estímulos en forma de impulsos eléctricos que llevan la información a la red de neuronas. Como resultado del procesamiento de la información en el sistema nervioso central, los efectores controlan y dan respuesta en forma de diversas acciones. En general, el aprendizaje es un cambio permanente y relativo en el comportamiento basado en la experiencia. En redes neuronales biológicas, el aprendizaje se logra mediante la creación de nuevas conexiones sinápticas entre.
(25) 18 las neuronas o mediante la modificación de la intensidad de las conexiones sinápticas existentes. En redes neuronales artificiales, el aprendizaje es un proceso más directo que se puede entender como una relación causa-efecto y puede ser vista como una relación que transforma las entradas en las salidas para un conjunto de ejemplos de pares entrada-salida. Este proceso se asemeja al cerebro humano en que el conocimiento es adquirido por la red mediante un proceso de aprendizaje y en que la intensidad de las conexiones entre las neuronas, conocidas como pesos sinápticos, se utiliza para almacenar el conocimiento. De aquí, se defina a la red neuronal artificial como un procesador distribuido masivamente en paralelo que puede almacenar conocimiento basado en la experiencia y es capaz de tenerlo disponible para su uso. 2.6.2 Redes neuronales para la clasificación. El término de patrón es utilizado para referirse a los elementos del conjunto de entradas que se le presentan a la red en la etapa de entrenamiento. Más aún, un patrón debe ser una descripción cuantitativa de un objeto, evento o fenómeno. Clasificación: Es cuando el conjunto de patrones de entrada es dividido en clases o categorías. En este caso al presentar una entrada, la red debe dar como respuesta a qué clase pertenece. Generalmente las clases son expresadas por vectores de salida de valores discretos y se usan funciones de activación binarias. La principal función de un sistema de clasificación es decidir a qué clase pertenece la entrada que se presente. Conceptualmente, el problema puede se descrito como una transformación de conjuntos o funciones desde el espacio de entrada al espacio de salida, que es llamado espacio de clasificación. El objetivo de la clasificación de patrones es asignar un objeto físico, evento o fenómeno a una de las clases o categorías preestablecidas. El problema de clasificación de patrones puede ser considerado como uno de discriminación de datos de entrada dentro de una población de objetos, mediante la búsqueda de atributos invariantes entre los miembros de la población..
(26) 19 La entrada es representada como un vector X y la clasificación a la salida del sistema es obtenida por un clasificador implementado por una función de decisión i0 ( X ) que puede tomar, en general, uno de los valores discretos 1,2,...,R, donde la respuesta representa la categoría a la cual puede ser asignado el patrón, como se muestra en la figura 2. Es decir. i0 = i0 ( X ) donde. [. X = x1 , x 2 ,L , x n. (2.7). ]. t. La función de clasificación (de decisión) de la ecuación (2.7) representa una transformación o aplicación de un vector n-dimensional X a una de las categorías. i0 ( X ) .. Figura 2: Esquema de un clasificador multicategoría. La clasificación también puede ser descrita convencionalmente en forma geométrica. Un patrón puede ser representado por un punto en un espacio euclidiano n-dimensional R n , denominado espacio de patrones. Los puntos en este espacio corresponden a los elementos del conjunto de patrones que son vectores n-dimensionales. Un clasificador de patrones aplica conjuntos de puntos del espacio R n en el espacio de uno de los números i0 ( X ) = 1, 2,L , R como describe la función de decisión (2.7). Las regiones denotadas por C j son llamadas regiones de decisión y las fronteras que separan una región de las otras se denominan superficies de decisión. En un espacio R n las superficies de decisión son hipersuperficies de n-1 dimensiones..
(27) 20 Durante la etapa de clasificación, para determinar la pertenencia a una categoría, el clasificador necesita basarse en la comparación de los cálculos para el. patrón. de. entrada. X. de. R. funciones. de. discriminación. g1 ( X ), g 2 ( X ),L , g R ( X ) . Las funciones de discriminación toman valores escalares y un patrón pertenece a la i-ésima categoría si y solo si se cumple que. gi ( X ) > g j ( X ), ∀i , j = 1, 2,L , R ; i ≠ j. (2.8). Esto significa que dentro de la región C j la i-ésima función de discriminación toma el mayor valor. Esta propiedad de la función de discriminación gi ( X ) de tomar el valor máximo para un patrón que pertenezca a la clase i es fundamental y es usado para seleccionar formas específicas de las funciones gi ( X ) . Las funciones de discriminación gi ( X ) y g j ( X ) para regiones de decisión contiguas Ci y C j definen las superficies de decisión entre patrones de las clases i y j en el espacio R n . Para un patrón dado el i-ésimo discriminador calcula el valor de la función. gi ( X ) que se denomina. simplemente discriminante. El selector del máximo. implementa la condición (2.8) y selecciona la mayor de todas las entradas produciendo una respuesta igual al número de categoría i0 ( X ) . En el caso que R = 2 , el clasificador es denominado dicotomizador y en este caso la condición (2.8) puede ser reducida a la inspección del signo de la siguiente función de discriminación. g ( X ) = g1 ( X ) − g 2 ( X ). (2.9). Por lo que aquí la regla general (2.9) puede ser reescrita como g ( X ) > 0, si X ∈ C1 g ( X ) < 0, si X ∈ C2. (2.10). Para construir un dicotomizador simple puede ser usada una unidad lógica de umbral (TLU) simple como la que se muestra en la figura 3..
(28) 21. Figura 3 : Dicotomizador. Una TLU puede ser considerada como una versión binaria de una neurona, el la cual los pesos son introducidos como en un perceptrón binario. Las respuestas 1, -1 de la TLU pueden ser interpretadas como indicaciones de las categorías 1 y 2 respectivamente. La TLU simple implementa la función signo definida como 1, g ( X ) > 0 i0 ( X ) = sgn(g( X )) = − 1, g( X ) < 0. El diseño de clasificadores se puede basar por completo en el cálculo de las fronteras de decisión que se derivan de los patrones y de su pertenencia a determinada clase. Un clasificador eficiente, puede ser descrito, en general, por funciones de discriminación que dependan de forma no lineal de las entradas x1 , x 2 ,L , x n . El uso de funciones de discriminación no lineales puede ser eludido mediante el diseño de clasificadores de propagación hacia adelante que sean multicapas. En el caso de la clasificación lineal, la superficie de decisión es un hiperplano. En la figura 4 se muestra una función discriminante lineal en el caso bidimensional..
(29) 22. Figura 4: Ilustración de una función discriminante lineal bidimensional. Cuando se analiza el problema de clasificación de patrones, resulta interesante el estudio de aquellos clasificadores, que sus capacidades de decisión son. generadas. por. patrones. de. entrenamiento. mediante. aprendizaje,. entrenamiento o algoritmos iterativos. La clasificación de un dato es aprendida gradualmente mediante la inspección repetida y clasificación de ejemplos. Cuando el tipo de función discriminante ha sido seleccionado, el algoritmo de aprendizaje da como resultado la solución para los coeficientes, inicialmente desconocidos, de la función discriminante, que se obtiene a partir del conjunto de patrones de entrenamiento. Para el estudio de clasificadores entrenables (adaptativos) se asume que :. 1) El conjunto de patrones de entrenamiento es conocido, así como la clasificación de todos sus elementos, por lo que el entrenamiento es supervisado.. 2) Las funciones discriminantes tienen una forma lineal y solo sus coeficientes son ajustados en el proceso de entrenamiento. Bajo estas suposiciones, un clasificador entrenable puede ser implementado por el aprendizaje mediante ejemplos. El interés, por lo tanto, está enfocado hacia vectores de datos de entrada para los cuales se conoce su clasificación correcta, y a los que se denominan prototipos de clase..
(30) 23 El problema de clasificación consistirá entonces en determinar las superficies de decisión en un espacio n-dimensional a partir de la correcta clasificación de los prototipos y que permita con un grado de confianza realizar correctamente el reconocimiento y la clasificación de patrones desconocidos que no hayan sido usados en el entrenamiento. La única limitación que se tiene para que los patrones desconocidos sean reconocidos es que tengan el mismo formato que se usó en los patrones de entrenamiento. El perceptrón fue el primer modelo de red neuronal artificial desarrollado por Rosenblatt en 1958. Despertó un enorme interés en los años 60’ s debido a su capacidad para aprender a reconocer patrones sencillos: un perceptrón, formado por varias neuronas lineales para recibir las entradas a la red y una neurona de salida, es capaz de decidir cuándo una entrada presentada a la red pertenece a una de las dos clases que es capaz de reconocer [18]. En la figura 5 se representa la única neurona de salida del perceptrón la cuál realiza la suma ponderada de las entradas, resta el umbral y pasa el resultado a una función de transferencia de tipo escalón, ver figura 6.. X 11 W1. X2. Y. W2. XN. W. N. N Y = f ∑ Wi X i − θ i =1 . Figura 5. Perceptrón de una sola neurona..
(31) 24 f(x). 1. x -1. Figura 6. Función de transferencia tipo escalón. La regla de decisión es responder +1 si el patrón presentado pertenece a la clase A, o -1 si el patrón pertenece a la clase B. La salida dependerá de la entrada neta (suma de las entradas xi ponderadas) y del valor del umbral θ , como se muestra en la figura 7. X2. A. A A. A. B B X1. B B. B. X2 =. Figura 7. Función discriminante lineal bidimensional.. − W1 θ X1 + W2 W2.
(32) 25 El perceptrón al contar sólo de una capa de entrada y otra salida con única neurona, tiene una capacidad de representación bastante limitada. Este modelo sólo es capaz de discriminar patrones muy sencillos linealmente separables. El caso más conocido es la imposibilidad del perceptrón de representar la función OR-EXCLUSIVA. Gráficamente se representa en la figura 8. X2. A. B. B. A. X1. No es posible obtener una recta que separe las dos clases.. Figura 8. Función OR-EXCLUSIVA Es evidente que este problema puede ser resuelto si se adiciona una capa oculta de neuronas. Hasta el momento no se ha encontrado ninguna generalización de la regla de aprendizaje del perceptrón para redes multicapas. Para el entrenamiento de redes multicapas de propagación hacia adelante se ha utilizado un algoritmo, conocido como el algoritmo de retropropagación del error (backpropagation) y es una generalización de la regla delta de aprendizaje. El algoritmo de retropropagación del error es un algoritmo iterativo, basado en la técnica del descenso acelerado y su objetivo de entrenamiento consiste en minimizar determinada función de error. Este algoritmo presenta algunas desventajas, entre las cuales tenemos: 1.. Presupone conocida la arquitectura de la red, es decir, el número de. capas y la cantidad de neuronas por capas..
(33) 26 2. Es muy costoso desde el punto de vista computacional 3. Puede quedar atrapado en un mínimo local Después de encontrar un algoritmo de entrenamiento para redes multicapas, el problema fundamental que enfrentaron los investigadores en redes neuronales fue determinar la menor cantidad de capas de neuronas ocultas para que este algoritmo fuera convergente. En 1989 se da solución a este problema mediante la demostración de un teorema que es conocido como el. Teorema de Aproximación Universal. Este. teorema está considerado como el resultado teórico de mayor importancia para redes neuronales de propagación hacia adelante y fue reportado en tres trabajos diferentes: Cybenko [8], Funahashi [12] y Hornik, Stinchcombe y White [20]. El teorema puede ser formulado como: Teorema: Sea ϕ( .) una función continua, monótona creciente y acotada. Denotemos por I n el hipercubo unitario n-dimensional. [0, 1]n. y por C( I n ) el. espacio de las funciones continuas sobre I n . Entonces, dados una función. f ∈ C( I n ) y un ε > 0 , existen un entero m y conjuntos de constantes reales α i , θ i y wij , donde i = 1,L , m ; j = 1,L , n tales que se puede definir m n F ( x1 ,..., x n ) = ∑ α i ϕ ∑ wij x j − θ i j =1 i =1. como una aproximación de la función f , que cumple. F ( x1 ,..., x n ) − f ( x1 ,..., x n ) < ε. para todo. ( x ,..., x ) ∈ I 1. n. n. .. El teorema de aproximación universal es un teorema de existencia y establece que. una sola capa oculta es suficiente para que una red neuronal. multicapa calcule una aproximación uniforme para un conjunto de entrenamiento dado, representado por el conjunto de entradas ( x1 ,..., x n ) y una salida deseada. f ( x1 ,..., x n ) . En 1991, Hornik [19] demuestra que el requerimiento de continuidad sobre la función de activación puede ser completamente eliminado y que es suficiente con.
(34) 27 que sea acotada y no constante. Este resultado permite aplicar este teorema al caso de problemas de clasificación. 2.6.3 Solución al problema de la separabilidad lineal. Es conocido que cuando el conjunto de patrones no es linealmente separable, es imposible realizar la clasificación correcta del conjunto de entrenamiento sin agregar capas de neuronas ocultas, además, el problema de determinar el subconjunto linealmente separable de mayor cardinalidad es un problema NP-duro [28]. Debido a esto, se comenzaron a desarrollar algoritmos constructivos de aprendizaje [6,7,27] para diseñar y entrenar redes neuronales multicapas para la clasificación. Estos algoritmos obtienen redes neuronales de arquitectura suboptimal en el sentido del número de neuronas en las capas ocultas. Los algoritmos constructivos son procedimientos heurísticos que en cada iteración tratan de determinar, con una complejidad. polinomial,. el mayor. subconjunto linealmente separable. En la mayoría de estos algoritmos, el entrenamiento está basado en alguna variante de la regla de aprendizaje del perceptrón discreto y su funcionamiento consiste en ir agregando neuronas a la red hasta que se logre que la igualdad a cero de la función de error para todos los patrones del conjunto de entrenamiento. El principio general de funcionamiento de los algoritmos constructivos de aprendizaje es determinar, en cada iteración del algoritmo, un vector de pesos y un valor de umbral que proporcione el valor mínimo de la función de error, el cual es igual a cero si el conjunto de entrenamiento es linealmente separable. Entre los algoritmos constructivos, los más eficientes son [6,7]:. • Algoritmo de bolsa con. mecanismo de reten ( Pocket algorithm with. ratchet modification ).. • Algoritmo del perceptrón térmico ( Thermal perceptron algorithm ). • Procedimiento procedure ).. de. corrección. baricéntrica. (. Barycentric. correction.
(35) 28 El algoritmo de bolsa con mecanismo de reten utiliza la regla del perceptrón para la modificación de los pesos y guarda en un vector Wpocket el vector de pesos que proporciona el menor valor de la función de error. En cada iteración se compara el valor de la función de error para el vector de pesos W calculado con el valor para Wpocket y si este valor es menor, se reemplaza Wpocket por W . Está comprobado [13] que este algoritmo converge al menor valor de la función de error. El algoritmo del perceptrón térmico es utilizado para controlar la modificación de los pesos durante el proceso de entrenamiento. En el algoritmo clásico de entrenamiento del perceptrón, cuando el conjunto de patrones no es linealmente separable, pueden ocurrir cambios bruscos en los pesos, que producen fluctuaciones severas en la función de error y entorpecen el proceso de clasificación. Para estabilizar el proceso de aprendizaje se introduce el siguiente factor amortiguador en la ecuación de modificación de los pesos. W t . Xi W ← W + c [d i − oi )] X i exp − Q . . El valor de Q se le da un valor de Q0 al comienzo del entrenamiento y gradualmente se aproxima a cero a medida que progresa el aprendizaje. Este factor amortiguador introducido en la regla de modificación de los pesos no permite cambios bruscos en los pesos al final del entrenamiento. El procedimiento de corrección baricéntrica es un algoritmo eficiente para entrenar una unidad lógica de umbral. En este procedimiento los patrones son separados en dos subconjuntos S + y S − . El baricentro de cada subconjunto se define como la media ponderada de los patrones multiplicados por su correspondiente coeficiente de peso. El vector de pesos W = ( w1 , w2 ,L , wn ) es t. determinado como la diferencia entre los baricentros de los dos subconjunto de patrones y el valor de umbral wn +1 es seleccionado de forma tal que minimice la función de error. Inicialmente a cada patrón se le asocia un coeficiente de peso igual 1..
(36) 29 Si el conjunto de patrones es linealmente separable, este procedimiento determina, de forma más eficiente que los dos algoritmos anteriores, el hiperplano que separa al conjunto de patrones en las dos clases o categorías. En este trabajo de tesis aplicaremos una modificación de los resultados descritos en [4 y 5], donde se presentan un algoritmos constructivos que utiliza formulaciones lineales para determinar en cada iteración un hiperplano que separa la mayor cantidad posible de patrones de una misma clase. Este método permite determinar las neuronas de la capa oculta con los valores de los pesos correspondientes. 2.6.4 Formulación del problema y descripción de la metodología. Sea. {X i ; d i }, (i = 1,2,..., T ) el. conjunto de entrenamiento, donde. X i ∈ Rn. representan los patrones de entrenamiento y d i la clase a que pertenece cada patrón, según la regla 1, si X i ∈ C1 di = − 1, si X i ∈ C 2. Definición: El conjunto de patrones X = {X 1 , X 2 ,..., X T } es linealmente separable, si existe un vector W = ( w1 , w2 ,..., wn +1 ) T ∈ R n +1 , tal que. n ∑ xij w j − wn +1 > 0, para X i ∈ C1 j =1 n ∑ xij w j − wn +1 < 0, para X i ∈ C 2 j =1. (2.5.2.1). Aquí surgen dos problemas: 1. Determinar si existe un hiperplano. w1 x1 + w2 x 2 + ... + wn x n − wn +1 = 0 , tal. que se cumpla la condición (2.5.2.1), es decir que todos los patrones de la clase 1 se encuentren en el semiespacio positivo, definido por el hiperplano y los de la clase 2 en el semiespacio negativo. 2. Si tal hiperplano existe, entonces cómo determinar sus coeficientes. Para resolver estos problemas, se hacen unas transformaciones a la definición de separabilidad lineal..
(37) 30 1. Multiplicar cada una de las desigualdades en (2.5.2.1) para el valor de d i del patrón correspondiente, obteniéndose entonces n d i ∑ xij w j − wn +1 > 0 j =1 . (2.5.2.2). 2. Tener en cuenta que, si existe un vector de pesos W ∈ R n +1 para el cuál (2.5.2.2) se cumple, entonces mediante un escalamiento de este vector, se puede encontrar otro vector W~ ∈ R n +1 tal que se cumple que n ~ −w ~ ≥ 1 d i ∑ xij w j n +1 j =1 . (2.5.2.3). De aquí que, el problema de determinar si el conjunto de patrones es linealmente separable, se transforma en determinar si existe solución factible para el sistema (2.5.2.3). Proposición: Para que un conjunto de patrones X = {X 1 , X 2 ,..., X T } sea linealmente separable por el hiperplano. n. ∑x j =1. ij. w j − wn +1 = 0 es necesario y suficiente. que sea igual a cero el valor del objetivo del siguiente problema de programación lineal T. min z = ∑ z i i =1. n d i ∑ xij w j − wn +1 s.a j =1 + z i ≥ 1, (i = 1,2,..., T ) z ≥ 0, (i = 1,2,..., T ) i. (2.5.2.4). Con ayuda de esta proposición se puede verificar si un conjunto de patrones es separable o no. Además, si es linealmente separable, obtiene los valores de los pesos y el umbral que resuelven el problema de clasificación. Cuando el conjunto de patrones es no linealmente separable, el problema de diseño de la red neuronal consiste en encontrar la cantidad de neuronas necesarias en la capa oculta para clasificar correctamente los patrones. En este caso las variables z i , para patrones mal clasificados, son proporcionales a la distancia de estos patrones al hiperplano separador, por lo que el mínimo se.
(38) 31 puede alcanzar con todas estas variables como variables básicas y esta solución no tiene sentido para el problema de clasificación. Para eliminar esta dificultad se formula el siguiente problema que determina la menor cantidad de patrones mal clasificados: T. min z = ∑ y i i =1. n d i ∑ xij w j − wn +1 + z i ≥ 1 j =1 s.a. z i ≤ My i z i ≥ 0, y i ∈ {0,1} (i = 1,2, L , T ). 1, si zi > 0 Donde yi = 0, si zi = 0. (2.5.2.5). y M es una constante suficientemente grande.. Al resolver el problema (2.5.2.5) se obtiene un hiperplano. que clasifica. correctamente el número máximo de patrones. Este hiperplano divide el conjunto de entrenamiento en dos subconjuntos que pueden contener patrones de ambas clases. Entonces para cada subconjunto se podría formular un problema similar a (2.5.2.5) y obtener dos hiperplanos que dividan esos subconjuntos. Se podría continuar de esta forma hasta obtener subconjuntos linealmente separables y consecuentemente las neuronas en la capa oculta. La desventaja de esto es que siempre es necesario considerar todo el conjunto de entrenamiento, aun cuando estén agrupados en subconjuntos más pequeños. Lo anterior puede evitarse si se impone la restricción de que en uno de los semiespacios definidos por el hiperplano todos los patrones pertenezcan a la misma clase. Con ello decrece el tamaño del problema a resolver de una iteración a la siguiente. Para determinar un hiperplano que separe el mayor número de patrones perteneciente a una clase se formulan los problemas (2.5.2.6), (2.5.2.7). Resolviendo estos problemas se obtienen hiperplanos que separan la mayor cantidad de patrones que pertenecen a una misma clase..
(39) 32 T1. min z = ∑ y i i =1. n d i ∑ xij w j − wn +1 + z i ≥ 1 , (i = 1,2, L , T1 ) j =1 (2.5.2.6) n s.a.d i ∑ xij w j − wn +1 ≥ 1 , (i = T1 + 1, L , T ) j =1 z ≤ My , (i = 1,2, L , T ) i 1 i z i ≥ 0, y i ∈ {0,1} , (i = 1,2, L , T1 ) min z =. T. ∑y. i =T1 +1. i. n d i ∑ xij w j − wn +1 ≥ 1 , (i = 1,2, L , T1 ) j =1 n s.a.d i ∑ xij w j − wn +1 + z i ≥ 1 , (i = T1 + 1, L , T ) j =1 z ≤ My , (i = T + 1, L , T ) i 1 i z i ≥ 0, y i ∈ {0,1} , (i = T1 + 1, L , T ). (2.5.2.7). Con estos elementos se puede desarrollar el siguiente algoritmo: 1. Formular los problemas (2.5.2.6) y (2.5.2.7). 2. Escoger aleatoriamente uno de ellos para resolver. 3. Resolver el problema seleccionado. La solución de este problema indicará los valores de los pesos y el umbral del hiperplano, así como el número de patrones que separa. 4. Añadir el hiperplano encontrado a la red. 5. Resolver el problema no elegido en el paso 1, eliminando los patrones que fueron separados por el hiperplano añadido. Si todavía hay patrones de ambas clases, formular los correspondientes problemas (2.5.2.6) y (2.5.2.7) y regresar al paso 2. En otro caso parar. Al ir construyendo una red neuronal con los hiperplanos obtenidos por el algoritmo y funciones de activación f (net j ) = sgn(net j ), j = 1, L, m , se obtiene una transformación del conjunto de patrones X i ∈ R n , (i = 1,..., T ) en el conjunto de.
(40) 33 imágenes Yi ∈ R m , (i = 1,..., T ) , el cual es linealmente separable como se muestra en la figura 9.. Figura 9. Red neuronal de dos capas, de entrada y oculta. Para concluir el diseño de la red faltaría determinar la memoria entre la capa oculta y la capa de salida. Para ello, se formará un conjunto de entrenamiento. {(Y , d ), (Y , d ),L, (Y , d )} 1. 1. 2. 2. T. T. y, resolviendo un problema del tipo (2.5.2.4), se. obtendrá un hiperplano separador con el cual se completará la red neuronal que clasifique correctamente el conjunto original de patrones en dos clases como se muestra en la figura 10..
(41) 34. Figura 10. Red neuronal de 3 capas, entrada-oculta-salida..
(42) 35. CAPÍTULO III. 3. Metodología y proceso de la investigación. 3.1 Descripción general Parte de la evaluación del sistema de calidad lo conforma la encuesta de satisfacción de egresados que se aplica cada dos años en las Universidades Tecnológicas. La parte central de la investigación esta en relacionar la percepción de dicha satisfacción con las variables que estuvieron en el proceso enseñanzaaprendizaje por medio de una red neuronal artificial. La figura 11 esquematiza el objetivo de esta investigación:. ALUMNO. PROFESOR Inputs. Inputs. PLANES Y PROGRAMAS DE ESTUDIO Inputs. Outputs. Output. Outputs. PROCESO ENSEÑANZA-APRENDIZAJE. SATISFACCIÓN DEL EGRESADO DEL SERVICIO EDUCATIVO RECIBIDO. Figura 11.Relación de las variables del proceso enseñanza aprendizaje con la satisfacción del usuario..
(43) 36 De las encuestas solo se tomaron el bloque de preguntas del punto 9 (ver anexo 1): La población que se eligió fueron los egresados de los años 2001, 2002 y 2003. La cantidad total de alumnos egresados fue de 4800. Se tomó la pregunta 3 como referencia para determinar el tamaño de la muestra. Se desea conocer la proporción de alumnos que reportaron tener dificultades en el conocimiento de temas específicos de su carrera [25]. Utilizando la fórmula n=. 2. B Zα. 2. p (1 − p ) 1 + ( p )(1 − p ) N. Con un error del 5 % y un nivel de confianza de 95% el resultado es. n=. 0.5(1 − 0.5) ≈ 250 0.05 1 (0.5)(1 − 0.5) + Z 0.025 4800 2. Por cuestiones de presupuesto solo se pudo encuestar a 178 egresados, sin embargo cabe señalar que como no se tiene idea de la proporción que deseamos estimar ( p ) estamos utilizando en la fórmula un valor de p̂ de 0.5, lo que nos da el tamaño de muestra mayor, por lo tanto 178 es un número bastante aceptable para poder hacer análisis estadísticos. Para obtener la información de las variables que se involucraron en el proceso enseñanza aprendizaje se acudió al departamento de control escolar para consultar los expedientes de los egresados, al departamento de recursos humanos para la información correspondiente a los profesores y a la secretaría académica de la universidad para la información respecto a planes y programas de estudio. De la muestra de 178 egresados, se utilizan la información de 143 para el tratamiento estadístico y también para las redes neuronales artificiales. La información de los 35 restantes se reserva para la validación de los modelos obtenidos..
(44) 37 3.2 Análisis de la información con regresión logística. Para realizar el estudio con regresión logística, se hizo una regresión para cada una de las dificultades que el alumno encontró en su desempeño profesional: - Dificultades en el manejo de equipo especializado. - Dificultades por deficiencias en conocimientos generales. - Dificultades por deficiencias en conocimientos de temas específicos de su carrera. - Dificultades con el manejo del idioma inglés. - Dificultades en el manejo de software y equipo de cómputo. - Dificultades para trabajar en equipo. - Dificultades para coordinar equipos de trabajo. - Dificultades para tomar decisiones. - Dificultades para comunicarse en forma oral y escrita. Si el alumno encuestado marcó “SI”, se considerará como una salida con valor uno (1), y si marcó “NO” la salida será cero (0). DIFEE (Dificultad con el manejo de equipos especializados) 0- No tuvo 1- Si tuvo DEFCG (deficiencias en conocimientos generales) 0- Cree que no tuvo 1- Cree que si tuvo DEFCC (deficiencias en conocimientos específicos de su carrera) 0- Cree que no tuvo 1- Cree que si tuvo DEFCI (deficiencias en conocimientos de inglés) 0- Cree que no tuvo 1- Cree que si tuvo DIFMCP (dificultades con el manejo de PC y software) 0- No tuvo 1- Si tuvo DIFTE (Dificultades para trabajar en equipo con otras personas).
(45) 38 0- No tuvo 1- Si tuvo DIFCP (Dificultades para coordinar grupos de personas) 0- No tuvo 1- Si tuvo DIFTD (Dificultades para tomar decisiones) 0- No tuvo 1- Si tuvo DEFCOYE (Deficiencias en comunicación oral y escrita) 0- Cree que no tuvo 1- Cree que si tuvo Los predictores (variables independientes) que se utilizaron en las regresiones se obtuvieron de los expedientes del archivo de control escolar y fueron los siguientes. Carrera (o aparece también como carr en archivos de datos). Corresponde a la carrera que el egresado cursó y le corresponden los siguientes valores. 1- Si es egresado de comercialización 2- Si es egresado de contabilidad 3- Si es egresado de electrónica y automatización 4- Si es egresado de mantenimiento industrial 5- Si es egresado de procesos de producción 6- Si es egresado de tecnología ambiental Promedio ut (o parece también como promut en archivos de datos). Es el promedio general que obtuvo al egresar de la Universidad Tecnológica el alumno. Esta variable es continua en un intervalo de 0 a 10. Sexo . (del egresado) 1-. Si es femenino. 2-. Si es masculino. Edad (o también aparece como cedad en archivos de datos). Edad del egresado a febrero de 2006. Se agrupó en 3 categorías y le corresponde los valores.
(46) 39 1- Si Edad<23 2- Si 23 ≤ Edad ≤ 25 3- Si Edad>25 BACH (o también aparece como cbach en archivos de datos). Bachillerato del que provenía el egresado. Se mencionan a continuación: 1- Cbtis 200 2- Sara Robert 3- Prepa 27 4- Cbtis 180 5- Instituto Tepejano 6- Cbtis 218 7- Bachillerato Sor Juana 8- Cetis 91 9- Prepa 40 10- CBT Dr Efraín 11- CBT Dr Alfonso 12- CBT Luis Pasteur 13- Bachillerato Peñafiel 14- Cbtis 199 15- Cbtis 83 16- Bachillerato Cruz Azul 17- Cetis 26 18- Cetis 118 19- Prepa Mangas 20- Prepa Atotonico 21- CECYTEM Jilotepec 22- Prepa Apaxco 23- Prepa Ricardo Flores 24- CECYTEH Tepetitlan 25- Otros Para simplificación del modelo se agruparon en solo 5 categorías:.
(47) 40 1- Si provienen de Cbtis, Cetis y CECYTEM 2- Si provienen de Preparatorias generales 3- Si provienen de CBT 4- Si provienen de Otros Promedio BACH . Promedio general que sacaron en el bachillerato. Esta es una variable continua en el intervalo de 0 a 10. PROPE. Propedéutico que cursaron en el bachillerato. Le corresponden los siguientes valores: 1- Si provienen de un propedéutico Económico-administrativo. 2- Si provienen de un propedéutico tipo Bachillerato general 3- Si provienen de un propedéutico Químico- biológico 4- Si provienen de un propedéutico Físico- matemático 5- Si provienen de un propedéutico en Sociales IF (o también aparece como if2002 o cif2002 en archivos de datos). Es el ingreso familiar en miles de pesos que reportó el alumno al ingresar a la Universidad. La información del ingreso fue tomada en diferentes años, para homologar esta variable, se actualizó el valor del dinero al año 2002 tomando las tasas de inflación anual para México de la base de datos de ISU Emerging Markets[24]. Para 1999 fue de 12.34%, para 2000 8.96% y para 2001 4.4% El ingreso en pesos del año 1999 se multiplicó por 1.278 El ingreso en pesos del año 2000 se multiplicó por 1.138 El ingreso en pesos del año 2001 se multiplicó por 1.044 El ingreso en pesos del año 2002 se tomó tal cuál. Y se por último de clasificó en 4 categorías: 1- si el ingreso fue menor a 1.5 (en miles de pesos) 2- si 1.5 ≤ Ingreso < 3 (en miles de pesos) 3- si 3 ≤ Ingreso < 4.5 (en miles de pesos) 4- si Ingreso ≥ 4.5 (en miles de pesos).
(48) 41 Promedio ingles ut (o también aparece como promIut en archivos de datos). Promedio que obtuvo el egresado en la materia de inglés -4 cuatrimestres- durante su formación universitaria. Esta variable es continua en un intervalo de 0 a 10. Horas (o también aparece como choras en archivos de datos). Horas de clase que cursó en la materia de inglés en la universidad. Como solo existen dos programas con cantidades de horas diferentes (240 y 255 horas) se puede utilizar las variables categóricas: 0- Si cursó 240 horas 1- Si cursó 255 horas ¿INTERRUMPIO? (o también aparece como interr en archivos de datos). Esta pregunta es para saber si el egresado antes de entrar a la universidad interrumpió sus estudios. 0- Si No interrumpió sus estudios. 1- Si SI interrumpió sus estudios. Cabe destacar que no siempre se utilizaron los mismos predictores (variables independientes) en las diferentes regresiones debido a que no se justificaba su aplicación o porque existió correlación con otra variable. La tabla siguiente nos muestra cuáles se utilizaron en cada regresión. carr. promut. sexo. ceded. cbach. prom. prope. cif2002. promIut. choras. interr. bach DIFEE. x. x. x. x. x. x. x. x. DEFCG. x. x. x. x. x. x. x. x. DEFCC. x. x. x. x. x. x. x. x. DEFCI. x. DIFMCP. x. x. x. x. x. x. x. x. x. x. x. x. x. x. x x. DIFTE. x. x. x. x. x. x. x. x. DIFCP. x. x. x. x. x. x. x. x. DIFTD. x. x. x. x. x. x. x. x. DEFCOYE. x. x. x. x. x. x. x. x. Para construir el mejor modelo en cada regresión se utilizó el proceso de eliminación backward de predictores que inicia con un modelo complejo y va.
(49) 42 quitando variables, en cada paso eliminamos en el modelo el termino con P-valor más grande. Para seleccionar el mejor modelo se utilizo el criterio de menor AIC, el proceso de selección backward con un 5% de significancia para sacar a las variables que eran redundantes en el modelo (se considero como modelo más complejo el modelo con todas las interacciones dobles y en algunos casos el modelo con todas la variables) y se busco que el Likelihood ratio fuera estadísticamente significativo es decir que al menos una de las variables explicara a la variable de respuesta. Para obtener los mejores modelos se utilizó un software especializado en estadística (SAS). Es importante aclara que los predictores son de 3 tipos, cualitativos, cuantitativos ordinales y cuantitativos nominales. Predictores cuantitativos: Promedio ut, promedio Bach y promedio inglés ut. Predictores cuantitativos nominales: carrera, sexo, cbach y Prope. Predictores ordinales: Horas, edad, ingreso e interrumpió. Se debe tener sumo cuidado de especificarle al software los predictores cuantitativos nominales. Al declarar los predictores cualitativos nominales, el software lo que hace es crear una matriz de diseño en donde por default deja fija la última clase de cada predictor. Con la intención de aclarar este punto se presenta el siguiente ejemplo, el predictor cbach que tiene 4 clases forma la siguiente matriz: Clase. g1. g2. g3. 1. 1. 0. 0. 2. 0. 1. 0. 3. 0. 0. 1. 4. -1. -1. -1.
(50) 43 Y de esta manera, todos los predictores cualitativos nominales serán introducidos para su tratamiento estadístico como un vector, dependiendo a la clase a la que pertenezca. 3.2.1 Modelo logit para dificultad con el manejo de equipos especializados (DIFEE). Hipótesis a probar.. H 0 : β 1 = β 2 = ... = β 8 = 0 Vs H1 : β j ≠ 0. para una j al menos. Rechazar H0 con un nivel de significancia α si χ 2 > χ α2 , 1 Se desea saber si una de las 8 variables explicativas tiene algún efecto entre la proporción de alumnos que dijo tener dificultades con el manejo de equipos especializados. Las 8 variables a considerar son: X1 = Carrera que estudio (carrera o carr) X2 = Promedio al egresar de la universidad (promedio ut o promut) X3 = Sexo X4 = Grupo de edad (cedad) X5 = Tipo de bachillerato (cbach) X6 = Tipo de propedéutico (PROPE) X7 = Clasificación de acuerdo al ingreso en poder adquisitivo de 2002 (cif2002).
Figure
Documento similar
DECORA SOLO LAS IMÁGENES QUE NECESITES PARA LLEGAR AL NÚMERO CORRESPONDIENTE... CEIP Sansueña/CEIP Juan XXIII Infantil
Las personas solicitantes deberán incluir en la solicitud a un investigador tutor, que deberá formar parte de un grupo de investigación. Se entiende por investigador tutor la
Dado un espazo topol´ oxico, denominado base, e dado un espazo vec- torial para cada punto de dito espazo base, chamaremos fibrado vectorial ´ a uni´ on de todos estes
La solución que se ha planteado, es que el paso o bien se hiciese exclusivamente por el adarve de la muralla, o que una escalera diese acceso por la RM evitando la estancia (De
Imparte docencia en el Grado en Historia del Arte (Universidad de Málaga) en las asignaturas: Poéticas del arte español de los siglos XX y XXI, Picasso y el arte español del
DIRECCIÓN GENERAL DE INNOVACIÓN, ORDENACIÓN Y POLÍTICA LINGÜÍSTICA. SERVICIO DE INNOVACIÓN Y
De esta manera, ocupar, resistir y subvertir puede oponerse al afrojuvenicidio, que impregna, sobre todo, los barrios más vulnerables, co-construir afrojuvenicidio, la apuesta
Cuando trabaje en una tabla, haga clic donde desee agregar una fila o columna y, a continuación, haga clic en el signo más.La lectura es más fácil, también, en la nueva vista