Monterrey, Nuevo León a
Lic. Arturo Azuara Flores:
Director de Asesoría Legal del Sistema
en los sucesivo LA OBRA, en virtud de lo cual autorizo a el Instituto Tecnológico
y de Estudios Superiores de Monterrey (EL INSTITUTO) para que efectúe la divulgación, publicación, comunicación pública, distribución y reproducción, así como la digitalización de la misma, con fines académicos o propios al objeto de EL INSTITUTO.
El Instituto se compromete a respetar en todo momento mi autoría y a
otorgarme el crédito correspondiente en todas las actividades mencionadas anteriormente de la obra.
De la misma manera, desligo de toda responsabilidad a EL INSTITUTO por cualquier violación a los derechos de autor y propiedad intelectual que
cometa el suscrito frente a terceros.
Nombre y Firma AUTOR (A)
de 200
Por medio de la presente hago constar que soy autor y titular de la obra
Redes Neuronales Artificiales Aplicadas en el Sistema de
Calidad de una Institución Educativa-Edición Única
Title Redes Neuronales Artificiales Aplicadas en el Sistema de Calidad de una Institución Educativa-Edición Única
Authors Alejandro Islas Cerón
Affiliation ITESM-Campus Monterrey
Issue Date 2006-12-01
Item type Tesis
Rights Open Access
Downloaded 19-Jan-2017 10:20:02
i INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY
CAMPUS MONTERREY
DIVISIÓN DE INGENIERÍA Y ARQUITECTURA PROGRAMA DE GRADUADOS EN INGENIERÍA
Redes neuronales artificiales aplicadas en el sistema de calidad de una institución educativa.
TESIS
PRESENTADA COMO REQUISITO PARCIAL PARA OBTENER EL GRADO ACADÉMICO DE:
MAESTRO EN CIENCIAS
ESPECIALIDAD EN SISTEMAS DE CALIDAD Y PRODUCTIVIDAD
POR:
ALEJANDRO ISLAS CERÓN
ii
INSTTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY
CAMPUS MONTERREY
DIVISIÓN DE INGENIERÍA Y ARQUITECTURA PROGRAMA DE GRADUADOS EN INGENIERÍA
Los miembros del comité de tesis recomendamos que el presente proyecto de tesis presentado por el Ing. Alejandro Islas Cerón sea aceptado como requisito parcial para obtener el grado académico de:
MAESTRO EN CIENCIAS CON ESPECIALIDAD EN SISTEMAS DE CALIDAD Y PRODUCTIVIDAD
Comité de tesis:
____________________________ Francisco R. Angel-Bello Acosta, Ph. D.
Asesor
__________________________ ________________________ Rafael E. Bourguet Díaz, Ph. D José G. Ríos Alejandro, Ph. D. Sinodal Sinodal
Aprobado:
__________________________________ Francisco R. Angel-Bello Acosta, Ph. D. Director del Programa de Graduados en Ingeniería
iii DEDICATORIA
A Dios
A mi familia
A mis amigos
iv AGRADECIMIENTOS
v RESUMEN
Actualmente los sistemas de calidad los encontramos en muchas de las actividades humanas. Los servicios educativos tanto públicos como privados no son la excepción. Con la implementación de un sistema de calidad se busca incrementar la eficiencia en el manejo de los recursos de la institución educativa, aumentar su prestigio, desarrollarse, pero sobre todo, satisfacer al usuario.
El presente trabajo esta enfocado precisamente a la medición de la satisfacción de los egresados de la Universidad Tecnológica de Tula-Tepeji como estrategia para mejorar los procesos internos de la misma.
La información obtenida de las encuestas de seguimiento de egresados se utiliza posteriormente en técnicas estadísticas y matemáticas para determinar el impacto que tiene en la satisfacción de los egresados algunas de las variables del proceso enseñanza-aprendizaje.
A diferencia de otras técnicas de estadística descriptiva, el presente trabajo intenta enlazar las causas con los efectos. Dicho en otras palabras, no solo se trata de conocer el nivel de satisfacción de los egresados, sino las causas que lo originaran para después proponer acciones correctivas y preventivas.
Las variables medidas en las encuestas son de tipo dicotómicas y es por ello que se aplica una red neuronal artificial clasificadora de dos tipos. El proceso consiste en encontrar el número adecuado de neuronas en la capa oculta, determinar los pesos y validar la red.
Con la determinación de variables significativas obtenidas de la regresión logística binaria y con las predicciones que se pueden hacer con la red neuronal artificial, la institución contará con mayores elementos para implementar acciones correctivas acertadas y de manera oportuna.
vi
INDICE
Resumen...V
CAPITULO I. Introducción
1.1 Antecedentes...1 1.2 Planteamiento del problema...2
1.2.1 Objetivos 1.2.2 Hipótesis
1.3 Justificación...3
CAPÍTULO II. Marco Teórico
2.1 Introducción...5 2.2 ISO 9000...5
2.2.1 Estructura de las normas ISO9000:2000 2.2.2 Enfoque al cliente
2.3 Cómo medir la satisfacción del cliente...7 2.3.1 Diseño de encuestas de satisfacción
2.3.2 Encuesta de seguimiento de egresados para las Universidades Tecnológicas
2.3.3 Análisis y uso de la retroalimentación del cliente 2.4 Teoría estadística. Tamaño de la muestra y análisis de
correlación...9 2.5 Regresión logística Binaria...12
2.5.1 Significancia estadística de cada coeficiente 2.5.2 Bondad de ajuste del modelo
2.5.3 Residuales del modelo logístico
2.6 Redes neuronales artificiales para la clasificación...17 2.6.1 Introducción a las redes neuronales
2.6.2 Redes neuronales para la clasificación
2.6.3 Solución al problema de la separabilidad lineal
2.6.4 Formulación del problema y descripción de la metodología
CAPÍTULO III. Metodología y proceso de la investigación
3.1 Descripción general...35 3.2 Análisis de la información con regresión logística...37
vii
3.2.2 Modelo logit para dificultad con deficiencias en conocimientos generales
3.2.3 Modelo logit para dificultad con deficiencias en conocimientos específicos de su carrera
3.2.4 Modelo logit para dificultad con deficiencias en conocimientos del idioma inglés
3.2.5 Modelo logit para dificultad en el manejo de PC y software
3.2.6 Modelo logit para dificultad para trabajar en equipo 3.2.7 Modelo logit para dificultad para coordinar personas 3.2.8 Modelo logit para dificultad para tomar decisiones 3.2.9 Modelo logit para dificultad con deficiencias en comunicación oral y escrita
3.3 Análisis usando redes neuronales artificiales...61
3.3.1 Red neuronal artificial para dificultad con el manejo de equipo especializado 3.3.2 Red neuronal artificial para dificultad en deficiencias en conocimientos generales 3.3.3 Red neuronal artificial para dificultad en deficiencias en conocimientos específicos de su carrera 3.3.4 Red neuronal artificial para dificultad en deficiencias en conocimientos del idioma inglés 3.3.5 Red neuronal artificial para dificultad en el manejo de PC y Software 3.3.6 Red neuronal artificial para dificultad en trabajo en equipo 3.3.7 Red neuronal artificial para dificultad en coordinar personas 3.3.8 Red neuronal artificial para dificultad en tomar decisiones 3.3.9 Red neuronal artificial para dificultad en comunicación oral y escrita CAPÍTULO IV. Análisis de resultados y conclusiones. 4.1 Análisis de los resultados obtenidos...83
4.2 Interpretación de los predictores significativos...83
4.3 Uso de los resultados de las redes neuronales artificiales...87
4.3 Conclusión...90
Anexos
CAPÍTULO I
1. Introducción
1.1 Antecedentes.
El diseño y operación de un sistema de calidad en el área de servicios no es
una tarea fácil y mucho menos cuando se trata de servicios educativos. En un
servicio educativo el éxito del mismo depende en gran medida de la persona que
lo recibe. La calidad del proceso de enseñanza-aprendizaje depende tanto de la
institución educativa, como del alumno.
El servicio educativo es más complejo que otros tipos. En un sentido muy
general, cuando hablamos del área de servicios existen 2 actores principales, el
cliente que es el que específica lo que desea del servicio para sentirse satisfecho
y la organización que se encarga de recoger estas expectativas y diseñar todo un
proceso para satisfacerlas.
Cuando nos referimos a servicio educativo público de educación superior, las
cosas cambian, el receptor del servicio educativo (alumno) en ocasiones debe ser tratado como cliente y en otras ocasiones como proveedor de insumos para el proceso. Existe otro actor, la sociedad, que debe ser considerado como el cliente principal, pues es la que aporta los recursos económicos para que la institución educativa siga operando, la sociedad esta representada por el poder legislativo
que autoriza el presupuesto.
Para cerrar el sistema tenemos que incluir a los contratadores, pues serán ellos quienes determinen los conocimientos que debe tener un egresado que
recibió el servicio educativo.
En resumen, la institución educativa hace estudios con los contratadores para determinar los conocimientos que demanda el mercado laboral de ciertos
profesionistas y con esta información diseña sus planes de estudio. Al alumno,
evaluar su satisfacción cuando se trate de instalaciones como laboratorios,
cafetería, canchas y otros servicios de apoyo. Pero dentro del proceso será tratado como proveedor de capacidad de aprendizaje, aptitudes, actitudes y conocimientos previos.
El sistema de Universidades Tecnológicas fue creado en México en 1991. A
finales de la década pasada este sistema de Universidades se certificó en la
norma ISO-9000 con la intención de incrementar la calidad de los servicios
educativos que ofrece, ajustar la pertinencia de los planes y programas de estudio
e incrementar la eficiencia de los recursos económicos aportados por el estado y
su prestigio como subsistema de educación público. El poder legislativo, a través
de la Secretaría de Educación Pública, evalúa los resultados que está obteniendo
el sistema de Universidades Tecnológicas y en función de estos asigna el
presupuesto anual siguiente.
1.2 Planteamiento del problema.
Parte del sistema de calidad de las Universidades tecnológicas lo constituye
el seguimiento de egresados.
En 2005, Adolfo Mir publica los resultados de la situación laboral de los
profesionistas formados en las Universidades Tecnológicas [Mir et al., 2005]. En
este trabajo se encuentran muchas estadísticas descriptivas generales, agrupadas
por zonas geográficas del país. Esta información puede ser de ayuda para
cualquier Universidad Tecnológica, pero falta precisión en el momento de tomar
medidas correctivas que mejoren el desempeño de la misma.
Actualmente se aplican encuestas de seguimiento de egresados con la
intención de mejorar el servicio educativo, sin embargo los resultados obtenidos
de estas encuestas son muy generales o difícilmente se pueden enlazar con las
variables del proceso que los originaron.
Utilizando esta misma información de las encuestas de egresados y
aunándole información histórica de los mismos, pero cuando fueron alumnos, se
pretende obtener una herramienta de predicción que permita hacer correcciones
En el presente trabajo aplicaremos una red neuronal artificial clasificadora
para lograr este propósito.
1.2.1 Objetivos
- Estudiar la relación que existe entre las variables de entrada y las de salida
del proceso.
- Determinar que variables de entrada tienen mayor peso o influencia en las
variables de salida usando la regresión logística binaria.
- Diseñar y entrenar una red neuronal artificial para predecir el desempeño
del alumno después de egresar.
1.2.2 Hipótesis
Mediante una red neuronal se puede predecir parte del desempeño que un
egresado tendrá en su ejercicio profesional.
1.3 Justificación.
La educación pública es parte fundamental en una sociedad, a través de ella
se logra el desarrollo económico y por consecuencia mejores niveles de vida. Con
este antecedente, se considera necesario dar seguimiento a los egresados para
saber si en efecto, el servicio educativo que recibieron contribuyó a un desarrollo
integral.
Teniendo en cuenta que se dispone de recursos limitados, el gobierno ha
impulsado la implementación y certificación de sistemas de calidad en muchas
instituciones con el objetivo de lograr mayor productividad con los recursos que se
asignan y el sector educativo no ha sido la excepción. Las Universidades
Tecnológicas como subsistema educativo se certificaron en ISO 9000 en 1999.
El sistema exige que los resultados sean medidos de forma periódica, pero,
actualmente se utilizan indicadores de actividad que solo reflejan la operación
diaria de la institución, sin considerar el impacto que el servicio educativo tiene en
La falta de una evaluación confiable de las instituciones educativas en gran
parte se debe al desconocimiento de las expectativas del usuario que recibe el
servicio educativo. Las instituciones se enfocan más a medir aspectos como el
número de alumnos por computadora, la cantidad de alumnos por grupo, la
cantidad de recursos económicos consumidos por alumno y muchos otros
indicadores que si bien es cierto, influyen en los resultados no toman en cuenta lo
que el usuario espera después de graduarse.
Es por ello que son necesarias nuevas herramientas de evaluación y de
predicción, que permitan tomar medidas correctivas certeras y oportunas. En este
trabajo tomaremos como caso de estudio a la Universidad Tecnológica de Tula
Tepeji para obtener información de sus egresados, relacionarla con registros
históricos y hacer inferencias estadísticas y predicciones mediante la aplicación de
la regresión logística y redes neuronales artificiales.
Aunque el trabajo de investigación se centra solamente en una Universidad
Tecnológica, pensamos que puede ser extendido y aplicado a otras universidades
CAPÍTULO II
2. Marco teórico.
2.1 Introducción
En este capítulo daremos una breve descripción de las herramientas que se
utilizarán a lo largo de este trabajo para resolver el problema propuesto.
2.2 ISO 9000.
En 1987 con la finalidad de estandarizar los requisitos de calidad para los
países europeos dentro del mercado común y para quienes querían hacer
negocios con estos países, un organismo especializado en normatividad, la
Internacional Organization for Standarization (IOS), adoptó una serie de normas
de calidad escritas. Estas normas fueron revisadas en 1994 y una ves más en
2000, a esta familia se le conoce como la familia de las normas ISO 9000:2000.
2.2.1 Estructura de las normas ISO 9000: 2000.
Las normas ISO 9000:2000 se enfocan en el desarrollo, documentación e
implementación de procedimientos para asegurar la consistencia de las
operaciones y el desempeño en los procesos de producción y prestación de
servicios, con la meta de la mejora continua, y apoyadas por los principios
fundamentales de la calidad total. El sistema de calidad bajo la perspectiva ISO
Figura 1. Sistema de administración por calidad total.
En lo que respecta a educación, la aplicación de la norma ISO 9000 tiene
algunas modificaciones, el sistema de gestión de la calidad debería ser el más
simple y comprensible para alcanzar los objetivos de calidad de la organización
educativa. El control de la calidad es un proceso esencial en un sistema de gestión
de la calidad. La medición exacta no es fácil cuando se evalúa el desempeño
humano y ésta se realiza normalmente durante el proceso educativo [23].
2.2.2 Enfoque al cliente.
El enfoque al cliente es un requisito clave de ISO 9000:2000. Por ejemplo, en
la sección de Responsabilidades de la dirección, uno de los requisitos es: “La alta dirección deberá asegurarse de que se determinen y cumplan los requisitos de los
clientes con el objeto de aumentar su satisfacción”. Con esto, la responsabilidad
del enfoque hacia el cliente recae en la alta dirección. En las secciones de
seguimiento de las percepciones de los clientes acerca de si la empresa ha
cumplido con los requisitos; es decir, la satisfacción del cliente [11].
2.3 Cómo medir la satisfacción del cliente.
La retroalimentación del cliente es vital para un negocio. A través de ésta,
una empresa sabe si sus clientes están satisfechos con sus productos y servicios
y, en ocasiones, con los productos y servicios de sus competidores. Las
mediciones de la satisfacción del cliente permiten a una empresa hacer lo
siguiente:
1. Descubrir las percepciones del cliente sobre la forma en que la empresa
satisface a sus necesidades, e identificar las causas de la insatisfacción y
las expectativas no cumplidas, así como los motivadores del deleite.
2. Comparar el desempeño de la empresa en relación con los competidores,
para apoyar la planeación y mejores iniciativas estratégicas.
3. Descubrir las áreas que necesitan mejorar en el diseño y la entrega de
productos y servicios, así como la capacitación y orientación para los
empleados.
4. Hacer el seguimiento de las tendencias a fin de determinar si los cambios
realmente dan como resultado mejoras.
2.3.1 Diseño de encuestas de satisfacción.
El primer paso en el desarrollo de una encuesta de satisfacción para los
clientes es determinar su propósito. Las encuestas deben estar diseñadas para
proporcionar, a los usuarios de los resultados de las mismas, la información que
necesitan para tomar decisiones. Una pregunta crítica a considerar es: ¿Quién es
el cliente? Los directivos, compradores, usuarios finales y otras empresas que
pueden ser afectados por los productos y servicios de una empresa.
La siguiente pregunta a responder es quién debe realizar la encuesta. Con
frecuencia las organizaciones independientes ajenas a la empresa tienen mayor
En las encuestas es muy frecuente utilizar la escala Likert. Este tipo de
escalas de 5 puntos permiten al cliente expresar su grado de opinión [17].
Muchos indicadores de satisfacción del cliente evalúan las características de
servicio. Puede ser difícil desarrollar características mesurables de la calidad del
servicio y caen en la ambigüedad.
2.3.2 Encuesta de seguimiento de egresados para las Universidades
Tecnológicas.
La encuesta para el seguimiento de egresados del sistema de Universidades
Tecnológicas tiene como finalidad indagar acerca de cómo se incorporan los
egresados al empleo. Por consiguiente, servirá para recabar información sobre el
tiempo que tardan en emplearse a partir del egreso y los medios que utilizan para
llegar a obtener el empleo. Respecto de los egresados que, al momento del
levantamiento de los datos, no hayan comenzado a trabajar o que, habiéndolo
hecho, no se encuentren empleados, se buscará averiguar las razones para ello.
Dado que las Universidades Tecnológicas aspiran a que la formación que
reciben sus egresados se corresponda con las necesidades de los sectores
productivos de bienes y servicios de su región, en la encuesta se recogen datos
acerca de las dificultades que han encontrado los egresados en el
desempeño de sus puestos de trabajo [25]. También en que medida coinciden
los conocimientos adquiridos y las competencias desarrolladas como estudiantes
de las Universidades tecnológicas con las tareas que les son requeridas realizar
en sus empleos.
Como al atender las necesidades de las economías regionales también
esperan las Universidades Tecnológicas responder a las aspiraciones y
expectativas de sus egresados, con la encuesta se obtendrá información sobre la
satisfacción de estos egresados con las recompensas que obtienen en su empleo,
tanto en el ejercicio y despliegue mismo de sus conocimientos y habilidades como
en el ingreso, reconocimiento profesional y desarrollo profesional que les
Por último, también se averigua acerca de la evaluación que hacen los
egresados, retrospectivamente, de su experiencia como alumnos de las
Universidades Tecnológicas. Se recaba, así, su opinión sobre los servicios
docentes, la infraestructura y el plan de estudios que cursó. La encuesta se
muestra en el anexo 1.
2.3.3 Análisis y uso de la retroalimentación del cliente.
Deming enfatizó la importancia de utilizar la retroalimentación del cliente para
mejorar los productos y procesos de la empresa. Al analizar las tendencias en los
indicadores de satisfacción del cliente y relacionar esta información con sus
procesos internos, un negocio puede determinar sus progresos y las áreas en
que debe mejorar. Como siguiente paso, la organización asigna a un grupo de
colaboradores la responsabilidad operativa y por resultados de desarrollar planes
de mejora en función de la medición de la satisfacción del cliente [11].
2.4 Teoría estadística. Tamaño de la muestra y análisis de correlación.
Cuando se desea hacer estimaciones de una proporción de una variable
cualitativa de una población finita se utiliza la siguiente fórmula [25] para
determinar el tamaño de la muestra:
(
)
( )(
p p)
N Z
B
p p n
− +
− =
1 1
1
2 2
α
Donde
=
n Tamaño de la muestra =
p Proporción estimada (cuando no se tiene ni idea de la proporción que se
desea estimar, se usa 0.5) =
B Error máximo permisible.
=
α Nivel de significancia.
=
La correlación es una medida de una relación lineal entre dos variables
aleatorias, X y Y, y se mide por medio del coeficiente de correlación
(poblacional). Los coeficientes de correlación van desde -1 a +1. Una correlación
de 0 indica que las dos variables no tienen relación lineal entre sí. Por tanto, si una
cambia, no se puede predecir en forma razonable que la otra lo haga si se utiliza
una ecuación lineal (sin embargo, se podría tener una relación no lineal bien
definida). Un coeficiente de correlación de +1 indica una relación lineal positiva
perfecta; al aumentar la variable, la otra también lo hará. Un coeficiente de
correlación de -1 también muestra una relación lineal perfecta, excepto que,
cuando una variable aumenta, la otra disminuye [11].
La suposición usual es que las observaciones
(
Xi,Yi)
,i=1,2,..n, son variables aleatorias distribuidas de manera conjuntas obtenidas de la distribución f(x,y) que es una distribución normal bivariada, y que µY y 2Y
σ son la media y la varianza
de Y, y µX y
2
X
σ son la media y la varianza de X , siendo ρ el coeficiente de
correlación entre X y Y. El coeficiente de correlación esta definido como
Y X
XY σ σ
σ ρ =
Donde σXY es la covarianza entre X y Y
La distribución condicionada normal de Ypara un valor dado de X =x es
− − −
=
2 1 0
2 1 exp 2
1 )
(
x Y x
Y x
Y
x y
y f
σ β β πσ
Donde
X Y X
Y σ
σ ρ µ µ
β0 = −
ρ σ
σ β
X Y
=
y la varianza de la distribución normal condicional de Ypara un X =x dado es
) 1 ( 2
2
2 σ ρ
σYx = Y −
Esto es, la distribución normal condicional de Ydado X =x es normal con
media
x x
Y
E( )=β0 +β1
y varianza 2
x Y
σ . Por tanto, la media de la distribución condicional normal de Ydado
x
X = es un modelo de regresión simple. Por otra parte, existe una relación entre
el coeficiente de correlación ρ y la pendiente β1. De la ecuación 1, se observa
que si ρ =0 entonces β1 =0, lo que implica que no hay regresión de Ysobre X. Esto es, el conocimiento de X no es de ayuda para predecir Y.
Para estimar los parámetros β0 y β1 puede utilizarse el método de máxima
verosimilitud. Puede demostrarse que los estimadores de máxima verosimilitud de
estos parámetros son
X
Y 1
0 ˆ
ˆ β
β = −
y
XX XY n
i i n i
i i
S S
X X
X X Y
= −
− =
∑
∑
= =
2
1 1 1
) (
) (
ˆ β
Es posible obtener inferencias sobre el coeficiente de correlación ρ de este
[
]
12 21
1 1
2 2
1
) ( ) (
) (
YY XX
XY n
i
n i
i i
n i
i i
S S
S
Y Y X
X
X X Y
R =
− −
− =
∑
∑
∑
= =
=
Las hipótesis a probar son
0 :
0 ρ = H
0 :
1 ρ ≠
H
El estadístico de prueba apropiado para ellas es
2 0
1 2
R n R T
− − =
El cuál tiene una distribución t con n−2 grados de libertad si H0 :ρ =0 es verdadera. Por consiguiente, la hipótesis nula se rechaza si
2 , 2 0 > −
n
t
t α [26].
2.5 Regresión Logística Binaria.
Los modelos de regresión son modelos estadísticos en los que se desea
conocer la relación entre:
•Una variable dependiente cualitativa, dicotómica (regresión logística binaria o binomial) y una o más variables independientes.
• Una variable dependiente cualitativa que puede tomar 3 o más valores
(regresión logística multinomial) y una o más variables independientes.
• Dos o más variables explicativas independientes, o covariables, ya sean cualitativas o cuantitativas y una o más variables independientes.
En nuestro estudio nos centraremos en el primer caso ya que las variables
dependientes que se manejan en los modelos de esta tesis sólo pueden tomar dos
Siendo la ecuación inicial del modelo de tipo exponencial como:
(
)
k X k ... 1 X 1 0 k X k ... 1 X 1 0 e 1 e x 1 yP β β β
β β β + + + + + + + = =
Siendo P(y=1|X) la probabilidad de que y tome el valor 1 (presencia de la característica estudiada), en presencia de las variables Xi de i =1,…,k. Los componentes de esta ecuación son:
1. β0 es la constante del modelo o término independiente
2. k el número de variables
3. i
β los coeficientes de las variables
4. Xi las covariables que forman parte del modelo.
Si dividimos la expresión anterior por su complementario, es decir, si
construimos su odds (la probabilidad de la presencia de la característica estudiada
entre la no presencia de la característica estudiada), obtenemos una expresión de
más fácil manejo matemático:
(
)
(
)
0 1X1 ... kXkk X k ... 1 X 1 0 k X k ... 1 X 1 0 k X k ... 1 X 1 0 e e e 1 e x 1 y P 1 x 1 y
P β β β
β β β β β β β β β + + + + + + + + + + + + = − + = = − =
(
)
(
)
e 0 1X1 ... kXkx 1 y P 1 x 1 y
P β +β + +β
= = −
=
Si ahora realizamos su transformación logarítmica con el logaritmo natural,
obtenemos una ecuación lineal que es lógicamente de manejo matemático aún
más fácil y de mayor comprensión:
(
)
(
)
0 1X1 ... kXkx 1 y P 1 x 1 y P
ln =β +β + +β
= − =
En la expresión de la ecuación vemos a la izquierda de la igualdad el llamado
logit, es decir, el logaritmo natural de los odss de la variable dependiente (esto es, el logaritmo de la razón de proporciones de tener la presencia de la característica
estudiada, de éxito, etc.). El término a la derecha de la igualdad es la expresión de
una recta, idéntica a la del modelo general de regresión lineal:
k k 1
1 0
i X ... X
Pero la regresión lineal presenta una diferencia fundamental respecto al
modelo de regresión logística. En el modelo de regresión lineal se asume que los
errores estándar de cada coeficiente siguen una distribución normal de media 0 y
varianza constante (homoscedasticidad). En el caso del modelo de regresión logística no pueden realizarse estos supuestos pues la variable dependiente no es
continua (sólo puede tomar dos valores, 0 ó 1, pero ningún valor intermedio). Si
llamamos εi al posible error i-ésimo de predicción para cada variable xi,, tendremos que el error cometido dependerá del valor que llegue a tomar la
variable dependiente y, tal como vemos a continuación:
( )
+ε=P x Y
Si Y =1⇒ε =1−P
( )
xY si Y =0⇒ε =−P
( )
xEsto implica que ε sigue una distribución binomial, con media y varianza
proporcionales al tamaño muestral y a P(y=1|xi) (la probabilidad de que y=1 dada la presencia de xi).
Para la estimación de los coeficientes del modelo y de sus errores estándar
se recurre al cálculo de estimaciones de máxima verosimilitud, es decir,
estimaciones que maximicen la probabilidad de obtener los valores de la variable
dependiente Y proporcionados por los datos de nuestra muestra. Estas estimaciones no son de cálculo directo, como ocurre en el caso de las
estimaciones de los coeficientes de regresión de la regresión lineal múltiple por el
método de los mínimos cuadrados. Para el cálculo de estimaciones
máximo-verosímiles se recurre a métodos iterativos. Dado que el cálculo es complejo,
normalmente hay que recurrir al uso de rutinas de programación o a paquetes
estadísticos. De estos métodos surgen no sólo las estimaciones de los
coeficientes de regresión, sino también de sus errores estándar y de las
2.5.1 Significancia estadística de cada uno de los coeficientes.
El siguiente paso será comprobar la significación estadística de cada
uno de los coeficientes de regresión en el modelo. Para este estudio
emplearemos el estadístico de Wald.
El estadístico de Wald. Contrasta la hipótesis de que un coeficiente
aislado es distinto de 0, es decir H0 :β1 =β2 =...=βK =0 vs
menos al
j una para
H1:βj ≠0 y sigue una distribución normal con media 0 y
varianza 1. Su valor para un coeficiente concreto viene dado por el cociente
entre el valor del coeficiente y su correspondiente error estándar. La
obtención de significación indica que dicho coeficiente es diferente de 0 y
merece la pena su conservación en el modelo. En modelos con errores
estándar grandes, el estadístico de Wald puede proporcional falsas
ausencias de significación (es decir, se incrementa el error tipo II). Tampoco
es recomendable su uso si se están empleando variables de diseño.
Para una muestra larga:
ASE ˆ z = β
Que se distribuye normal con media cero y varianza 1, la otra alternativa es
usar el estadístico de Wald:
2 2
ASE ˆ w= β
Teniendo un tamaño de muestra grande este estadístico se distribuye
Ji-cuadrada con un grado de libertad.
2.5.2 Bondad de ajuste del modelo.
1. El estadístico G2 o razón de verosimilitudes. Se trata de ir contrastando
cada modelo que surge de eliminar de forma aislada cada una de las
variables frente al modelo completo (no se asume normalidad). La ausencia
de significación implica que el modelo sin la variable no empeora respecto al
según la estrategia de obtención del modelo más reducido, dicha variable
debe ser eliminada del modelo ya que no aporta nada al mismo.
(
)
(
)
( )
2( )
10 2 1 0 1
0
2 M |M 2 L L G M G M
G =− − = −
Donde:
M0 = Modelo reducido
M1 = es el modelo más complejo posible
Este estadístico es más grande cuando el ajuste de M0 es más pobre que el
de M1. Cuando la muestra es grande este estadístico sigue una distribución
Ji-cuadrada con grados de libertad iguales a la diferencia de los grados de
libertad de los residuales de los dos modelos.
2. Otro criterio puede ser utilizar el modelo que tenga el menor AIC.
3. La prueba Score. Su cálculo para el caso de una única variable viene
dado por:
(
)
(
) (
∑
)
∑
= =
− −
− =
k
1 i
2 i k
1 i
i i
x x y 1 y
y y x
S
En el caso de múltiples variables hay que utilizar cálculo matricial, si bien no
requiere un cálculo iterativo (precisamente su rapidez de cálculo sería su aspecto
más favorable). Se sabe que este estadístico se incrementa conforme aumenta el
número de variables (es decir tiende a dar significación con mayor frecuencia).
2.5.3 Residuales del modelo logistic
Los estadísticos de bondad de ajuste son indicadores que resumen la calidad
de ajuste del modelo. Adicionalmente a estos análisis es necesario describir la
naturaleza de la falta de ajuste. Comparando los residuales que son la diferencia
entre los conteos observados y predichos.
(
i)
i i
i i i i
p ˆ 1 p ˆ n
p ˆ n y e
− − =
∑
= = n
1 i
2 i
2 e
X
Cada residual Pearson al cuadrado es un componente de X2 cuando el
índice binomial es grande ni, el residual de Pearson tiene aproximadamente una distribución normal, aproximadamente con media cero pero varianza más pequeña
que la normal estándar. Si el número de parámetros del modelo es menor al
número de logits de la muestra los residuales son tratados separadamente de una
distribución normal estándar, con valores absolutos más grandes que 2 indican
posibles faltas de ajuste.
2.6 Redes neuronales
2.6.1 Introducción a las Redes neuronales
Uno de los principales objetivos y preocupaciones de los científicos a lo largo
de la historia ha sido diseñar y construir máquinas con cierto grado de inteligencia.
Una forma diferente de abordar este problema es mediante los modelos de redes
neuronales artificiales, los cuales están inspirados en el funcionamiento del
cerebro humano.
La neurona o célula nerviosa es la unidad funcional básica de los tejidos del sistema nervioso, incluido el cerebro. Este modelo del sistema nervioso parte de
que las neuronas se comunican entre sí por medio de impulsos eléctricos y que
forman una red neuronal que tiene una estructura compleja de interconexiones.
La entrada a la red proviene de receptores sensitivos que están en contacto
con el mundo exterior. Estos receptores envían estímulos en forma de impulsos
eléctricos que llevan la información a la red de neuronas. Como resultado del
procesamiento de la información en el sistema nervioso central, los efectores
controlan y dan respuesta en forma de diversas acciones.
En general, el aprendizaje es un cambio permanente y relativo en el
comportamiento basado en la experiencia. En redes neuronales biológicas, el
las neuronas o mediante la modificación de la intensidad de las conexiones
sinápticas existentes.
En redes neuronales artificiales, el aprendizaje es un proceso más directo
que se puede entender como una relación causa-efecto y puede ser vista como
una relación que transforma las entradas en las salidas para un conjunto de
ejemplos de pares entrada-salida.
Este proceso se asemeja al cerebro humano en que el conocimiento es
adquirido por la red mediante un proceso de aprendizaje y en que la intensidad de
las conexiones entre las neuronas, conocidas como pesos sinápticos, se utiliza
para almacenar el conocimiento.
De aquí, se defina a la red neuronal artificial como un procesador distribuido
masivamente en paralelo que puede almacenar conocimiento basado en la
experiencia y es capaz de tenerlo disponible para su uso.
2.6.2 Redes neuronales para la clasificación.
El término de patrón es utilizado para referirse a los elementos del conjunto
de entradas que se le presentan a la red en la etapa de entrenamiento. Más aún,
un patrón debe ser una descripción cuantitativa de un objeto, evento o fenómeno.
Clasificación: Es cuando el conjunto de patrones de entrada es dividido en
clases o categorías. En este caso al presentar una entrada, la red debe dar como
respuesta a qué clase pertenece. Generalmente las clases son expresadas por
vectores de salida de valores discretos y se usan funciones de activación binarias.
La principal función de un sistema de clasificación es decidir a qué clase
pertenece la entrada que se presente. Conceptualmente, el problema puede se
descrito como una transformación de conjuntos o funciones desde el espacio de
entrada al espacio de salida, que es llamado espacio de clasificación.
El objetivo de la clasificación de patrones es asignar un objeto físico, evento
o fenómeno a una de las clases o categorías preestablecidas. El problema de
clasificación de patrones puede ser considerado como uno de discriminación de
datos de entrada dentro de una población de objetos, mediante la búsqueda de
La entrada es representada como un vector X y la clasificación a la salida
del sistema es obtenida por un clasificador implementado por una función de
decisión i0(X) que puede tomar, en general, uno de los valores discretos 1,2,...,R, donde la respuesta representa la categoría a la cual puede ser asignado el patrón,
como se muestra en la figura 2. Es decir
i0 =i0(X) (2.7) donde X =
[
x x1, 2,L,xn]
tLa función de clasificación (de decisión) de la ecuación (2.7) representa una
transformación o aplicación de un vector n-dimensional X a una de las categorías
[image:28.612.91.428.291.392.2]i0(X).
Figura 2: Esquema de un clasificador multicategoría.
La clasificación también puede ser descrita convencionalmente en forma
geométrica. Un patrón puede ser representado por un punto en un espacio
euclidiano n-dimensional Rn, denominado espacio de patrones. Los puntos en este espacio corresponden a los elementos del conjunto de patrones que son
vectores n-dimensionales. Un clasificador de patrones aplica conjuntos de puntos
del espacio Rn en el espacio de uno de los números i0(X)=1 2, ,L, R como describe la función de decisión (2.7).
Las regiones denotadas por Cj son llamadas regiones de decisión y las fronteras que separan una región de las otras se denominan superficies de
Durante la etapa de clasificación, para determinar la pertenencia a una
categoría, el clasificador necesita basarse en la comparación de los cálculos para
el patrón de entrada X de R funciones de discriminación
g X1( ), g2(X),L, gR(X). Las funciones de discriminación toman valores escalares y un patrón pertenece a la i-ésima categoría si y solo si se cumple que
g Xi( )> gj(X), ∀i j, =1 2, ,L, R; i ≠ j (2.8) Esto significa que dentro de la región Cj la i-ésima función de discriminación toma el mayor valor. Esta propiedad de la función de discriminación g Xi( ) de tomar el valor máximo para un patrón que pertenezca a la clase i es fundamental y es usado para seleccionar formas específicas de las funciones g Xi( ).
Las funciones de discriminación g Xi( ) y gj( )X para regiones de decisión contiguas Ci y Cj definen las superficies de decisión entre patrones de las clases i y j en el espacio Rn.
Para un patrón dado el i-ésimo discriminador calcula el valor de la función
g Xi( ) que se denomina simplemente discriminante. El selector del máximo implementa la condición (2.8) y selecciona la mayor de todas las entradas
produciendo una respuesta igual al número de categoría i0(X).
En el caso que R =2, el clasificador es denominado dicotomizador y en este caso la condición (2.8) puede ser reducida a la inspección del signo de la siguiente
función de discriminación
g X( )=g X1( )−g2(X) (2.9) Por lo que aquí la regla general (2.9) puede ser reescrita como
g X X C
g X X C ( ) ,
( ) ,
> ∈ < ∈
0 0
1
2
si
si (2.10) Para construir un dicotomizador simple puede ser usada una unidad lógica
Figura 3 : Dicotomizador.
Una TLU puede ser considerada como una versión binaria de una neurona,
el la cual los pesos son introducidos como en un perceptrón binario. Las
respuestas 1, -1 de la TLU pueden ser interpretadas como indicaciones de las
categorías 1 y 2 respectivamente. La TLU simple implementa la función signo
definida como
( )
(
)
( )
( )
i X X g X g X
0
1 0
1 0
( ) sgn g ,
,
= = > − <
El diseño de clasificadores se puede basar por completo en el cálculo de las
fronteras de decisión que se derivan de los patrones y de su pertenencia a
determinada clase.
Un clasificador eficiente, puede ser descrito, en general, por funciones de
discriminación que dependan de forma no lineal de las entradas x x1, 2,L,xn. El uso de funciones de discriminación no lineales puede ser eludido mediante el
diseño de clasificadores de propagación hacia adelante que sean multicapas.
En el caso de la clasificación lineal, la superficie de decisión es un
hiperplano. En la figura 4 se muestra una función discriminante lineal en el caso
Figura 4: Ilustración de una función discriminante lineal bidimensional.
Cuando se analiza el problema de clasificación de patrones, resulta
interesante el estudio de aquellos clasificadores, que sus capacidades de decisión
son generadas por patrones de entrenamiento mediante aprendizaje,
entrenamiento o algoritmos iterativos.
La clasificación de un dato es aprendida gradualmente mediante la
inspección repetida y clasificación de ejemplos.
Cuando el tipo de función discriminante ha sido seleccionado, el algoritmo de
aprendizaje da como resultado la solución para los coeficientes, inicialmente
desconocidos, de la función discriminante, que se obtiene a partir del conjunto de
patrones de entrenamiento.
Para el estudio de clasificadores entrenables (adaptativos) se asume que :
1) El conjunto de patrones de entrenamiento es conocido, así como la clasificación de todos sus elementos, por lo que el entrenamiento es
supervisado.
2) Las funciones discriminantes tienen una forma lineal y solo sus coeficientes son ajustados en el proceso de entrenamiento.
Bajo estas suposiciones, un clasificador entrenable puede ser implementado
por el aprendizaje mediante ejemplos. El interés, por lo tanto, está enfocado hacia
vectores de datos de entrada para los cuales se conoce su clasificación correcta,
El problema de clasificación consistirá entonces en determinar las superficies
de decisión en un espacio n-dimensional a partir de la correcta clasificación de los
prototipos y que permita con un grado de confianza realizar correctamente el
reconocimiento y la clasificación de patrones desconocidos que no hayan sido
usados en el entrenamiento. La única limitación que se tiene para que los patrones
desconocidos sean reconocidos es que tengan el mismo formato que se usó en
los patrones de entrenamiento.
El perceptrón fue el primer modelo de red neuronal artificial desarrollado por
Rosenblatt en 1958. Despertó un enorme interés en los años 60’ s debido a su
capacidad para aprender a reconocer patrones sencillos: un perceptrón, formado
por varias neuronas lineales para recibir las entradas a la red y una neurona de
salida, es capaz de decidir cuándo una entrada presentada a la red pertenece a
una de las dos clases que es capaz de reconocer [18].
En la figura 5 se representa la única neurona de salida del perceptrón la cuál
realiza la suma ponderada de las entradas, resta el umbral y pasa el resultado a
[image:32.612.100.384.418.620.2]una función de transferencia de tipo escalón, ver figura 6.
Figura 5. Perceptrón de una sola neurona. 1
X
2
X
1 X
Y
N
X
1
W
2
W
N
W
−
=
∑
=
θ i N i
iX
W f Y
Figura 6. Función de transferencia tipo escalón.
La regla de decisión es responder +1 si el patrón presentado pertenece a la
clase A, o -1 si el patrón pertenece a la clase B. La salida dependerá de la entrada
neta (suma de las entradas xi ponderadas) y del valor del umbral θ, como se muestra en la figura 7.
Figura 7. Función discriminante lineal bidimensional.
-1
x f(x)
1
A
A
A
A
1
X
2
X
B B
B B
B
2 1 2
1 2
W X W
W
[image:33.612.138.480.396.622.2]El perceptrón al contar sólo de una capa de entrada y otra salida con única
neurona, tiene una capacidad de representación bastante limitada. Este modelo
sólo es capaz de discriminar patrones muy sencillos linealmente separables. El
caso más conocido es la imposibilidad del perceptrón de representar la función
[image:34.612.89.393.179.372.2]OR-EXCLUSIVA. Gráficamente se representa en la figura 8.
Figura 8. Función OR-EXCLUSIVA
Es evidente que este problema puede ser resuelto si se adiciona una capa
oculta de neuronas.
Hasta el momento no se ha encontrado ninguna generalización de la regla de
aprendizaje del perceptrón para redes multicapas.
Para el entrenamiento de redes multicapas de propagación hacia adelante se
ha utilizado un algoritmo, conocido como el algoritmo de retropropagación del error
(backpropagation) y es una generalización de la regla delta de aprendizaje.
El algoritmo de retropropagación del error es un algoritmo iterativo, basado
en la técnica del descenso acelerado y su objetivo de entrenamiento consiste en
minimizar determinada función de error.
Este algoritmo presenta algunas desventajas, entre las cuales tenemos:
1. Presupone conocida la arquitectura de la red, es decir, el número de
capas y la cantidad de neuronas por capas. A
A X1
2
X
B
B
2. Es muy costoso desde el punto de vista computacional
3. Puede quedar atrapado en un mínimo local
Después de encontrar un algoritmo de entrenamiento para redes multicapas,
el problema fundamental que enfrentaron los investigadores en redes neuronales
fue determinar la menor cantidad de capas de neuronas ocultas para que este
algoritmo fuera convergente.
En 1989 se da solución a este problema mediante la demostración de un
teorema que es conocido como el Teorema de Aproximación Universal. Este teorema está considerado como el resultado teórico de mayor importancia para
redes neuronales de propagación hacia adelante y fue reportado en tres trabajos
diferentes: Cybenko [8], Funahashi [12] y Hornik, Stinchcombe y White [20].
El teorema puede ser formulado como:
Teorema: Sea ϕ
( )
. una función continua, monótona creciente y acotada. Denotemos por In el hipercubo unitario n-dimensional[ ]
0 1, n y por C( )
In el espacio de las funciones continuas sobre In. Entonces, dados una función( )
f ∈C In y un ε >0, existen un entero m y conjuntos de constantes reales α θi, i y wij, donde i=1,L,m ; j =1,L,n tales que se puede definir
F x xn i w xij j i
j n i
m ( 1,..., )
1 1
= −
=
=
∑
∑
α ϕ θcomo una aproximación de la función f , que cumple
F x( 1,...,xn)− f x( 1,...,xn) < ε para todo
(
x1,...,xn)
∈In.El teorema de aproximación universal es un teorema de existencia y
establece que una sola capa oculta es suficiente para que una red neuronal
multicapa calcule una aproximación uniforme para un conjunto de entrenamiento
dado, representado por el conjunto de entradas
(
x1,...,xn)
y una salida deseada(
)
f x1,...,xn .
En 1991, Hornik [19] demuestra que el requerimiento de continuidad sobre la
que sea acotada y no constante. Este resultado permite aplicar este teorema al
caso de problemas de clasificación.
2.6.3 Solución al problema de la separabilidad lineal.
Es conocido que cuando el conjunto de patrones no es linealmente
separable, es imposible realizar la clasificación correcta del conjunto de
entrenamiento sin agregar capas de neuronas ocultas, además, el problema de
determinar el subconjunto linealmente separable de mayor cardinalidad es un
problema NP-duro [28].
Debido a esto, se comenzaron a desarrollar algoritmos constructivos de
aprendizaje [6,7,27] para diseñar y entrenar redes neuronales multicapas para la
clasificación. Estos algoritmos obtienen redes neuronales de arquitectura
sub-optimal en el sentido del número de neuronas en las capas ocultas.
Los algoritmos constructivos son procedimientos heurísticos que en cada
iteración tratan de determinar, con una complejidad polinomial, el mayor
subconjunto linealmente separable.
En la mayoría de estos algoritmos, el entrenamiento está basado en alguna
variante de la regla de aprendizaje del perceptrón discreto y su funcionamiento
consiste en ir agregando neuronas a la red hasta que se logre que la igualdad a
cero de la función de error para todos los patrones del conjunto de entrenamiento.
El principio general de funcionamiento de los algoritmos constructivos de
aprendizaje es determinar, en cada iteración del algoritmo, un vector de pesos y
un valor de umbral que proporcione el valor mínimo de la función de error, el cual
es igual a cero si el conjunto de entrenamiento es linealmente separable.
Entre los algoritmos constructivos, los más eficientes son [6,7]:
• Algoritmo de bolsa con mecanismo de reten ( Pocket algorithm with ratchet modification ).
• Algoritmo del perceptrón térmico ( Thermal perceptron algorithm ).
El algoritmo de bolsa con mecanismo de reten utiliza la regla del perceptrón
para la modificación de los pesos y guarda en un vector Wpocket el vector de pesos que proporciona el menor valor de la función de error. En cada iteración se
compara el valor de la función de error para el vector de pesos W calculado con el
valor para Wpocket y si este valor es menor, se reemplaza Wpocket por W. Está comprobado [13] que este algoritmo converge al menor valor de la función de
error.
El algoritmo del perceptrón térmico es utilizado para controlar la modificación
de los pesos durante el proceso de entrenamiento. En el algoritmo clásico de
entrenamiento del perceptrón, cuando el conjunto de patrones no es linealmente
separable, pueden ocurrir cambios bruscos en los pesos, que producen
fluctuaciones severas en la función de error y entorpecen el proceso de
clasificación.
Para estabilizar el proceso de aprendizaje se introduce el siguiente factor
amortiguador en la ecuación de modificación de los pesos
[
]
W W c d o X W X
Q
i i i
t i
← + − −
) exp .
El valor de Q se le da un valor de Q0 al comienzo del entrenamiento y
gradualmente se aproxima a cero a medida que progresa el aprendizaje.
Este factor amortiguador introducido en la regla de modificación de los pesos
no permite cambios bruscos en los pesos al final del entrenamiento.
El procedimiento de corrección baricéntrica es un algoritmo eficiente para
entrenar una unidad lógica de umbral. En este procedimiento los patrones son
separados en dos subconjuntos S+y S−. El baricentro de cada subconjunto se
define como la media ponderada de los patrones multiplicados por su
correspondiente coeficiente de peso. El vector de pesos W =
(
w w1, 2,L,wn)
t es determinado como la diferencia entre los baricentros de los dos subconjunto depatrones y el valor de umbral wn+1 es seleccionado de forma tal que minimice la función de error. Inicialmente a cada patrón se le asocia un coeficiente de peso
Si el conjunto de patrones es linealmente separable, este procedimiento
determina, de forma más eficiente que los dos algoritmos anteriores, el hiperplano
que separa al conjunto de patrones en las dos clases o categorías.
En este trabajo de tesis aplicaremos una modificación de los resultados
descritos en [4 y 5], donde se presentan un algoritmos constructivos que utiliza
formulaciones lineales para determinar en cada iteración un hiperplano que separa
la mayor cantidad posible de patrones de una misma clase. Este método permite
determinar las neuronas de la capa oculta con los valores de los pesos
correspondientes.
2.6.4 Formulación del problema y descripción de la metodología.
Sea
{
Xi;di}
,(i=1,2,...,T)el conjunto de entrenamiento, donde n i RX ∈
representan los patrones de entrenamiento y di la clase a que pertenece cada patrón, según la regla
∈ −
∈ =
2 1
, 1
, 1
C X si
C X si d
i i i
Definición: El conjunto de patrones X =
{
X1,X2,...,XT}
es linealmenteseparable, si existe un vector W =(w1,w2,...,wn+1)T ∈Rn+1, tal que
∈ <
−
∈ >
−
∑
∑
= +
= +
n j
i n
j ij
i n
j
n j ij
C X para w
w x
C X para w
w x
1
2 1
1 1
1
, 0
, 0
(2.5.2.1)
Aquí surgen dos problemas:
1. Determinar si existe un hiperplano w1x1 +w2x2 +...+wnxn −wn+1 =0, tal que se cumpla la condición (2.5.2.1), es decir que todos los patrones de la
clase 1 se encuentren en el semiespacio positivo, definido por el
hiperplano y los de la clase 2 en el semiespacio negativo.
2. Si tal hiperplano existe, entonces cómo determinar sus coeficientes.
Para resolver estos problemas, se hacen unas transformaciones a la
1. Multiplicar cada una de las desigualdades en (2.5.2.1) para el valor de di
del patrón correspondiente, obteniéndose entonces
0
1
1>
−
∑
= + n j n j iji x w w
d (2.5.2.2)
2. Tener en cuenta que, si existe un vector de pesos ∈ n+1 R
W para el cuál
(2.5.2.2) se cumple, entonces mediante un escalamiento de este vector,
se puede encontrar otro vector W~∈Rn+1 tal que se cumple que
1 ~
~
1
1≥
−
∑
= + n j n j iji x w w
d (2.5.2.3)
De aquí que, el problema de determinar si el conjunto de patrones es
linealmente separable, se transforma en determinar si existe solución factible para
el sistema (2.5.2.3).
Proposición: Para que un conjunto de patrones X =
{
X1,X2,...,XT}
sealinealmente separable por el hiperplano
∑
= + = − n j n j ijw w
x
1
1 0 es necesario y suficiente
que sea igual a cero el valor del objetivo del siguiente problema de programación
lineal
∑
= = T i i z z 1 min ) ,..., 2 , 1 ( , 1 ) ,..., 2 , 1 ( , 0. 1 1 z i T
T i z w w x d a s i i n j n j ij
i + ≥ =
= ≥ −
∑
= + (2.5.2.4)
Con ayuda de esta proposición se puede verificar si un conjunto de patrones
es separable o no. Además, si es linealmente separable, obtiene los valores de los
pesos y el umbral que resuelven el problema de clasificación.
Cuando el conjunto de patrones es no linealmente separable, el problema de
diseño de la red neuronal consiste en encontrar la cantidad de neuronas
necesarias en la capa oculta para clasificar correctamente los patrones. En este
puede alcanzar con todas estas variables como variables básicas y esta solución
no tiene sentido para el problema de clasificación.
Para eliminar esta dificultad se formula el siguiente problema que determina
la menor cantidad de patrones mal clasificados:
{ }
= ∈ ≥ ≤ ≥ + − = + = =∑
∑
) , , 2 , 1 ( 1 , 0 , 0 1 . . min 1 1 1 T i y z My z z w w x d a s y z i i i i i n n j j ij i T i i L (2.5.2.5) Donde = > = 0 si , 0 0 si , 1 i i i z zy y M es una constante suficientemente grande.
Al resolver el problema (2.5.2.5) se obtiene un hiperplano que clasifica
correctamente el número máximo de patrones. Este hiperplano divide el conjunto
de entrenamiento en dos subconjuntos que pueden contener patrones de ambas
clases. Entonces para cada subconjunto se podría formular un problema similar a
(2.5.2.5) y obtener dos hiperplanos que dividan esos subconjuntos. Se podría
continuar de esta forma hasta obtener subconjuntos linealmente separables y
consecuentemente las neuronas en la capa oculta. La desventaja de esto es que
siempre es necesario considerar todo el conjunto de entrenamiento, aun cuando
estén agrupados en subconjuntos más pequeños.
Lo anterior puede evitarse si se impone la restricción de que en uno de los
semiespacios definidos por el hiperplano todos los patrones pertenezcan a la
misma clase. Con ello decrece el tamaño del problema a resolver de una iteración
a la siguiente.
Para determinar un hiperplano que separe el mayor número de patrones
perteneciente a una clase se formulan los problemas (2.5.2.6), (2.5.2.7).
Resolviendo estos problemas se obtienen hiperplanos que separan la mayor
{ }
= ∈ ≥ = ≤ + = ≥ − = ≥ + − = + = + = =∑
∑
∑
) , , 2 , 1 ( , 1 , 0 , 0 ) , , 2 , 1 ( , ) , , 1 ( , 1 ) , , 2 , 1 ( , 1 . . min 1 1 1 1 1 1 1 1 1 1 T i y z T i My z T T i w w x d T i z w w x d a s y z i i i i n n j j ij i i n n j j ij i T i i L L L L (2.5.2.6){ }
+ = ∈ ≥ + = ≤ + = ≥ + − = ≥ − = + = + = + =∑
∑
∑
) , , 1 ( , 1 , 0 , 0 ) , , 1 ( , ) , , 1 ( , 1 ) , , 2 , 1 ( , 1 . . min 1 1 1 1 1 1 1 1 1 1 T T i y z T T i My z T T i z w w x d T i w w x d a s y z i i i i i n n j j ij i n n j j ij i T T i i L L L L (2.5.2.7)Con estos elementos se puede desarrollar el siguiente algoritmo:
1. Formular los problemas (2.5.2.6) y (2.5.2.7).
2. Escoger aleatoriamente uno de ellos para resolver.
3. Resolver el problema seleccionado. La solución de este problema indicará
los valores de los pesos y el umbral del hiperplano, así como el número
de patrones que separa.
4. Añadir el hiperplano encontrado a la red.
5. Resolver el problema no elegido en el paso 1, eliminando los patrones
que fueron separados por el hiperplano añadido. Si todavía hay patrones
de ambas clases, formular los correspondientes problemas (2.5.2.6) y
(2.5.2.7) y regresar al paso 2. En otro caso parar.
Al ir construyendo una red neuronal con los hiperplanos obtenidos por el
imágenes Yi∈Rm,
(
i =1,...,T)
, el cual es linealmente separable como se muestra en la figura 9.Figura 9. Red neuronal de dos capas, de entrada y oculta.
Para concluir el diseño de la red faltaría determinar la memoria entre la capa
oculta y la capa de salida. Para ello, se formará un conjunto de entrenamiento
(
) (
) (
)
{
Y d1, 1 , Y d2, 2 ,L, Y dT, T}
y, resolviendo un problema del tipo (2.5.2.4), se obtendrá un hiperplano separador con el cual se completará la red neuronal queclasifique correctamente el conjunto original de patrones en dos clases como se
CAPÍTULO III
3. Metodología y proceso de la investigación.
3.1 Descripción general
Parte de la evaluación del sistema de calidad lo conforma la encuesta de
satisfacción de egresados que se aplica cada dos años en las Universidades
Tecnológicas. La parte central de la investigación esta en relacionar la percepción
de dicha satisfacción con las variables que estuvieron en el proceso
enseñanza-aprendizaje por medio de una red neuronal artificial. La figura 11 esquematiza el
[image:44.612.85.543.331.616.2]objetivo de esta investigación:
Figura 11.Relación de las variables del proceso enseñanza aprendizaje
con la satisfacción del usuario.
ALUMNO
Inputs
Outputs
PROFESOR PLANES Y
PROGRAMAS DE ESTUDIO Inputs
Inputs
PROCESO ENSEÑANZA-APRENDIZAJE
Outputs Output