Redes Neuronales Artificiales Aplicadas en el Sistema de Calidad de una Institución Educativa-Edición Única

(1)

Monterrey, Nuevo León a

Lic. Arturo Azuara Flores:

Director de Asesoría Legal del Sistema

en los sucesivo LA OBRA, en virtud de lo cual autorizo a el Instituto Tecnológico

y de Estudios Superiores de Monterrey (EL INSTITUTO) para que efectúe la divulgación, publicación, comunicación pública, distribución y reproducción, así como la digitalización de la misma, con fines académicos o propios al objeto de EL INSTITUTO.

El Instituto se compromete a respetar en todo momento mi autoría y a

otorgarme el crédito correspondiente en todas las actividades mencionadas anteriormente de la obra.

De la misma manera, desligo de toda responsabilidad a EL INSTITUTO por cualquier violación a los derechos de autor y propiedad intelectual que

cometa el suscrito frente a terceros.

Nombre y Firma AUTOR (A)

de 200

Por medio de la presente hago constar que soy autor y titular de la obra

(2)

Redes Neuronales Artificiales Aplicadas en el Sistema de

Calidad de una Institución Educativa-Edición Única

Title Redes Neuronales Artificiales Aplicadas en el Sistema de Calidad de una Institución Educativa-Edición Única

Authors Alejandro Islas Cerón

Affiliation ITESM-Campus Monterrey

Issue Date 2006-12-01

Item type Tesis

Rights Open Access

Downloaded 19-Jan-2017 10:20:02

(3)

i INSTITUTO TECNOLÓGICO Y DE ESTUDIOS

SUPERIORES DE MONTERREY

CAMPUS MONTERREY

DIVISIÓN DE INGENIERÍA Y ARQUITECTURA PROGRAMA DE GRADUADOS EN INGENIERÍA

Redes neuronales artificiales aplicadas en el sistema de calidad de una institución educativa.

TESIS

PRESENTADA COMO REQUISITO PARCIAL PARA OBTENER EL GRADO ACADÉMICO DE:

MAESTRO EN CIENCIAS

ESPECIALIDAD EN SISTEMAS DE CALIDAD Y PRODUCTIVIDAD

POR:

ALEJANDRO ISLAS CERÓN

(4)

ii

INSTTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY

CAMPUS MONTERREY

DIVISIÓN DE INGENIERÍA Y ARQUITECTURA PROGRAMA DE GRADUADOS EN INGENIERÍA

Los miembros del comité de tesis recomendamos que el presente proyecto de tesis presentado por el Ing. Alejandro Islas Cerón sea aceptado como requisito parcial para obtener el grado académico de:

MAESTRO EN CIENCIAS CON ESPECIALIDAD EN SISTEMAS DE CALIDAD Y PRODUCTIVIDAD

Comité de tesis:

____________________________ Francisco R. Angel-Bello Acosta, Ph. D.

Asesor

__________________________ ________________________ Rafael E. Bourguet Díaz, Ph. D José G. Ríos Alejandro, Ph. D. Sinodal Sinodal

Aprobado:

__________________________________ Francisco R. Angel-Bello Acosta, Ph. D. Director del Programa de Graduados en Ingeniería

(5)

iii DEDICATORIA

A Dios

A mi familia

A mis amigos

(6)

iv AGRADECIMIENTOS

(7)

v RESUMEN

Actualmente los sistemas de calidad los encontramos en muchas de las actividades humanas. Los servicios educativos tanto públicos como privados no son la excepción. Con la implementación de un sistema de calidad se busca incrementar la eficiencia en el manejo de los recursos de la institución educativa, aumentar su prestigio, desarrollarse, pero sobre todo, satisfacer al usuario.

El presente trabajo esta enfocado precisamente a la medición de la satisfacción de los egresados de la Universidad Tecnológica de Tula-Tepeji como estrategia para mejorar los procesos internos de la misma.

La información obtenida de las encuestas de seguimiento de egresados se utiliza posteriormente en técnicas estadísticas y matemáticas para determinar el impacto que tiene en la satisfacción de los egresados algunas de las variables del proceso enseñanza-aprendizaje.

A diferencia de otras técnicas de estadística descriptiva, el presente trabajo intenta enlazar las causas con los efectos. Dicho en otras palabras, no solo se trata de conocer el nivel de satisfacción de los egresados, sino las causas que lo originaran para después proponer acciones correctivas y preventivas.

Las variables medidas en las encuestas son de tipo dicotómicas y es por ello que se aplica una red neuronal artificial clasificadora de dos tipos. El proceso consiste en encontrar el número adecuado de neuronas en la capa oculta, determinar los pesos y validar la red.

Con la determinación de variables significativas obtenidas de la regresión logística binaria y con las predicciones que se pueden hacer con la red neuronal artificial, la institución contará con mayores elementos para implementar acciones correctivas acertadas y de manera oportuna.

(8)

vi

INDICE

Resumen...V

CAPITULO I. Introducción

1.1 Antecedentes...1 1.2 Planteamiento del problema...2

1.2.1 Objetivos 1.2.2 Hipótesis

1.3 Justificación...3

CAPÍTULO II. Marco Teórico

2.1 Introducción...5 2.2 ISO 9000...5

2.2.1 Estructura de las normas ISO9000:2000 2.2.2 Enfoque al cliente

2.3 Cómo medir la satisfacción del cliente...7 2.3.1 Diseño de encuestas de satisfacción

2.3.2 Encuesta de seguimiento de egresados para las Universidades Tecnológicas

2.3.3 Análisis y uso de la retroalimentación del cliente 2.4 Teoría estadística. Tamaño de la muestra y análisis de

correlación...9 2.5 Regresión logística Binaria...12

2.5.1 Significancia estadística de cada coeficiente 2.5.2 Bondad de ajuste del modelo

2.5.3 Residuales del modelo logístico

2.6 Redes neuronales artificiales para la clasificación...17 2.6.1 Introducción a las redes neuronales

2.6.2 Redes neuronales para la clasificación

2.6.3 Solución al problema de la separabilidad lineal

2.6.4 Formulación del problema y descripción de la metodología

CAPÍTULO III. Metodología y proceso de la investigación

3.1 Descripción general...35 3.2 Análisis de la información con regresión logística...37

(9)

vii

3.2.2 Modelo logit para dificultad con deficiencias en conocimientos generales

3.2.3 Modelo logit para dificultad con deficiencias en conocimientos específicos de su carrera

3.2.4 Modelo logit para dificultad con deficiencias en conocimientos del idioma inglés

3.2.5 Modelo logit para dificultad en el manejo de PC y software

3.2.6 Modelo logit para dificultad para trabajar en equipo 3.2.7 Modelo logit para dificultad para coordinar personas 3.2.8 Modelo logit para dificultad para tomar decisiones 3.2.9 Modelo logit para dificultad con deficiencias en comunicación oral y escrita

3.3 Análisis usando redes neuronales artificiales...61

3.3.1 Red neuronal artificial para dificultad con el manejo de equipo especializado 3.3.2 Red neuronal artificial para dificultad en deficiencias en conocimientos generales 3.3.3 Red neuronal artificial para dificultad en deficiencias en conocimientos específicos de su carrera 3.3.4 Red neuronal artificial para dificultad en deficiencias en conocimientos del idioma inglés 3.3.5 Red neuronal artificial para dificultad en el manejo de PC y Software 3.3.6 Red neuronal artificial para dificultad en trabajo en equipo 3.3.7 Red neuronal artificial para dificultad en coordinar personas 3.3.8 Red neuronal artificial para dificultad en tomar decisiones 3.3.9 Red neuronal artificial para dificultad en comunicación oral y escrita CAPÍTULO IV. Análisis de resultados y conclusiones. 4.1 Análisis de los resultados obtenidos...83

4.2 Interpretación de los predictores significativos...83

4.3 Uso de los resultados de las redes neuronales artificiales...87

4.3 Conclusión...90

Anexos

(10)

CAPÍTULO I

1. Introducción

1.1 Antecedentes.

El diseño y operación de un sistema de calidad en el área de servicios no es

una tarea fácil y mucho menos cuando se trata de servicios educativos. En un

servicio educativo el éxito del mismo depende en gran medida de la persona que

lo recibe. La calidad del proceso de enseñanza-aprendizaje depende tanto de la

institución educativa, como del alumno.

El servicio educativo es más complejo que otros tipos. En un sentido muy

general, cuando hablamos del área de servicios existen 2 actores principales, el

cliente que es el que específica lo que desea del servicio para sentirse satisfecho

y la organización que se encarga de recoger estas expectativas y diseñar todo un

proceso para satisfacerlas.

Cuando nos referimos a servicio educativo público de educación superior, las

cosas cambian, el receptor del servicio educativo (alumno) en ocasiones debe ser tratado como cliente y en otras ocasiones como proveedor de insumos para el proceso. Existe otro actor, la sociedad, que debe ser considerado como el cliente principal, pues es la que aporta los recursos económicos para que la institución educativa siga operando, la sociedad esta representada por el poder legislativo

que autoriza el presupuesto.

Para cerrar el sistema tenemos que incluir a los contratadores, pues serán ellos quienes determinen los conocimientos que debe tener un egresado que

recibió el servicio educativo.

En resumen, la institución educativa hace estudios con los contratadores para determinar los conocimientos que demanda el mercado laboral de ciertos

profesionistas y con esta información diseña sus planes de estudio. Al alumno,

(11)

evaluar su satisfacción cuando se trate de instalaciones como laboratorios,

cafetería, canchas y otros servicios de apoyo. Pero dentro del proceso será tratado como proveedor de capacidad de aprendizaje, aptitudes, actitudes y conocimientos previos.

El sistema de Universidades Tecnológicas fue creado en México en 1991. A

finales de la década pasada este sistema de Universidades se certificó en la

norma ISO-9000 con la intención de incrementar la calidad de los servicios

educativos que ofrece, ajustar la pertinencia de los planes y programas de estudio

e incrementar la eficiencia de los recursos económicos aportados por el estado y

su prestigio como subsistema de educación público. El poder legislativo, a través

de la Secretaría de Educación Pública, evalúa los resultados que está obteniendo

el sistema de Universidades Tecnológicas y en función de estos asigna el

presupuesto anual siguiente.

1.2 Planteamiento del problema.

Parte del sistema de calidad de las Universidades tecnológicas lo constituye

el seguimiento de egresados.

En 2005, Adolfo Mir publica los resultados de la situación laboral de los

profesionistas formados en las Universidades Tecnológicas [Mir et al., 2005]. En

este trabajo se encuentran muchas estadísticas descriptivas generales, agrupadas

por zonas geográficas del país. Esta información puede ser de ayuda para

cualquier Universidad Tecnológica, pero falta precisión en el momento de tomar

medidas correctivas que mejoren el desempeño de la misma.

Actualmente se aplican encuestas de seguimiento de egresados con la

intención de mejorar el servicio educativo, sin embargo los resultados obtenidos

de estas encuestas son muy generales o difícilmente se pueden enlazar con las

variables del proceso que los originaron.

Utilizando esta misma información de las encuestas de egresados y

aunándole información histórica de los mismos, pero cuando fueron alumnos, se

pretende obtener una herramienta de predicción que permita hacer correcciones

(12)

En el presente trabajo aplicaremos una red neuronal artificial clasificadora

para lograr este propósito.

1.2.1 Objetivos

- Estudiar la relación que existe entre las variables de entrada y las de salida

del proceso.

- Determinar que variables de entrada tienen mayor peso o influencia en las

variables de salida usando la regresión logística binaria.

- Diseñar y entrenar una red neuronal artificial para predecir el desempeño

del alumno después de egresar.

1.2.2 Hipótesis

Mediante una red neuronal se puede predecir parte del desempeño que un

egresado tendrá en su ejercicio profesional.

1.3 Justificación.

La educación pública es parte fundamental en una sociedad, a través de ella

se logra el desarrollo económico y por consecuencia mejores niveles de vida. Con

este antecedente, se considera necesario dar seguimiento a los egresados para

saber si en efecto, el servicio educativo que recibieron contribuyó a un desarrollo

integral.

Teniendo en cuenta que se dispone de recursos limitados, el gobierno ha

impulsado la implementación y certificación de sistemas de calidad en muchas

instituciones con el objetivo de lograr mayor productividad con los recursos que se

asignan y el sector educativo no ha sido la excepción. Las Universidades

Tecnológicas como subsistema educativo se certificaron en ISO 9000 en 1999.

El sistema exige que los resultados sean medidos de forma periódica, pero,

actualmente se utilizan indicadores de actividad que solo reflejan la operación

diaria de la institución, sin considerar el impacto que el servicio educativo tiene en

(13)

La falta de una evaluación confiable de las instituciones educativas en gran

parte se debe al desconocimiento de las expectativas del usuario que recibe el

servicio educativo. Las instituciones se enfocan más a medir aspectos como el

número de alumnos por computadora, la cantidad de alumnos por grupo, la

cantidad de recursos económicos consumidos por alumno y muchos otros

indicadores que si bien es cierto, influyen en los resultados no toman en cuenta lo

que el usuario espera después de graduarse.

Es por ello que son necesarias nuevas herramientas de evaluación y de

predicción, que permitan tomar medidas correctivas certeras y oportunas. En este

trabajo tomaremos como caso de estudio a la Universidad Tecnológica de Tula

Tepeji para obtener información de sus egresados, relacionarla con registros

históricos y hacer inferencias estadísticas y predicciones mediante la aplicación de

la regresión logística y redes neuronales artificiales.

Aunque el trabajo de investigación se centra solamente en una Universidad

Tecnológica, pensamos que puede ser extendido y aplicado a otras universidades

(14)

CAPÍTULO II

2. Marco teórico.

2.1 Introducción

En este capítulo daremos una breve descripción de las herramientas que se

utilizarán a lo largo de este trabajo para resolver el problema propuesto.

2.2 ISO 9000.

En 1987 con la finalidad de estandarizar los requisitos de calidad para los

países europeos dentro del mercado común y para quienes querían hacer

negocios con estos países, un organismo especializado en normatividad, la

Internacional Organization for Standarization (IOS), adoptó una serie de normas

de calidad escritas. Estas normas fueron revisadas en 1994 y una ves más en

2000, a esta familia se le conoce como la familia de las normas ISO 9000:2000.

2.2.1 Estructura de las normas ISO 9000: 2000.

Las normas ISO 9000:2000 se enfocan en el desarrollo, documentación e

implementación de procedimientos para asegurar la consistencia de las

operaciones y el desempeño en los procesos de producción y prestación de

servicios, con la meta de la mejora continua, y apoyadas por los principios

fundamentales de la calidad total. El sistema de calidad bajo la perspectiva ISO

(15)

Figura 1. Sistema de administración por calidad total.

En lo que respecta a educación, la aplicación de la norma ISO 9000 tiene

algunas modificaciones, el sistema de gestión de la calidad debería ser el más

simple y comprensible para alcanzar los objetivos de calidad de la organización

educativa. El control de la calidad es un proceso esencial en un sistema de gestión

de la calidad. La medición exacta no es fácil cuando se evalúa el desempeño

humano y ésta se realiza normalmente durante el proceso educativo [23].

2.2.2 Enfoque al cliente.

El enfoque al cliente es un requisito clave de ISO 9000:2000. Por ejemplo, en

la sección de Responsabilidades de la dirección, uno de los requisitos es: “La alta dirección deberá asegurarse de que se determinen y cumplan los requisitos de los

clientes con el objeto de aumentar su satisfacción”. Con esto, la responsabilidad

del enfoque hacia el cliente recae en la alta dirección. En las secciones de

(16)

seguimiento de las percepciones de los clientes acerca de si la empresa ha

cumplido con los requisitos; es decir, la satisfacción del cliente [11].

2.3 Cómo medir la satisfacción del cliente.

La retroalimentación del cliente es vital para un negocio. A través de ésta,

una empresa sabe si sus clientes están satisfechos con sus productos y servicios

y, en ocasiones, con los productos y servicios de sus competidores. Las

mediciones de la satisfacción del cliente permiten a una empresa hacer lo

satisface a sus necesidades, e identificar las causas de la insatisfacción y

las expectativas no cumplidas, así como los motivadores del deleite.

2. Comparar el desempeño de la empresa en relación con los competidores,

para apoyar la planeación y mejores iniciativas estratégicas.

3. Descubrir las áreas que necesitan mejorar en el diseño y la entrega de

productos y servicios, así como la capacitación y orientación para los

empleados.

4. Hacer el seguimiento de las tendencias a fin de determinar si los cambios

realmente dan como resultado mejoras.

2.3.1 Diseño de encuestas de satisfacción.

El primer paso en el desarrollo de una encuesta de satisfacción para los

clientes es determinar su propósito. Las encuestas deben estar diseñadas para

proporcionar, a los usuarios de los resultados de las mismas, la información que

necesitan para tomar decisiones. Una pregunta crítica a considerar es: ¿Quién es

el cliente? Los directivos, compradores, usuarios finales y otras empresas que

pueden ser afectados por los productos y servicios de una empresa.

La siguiente pregunta a responder es quién debe realizar la encuesta. Con

frecuencia las organizaciones independientes ajenas a la empresa tienen mayor

(17)

En las encuestas es muy frecuente utilizar la escala Likert. Este tipo de

escalas de 5 puntos permiten al cliente expresar su grado de opinión [17].

Muchos indicadores de satisfacción del cliente evalúan las características de

servicio. Puede ser difícil desarrollar características mesurables de la calidad del

servicio y caen en la ambigüedad.

2.3.2 Encuesta de seguimiento de egresados para las Universidades

Tecnológicas.

La encuesta para el seguimiento de egresados del sistema de Universidades

Tecnológicas tiene como finalidad indagar acerca de cómo se incorporan los

egresados al empleo. Por consiguiente, servirá para recabar información sobre el

tiempo que tardan en emplearse a partir del egreso y los medios que utilizan para

llegar a obtener el empleo. Respecto de los egresados que, al momento del

levantamiento de los datos, no hayan comenzado a trabajar o que, habiéndolo

hecho, no se encuentren empleados, se buscará averiguar las razones para ello.

Dado que las Universidades Tecnológicas aspiran a que la formación que

reciben sus egresados se corresponda con las necesidades de los sectores

productivos de bienes y servicios de su región, en la encuesta se recogen datos

acerca de las dificultades que han encontrado los egresados en el

desempeño de sus puestos de trabajo [25]. También en que medida coinciden

los conocimientos adquiridos y las competencias desarrolladas como estudiantes

de las Universidades tecnológicas con las tareas que les son requeridas realizar

en sus empleos.

Como al atender las necesidades de las economías regionales también

esperan las Universidades Tecnológicas responder a las aspiraciones y

expectativas de sus egresados, con la encuesta se obtendrá información sobre la

satisfacción de estos egresados con las recompensas que obtienen en su empleo,

tanto en el ejercicio y despliegue mismo de sus conocimientos y habilidades como

en el ingreso, reconocimiento profesional y desarrollo profesional que les

(18)

Por último, también se averigua acerca de la evaluación que hacen los

egresados, retrospectivamente, de su experiencia como alumnos de las

Universidades Tecnológicas. Se recaba, así, su opinión sobre los servicios

docentes, la infraestructura y el plan de estudios que cursó. La encuesta se

muestra en el anexo 1.

2.3.3 Análisis y uso de la retroalimentación del cliente.

Deming enfatizó la importancia de utilizar la retroalimentación del cliente para

mejorar los productos y procesos de la empresa. Al analizar las tendencias en los

indicadores de satisfacción del cliente y relacionar esta información con sus

procesos internos, un negocio puede determinar sus progresos y las áreas en

que debe mejorar. Como siguiente paso, la organización asigna a un grupo de

colaboradores la responsabilidad operativa y por resultados de desarrollar planes

de mejora en función de la medición de la satisfacción del cliente [11].

2.4 Teoría estadística. Tamaño de la muestra y análisis de correlación.

Cuando se desea hacer estimaciones de una proporción de una variable

cualitativa de una población finita se utiliza la siguiente fórmula [25] para

determinar el tamaño de la muestra:

(

)

( )(

p p

)

N Z

B

p p n

− +

− =

1 1

1

2 2

α

Donde

=

n Tamaño de la muestra =

p Proporción estimada (cuando no se tiene ni idea de la proporción que se

desea estimar, se usa 0.5) =

B Error máximo permisible.

=

α Nivel de significancia.

=

(19)

La correlación es una medida de una relación lineal entre dos variables

aleatorias, X y Y, y se mide por medio del coeficiente de correlación

(poblacional). Los coeficientes de correlación van desde -1 a +1. Una correlación

de 0 indica que las dos variables no tienen relación lineal entre sí. Por tanto, si una

cambia, no se puede predecir en forma razonable que la otra lo haga si se utiliza

una ecuación lineal (sin embargo, se podría tener una relación no lineal bien

definida). Un coeficiente de correlación de +1 indica una relación lineal positiva

perfecta; al aumentar la variable, la otra también lo hará. Un coeficiente de

correlación de -1 también muestra una relación lineal perfecta, excepto que,

cuando una variable aumenta, la otra disminuye [11].

La suposición usual es que las observaciones

(

X_i,Y_i

)

,i=1,2,..n, son variables aleatorias distribuidas de manera conjuntas obtenidas de la distribución f(x,y) que es una distribución normal bivariada, y que µ_Y y 2

Y

σ son la media y la varianza

de Y, y µX y

2

X

σ son la media y la varianza de X , siendo ρ el coeficiente de

correlación entre X y Y. El coeficiente de correlación esta definido como

Y X

XY σ σ

σ ρ =

Donde σ_XY es la covarianza entre X y Y

La distribución condicionada normal de Ypara un valor dado de X =x es

    

  

    

 

 ₋ ₋ −

=

2 1 0

2 1 exp 2

1 )

(

x Y x

Y x

Y

x y

y f

σ β β πσ

Donde

X Y X

Y σ

σ ρ µ µ

β₀ = −

ρ σ

σ β

X Y

=

(20)

y la varianza de la distribución normal condicional de Ypara un X =x dado es

) 1 ( 2

2

2 σ ρ

σ_Y_x = _Y −

Esto es, la distribución normal condicional de Ydado X =x es normal con

media

x x

Y

E( )=β₀ +β₁

y varianza 2

x Y

σ . Por tanto, la media de la distribución condicional normal de Ydado

x

X = es un modelo de regresión simple. Por otra parte, existe una relación entre

el coeficiente de correlación ρ y la pendiente β1. De la ecuación 1, se observa

que si ρ =0 entonces β₁ =0, lo que implica que no hay regresión de Ysobre X. Esto es, el conocimiento de X no es de ayuda para predecir Y.

Para estimar los parámetros β₀ y β₁ puede utilizarse el método de máxima

verosimilitud. Puede demostrarse que los estimadores de máxima verosimilitud de

estos parámetros son

X

Y ₁

0 ˆ

ˆ β

β = −

y

XX XY n

i i n i

i i

S S

X X

X X Y

= −

− =

∑

= =

2

1 1 1

) (

ˆ β

Es posible obtener inferencias sobre el coeficiente de correlación ρ de este

(21)

[

]

12 2

1

1 1

2 2

1

) ( ) (

) (

YY XX

XY n

i

n i

i i

n i

i i

S S

S

Y Y X

X

X X Y

R =

   

 

− −

− =

∑

= =

=

Las hipótesis a probar son

0 :

0 ρ = H

0 :

1 ρ ≠

H

El estadístico de prueba apropiado para ellas es

2 0

1 2

R n R T

− − =

El cuál tiene una distribución t con n−2 grados de libertad si H₀ :ρ =0 es verdadera. Por consiguiente, la hipótesis nula se rechaza si

2 , 2 0 > ₋

n

t

t _α [26].

2.5 Regresión Logística Binaria.

Los modelos de regresión son modelos estadísticos en los que se desea

conocer la relación entre:

•Una variable dependiente cualitativa, dicotómica (regresión logística binaria o binomial) y una o más variables independientes.

• Una variable dependiente cualitativa que puede tomar 3 o más valores

(regresión logística multinomial) y una o más variables independientes.

• Dos o más variables explicativas independientes, o covariables, ya sean cualitativas o cuantitativas y una o más variables independientes.

En nuestro estudio nos centraremos en el primer caso ya que las variables

dependientes que se manejan en los modelos de esta tesis sólo pueden tomar dos

(22)

Siendo la ecuación inicial del modelo de tipo exponencial como:

(

)

k X k ... 1 X 1 0 k X k ... 1 X 1 0 e 1 e x 1 y

P _β _β _β

β β β + + + + + + + = =

Siendo P(y=1|X) la probabilidad de que y tome el valor 1 (presencia de la característica estudiada), en presencia de las variables Xi de i =1,…,k. Los componentes de esta ecuación son:

1. β₀ es la constante del modelo o término independiente

2. k el número de variables

3. i

β los coeficientes de las variables

4. Xi las covariables que forman parte del modelo.

Si dividimos la expresión anterior por su complementario, es decir, si

construimos su odds (la probabilidad de la presencia de la característica estudiada

entre la no presencia de la característica estudiada), obtenemos una expresión de

más fácil manejo matemático:

(

)

(

)

0 1X1 ... kXk

k X k ... 1 X 1 0 k X k ... 1 X 1 0 k X k ... 1 X 1 0 e e e 1 e x 1 y P 1 x 1 y

P _β _β _β

β β β β β β β β β + + + + + + + + + + + + = − + = = − =

(

)

(

)

_e 0 1X1 ... kXk

x 1 y P 1 x 1 y

P _β ₊_β ₊ ₊_β

= = −

=

Si ahora realizamos su transformación logarítmica con el logaritmo natural,

obtenemos una ecuación lineal que es lógicamente de manejo matemático aún

más fácil y de mayor comprensión:

(

)

(

)

0 1X1 ... kXk

x 1 y P 1 x 1 y P

ln _=β +β + +β

      = − =

En la expresión de la ecuación vemos a la izquierda de la igualdad el llamado

logit, es decir, el logaritmo natural de los odss de la variable dependiente (esto es, el logaritmo de la razón de proporciones de tener la presencia de la característica

estudiada, de éxito, etc.). El término a la derecha de la igualdad es la expresión de

una recta, idéntica a la del modelo general de regresión lineal:

k k 1

1 0

i X ... X

(23)

Pero la regresión lineal presenta una diferencia fundamental respecto al

modelo de regresión logística. En el modelo de regresión lineal se asume que los

errores estándar de cada coeficiente siguen una distribución normal de media 0 y

varianza constante (homoscedasticidad). En el caso del modelo de regresión logística no pueden realizarse estos supuestos pues la variable dependiente no es

continua (sólo puede tomar dos valores, 0 ó 1, pero ningún valor intermedio). Si

llamamos ε_i al posible error i-ésimo de predicción para cada variable xi,, tendremos que el error cometido dependerá del valor que llegue a tomar la

variable dependiente y, tal como vemos a continuación:

( )

+ε

=P x Y

Si Y =1⇒ε =1−P

( )

x

Y si Y =0⇒ε =−P

( )

x

Esto implica que ε sigue una distribución binomial, con media y varianza

proporcionales al tamaño muestral y a P(y=1|xi) (la probabilidad de que y=1 dada la presencia de xi).

Para la estimación de los coeficientes del modelo y de sus errores estándar

se recurre al cálculo de estimaciones de máxima verosimilitud, es decir,

estimaciones que maximicen la probabilidad de obtener los valores de la variable

dependiente Y proporcionados por los datos de nuestra muestra. Estas estimaciones no son de cálculo directo, como ocurre en el caso de las

estimaciones de los coeficientes de regresión de la regresión lineal múltiple por el

método de los mínimos cuadrados. Para el cálculo de estimaciones

máximo-verosímiles se recurre a métodos iterativos. Dado que el cálculo es complejo,

normalmente hay que recurrir al uso de rutinas de programación o a paquetes

estadísticos. De estos métodos surgen no sólo las estimaciones de los

coeficientes de regresión, sino también de sus errores estándar y de las

(24)

2.5.1 Significancia estadística de cada uno de los coeficientes.

El siguiente paso será comprobar la significación estadística de cada

uno de los coeficientes de regresión en el modelo. Para este estudio

emplearemos el estadístico de Wald.

El estadístico de Wald. Contrasta la hipótesis de que un coeficiente

aislado es distinto de 0, es decir H₀ :β₁ =β₂ =...=β_K =0 vs

menos al

j una para

H₁:β_j ≠0 y sigue una distribución normal con media 0 y

varianza 1. Su valor para un coeficiente concreto viene dado por el cociente

entre el valor del coeficiente y su correspondiente error estándar. La

obtención de significación indica que dicho coeficiente es diferente de 0 y

merece la pena su conservación en el modelo. En modelos con errores

estándar grandes, el estadístico de Wald puede proporcional falsas

ausencias de significación (es decir, se incrementa el error tipo II). Tampoco

es recomendable su uso si se están empleando variables de diseño.

Para una muestra larga:

ASE ˆ z = β

Que se distribuye normal con media cero y varianza 1, la otra alternativa es

usar el estadístico de Wald:

2 2

ASE ˆ w= β

Teniendo un tamaño de muestra grande este estadístico se distribuye

Ji-cuadrada con un grado de libertad.

2.5.2 Bondad de ajuste del modelo.

1. El estadístico G2 o razón de verosimilitudes. Se trata de ir contrastando

cada modelo que surge de eliminar de forma aislada cada una de las

variables frente al modelo completo (no se asume normalidad). La ausencia

de significación implica que el modelo sin la variable no empeora respecto al

(25)

según la estrategia de obtención del modelo más reducido, dicha variable

debe ser eliminada del modelo ya que no aporta nada al mismo.

(

)

(

)

( )

2

( )

₁

0 2 1 0 1

0

2 _M _|_M ₂ _L _L _G _M _G _M

G =− − = −

Donde:

M0 = Modelo reducido

M1 = es el modelo más complejo posible

Este estadístico es más grande cuando el ajuste de M0 es más pobre que el

de M1. Cuando la muestra es grande este estadístico sigue una distribución

Ji-cuadrada con grados de libertad iguales a la diferencia de los grados de

libertad de los residuales de los dos modelos.

2. Otro criterio puede ser utilizar el modelo que tenga el menor AIC.

3. La prueba Score. Su cálculo para el caso de una única variable viene

dado por:

(

)

(

) (

∑

)

∑

= =

− −

− =

k

1 i

2 i k

1 i

i i

x x y 1 y

y y x

S

En el caso de múltiples variables hay que utilizar cálculo matricial, si bien no

requiere un cálculo iterativo (precisamente su rapidez de cálculo sería su aspecto

más favorable). Se sabe que este estadístico se incrementa conforme aumenta el

número de variables (es decir tiende a dar significación con mayor frecuencia).

2.5.3 Residuales del modelo logistic

Los estadísticos de bondad de ajuste son indicadores que resumen la calidad

de ajuste del modelo. Adicionalmente a estos análisis es necesario describir la

naturaleza de la falta de ajuste. Comparando los residuales que son la diferencia

entre los conteos observados y predichos.

(

_i

)

i i

i i i i

p ˆ 1 p ˆ n

p ˆ n y e

− − =

(26)

∑

= = n

1 i

2 i

2 _e

X

Cada residual Pearson al cuadrado es un componente de X2 cuando el

índice binomial es grande n_i, el residual de Pearson tiene aproximadamente una distribución normal, aproximadamente con media cero pero varianza más pequeña

que la normal estándar. Si el número de parámetros del modelo es menor al

número de logits de la muestra los residuales son tratados separadamente de una

distribución normal estándar, con valores absolutos más grandes que 2 indican

posibles faltas de ajuste.

2.6 Redes neuronales

2.6.1 Introducción a las Redes neuronales

Uno de los principales objetivos y preocupaciones de los científicos a lo largo

de la historia ha sido diseñar y construir máquinas con cierto grado de inteligencia.

Una forma diferente de abordar este problema es mediante los modelos de redes

neuronales artificiales, los cuales están inspirados en el funcionamiento del

cerebro humano.

La neurona o célula nerviosa es la unidad funcional básica de los tejidos del sistema nervioso, incluido el cerebro. Este modelo del sistema nervioso parte de

que las neuronas se comunican entre sí por medio de impulsos eléctricos y que

forman una red neuronal que tiene una estructura compleja de interconexiones.

La entrada a la red proviene de receptores sensitivos que están en contacto

con el mundo exterior. Estos receptores envían estímulos en forma de impulsos

eléctricos que llevan la información a la red de neuronas. Como resultado del

procesamiento de la información en el sistema nervioso central, los efectores

controlan y dan respuesta en forma de diversas acciones.

En general, el aprendizaje es un cambio permanente y relativo en el

comportamiento basado en la experiencia. En redes neuronales biológicas, el

(27)

las neuronas o mediante la modificación de la intensidad de las conexiones

sinápticas existentes.

En redes neuronales artificiales, el aprendizaje es un proceso más directo

que se puede entender como una relación causa-efecto y puede ser vista como

una relación que transforma las entradas en las salidas para un conjunto de

ejemplos de pares entrada-salida.

Este proceso se asemeja al cerebro humano en que el conocimiento es

adquirido por la red mediante un proceso de aprendizaje y en que la intensidad de

las conexiones entre las neuronas, conocidas como pesos sinápticos, se utiliza

para almacenar el conocimiento.

De aquí, se defina a la red neuronal artificial como un procesador distribuido

masivamente en paralelo que puede almacenar conocimiento basado en la

experiencia y es capaz de tenerlo disponible para su uso.

2.6.2 Redes neuronales para la clasificación.

El término de patrón es utilizado para referirse a los elementos del conjunto

de entradas que se le presentan a la red en la etapa de entrenamiento. Más aún,

un patrón debe ser una descripción cuantitativa de un objeto, evento o fenómeno.

Clasificación: Es cuando el conjunto de patrones de entrada es dividido en

clases o categorías. En este caso al presentar una entrada, la red debe dar como

respuesta a qué clase pertenece. Generalmente las clases son expresadas por

vectores de salida de valores discretos y se usan funciones de activación binarias.

La principal función de un sistema de clasificación es decidir a qué clase

pertenece la entrada que se presente. Conceptualmente, el problema puede se

descrito como una transformación de conjuntos o funciones desde el espacio de

entrada al espacio de salida, que es llamado espacio de clasificación.

El objetivo de la clasificación de patrones es asignar un objeto físico, evento

o fenómeno a una de las clases o categorías preestablecidas. El problema de

clasificación de patrones puede ser considerado como uno de discriminación de

datos de entrada dentro de una población de objetos, mediante la búsqueda de

(28)

La entrada es representada como un vector X y la clasificación a la salida

del sistema es obtenida por un clasificador implementado por una función de

decisión i₀(X) que puede tomar, en general, uno de los valores discretos 1,2,...,R, donde la respuesta representa la categoría a la cual puede ser asignado el patrón,

como se muestra en la figura 2. Es decir

i₀ =i₀(X) (2.7) donde X =

[

x x₁, ₂,L,x_n

]

t

La función de clasificación (de decisión) de la ecuación (2.7) representa una

transformación o aplicación de un vector n-dimensional X a una de las categorías

[image:28.612.91.428.291.392.2]

i₀(X).

Figura 2: Esquema de un clasificador multicategoría.

La clasificación también puede ser descrita convencionalmente en forma

geométrica. Un patrón puede ser representado por un punto en un espacio

euclidiano n-dimensional Rn, denominado espacio de patrones. Los puntos en este espacio corresponden a los elementos del conjunto de patrones que son

vectores n-dimensionales. Un clasificador de patrones aplica conjuntos de puntos

del espacio Rn en el espacio de uno de los números i₀(X)=1 2, ,L, R como describe la función de decisión (2.7).

Las regiones denotadas por C_j son llamadas regiones de decisión y las fronteras que separan una región de las otras se denominan superficies de

(29)

Durante la etapa de clasificación, para determinar la pertenencia a una

categoría, el clasificador necesita basarse en la comparación de los cálculos para

el patrón de entrada X de R funciones de discriminación

g X₁( ), g₂(X),L, g_R(X). Las funciones de discriminación toman valores escalares y un patrón pertenece a la i-ésima categoría si y solo si se cumple que

g X_i( )> g_j(X), ∀i j, =1 2, ,L, R; i ≠ j (2.8) Esto significa que dentro de la región C_j la i-ésima función de discriminación toma el mayor valor. Esta propiedad de la función de discriminación g X_i( ) de tomar el valor máximo para un patrón que pertenezca a la clase i es fundamental y es usado para seleccionar formas específicas de las funciones g X_i( ).

Las funciones de discriminación g X_i( ) y g_j( )X para regiones de decisión contiguas C_i y C_j definen las superficies de decisión entre patrones de las clases i y j en el espacio Rn.

Para un patrón dado el i-ésimo discriminador calcula el valor de la función

g X_i( ) que se denomina simplemente discriminante. El selector del máximo implementa la condición (2.8) y selecciona la mayor de todas las entradas

produciendo una respuesta igual al número de categoría i₀(X).

En el caso que R =2, el clasificador es denominado dicotomizador y en este caso la condición (2.8) puede ser reducida a la inspección del signo de la siguiente

función de discriminación

g X( )=g X₁( )−g₂(X) (2.9) Por lo que aquí la regla general (2.9) puede ser reescrita como

g X X C

g X X C ( ) ,

( ) ,

> ∈ < ∈

0 0

1

2

si

si (2.10) Para construir un dicotomizador simple puede ser usada una unidad lógica

(30)

[image:30.612.141.437.70.163.2]

Figura 3 : Dicotomizador.

Una TLU puede ser considerada como una versión binaria de una neurona,

el la cual los pesos son introducidos como en un perceptrón binario. Las

respuestas 1, -1 de la TLU pueden ser interpretadas como indicaciones de las

categorías 1 y 2 respectivamente. La TLU simple implementa la función signo

definida como

( )

(

)

_{( )}

( )

i X X g X g X

0

1 0

( ) sgn g ,

,

= = > − < 

 

El diseño de clasificadores se puede basar por completo en el cálculo de las

fronteras de decisión que se derivan de los patrones y de su pertenencia a

determinada clase.

Un clasificador eficiente, puede ser descrito, en general, por funciones de

discriminación que dependan de forma no lineal de las entradas x x₁, ₂,L,x_n. El uso de funciones de discriminación no lineales puede ser eludido mediante el

diseño de clasificadores de propagación hacia adelante que sean multicapas.

En el caso de la clasificación lineal, la superficie de decisión es un

hiperplano. En la figura 4 se muestra una función discriminante lineal en el caso

(31)

[image:31.612.150.480.69.237.2]

Figura 4: Ilustración de una función discriminante lineal bidimensional.

Cuando se analiza el problema de clasificación de patrones, resulta

interesante el estudio de aquellos clasificadores, que sus capacidades de decisión

son generadas por patrones de entrenamiento mediante aprendizaje,

entrenamiento o algoritmos iterativos.

La clasificación de un dato es aprendida gradualmente mediante la

inspección repetida y clasificación de ejemplos.

Cuando el tipo de función discriminante ha sido seleccionado, el algoritmo de

aprendizaje da como resultado la solución para los coeficientes, inicialmente

desconocidos, de la función discriminante, que se obtiene a partir del conjunto de

patrones de entrenamiento.

Para el estudio de clasificadores entrenables (adaptativos) se asume que :

1) El conjunto de patrones de entrenamiento es conocido, así como la clasificación de todos sus elementos, por lo que el entrenamiento es

supervisado.

2) Las funciones discriminantes tienen una forma lineal y solo sus coeficientes son ajustados en el proceso de entrenamiento.

Bajo estas suposiciones, un clasificador entrenable puede ser implementado

por el aprendizaje mediante ejemplos. El interés, por lo tanto, está enfocado hacia

vectores de datos de entrada para los cuales se conoce su clasificación correcta,

(32)

El problema de clasificación consistirá entonces en determinar las superficies

de decisión en un espacio n-dimensional a partir de la correcta clasificación de los

prototipos y que permita con un grado de confianza realizar correctamente el

reconocimiento y la clasificación de patrones desconocidos que no hayan sido

usados en el entrenamiento. La única limitación que se tiene para que los patrones

desconocidos sean reconocidos es que tengan el mismo formato que se usó en

los patrones de entrenamiento.

El perceptrón fue el primer modelo de red neuronal artificial desarrollado por

Rosenblatt en 1958. Despertó un enorme interés en los años 60’ s debido a su

capacidad para aprender a reconocer patrones sencillos: un perceptrón, formado

por varias neuronas lineales para recibir las entradas a la red y una neurona de

salida, es capaz de decidir cuándo una entrada presentada a la red pertenece a

una de las dos clases que es capaz de reconocer [18].

En la figura 5 se representa la única neurona de salida del perceptrón la cuál

realiza la suma ponderada de las entradas, resta el umbral y pasa el resultado a

[image:32.612.100.384.418.620.2]

una función de transferencia de tipo escalón, ver figura 6.

Figura 5. Perceptrón de una sola neurona. 1

X

2

X

1 X

Y

N

X

1

W

2

W

N

W

   



 ₋

=

∑

=

θ i N i

iX

W f Y

(33)

[image:33.612.101.332.75.235.2]

Figura 6. Función de transferencia tipo escalón.

La regla de decisión es responder +1 si el patrón presentado pertenece a la

clase A, o -1 si el patrón pertenece a la clase B. La salida dependerá de la entrada

neta (suma de las entradas x_i ponderadas) y del valor del umbral θ, como se muestra en la figura 7.

Figura 7. Función discriminante lineal bidimensional.

-1

x f(x)

1

A

1

X

2

X

B B

B

2 1 2

1 2

W X W

W

[image:33.612.138.480.396.622.2]

(34)

El perceptrón al contar sólo de una capa de entrada y otra salida con única

neurona, tiene una capacidad de representación bastante limitada. Este modelo

sólo es capaz de discriminar patrones muy sencillos linealmente separables. El

caso más conocido es la imposibilidad del perceptrón de representar la función

[image:34.612.89.393.179.372.2]

OR-EXCLUSIVA. Gráficamente se representa en la figura 8.

Figura 8. Función OR-EXCLUSIVA

Es evidente que este problema puede ser resuelto si se adiciona una capa

oculta de neuronas.

Hasta el momento no se ha encontrado ninguna generalización de la regla de

aprendizaje del perceptrón para redes multicapas.

Para el entrenamiento de redes multicapas de propagación hacia adelante se

ha utilizado un algoritmo, conocido como el algoritmo de retropropagación del error

(backpropagation) y es una generalización de la regla delta de aprendizaje.

El algoritmo de retropropagación del error es un algoritmo iterativo, basado

en la técnica del descenso acelerado y su objetivo de entrenamiento consiste en

minimizar determinada función de error.

Este algoritmo presenta algunas desventajas, entre las cuales tenemos:

1. Presupone conocida la arquitectura de la red, es decir, el número de

capas y la cantidad de neuronas por capas. A

A X₁

2

X

B

(35)

2. Es muy costoso desde el punto de vista computacional

3. Puede quedar atrapado en un mínimo local

Después de encontrar un algoritmo de entrenamiento para redes multicapas,

el problema fundamental que enfrentaron los investigadores en redes neuronales

fue determinar la menor cantidad de capas de neuronas ocultas para que este

algoritmo fuera convergente.

En 1989 se da solución a este problema mediante la demostración de un

teorema que es conocido como el Teorema de Aproximación Universal. Este teorema está considerado como el resultado teórico de mayor importancia para

redes neuronales de propagación hacia adelante y fue reportado en tres trabajos

diferentes: Cybenko [8], Funahashi [12] y Hornik, Stinchcombe y White [20].

El teorema puede ser formulado como:

Teorema: Sea ϕ

( )

. una función continua, monótona creciente y acotada. Denotemos por I_n el hipercubo unitario n-dimensional

[ ]

0 1, n y por C

( )

I_n el espacio de las funciones continuas sobre I_n. Entonces, dados una función

( )

f ∈C I_n y un ε >0, existen un entero m y conjuntos de constantes reales α θ_i, _i y w_ij, donde i=1,L,m ; j =1,L,n tales que se puede definir

F x x_n _i w x_ij _j _i

j n i

m ( ₁,..., )

1 1

=  −



 

  =

=

∑

α ϕ θ

como una aproximación de la función f , que cumple

F x( ₁,...,x_n)− f x( ₁,...,x_n) < ε para todo

(

x₁,...,x_n

)

∈I_n.

El teorema de aproximación universal es un teorema de existencia y

establece que una sola capa oculta es suficiente para que una red neuronal

multicapa calcule una aproximación uniforme para un conjunto de entrenamiento

dado, representado por el conjunto de entradas

(

x₁,...,x_n

)

y una salida deseada

(

)

f x₁,...,x_n .

En 1991, Hornik [19] demuestra que el requerimiento de continuidad sobre la

(36)

que sea acotada y no constante. Este resultado permite aplicar este teorema al

caso de problemas de clasificación.

2.6.3 Solución al problema de la separabilidad lineal.

Es conocido que cuando el conjunto de patrones no es linealmente

separable, es imposible realizar la clasificación correcta del conjunto de

entrenamiento sin agregar capas de neuronas ocultas, además, el problema de

determinar el subconjunto linealmente separable de mayor cardinalidad es un

problema NP-duro [28].

Debido a esto, se comenzaron a desarrollar algoritmos constructivos de

aprendizaje [6,7,27] para diseñar y entrenar redes neuronales multicapas para la

clasificación. Estos algoritmos obtienen redes neuronales de arquitectura

sub-optimal en el sentido del número de neuronas en las capas ocultas.

Los algoritmos constructivos son procedimientos heurísticos que en cada

iteración tratan de determinar, con una complejidad polinomial, el mayor

subconjunto linealmente separable.

En la mayoría de estos algoritmos, el entrenamiento está basado en alguna

variante de la regla de aprendizaje del perceptrón discreto y su funcionamiento

consiste en ir agregando neuronas a la red hasta que se logre que la igualdad a

cero de la función de error para todos los patrones del conjunto de entrenamiento.

El principio general de funcionamiento de los algoritmos constructivos de

aprendizaje es determinar, en cada iteración del algoritmo, un vector de pesos y

un valor de umbral que proporcione el valor mínimo de la función de error, el cual

es igual a cero si el conjunto de entrenamiento es linealmente separable.

Entre los algoritmos constructivos, los más eficientes son [6,7]:

• Algoritmo de bolsa con mecanismo de reten ( Pocket algorithm with ratchet modification ).

• Algoritmo del perceptrón térmico ( Thermal perceptron algorithm ).

(37)

El algoritmo de bolsa con mecanismo de reten utiliza la regla del perceptrón

para la modificación de los pesos y guarda en un vector W_pocket el vector de pesos que proporciona el menor valor de la función de error. En cada iteración se

compara el valor de la función de error para el vector de pesos W calculado con el

valor para W_pocket y si este valor es menor, se reemplaza W_pocket por W. Está comprobado [13] que este algoritmo converge al menor valor de la función de

error.

El algoritmo del perceptrón térmico es utilizado para controlar la modificación

de los pesos durante el proceso de entrenamiento. En el algoritmo clásico de

entrenamiento del perceptrón, cuando el conjunto de patrones no es linealmente

separable, pueden ocurrir cambios bruscos en los pesos, que producen

fluctuaciones severas en la función de error y entorpecen el proceso de

clasificación.

Para estabilizar el proceso de aprendizaje se introduce el siguiente factor

amortiguador en la ecuación de modificación de los pesos

[

]

W W c d o X W X

Q

i i i

t i

← + − −



 _

) exp .

El valor de Q se le da un valor de Q₀ al comienzo del entrenamiento y

gradualmente se aproxima a cero a medida que progresa el aprendizaje.

Este factor amortiguador introducido en la regla de modificación de los pesos

no permite cambios bruscos en los pesos al final del entrenamiento.

El procedimiento de corrección baricéntrica es un algoritmo eficiente para

entrenar una unidad lógica de umbral. En este procedimiento los patrones son

separados en dos subconjuntos S+y S−. El baricentro de cada subconjunto se

define como la media ponderada de los patrones multiplicados por su

correspondiente coeficiente de peso. El vector de pesos W =

(

w w₁, ₂,L,w_n

)

t es determinado como la diferencia entre los baricentros de los dos subconjunto de

patrones y el valor de umbral w_n+₁ es seleccionado de forma tal que minimice la función de error. Inicialmente a cada patrón se le asocia un coeficiente de peso

(38)

Si el conjunto de patrones es linealmente separable, este procedimiento

determina, de forma más eficiente que los dos algoritmos anteriores, el hiperplano

que separa al conjunto de patrones en las dos clases o categorías.

En este trabajo de tesis aplicaremos una modificación de los resultados

descritos en [4 y 5], donde se presentan un algoritmos constructivos que utiliza

formulaciones lineales para determinar en cada iteración un hiperplano que separa

la mayor cantidad posible de patrones de una misma clase. Este método permite

determinar las neuronas de la capa oculta con los valores de los pesos

correspondientes.

2.6.4 Formulación del problema y descripción de la metodología.

Sea

{

X_i;d_i

}

,(i=1,2,...,T)el conjunto de entrenamiento, donde n i R

X ∈

representan los patrones de entrenamiento y d_i la clase a que pertenece cada patrón, según la regla

  

∈ −

∈ =

2 1

, 1

C X si

C X si d

i i i

Definición: El conjunto de patrones X =

{

X₁,X₂,...,X_T

}

es linealmente

separable, si existe un vector W =(w₁,w₂,...,w_n₊₁)T ∈Rn+1, tal que

     

∈ <

−

∈ >

−

∑

= +

n j

i n

j ij

i n

j

n j ij

C X para w

w x

C X para w

w x

1

2 1

1 1

1

, 0

(2.5.2.1)

Aquí surgen dos problemas:

1. Determinar si existe un hiperplano w₁x₁ +w₂x₂ +...+w_nx_n −w_n₊₁ =0, tal que se cumpla la condición (2.5.2.1), es decir que todos los patrones de la

clase 1 se encuentren en el semiespacio positivo, definido por el

hiperplano y los de la clase 2 en el semiespacio negativo.

2. Si tal hiperplano existe, entonces cómo determinar sus coeficientes.

Para resolver estos problemas, se hacen unas transformaciones a la

(39)

1. Multiplicar cada una de las desigualdades en (2.5.2.1) para el valor de d_i

del patrón correspondiente, obteniéndose entonces

0

1

1>

     −

∑

= + n j n j ij

i x w w

d (2.5.2.2)

2. Tener en cuenta que, si existe un vector de pesos ∈ n+1 R

W para el cuál

(2.5.2.2) se cumple, entonces mediante un escalamiento de este vector,

se puede encontrar otro vector _W~∈_Rn+1_{tal que se cumple que}

1 ~

~

1

1≥

     −

∑

= + n j n j ij

i x w w

d (2.5.2.3)

De aquí que, el problema de determinar si el conjunto de patrones es

linealmente separable, se transforma en determinar si existe solución factible para

el sistema (2.5.2.3).

Proposición: Para que un conjunto de patrones X =

{

X₁,X₂,...,X_T

}

sea

linealmente separable por el hiperplano

∑

= + = − n j n j ijw w

x

1

1 0 es necesario y suficiente

que sea igual a cero el valor del objetivo del siguiente problema de programación

lineal

∑

= = T i i z z 1 min ) ,..., 2 , 1 ( , 1 ) ,..., 2 , 1 ( , 0

. ₁ 1 _z _i _T

T i z w w x d a s _i i n j n j ij

i + ≥ =

     = ≥       −

∑

= + (2.5.2.4)

Con ayuda de esta proposición se puede verificar si un conjunto de patrones

es separable o no. Además, si es linealmente separable, obtiene los valores de los

pesos y el umbral que resuelven el problema de clasificación.

Cuando el conjunto de patrones es no linealmente separable, el problema de

diseño de la red neuronal consiste en encontrar la cantidad de neuronas

necesarias en la capa oculta para clasificar correctamente los patrones. En este

(40)

puede alcanzar con todas estas variables como variables básicas y esta solución

no tiene sentido para el problema de clasificación.

Para eliminar esta dificultad se formula el siguiente problema que determina

la menor cantidad de patrones mal clasificados:

{ }

        = ∈ ≥ ≤ ≥ +       − = + = =

∑

) , , 2 , 1 ( 1 , 0 , 0 1 . . min 1 1 1 T i y z My z z w w x d a s y z i i i i i n n j j ij i T i i L (2.5.2.5) Donde    = > = 0 si , 0 0 si , 1 i i i z z

y y M es una constante suficientemente grande.

Al resolver el problema (2.5.2.5) se obtiene un hiperplano que clasifica

correctamente el número máximo de patrones. Este hiperplano divide el conjunto

de entrenamiento en dos subconjuntos que pueden contener patrones de ambas

clases. Entonces para cada subconjunto se podría formular un problema similar a

(2.5.2.5) y obtener dos hiperplanos que dividan esos subconjuntos. Se podría

continuar de esta forma hasta obtener subconjuntos linealmente separables y

consecuentemente las neuronas en la capa oculta. La desventaja de esto es que

siempre es necesario considerar todo el conjunto de entrenamiento, aun cuando

estén agrupados en subconjuntos más pequeños.

Lo anterior puede evitarse si se impone la restricción de que en uno de los

semiespacios definidos por el hiperplano todos los patrones pertenezcan a la

misma clase. Con ello decrece el tamaño del problema a resolver de una iteración

a la siguiente.

Para determinar un hiperplano que separe el mayor número de patrones

perteneciente a una clase se formulan los problemas (2.5.2.6), (2.5.2.7).

Resolviendo estos problemas se obtienen hiperplanos que separan la mayor

(41)

{ }

          = ∈ ≥ = ≤ + = ≥       − = ≥ +       − = + = + = =

∑

) , , 2 , 1 ( , 1 , 0 , 0 ) , , 2 , 1 ( , ) , , 1 ( , 1 ) , , 2 , 1 ( , 1 . . min 1 1 1 1 1 1 1 1 1 1 T i y z T i My z T T i w w x d T i z w w x d a s y z i i i i n n j j ij i i n n j j ij i T i i L L L L (2.5.2.6)

{ }

          + = ∈ ≥ + = ≤ + = ≥ +       − = ≥       − = + = + = + =

∑

) , , 1 ( , 1 , 0 , 0 ) , , 1 ( , ) , , 1 ( , 1 ) , , 2 , 1 ( , 1 . . min 1 1 1 1 1 1 1 1 1 1 T T i y z T T i My z T T i z w w x d T i w w x d a s y z i i i i i n n j j ij i n n j j ij i T T i i L L L L (2.5.2.7)

Con estos elementos se puede desarrollar el siguiente algoritmo:

1. Formular los problemas (2.5.2.6) y (2.5.2.7).

2. Escoger aleatoriamente uno de ellos para resolver.

3. Resolver el problema seleccionado. La solución de este problema indicará

los valores de los pesos y el umbral del hiperplano, así como el número

de patrones que separa.

4. Añadir el hiperplano encontrado a la red.

5. Resolver el problema no elegido en el paso 1, eliminando los patrones

que fueron separados por el hiperplano añadido. Si todavía hay patrones

de ambas clases, formular los correspondientes problemas (2.5.2.6) y

(2.5.2.7) y regresar al paso 2. En otro caso parar.

Al ir construyendo una red neuronal con los hiperplanos obtenidos por el

(42)

[image:42.612.113.368.112.371.2]

imágenes Y_i∈Rm,

(

i =1,...,T

)

, el cual es linealmente separable como se muestra en la figura 9.

Figura 9. Red neuronal de dos capas, de entrada y oculta.

Para concluir el diseño de la red faltaría determinar la memoria entre la capa

oculta y la capa de salida. Para ello, se formará un conjunto de entrenamiento

(

) (

)

{

Y d₁, ₁ , Y d₂, ₂ ,L, Y d_T, _T

}

y, resolviendo un problema del tipo (2.5.2.4), se obtendrá un hiperplano separador con el cual se completará la red neuronal que

clasifique correctamente el conjunto original de patrones en dos clases como se

(43)

[image:43.612.88.493.71.311.2]

(44)

CAPÍTULO III

3. Metodología y proceso de la investigación.

3.1 Descripción general

Parte de la evaluación del sistema de calidad lo conforma la encuesta de

satisfacción de egresados que se aplica cada dos años en las Universidades

Tecnológicas. La parte central de la investigación esta en relacionar la percepción

de dicha satisfacción con las variables que estuvieron en el proceso

enseñanza-aprendizaje por medio de una red neuronal artificial. La figura 11 esquematiza el

[image:44.612.85.543.331.616.2]

objetivo de esta investigación:

Figura 11.Relación de las variables del proceso enseñanza aprendizaje

con la satisfacción del usuario.

ALUMNO

Inputs

Outputs

PROFESOR PLANES Y

PROGRAMAS DE ESTUDIO Inputs

Inputs

PROCESO ENSEÑANZA-APRENDIZAJE

Outputs Output