Reconocimiento dinámico y estático de trazos

(1)

E

SCUELA

S

UPERIOR DE

I

NGENIERIA

M

ECÁNICA Y

E

LÉCTRICA

U

NIDAD

C

ULHUACAN

S

ECCION DE

E

STUDIOS DE

P

OSGRADO E

I

NVESTIGACIÓN

RECONOCIMIENTO DINAMICO Y

ESTATICO DE TRAZOS

T E S I S

QUE PARA OBTENER EL GRADO DE:

DOCTOR EN COMUNICACIONES Y ELECTRÓNICA

PRESENTA:

L INDA K ARINA T OSCANO M EDINA

ING. EN COMPUTACIÓN

ASESOR:

DRA. MARIKO NAKANO MIYATAKE

MÉXICO D. F. JUNIO 2005

(2)

(3)

(4)

Agradezco profundamente a DIOS por estar junto a mí en los momentos difíciles de mi vida, y permitirme nacer en una familia tan maravillosa teniendo siempre la compresión, el amor y el inmenso apoyo en cada paso que doy.

Agradezco de todo corazón a mis padres Cristóbal y Rosa, por su ejemplo de trabajo, perseverancia y esfuerzo, además del amor, comprensión y confianza para lograr todas las metas que me he propuesto a lo largo de mi vida.

Agradezco a mis hermanos Jorge, Guadalupe, Rocío y Cristina, porque cada uno de ellos aportaron ejemplo, esfuerzo, dedicación, coraje, consejos y apapachos que me motivaron a realizar este sueño de mi vida con mucho cariño. Gracias hermanos por escucharme y estar siempre a mi lado.

Agradezco a mi esposo Gabriel por estar siempre a mi lado recorriendo este sueño juntos, que fue un camino largo lleno de sacrificios, lágrimas y risas, gracias por todo el amor, ternura, compresión, apoyo incondicional y tu inmensa confianza que día a día me das, te amo.

Quiero hacer una mención especial a un ser que sea el lugar donde se encuentre siempre estará en mi corazón y esta tesis esta dedicada a ti bebé.

Agradezco a Roberto, Natalia, Virginia y Eduar y a mis cinco amores Iván, Estefanía, Jair, Jorge y la bebé por estar a mi lado en este camino.

Agradezco a Julieta su apoyo, enseñanzas y consejos, en este sueño .

A mis amigos Ariana, Blanca, Luis Carlos, Moisés, Eleazar, Yuri, Cristina, Jair, Bogart.

Agradezco a mis asesores la Dra. Mariko Nakano Miyatake y al Dr. Héctor M.

Pérez Meana por sus enseñanzas, por su paciencia y la confianza de invertir su tiempo en mí para lograr este sueño.

Agradezco al Dr. Juan Carlos Sánchez por todo el apoyo en estos años.

Agradezco al Dr. Makoto Yasuhara por todo su tiempo, consejos y enseñazas.

Doy las gracias a todos los profesores de la SEPI por transmitirme su conocimiento, a mis sinodales por el tiempo invertido en la revisión de la tesis, así como también al personal que labora en la sección por todo el apoyo que se me brindo en todo este tiempo.

Agradezco al CONACyT y a la Universidad de Electro-comunicaciones de Japón por todas las facilidades brindadas para la realización de esta tesis.

Y para finalizar agradezco a todas aquellas personas que no mencione pero

(5)

RESUMEN

Durante las últimas dos décadas se han propuesto muchos sistemas de reconocimiento de caracteres manuscritos, no obstante, todavía hay muchas limitaciones, especialmente para los caracteres manuscritos cursivos. En esta investigación se propone un nuevo algoritmo para el reconocimiento de caracteres manuscritos cursivo usando la función Spline, en la cual el proceso inverso de la construcción del caracter manuscrito será utilizado para el reconocimiento del caracter. El caracter se captura por medio de una tableta digitalizadora, se obtienen la secuencia de los puntos más significativos (nodos óptimos) del caracter, y se utiliza la función spline (método de Slalom) y el método de búsqueda descendente para interpolar y aproximar la forma de caracter. Usando un sistema de entrenamiento que consiste en la secuencia de nodos óptimos, obteniendo cada modelo de cada caracter. Finalmente se introduce un caracter desconocido que será comparado con cada modelo de todos los caracteres para obtener las dista ncias entre ellos. El modelo del caracter con la distancia más grande será considerado como el caracter reconocido de los datos de entrada. En la etapa del reconocimiento, la clasificación se realiza en dos etapas, observa ndo con detalle los caracteres similares de algunos grupos de caracteres. El índice global del reconocimiento del sistema propuesto es del 96%.

ABSTRACT

During the last two decades have been proposed many handwritten character recognition systems, however until now there are still many limitations, especially for the cursive handwritten characters. In this paper a new algorithm for cursive handwritten characters recognition based on the Spline functions is proposed, in which the inverse process of the handwritten character construction task will be used to recognize the character. From the samples got by using a digitizer board, the sequence of the most significant points (optimal knots) of the handwriting character will be obtained, and then the natural Spline function (Slalom method) and the steepest descent method will be used to interpolate and approximate the character shape. Using a training set consisting of the sequence of optimal knots, each character model will be constructed. Finally the unknown input character will be compared with each model of all characters to get the similarity scores. The character model with higher similarity score will be considered as the recognized character of the input data. In the recognition stage, two -steps classification is realized detail analysis for some groups of similar characters. The global recognition rate of the proposed system is 96%.

(6)

INDICE

Introducción

Trazos 5

Objetivo de la investigación 6

Justificación de la investigación 7

Organización de la tesis 7

CAPÍTULO 1.Marco Teórico

1.1 Introducción 9

1.2 Características biométricas 9

1.3 El reconocimiento de trazos fuera de línea 10

1.4 El reconocimiento de trazos en línea 11

1.5 Dificultad del reconocimiento de trazos fuera de línea 12

1.6 Dificultad del reconocimiento de trazos en línea 12

1.7 Tipo de falsificación 14

1.8 Tipo de errores 14

1.9 Tecnología de la tableta digitalizadora (Historia) 15

1.10 Descripción de la tableta digitalizadora WACOM 16

1.11 Reconocimiento de patrones 1.11.1 Adquisición de datos 1.11.2 Preprocesamiento

1.11.2.1 La segmentación 1.11.2.2 El filtrado

1.11.2.3 Algoritmos de Dehooking 1.11.2.4 Normalización

1.11.2.5 Eliminación de muestras redundantes 1.11.3 Extracción de características

1.11.3.1 Punto inicial, punto final y el orden de la escritura 1.11.3.2 Velocidad y aceleración de la escritura

1.11.3.3 Presión

1.11.3.4 El ángulo de inclinación de la pluma 1.11.4 Reconocimiento

16 18 18 18 19 19 19 20 20 21 21 21 22 22 1.12 Redes Neuronales

1.12.1 Ventajas de la Redes Neuronales Artificiales 1.12.2 Tipo de redes neuronales

1.12.3 Estructura y naturaleza de la neurona biológica 1.12.4 La neurona artificial

1.12.5 Estado de activación de cada neurona

1.12.6 Conectividad entre neuronas y regla de propagación 1.12.7 Función de salida o de transferencia

1.12.7.1 Función Escalón 1.12.7.2 Función Lineal y Mixta

23 23 24 24 25 26 27 27 28 28

(7)

1.12.8 Función o regla de activación 1.12.9 Regla de aprendizaje

1.12.10 Clasificación de las redes neuronales 1.12.10.1 La red de retropropagación 1.12.10.2 La regla delta

1.12.10.3 La regla delta generalizada 1.12.11 Estructura y aprendizaje de la red

1.12.12 Aplicaciones de la red de retropropagación

29 31 32 33 34 37 42 45 1.13 Funciones Spline

1.13.1 Spline Cúbica

1.13.2 Algoritmo de solución tridiagonal 1.13.3 Función Spline Natural

1.13.4 Método de Slalom

1.13.4.1 Ejemplo de Slalom

45 46 54 57 58 62

1.14 Método de búsqueda de gradiente descendente 65

1.15 Longitud de Descripción Mínima 67

1.16 Conclusiones 69

CAPÍTULO 2. Verificación de firmas estáticas

2.1 Introducción 71

2.2 Antecedentes 71

2.3 Sistema Desarrollado

2.3.1 Adquisiónn de datos 2.3.2 Base de datos 2.3.3 Preprocesamiento

2.3.4 Extracción de características 2.3.4.1 Momentos de proyección 2.3.4.2 Envolventes

2.3.5 Red Neuronal

73 74 75 75 75 76 77 83

2.4 Resultados Obtenidos 85

2.5 Comparación del funcionamiento 89

2.6 Conclusiones 90

CAPÍTULO 3. Verificación de firmas en línea

3.2 Antecedentes 91

3.3 Sistema Propuesto

3.3.1 Adquisición de datos 3.3.2 Base de datos 3.3.3 Preprocesamiento

3.3.3.1 Eliminación de ruido

3.3.3.2 Eliminación de muestras redundantes 3.3.3.3 Normalización en posición

3.3.3.4 Normalización en tiempo

93 93 93 94 95 97 98 98

(8)

3.3.4.2 Orden de escritura 3.3.4.3 Velocidad de escritura

3.3.4.4 La presión a lo largo de la escritura 3.3.4.5 Región de presión alta de la firma

3.3.4.6 Región de velocidad alta y baja en los ejes X y Y 3.3.5 Verificación de firmas

3.3.5.1 Estructura de verificación

3.3.5.2 Estructura de las redes neuronales

3.3.5.3 Análisis sobre las características extraídas 3.3.5.4 Etapa de toma de decisión

99 100 101 103 104 105 105 105 108 110

3.4 Evaluación del sistema propuesto 112

3.4.1 Firmas con error de verificación 121

3.5 Comparación del funcionamiento del sistema propuesto 123

CAPÍTULO 4. Reconocimiento de caracteres manuscritos en línea usando la función Spline

4.2 Antecedentes de los sistemas de reconocimiento de caracteres en línea 126 4.3 Sistema Propuesto

4.3.1 Adquisición de datos

4.3.2 Generación de la base de datos 4.3.3 Preprocesamiento

4.3.3.1 Filtrado

4.3.3.2 Normalización en tamaño 4.3.3.3 Normalización en posición 4.3.3.4 Normalización en tiempo 4.3.4 Extracción de características

4.3.4.1 Obtención de nodos óptimos 4.3.4.2 Derivación de los datos 4.3.4.3 Filtrado

4.3.4.4 División de la señal 4.3.4.5 Nodos iniciales 4.3.4.6 Método de Slalom

4.3.4.7 Método de búsqueda de gradiente descendente 4.3.4.8 MDL (Longitud de descripción mínima)

4.3.4.9 Nodos óptimos

4.3.4.10 Construcción del modelo del caracter

130 131 132 133 134 135 135 135 136 137 137 139 139 141 141 142 144 145 146 4.4 Reconocimiento de caracteres manuscritos

4.5 Resultados

4.6 Comparación del funcionamiento del sistema propuesto

148 152 158

(9)

5.2 Conclusiones globales 161

5.3 Trabajos Futuro 162

Referencias 165

Anexo A 171

Anexo B 181

Anexo C 183

Anexo D 195

(10)

INTRODUCCION

Trazos

La escritura se desarrolló desde hace mucho tiempo como medio de expansión de la memoria humana para facilitar la comunicación. La escritura se ha mantenido como medio de comunicación e información en la vida cotidiana a pesar de las nuevas tecnologías, la razón por la cual la escritura persiste en la edad de la computadora, es la conveniencia del uso de papel y pluma comparado con el uso del teclado en diferentes situaciones día a día .

El estudio de la escritura involucra conceptos de investigación de varias disciplinas: la psicología experimental, neuro-ciencia, física, ingeniería, ciencias de computación, antropología, educación, examinación de documentos forenses, etc.

Desde el punto de vista de esta generación, la escritura involucra varias funciones, empezando de la intención de comunicación, la preparación del mensaje dentro de los niveles semánticos, sintácticos, léxicos y convertidos de algún modo en un conjunto de hologramas (forma de modelos de letras) y gráficos (trazo s específicos).

Los trazos son consecuencia o resultado de la escritura manual realizada por humanos y generalmente tienen cierto objetivo o significado. Los trazos manuscritos que tienen significado son los caracteres manuscritos, firmas, gráficas y dibujos. En esta tesis se estudia dos tipos de trazos manuscritos: las firmas y los caracteres manuscritos.

Desde hace siglos las firmas son usadas para identificar a la persona o autenticar documentos, recientemente se ha considerado como una característica biométrica. El área de investigación de la verificación biométrica es muy importante y esta enfocada en aplicaciones de verificación de identidad. En la actualidad las prácticas de seguridad hacen uso de números confiables debido a que se pueden perder u olvidar, y no existen muchas restricciones para su uso, dando como consecuencia que una persona no autorizada pueda hacer uso estas llaves de seguridad. Por lo anterior las medidas biométricas son empleadas para fines de seguridad, ya que estas nos son fáciles de duplicar y tampoco pueden ser robadas u olvidadas, por lo tanto son más seguras.

Hay dos tipos de medidas biométricas: fisiológicas (patrones de iris y huellas digitales) y conductuales (el habla y la escritura). La verificación de firmas escritas a mano es una aplicación de una medida biométrica conductual, y se esta familiarizado con este proceso de verificación, especialmente en ambientes legales y bancarios.

(11)

El reconocimiento de la escritura es la tarea de transformar un lenguaje representado en sus formas espaciales de marcas gráficas en su representación simbólica.

Existen dos tipos de sistemas de reconocimiento de trazos llamados sistemas dinámicos (sistemas en línea) y sistemas estáticos (sistemas fuera de línea).

Los sistemas de reconocimiento de trazos en línea requieren la presencia física de quien escribe, éste escribe sobre una tableta digitalizadora, la cual nos muestra las características dinámicas de lo escrito en tiempo real, como pueden ser las coordenadas bidimensionales, la velocidad, los ángulos de inclinación, la secuencia escrita así como también la presión que se ejerce. En los sistemas de reconocimiento de la escritura fuera de línea se extraen sus características estáticas desde una imagen capturada.

La computadora en un futuro tendrá que procesar la escritura electrónica en un ambiente sin limitaciones, tratar con muchos estilos de escritura e idiomas, trabajar con alfabetos definidos, y comprender cualquier mensaje escrito a mano por cua lquier escritor.

A través del tiempo se han desarrollado sistemas como las redes neuronales artificiales que intentan expresar la solución de problemas complejos, no como una secuencia de pasos, sino como la evolución de unos sistemas de computación inspirados en el funcionamiento de l cerebro humano para resolver problemas relacionados con el reconocimiento de formas o patrones, predicción, codificación, clasificación, control y optimización.

Existen diversos métodos de reconocimiento como son las redes neuronales artificiales, Modelos Ocultos de Markov, los métodos estadísticos, entre otros.

Objetivo de la investigación

Los objetivos en esta tesis son proponer sistemas de reconocimiento o verificación sobre trazos, siendo estos firmas o caracteres manuscritos. A lo largo de esta tesis se proponen tres sistemas, los cuales son la verificación de firmas estáticas, la verificación de firmas dinámicas y el reconocimiento de caracteres manuscritos en línea, los caracteres manuscritos que se usan son de tipo cursivo.

Se considera que el sistema de reconocimiento de caracteres manuscritos en línea es la principal aportación de esta tesis, debido a que el método de extracción de características y el concepto básico del sistema son novedosos.

Cuando una persona escribe una letra, generalmente realiza 4 procesos (a) tener en mente el símbolo que va a escribir, (b) el orden de articulación para escribir la letra, (c) la realización del trazo y (d) la imagen de la letra.

(12)

En esta investigación se realiza el paso desde el proceso (c) al proceso (b) usando una aproximación basada en las funciones Spline y el método de búsqueda del gradiente descendente (Steepest descent), o sea a partir del orden de los datos del caracter (información en series en tiempo), se obtiene el orden de la articulación del brazo para realizar el trazo de las letras.

Justificación de la investigación

La escritura es considerada para intercambiar hechos de cultura y civilización, hace algunos años la comunicación se establecía por medio de la escritura cursiva La escritura es una habilidad que es personal en los individuos, por lo que puede asociarse a varios tipos de análisis, reconocimiento e interpretación. Cada manuscrito es conocido como letra o caracter que se necesita reconocer para saber si es en verdad el caracter escrito. Este problema ha sido un desafío de la investigación desde los años sesentas, cuando fueron realizadas las primeras tentativas de reconocimiento de caracteres manuscritos, desde entonces numerosos métodos han sido propuestos y probados. A través de los años, estos proyectos de investigación han pasado de ser simples ejercicios académicos convirtiéndose en aplicaciones de tecnología potenciales.

El sistema de reconocimiento de caracteres manuscritos, a pesar de sus años de investigación, aún no se tiene un método eficientemente confiable para su reconocimiento, sobre todo si los caracteres manuscritos con cursivos.

Actualmente en las escuelas de enseñanza básica se les está inculcando a los niños que escriban de forma cursiva aparte de la convencional como en épocas pasadas, esto posiblemente dará el auge nuevamente a la escritura cursiva.

La llegada de las tabletas electrónicas precipitó considerablemente la actividad del reconocimiento de caracteres manuscritos en línea, entre otras acti vidades.

Actualmente se usan las tabletas digitalizadoras para llevar a cabo el reconocimiento de caracteres en línea, el cual es un equipo aceptable en cuestiones de economía y de aplicaciones o soluciones que se muestran en este campo y debido a las características dinámicas que se manejan en estas tabletas se obtiene un mayor porcentaje de reconocimiento, comparado con los resultados que manejan los sistemas fuera de línea.

Organización de la tesis

Esta tesis se realiza en seis capítulos y anexos que nos muestran la importancia de los trazos manuscritos y su reconocimiento, así como también los sistemas propuestos y los resultados obtenidos.

(13)

Introducción. En este capítulo se muestra importancia de los trazos (firmas y escritura), la introducción a los sistemas de reconocimiento, el objetivo principal de la investigación y su justificación; y finalmente se muestra el desarrollo de esta tesis.

Capítulo 1. Dará una mención más amplia de la escritura como un patrón de reconocimiento y de los sistemas de reconocimiento en línea y fuera de línea.

Además se da a conocer los métodos que se usan para el reconocimiento de caracteres manuscritos, tales como las Redes Neuronales Artificiales, las funciones Splines, el método de búsqueda del gradiente descendente y la longitud de descripción mínima.

Capítulo 2. Se da a conocer el sistema de verificación de firmas estáticas, donde se conocerá el sistema propuesto, trabajos anteriores, características extraídas, pruebas y resultados.

Capítulo 3. Se da a conocer el sistema de verificación de firmas dinámicas, donde se conocerá el sistema propuesto, características extraídas, pruebas y resultados.

Capítulo 4. Se da a conocer el sistema de reconocimiento de caracteres usando la función Spline, donde se conocerá el sistema propuesto, características extraídas, pruebas y resultados.

Capítulo 5. Conclusiones generales y futuras investigaciones.

Referencias Bibliográficas

Anexo A: Lista de figuras mostradas en la tesis.

Anexo B: Glosario de términos.

Anexo C: Programas realizados en MATLAB.

Anexo D: La base de datos de los caracteres manuscritos.

Anexo E: Publicaciones.

(14)

Capítulo 1

Marco Teórico

1. 1 Introducción

Este capítulo describe los conceptos básicos del campo de reconocimiento de trazos (firmas y caracteres manuscritos), como dos métodos principales, el reconocimiento fuera de línea y el reconocimiento en línea; sus respectivas ventajas y desventajas, y principales aplicaciones. También se mencionan las dificultades existentes para obtener un buen funcionamiento en el reconocimiento en línea, los principales preprocesamientos que se pueden realizar para facilitar el reconocimiento y las características dinámicas que se pueden extraer de los trazos en línea.

La etapa de reconocimiento de los sistemas propuestos en esta tesis está basada en las redes neuronales multicapas con el algoritmo de retropropagación y el método estadístico. En el campo de las redes neuronales, existen varias estructuras y algoritmos de aprendizaje para el entrenamiento de ellas. Las redes neuronales se han considerado como una de las principales herramientas para el reconocimiento de patrones, y se han utilizado en varias aplicaciones, tales como el reconocimiento de voz, el reconocimiento de rostros, el reconocimiento de objetos y el reconocimiento de firmas, etc. Por lo que se describen las redes neuronales, incluyendo las diferentes estructuras existentes en dicho campo y los diferentes tipos de algoritmos de aprendizaje que se usan generalmente en las redes neuronales [1], [2 ].

Uno de los tres sistemas propuestos esta basado en la función Spline para la extracción de las características. Generalmente la función Spline se ha usado para la interpolación de los datos muestreados para su análisis matemático, se usa un algoritmo adaptivo “Método de búsqueda de gradiente descendente”. Por lo tanto se describen estas funciones.

1.2 Características biométricas

Las características biométricas se pueden clasificar básicamente en dos categorías: estática y dinámica. Las características estáticas son características inherentes, tales como huellas digitales, el patrón del iris, imagen de retina, DNA, rostros, etc. Mientras las características dinámicas son las características adquiridas y son generadas por el comportamiento de cada persona, las cuales son: las firmas, la manera de caminar, el movimiento de labios, el movimiento de

(15)

cuerpo, etc. [3]. Los problemas del reconocimiento de firmas en línea se dividen en dos ramas:

• La verificación: Se refiere al problema de conocer la autentificación o falsificación de una firma.

• Identificación: Se refiere al problema de establecer una identidad a un sujeto ya sea falsa o verdadera.

Estos problemas que hemos mencionado anteriormente los encontramos dentro del reconocimiento dividido en dos ramas al mismo nivel.

Firma

Académicamente se define: “Nombre y Apellido o título, de una persona, que ésta pone con rúbrica al pie de un documento escrito de mano propia o ajena, para darle autenticidad o para obligarse a lo que en él se dice” [4].

La comprobación de firmas estampadas en los documentos es de vital importancia para los bancos, que de otro modo inc urrirían en responsabilidad por el pago indebido de sumas de dinero, préstamos bajo firma sin poder, etc. Cuando el titular de una cuenta no sabe firmar, se le suele recoger la huella digital en presencia de algún testigo.

Escritura

La escritura es un gesto resultante de un acto de voluntad o de un reflejo condicionado en su extensión, dirección, forma y rapidez en los influjos nerviosos por las vías conductoras, fuerza muscular, elasticidad de las articulaciones y longitud de las palancas óseas. La escritura consiste en marcas gráficas sobre una superficie; su propósito es comunicar algo; este propósito es logrado por la virtud de la relación convencional de marcas del lenguaje.

La escritura es de forma análoga para llevar a cabo su reconocimiento se necesita convertirla en forma digital. La escritura se convierte en forma digital de dos formas diferentes; una forma es cuando usamos un proceso de exploración óptica de la escritura sobre papel, la cual se conoce como la escritura fuera de línea y otra forma es cuando usamos un proceso de digitalización realizando la escritura con una pluma electrónica sobre un digitalizador, la cual se conoce como la escritura en línea.

1.3 El reconocimiento de trazos fuera de línea

Los trazos fuera de línea llamados también como trazos estáticos, se realiza n sobre papel y no usan un equipo especial para la adquisición de datos y el reconocimiento de ellos, se efectúa desp ués de que se realizó el trazo ; esto puede

(16)

ser realizado en días, meses, o años más tarde. Un explorador óptico convierte la imagen de la escritura en un patrón de bits, los exploradores tienen resoluciones en x e y típicamente de 300-400 puntos por pulgada. El reconocimiento depende de las características que se pueden obtener de los trazos fuera de línea como son: el tamaño, el ángulo de inclinación, el contorno de la imagen, entre otros.

Actualmente existen muchas aplicaciones de los trazos fuera de línea, principalmente en la operación bancaria o financiera.

La conversión de los datos fuera de línea en forma digital es una desventaja ya que se requiere de un preprocesamiento costoso y no del todo perfecto tal como el adelgazamiento o detección de bordes de lo que se traza, para extraer características útiles para su reconocimiento [5]. Una desventaja más, es cuando usamos una pluma no adecuada para realizar los trazos y al hacer la conversión de datos en forma digital se pierde la continuidad del caracter y se tiene que repetir el proceso de la captura de datos.

1.4 El reconocimiento de trazos en línea

Los trazos en línea también conocidos como trazos dinámicos, son los trazos que se captura n y se reconocen mientras el usuario los realiza sobre un digitalizador.

El reconocimiento en línea se refiere a métodos y técnicas que tratan el proceso automático de los trazos como se hayan realizado usando una pluma electrónica sobre un transductor conocido como digitalizador, el cual captura el trazo del dibujo, como una secuencia de puntos de coordenadas con el movimiento de la pluma.

El reconocimiento en línea tiene un análisis de espacio-tiempo en la captura de datos. El reconocimiento depende de las características que se pueden obtener del trazo en línea como son: punto de inicio, punto final, la posición, la velocidad o aceleración, presión y el ángulo de inclinación de la pluma electrónica, entre otros.

Dependiendo de la técnica de reconocimiento y de la velocidad de la computadora, se tiene un mayor o menor porcentaje en el reconocimiento de trazos.

Las ventajas en este tipo de reconocimiento son los dispositivos en línea que capturan la información temporal o dinámica y se obtienen características de la información al instante para llevar a cabo el reconocimiento. Una ventaja más es la interactividad, que se efectúa cuando se corrige un trazo mal realizado . Los errores pueden ser corregidos inmediatamente.

La adaptación, es otra ventaja que se tiene cuando el usuario ve que algunos de sus trazos no ha sido reconocido exactamente, él puede alterar el trazo para mejorar el reconocimiento. Así, el usuario adapta el sistema para el reconocimiento. Algunos reconocedores son capaces de adaptarse al escritor,

(17)

usualmente almacenando muestras de los trazos del escritor para el posterior reconocimiento. En esta forma, hay adaptación de escritor a máquina y de máquina a escritor. Una desventaja de los sistemas en línea es la información temporal que complica el reconocimiento con variaciones que no son evidentes en los trazos estáticos.

La principal desventaja del reconocimiento de trazos en línea es que el escritor es requerido para usar el equipo. Desafortunadamente, el equipo en línea actual todavía no es tan cómodo y natural como utilizar papel y pluma. Los sistemas de reconocimiento en línea necesitan ser lo suficientemente rápidos para seguir el ritmo del trazo . La estimación del reconocimiento reportado es más alto para el caso de los trazos en línea en comparación con el caso de los trazos fuera de línea.

1.5 Dificultad del reconocimiento de trazos fuera de línea

El proceso de digitalización, introduce algunos factores que dificultan la extracción de características y su reconocimiento. Los principales factores son trazos falsos y trazos discontinuos por la calidad no adecuada de la pluma y papel.

La calidad de la pluma

Al realizar los trazos con una pluma de punto fino, y al hacerle la exploración óptica se pierden ciertos datos de continuidad y la imagen se degrada. Por lo tanto se requiere una pluma de punta especial para obtener datos lo más fiel posible.

La calidad del papel

Otro factor puede ser la captura de datos en un papel que contenga otros datos como logotipos y caracteres no necesarios, el papel puede estar sucio y se obtienen datos indeseados.

Un ejemplo muy común, es cuando se quiere reconocer la firma de un cheque, en donde solo se requiere extraer la imagen de la firma y todos los demás datos que conforman el cheque no son requeridos ya que el papel no es totalmente blanco e introduce datos conocidos como ruido.

1.6 Dificultad del reconocimiento de trazos en línea

Existen 4 factores principales que dificultan el reconocimiento de trazos, los cuales son:

• Variaciones geométricas.

• Ruido neuro -biomecánico.

• Variaciones de secuencia de trazos.

(18)

• Similitud de las letras con los números.

Variaciones Geométricas

Las variaciones geométricas existen cuando hay cambios en la posición, el tamaño, la orientación y la inclinación que realiza un escritor mientras realiza los trazos. Cuando un usuario realiza muchas veces el mismo trazo (caracter o firma), no lo hace de forma idéntica. Otra variación geométrica es cuando un usuario escribe con caracteres mayúsculos y minúsculos, los cuales difieren en la posición de la línea de fondo o referencia.

Un ejemplo son los caracteres P-p y Y-y, otro ejemplo se muestra en los tamaños de los caracteres como en el caso de C-c, K-k y O-o.

Ruido neuro-biomecánico

El ruido neuro -biomecánico es causado por pequeñas vibraciones de la mano a la hora de realizar los trazos. Este ruido ocasiona la aparición de varios trazos cortos dentro del trazo original (carácter o firma) y afecta considerablemente al funcionamiento del sistema de reconocimiento de caracteres. La intensidad de este tipo de ruido depende de la condición física y anímica del usuario, o sea la intensidad del ruido varía dependiendo de si el usuario esta cansado, apresurado, relajado o agitado.

Variaciones de secuencia de trazos

Es la variación del orden en que se realiza los trazos de un carácter o firma. Como se mencionó, la información temporal de sistemas en línea complica el reconocimiento con variaciones que no son evidentes en imágenes estáticas. Un ejemplo es el caracter E que puede realizarse de uno a cuatro movimientos y con diferente orden de movimiento, como se muestra en la figura 1.1.

ε ∈ E

Un Dos Tres o cuatro trazo trazos trazos

Fig. 1.1 Los diferentes trazos o movimientos que se realizan al escribir la letra E. [6]

La variación del orden de los trazos afecta el funcionamiento del sistema, cuando el sistema requiere reconocer los trazos independientemente del usuario.

Similitud de las formas de los trazos (caracteres)

Hay caracteres que tienen formas similares y son difíciles para realizar su reconocimiento. Los caracteres que tienen formas similares en su extensión de línea son u-v, c-l, a-d n-h, v-y; hay otros caracteres que son similares en su forma

(19)

circular como la C-0-O, como se muestra en la figura 1.2. Existen formas similares entre ciertos caracteres y números como son O-0, I-1, l-1, Z-2, S-5, G-6. Los cuales se pueden escribir idénticamente y pueden ser distinguidos por contexto.

C O 0

Fig. 1.2 Los diferentes caracteres similares en su forma circular. [6]

Para hacer frente a todos estos problemas, los métodos de reconocimiento que existen tienen que ser combinados para diseñar un sistema lo suficientemente eficiente para tratar de combatirlos.

1.7 Tipo de falsificación

En el campo de verificación de trazos, existen tres clases de falsificación [7], los cuales son:

• Falsificaciones aleatorias

• Falsificaciones simples

• Falsificaciones profesionales.

La falsificación aleatoria. Consiste en los trazos producidos sin ningún conocimiento de los trazos originales. Obviamente este tipo de falsificación es más fácil de verificar.

La falsificación simple. Son los trazos falsificados con el conocimiento solo del nombre del trazo auténtico.

La falsificación profesional. Es una falsificación que utiliza la información auténtica de la imagen del trazo. Por lo que, el falsificador puede ensayar varias veces e incluso calcar la firma auténtica.

1.8 Tipos de errores

El funcionamiento de un sistema de verificación se reporta en términos del error tipo I y el error tipo II.

El error tipo I se presenta cuando el sistema reconoce el trazo original como un trazo falsificado.

En cuestiones de verificación este tipo de error no es muy considerado debido a

(20)

que si el sistema detecta un error de este tipo se realiza nuevamente el trazo.

El error tipo II se presenta cuando el sistema reconoce el trazo falsificado como un trazo original.

Con la evaluación de este tipo de error podemos determinar con una mayor precisión la eficiencia de nuestro sistema ya que es muy importante para los propósitos generales de verificación que el porcentaje de error tipo II sea mínimo.

1.9 Tecnología de la tableta digitalizadora (Historia)

El concepto de pluma electrónica fue propuesto por Kay en 1968 [8]. Desde entonces, muchos investigadores han trabajado sobre la implementación de este concepto, tratando de integrar un sistema ergonómico en un dispositivo de detección y posición con una pantalla gráfica, bajo el control de un poderoso microcontrolador. El objetivo es extender la metáfora del papel y pluma por medio del proceso automático de la tinta electrónica.

Su advenimiento en los años 50’s precipitó considerablemente la actividad en el reconocimiento de trazos en línea. Esta actividad intensa duró en los años 60’s, disminuyó en los 70’s, y fue renovada en los 80’s.

Las tabletas digitalizadoras han existido por más de tres décadas. La más antigua fue ‘Stylator’ de Diamond [8]. Sin embargo, la tabla RAND, fue el digitalizador más popular y estimuló la actividad inicial en el reconocimiento de la escritura en línea.

En esta investigación, nos referimos al uso de digitalizadores en la captura de tiempo real de trazos dibujados, tales como la escritura, firmas; ya que las tabletas son una herramienta poderosa para la captura de dichos trazos. En la actualidad están disponibles dos tipos de tabletas digitalizadoras. Una de ellas es la tableta electromagnética-electrostática y la otra es la tableta de presión sensible.

Las tabletas electromagnéticas-electrostáticas tienen rejillas conductoras de x e y, espaciadas en la tableta desde 0.1 a 0.5, y un lazo de alambre en la extremidad de la pluma. La posición de la extremidad de la pluma se determina cuando una rejilla o lazo se excita con un pulso electromagnético, y la otra detecta el voltaje o la corriente inducido en una señal sinusoidal. Los conductores de la tableta son explorados para localizar el par más cercano al lazo, y la interpolación se lleva a cabo para determinar la posición exacta entre estos dos conductores.

Las tabletas de presión sensible, tienen capas de material conductor y resistente con un espaciamiento mecánico entre las capas. Un potencial eléctrico se aplica a través de una de las capas resistivas, en dirección x e y, para instalar un gradiente de voltaje que corresponde a la posición. La presión de la extremidad de la pluma en un punto resulta en la capa de conductividad mejorando el voltaje (y así la

(21)

posición) desde la capa resistiva. La tecnología de la presión sensible tiene la ventaja de no requerir el uso de una punta especial.

Otras tecnologías incluyen la onda acústica en la superficie, triangularización de rayos láser reflejados, y la detección óptica de una pluma ligera. Existen dispositivos especiales que cifran la presencia de la punta en áreas específicas o direcciones cuantizadas de la pluma. El desarrollo actual sería integrar el digitalizador y la pantalla en una sola unidad de hardware . Los sistemas actuales de la tableta, no son fáciles de usar y requieren otras mejoras para que lleguen a ser aceptados.

1.10 Descripción de la tableta digitalizadora WACOM [9]

La tableta digitalizadora o digitalizador usado en esta tesis es la tableta Wacom Intuos 2, versión 4.0 para Windows. La tableta gráfica Intuos2 de presión sensible se compone de dos elementos básicos: una tableta gráfica que sirve como área de trabajo y sus herramientas de la tableta las cuales son un lápiz ergonómico con puntilla sustituible, un portalápiz y un dispositivo óptico inalámbrico (mouse) de cuatro dimensiones.

Las especificaciones de la tableta usada cuenta con dimensiones de 9 x 12 pulgadas, resolución de 100 lpmm (líneas por milímetros), precisión de lápiz de +/- 0.0010 pulgadas, altura máxima de lectura con el lápiz es de 6 mm (milímetros), velocidad máxima de lectura de 200 puntos por segundo y una interfaz de comunicación USB. La tableta gráfica Intuos2 de presión sensible, es una tableta en la cual se puede dibujar y escribir. Esta tableta se adaptó para localizar las características dinámicas de lo que se escribe o se dibuja. Estas características dinámicas son las coordenadas bidimensionales x e y, presión y ángulo de inclinación con que se escribe.

A continuación, la figura 1.3 muestra la tableta Intuos2 de Wacom, la figura 1.4 muestra el lápiz ergonómico que se utiliza para realizar cualquier trazo en la tableta, indicando la sensibilidad del lápiz, el cual a una altura de 6 mm es detectado por la tableta y la figura 1.5 muestra el explorador óptico inalámbrico (mouse) el cual también forma parte de las herramientas de la tableta.

1.11 Reconocimiento de patrones

El reconocimiento de patrones se utiliza actualmente para la solución de tareas tales como el reconocimiento de caracteres, de firmas, de huellas dactilares, de rostros y el reconocimiento del habla, entre muchos otros. Por esta razón, desde hace varios años se ha venido desarrollando diferentes metodologías que intentan resolver este tipo de problemas.

De manera general, podemos decir que existen tres metodologías básicas para el reconocimiento de patrones: la determinística, estocástica y estadística [10].

(22)

La metodología determinística se lleva acabo por medio de la evaluación de una función matemática, tales como cálculo de distancia, agrupamiento por medio de algoritmo k-medias, etc. El método estocástico es la construcción de modelo partir de entrenamiento basado la búsqueda de gradiente para minimizar en muchos casos el error cuadrático medio. La metodología estadística es la construcción de modelo basado en la probabilidad, tales como reglas de clasificación Bayesiana.

Generalme nte cuando se intenta resolver algún problema que implique el reconocimiento de patrones se deben de tomar en cuenta las siguientes etapas:

• Adquisición de datos

• Preprocesamiento

• Extracción de características

• Reconocimiento

Fig. 1.3 Tableta grá fica de presión sensible [9].

Fig. 1.4 Lápiz ergonómico, la altura máxima para que sea detectado por la tableta [9].

(23)

Fig. 1.5 Explorador óptico inalámbrico (mouse) de cuatro dimensiones [9].

1.11.1 Adquisición de datos

Para poder realizar el reconocimiento es necesario, realizar o implementar alguna etapa de adquisición de los datos que describen el patrón que se desea clasificar.

Esto implica que, el método que se utilizará para realizar la adquisición de los datos, dependerá de la naturaleza del patrón (tableta digital o un explorador óptico (escáner)).

1.11.2 Preprocesamiento

Una vez que ya se cuentan con los datos que describen a cada uno de los patrones, es conveniente realizar una etapa de preprocesamiento sobre cada uno de ellos en lugar de ser dados como entrada al sistema tal y como fueron obtenidos durante la etapa de adquisición de datos.

Al realizar un preprocesamiento sobre los datos se tiene varias ventajas; la principal de ellas es que puede reducir la dimensionalidad de los datos, lo cual mejora substancialmente la ejecución del sistema, sobre todo cuando se utiliza una metodología como la de redes neuronales. Dentro de esta etapa se pueden preprocesar los datos o patrones de entrada de tal forma que todos tengan el mismo tamaño (escala) consiguiendo con esto que el sistema sea invariante al escalamiento. Además de esto, también se busca lograr que el sistema sea invariante en traslación.

El preprocesamiento implica mejorar lo s patrones de entrada para obtener un mayor reconocimiento. Existen diversos métodos de preprocesamiento como pueden ser: la segmentación, el filtrado, el Dehooking y la normalización, estos son algunos de los diversos métodos de preprocesamiento.

1.11.2.1. La segmentación

La segmentación se refiere a separar una cantidad determinada de datos en cantidades menores para su reconocimiento. Existen dos tipos de segmentación,

(24)

la segmentación externa e interna. La segmentación externa es la separación del trazo en varias unidades.

Muchos trazos pueden ser realizados con un solo trazo (la escritura cursiva ), por lo cual se necesita este tipo de preprocesamiento para reconocer sus unidades y llevar a cabo su reconocimiento con mayor facilidad. Algunos reconocedores cuentan con su propia segmentación, a este tipo de segmentación se le llama segmentación interna, que también separa el trazo en diversas unidades de acuerdo como se encuentre programado el reconocedor. La segmentación externa proporciona mayor inte ractividad, ahorro de costo computacional y simplifica el trabajo del reconocedor.

1.11.2.2. El filtrado

El filtrado elimina el ruido en una imagen. La forma del filtrado puede depend er del método de reconocimiento.

El ruido se origina desde las limitaciones de exactitud de la tableta, el proceso de digitalización, el movimiento errático de la mano (ruido neuro-biomécanico), y en la movilidad de la pluma electrónica.

La suavización aproxima los puntos de una imagen. La corrección de puntos puede reemplazar o eliminar un punto falso, usualmente causado por un problema de hardware. Se pueden detectar puntos falsos por: la aceleración del movimiento de la mano limitada por la fuerza de la contracción muscular, la masa de la mano y la pluma.

1.11.2.3. Algoritmos de Dehooking [11]

El algoritmo de Dehooking elimina los ganchos que pueden ocurrir al inicio o al final del trazo. Los ganchos se deben a las inexactitudes en la detección de la pluma, el rápido o errático movimiento de la punta, o elevaciones en la tableta.

La conexión de trazos puede eliminar extrañas elevaciones de la pluma. Un método conecta los trazos cuando la distancia es mínima entre la elevación de la pluma y el subsecuente trazo relativo al tamaño del mismo.

1.11.2.4. Normalización

Los trazos pueden variar en tamaño e inclinación desde una línea horizontal.

Antes de extraer características de estos trazos, hay que corregir las variaciones existentes. Este proceso de corrección se le llama normalización. Los algoritmos de Deskewing corrigen la inclinación del trazo usando una línea horizontal llamada

“Baseline” [12].

En la normalización en tamaño, se ajusta el tamaño del trazo a un tamaño estándar sobre el ancho y altura definido por cada reconocedor.

(25)

Generalmente la captura del trazo se realiza dentro de una ventana colocada en la tableta digitalizadora, por lo tanto la variación de la posición de los trazos no es grande, sin embargo depende de la característica que se va a extraer y usar en el proceso, a veces la trasladación del trazo afecta su funcionamiento, en este caso se requiere de una normalización en la posición de los trazos. En el manejo de los datos en secuencia de tiempo, la normalización en tiempo es muy importante.

Debido a que los números de muestreo totales de 2 tra zos son diferentes. Para la normalización en tiempo se realiza el siguiente proceso.

1.- Obtención del promedio del número de muestreo de los trazos de cada persona.

2.- Calculo del factor de interpolación o el factor de decimacion.

3.- Realizar interpolaciones o decimación al dato actual.

1.11.2.5. Eliminación de muestras redundantes (remuestreo)

En la mayoría de las ocasiones los datos muestreados son redundantes y las muestras redundantes podrían provocar mayor cantidad de cálculo en la extracción de características y en la etapa de reconocimiento. Por lo que es importante eliminar estas muestras . Sin embargo una eliminación inadecuada provocaría una deformación al trazo, afectando considerablemente el funcionamiento del reconocimiento del mismo. La fig. 1.6 muestra dos ejemplos de eliminación de muestras redundantes, (a) son datos originales redundantes, (b) resultado de remuestreo uniforme inadecuado el cual, al reconstruir el trazo, no es igual al original y (c) es el resultado de la eliminación de muestras redundantes en forma adecuada, la cual conserva su forma original.

Una eliminación adecuada de muestra redundante tiene que conservar la forma del trazo original después de eliminación de algunas muestras. Para realizar esto cada muestra se clasifica en dos clases: el punto relevante y el punto no relevante. Posteriormente los puntos no relevantes se consideran como muestras redundantes, y por lo tanto son eliminados.

Fig. 1.6 Eliminación de muestras redundantes.

1.11.3 Extracción de características

Uno de los principales problemas en el reconocimiento de patrones, es encontrar una manera óptima de representar la información original que describe a cada uno de los patrones. Este problema es conocido como extracción de características.

Este proceso trata de reducir la cantidad de información que representa a cada

(26)

uno de los patrones, obteniendo de esta forma, un vector de características que represente de la mejor manera posible al patrón original.

La extracción de características debe c umplir con las siguientes condiciones:

• La dimensionalidad del vector de características debe ser menor que la del patrón original.

• Las características deben representar una codificación óptima de la entrada, perdiendo la información que no sea muy importa nte.

Algunas características extraídas para el reconocimiento de trazos en el sistema en línea son las siguientes:

• Punto inicial, punto final y el orden de la escritura.

• Velocidad y Aceleración de la escritura.

• Presión.

• El ángulo de inclinación de la pluma.

1.11.3.1. Punto inicial, punto final y el orden de la escritura

Esta característica es muy útil para reconocer el trazo que se realizó, debido a que el orden de escritura de los trazos esta determinado de antemano y todas las personas realizan los trazos en el orden determinado. La información del orden de escritura incluyendo el punto inicial y el punto final se extraen de los trazos dinámicos y se convierten en forma de datos para poderlos usar en el reconocimiento o verificación.

1.11.3.2. Velo cidad y Aceleración de la escritura

Todas las personas tienen una determinada velocidad de escritura al realizar un trazo. A veces empieza n lento y termina n rápido o viceversa, pero cada persona tiene su ritmo de escritura.

Por lo tanto estas características son útiles para determinar o reconocer a la persona que realizó los trazos. Cuando el sistema de reconocimiento de caracteres depende del escritor, o sea el sistema trata de reconocer caracteres manuscritos de un escritor o varios determinados de antemano, estas características ayudan considerablemente al funcionamiento del sistema de reconocimiento, ya que cada persona escribe a diferente velocidad y aceleración en cada caracter.

1.11.3.3. Presión

La presión se efectúa con la pluma cuando el usuario traza algo. La tableta digitalizadora de presión sensible, detecta la pluma a 6 mm (milímetros) sobre la tableta sin que haya roce con ella; por lo tanto al acercarnos a esta distancia hay

(27)

presión y datos, pero estos datos no se toman en cuenta en una evaluación de reconocimiento porque son datos sin mucha información. Existen dos tipos de presión, la presión alta y la presión baja.

La presión alta es cuando recargamos con mayor fuerza la pluma sobre la tableta al realizar el trazo . La presión baja es cuando suavizamos la fuerza de la pluma sobre la tableta al realizar el trazo. Estas presiones altas y bajas son características propias de cada persona.

1.11.3.4. El ángulo de inclinación de la pluma

El usuario al realizar un trazo tiene un ángulo de inclinación con respecto al eje x y al eje y de donde se escribe, esta es una característica propia de cada persona.

Estas características extraídas usualmente se usan de forman conjunta para llevar a cabo el reconocimiento y tener un mayor porcentaje de reconocimiento.

1.11.4 Reconocimiento [13]

En la etapa de reconocimiento, pueden elegir un método más adecuado dependiendo de la aplicación. Como había mencionado en la sección 1.11 , existen tres grupos de metodologías para el reconocimiento y cada método tiene ventaja y desventaja respecto a otros. Generalmente métodos estadísticos, tales como teoría de decisión Bayesiana o método de máximo verosimilitud, requiere un conocimiento priori tales como pdfs de las distribuciones de patrones que pertenece a cada clase. Generalmente pdfs se estiman partir de patrones de entrenamiento, sin embargo para poder una estimación precisa se requieren número suficientemente grande de los patrones de entrenamiento y estos patrones estén representados a todos los patrones de cada clase. Si no cumple este requisito, el funcionamiento del sistema puede ser pobre.

El método determinístico no se requiere una etapa de entrenamiento que minimiza error del sistema para la construcción de modelo, sino el modelo se construye directamente partir de los datos observados, por ejemplo el promedio de todos datos observados.

El método estocástico representado por redes neuronales se ha usado ampliamente para la tarea de reconocimiento, debido a que no se requiere ningún conocimiento priori sobre clases o distribución de patrones de entrenamiento, aunque existen varios problemas, tales como el problema de mínimos locales, sobre-entrenamiento relacionado con la capacidad de generalización, estructura óptima, etc.

Dos sistemas desarrollados en esta tesis utilizan redes neuronales en la etapa de reconocimiento y último sistema se utiliza el método determinístico por lo tanto en la siguiente sección se describe sobre redes neuronales.

(28)

1.12. Redes Neuronales

Hace más de 20 años el campo de redes neuronales fue establecido como un campo de las ciencias de la computación que integra los diferentes métodos de resolución de problemas que no pueden ser descritos fácilmente mediante un enfoque algorítmico tradicional. Con las redes neuronales artificiales (RNA) se intenta expresar la solución de problemas complejos, no como una secuencia de pasos, sino como la evolución de unos sistemas de computación inspirados en el funcionamiento del cerebro humano, y dotados por tanto de cierta “inteligencia”, los cuales no son sino la combinación de una gran cantidad de elementos simples de procesos (neuronas) interconectados que, operando de forma masivamente paralela, consiguen resolver problemas relacionados con el reconocimiento de formas o patrones, predicción, codificación, clasificación, control y optimización.

Existen numerosas formas de definir lo que son las redes neuronales artificiales, algunas definiciones son las siguientes [2]:

Una nueva forma de computación, inspirada en modelos biológicos.

Redes neuronales artificiales son redes interconectadas masivamente en paralelo de elementos simples (usualmente adaptivos) y con organización jerárquica, las cuales intentan interactuar con los objetos del mundo real del mismo modo que lo hace el sistema nervioso biológico [1].

1.12.1. Ventajas de las Redes Neuronales Artificiales [1], [2]

Debido a su constitución y a sus fundamentos, las redes neuronales presentan un gran número de características semejantes a las del cerebro, y esto hace que ofrezcan numerosas ventajas, las cuales son:

• Aprendizaje adaptivo: Las redes neuronales artificiales tienen la capacidad de aprender ciertas tareas mediante un entrenamiento y pueden aprender a diferenciar patrones; tienen la capacidad de autoajustar (neuronas) los elementos que componen el sistema y son capaces de estar constantemente cambiando para adaptarse a las nuevas condiciones.

• Autoorganización: Consiste en la modificación de la red neuronal completa para llevar a cabo un objetivo específico. Esta autoorganización provoca la generalización, que es la facultad de las redes para responder apropiadamente cuando se les presentan datos o situaciones a las que no habían sido expuestas anteriormente.

• Tolerancia a fallos: Las redes pueden aprender a reconocer patrones con ruido, distorsionados o incompletos, ésta es una tolerancia a fallos respecto a los datos. La razón por la cual las redes neuronales son tolerantes a fallos es debido a que tienen su información distribuida en las conexiones entre neuronas.

(29)

• Operación en tiempo real: Para que la mayoría de las redes puedan operar en un entorno de tiempo real, la necesidad de cambio en los pesos de las conexiones o entrenamiento es mínima.

1.12.2. Tipo de redes neuronales

Existen diferentes tipos de redes, unas se deriva n de otras y otras de forma independiente, a continuación se mencionan algunas de ellas.

RED AÑO INVENTADA -

DESARROLLADA

APLICACIONES

Perceptron 1957 Frank Rossenblatt Reconocimiento de

caracteres impresos Adaline/Madaline 1960 Bernand Widrow Filtrado de señales Avalancha 1967 Stephen Grossberg Control de brazos de robot

Hopfield 1982 Jhon Hopfield Reconstrucción de patrones

Neocognitron 1978-1984 K. Fukushima Reconocimiento de

caracteres manuscritos Backpropagation 1974-1985 Paul Werbos, David

Parker y Rumelhart

Síntesis de voz y reconocimiento de patrones Memoria Asociativa

bidireccional

1985 Bart Kosko Memoria heteroasociativa

de acceso por contenido Teoría resonancia

adaptiva (ART)

1986 Gail Carpenter, Stephen

Grossberg Reconocimiento de patrones

Máquinas de Boltzmann y Cauchy

1985-1986 Jeffrey Hilton, Terry Sejnowsky, Harol Szu

Reconocimiento de patrones Tabla 1.1 Desarrollo del campo de redes neuronales [1], [2]

1.12.3. Estructura y naturaleza de la neurona biológica

Una neurona es una célula viva, consta de un cuerpo celular relativamente esférico, del que sale una rama principal, el axón, y varias ramas más cortas, llamadas dendritas. La característica que diferencia a las neuronas del resto de las células vivas, es su capacidad de comunicarse. Se representa en la figura 1.7.

Fig. 1.7 Forma general de una neurona biológica [2].

(30)

En términos generales, las dendritas y el cuerpo celular reciben señales de entrada; el cuerpo celular las combina e integra y emite señales de salida. El axón transporta esas señales a los terminales axónicos, que se encargan de distribuir información a un nuevo conjunto de neuronas.

Las señales que se utilizan en el cerebro son de dos tipos: eléctrica y química. La señal generada por la neurona y transportada a lo largo del axón es un impulso eléctrico, mientras que la señal que se transmite entre los terminales axónicos de una neurona y las dendritas de las neuronas siguientes es de origen químico;

concretamente, se realiza mediante moléculas de sustancias transmisoras (neurotransmisores) que fluyen a través de unos contactos especiales, llamados sinapsis, que tienen la función de receptor y están localizados entre los terminales axónicos y las dendritas de la siguiente neurona.

La neurona, como todas las células, es capaz de mantener en su interior un líquido cuya composición difiere marcadamente de la composición del líquido exterior. La diferencia más notable se da en relación con la concentración de los iones sodio y potasio. El medio externo es unas 10 veces más rico en sodio que el interno, mientras que el medio interno es unas 10 veces más rico en potasio que el externo. Esta diferencia de concentración en iones sodio y potasio a cada lado de la membrana produce una diferencia de potencial de aproximadamente 70 milivoltios, negativa en el interior de la célula. Es lo que se llama potencial de reposo de la célula nerviosa.

Para establecer una similitud directa entre la actividad sináptica y la analogía con las redes neuronales artificiales, se fijan los siguientes aspectos: las señales que llegan a la sinapsis son las entradas a la neurona; éstas son ponderadas (atenuadas o amplificadas) a través de un parámetro, denominado peso. Estas señales de entrada pueden excitar a la neurona (sinapsis con peso positivo) o inhibirla (peso negativo). El efecto es la suma de las entradas ponderadas. Si la suma es igual o mayor que el umbral de la neurona, entonces la neurona se activa produciendo una salida. Los elementos más importantes de una red neuronal artificial para asemejar el comportamiento del cerebro humano son:

• Unidades de procesamiento (la neurona artificial).

• Estado de activación de cada neurona.

• Conectividad entre neuronas y regla de propagación.

• Función de transferencia.

• Función o regla de activación.

• Regla de aprendizaje.

1.12.4. La neurona artificial

Las neuronas se ordenan arbitrariamente (U1,…,Ui,…Uj,…,UN), su trabajo es simple y único, y consiste en recibir las entradas de las células vecinas y calcular

(31)

un valor de salida, el cual es enviado a todas las células restantes, como se muestra en la figura 1.8

Fig. 1.8 Entradas y salidas de una neurona Uj. [2]

En cualquier sistema es útil caracterizar tres tipos de unidades: entradas, salidas y ocultas. Las unidades de entrada reciben señales desde el entorno; estas entradas (que son a la vez entradas a la red); pueden ser señales provenientes de sensores o de otros sectores del sistema. Las unidades de salida envían la señal fuera del sistema (salidas de la red). Las unidades ocultas son aquellas cuyas entradas y salidas se encuentran dentro del sistema; es decir, no tiene contacto con el exterior.

Se conoce como capa o nivel a un conjunto de neuronas cuyas entradas provienen de la misma fuente (que puede ser de otra capa de neuronas) y cuyas salidas se dirigen al mismo destino (que puede ser otra capa de neuronas).

1.12.5. Estado de activación de cada neurona

Adicionalmente al conjunto de unidades, la representación necesita los estados del sistema en un tiempo t. Esto se especifica por un vector de N números reales A(t), que representa el estado de activación del conjunto de unidades de procesamiento. La activación de una unidad Ui en el tiempo t se designa por ai(t);

es decir:

A(t)=(a₁(t),a₂(t),...,a_i(t),...,a_N(t)) (1.1)

Todas las neuronas que componen la red se hallan en cierto estado. En una visión simplificada, podemos decir que hay dos posibles estados, reposo y excitado, a los que denominaremos estados de activación, y a cada uno de los cuales se le asigna un valor. Los valores de activación pueden ser continuos o discretos, los valores discretos son valores binarios, en este caso un estado activo se indicaría por un 1, y se caracteriza por la emisión de un impulso por parte de la neurona (potencial de acción), mientras que un estado pasivo se indicaría por un 0, y significaría que la neurona está en reposo. En otros modelos se considera un conjunto continuo de estados de activación, en lugar de solo dos estados, en cuyo caso se les asigna un valor entre [0,1] o en el intervalo [-1,1].

(32)

1.12.6. Conectividad entre neuronas y regla de propagación

La conectividad entre los nodos de una red neuronal está relacionada con la forma en que las salidas de las neuronas están canalizadas para convertirse en entradas de otras neuronas.

Las conexiones que unen a las neuronas tienen asociado un peso, que hace que la red adquiera conocimiento. Consideremos yi como el valor de salida de una neurona i en un instante dado. Una neurona recibe un conjunto de señales que le dan información del estado de activación de todas las neuronas con las que se encuentra conectada. Cada conexión (sinapsis) entre la neurona i y la neurona j esta ponderada por un peso wji. Simplificando, se considera que el efecto de cada señal es aditivo, de tal forma que la entrada neta que recibe una neurona, netj es la suma del producto de cada señal individual por el valor de la sinapsis que conecta ambas neuronas:

⁼

∑

^N ^⋅

i

i ji

j w y

net (1.2) Esta regla muestra el procedimiento a seguir para combinar los valores de entrada a una unidad con los pesos de las conexiones que llegan a esa unidad y es conocida como regla de propagación.

Suele utilizarse una matriz W con todos los pesos wji que reflejan la influencia que sobre la neurona j tienen la neurona i. W es un conjunto de elementos positivos, negativos o nulos. Si w_ji es positivo, indica que la interacción entre las neuronas i y j es excitadora; es decir, siempre que la neurona i este activada, la neurona j recibirá una señal de i que tenderá a activarla. Si wji es negativo, la sinapsis será inhibidora. En este caso, si i está activada, enviará una señal a j que tenderá a desactivar a ésta. Finalmente, si wji=0, se supone que no hay conexión entre ambas.

1.12.7. Función de salida o de transferencia

Entre las unidades o neuronas que forman una red neuronal artificial existe un conjunto de conexiones que unen unas a otras. Cada unidad transmite señales a aquellas que están conectadas con su salida. Asociada con cada unidad Ui hay una función de salida fi(ai(t)), que transforma el estado actual de activación ai(t) en una señal de salida yi(t); es decir:

y_i(t)= f_i(a_i(t)) (1.3) El vector que contiene las salidas de todas las neuronas en un instante t es:

Y(t)=(f₁(a₁(t)),f₂(a₂(t)),...,f_i(a_i(t)),..., f_N(a_N(t))) (1.4)

(33)

Existen cuatro funciones de transferencia típicas que se usan en las redes neuronales artificiales: función escalón, lineal y mixta, sigmoidal y gaussiana.

1.12.7.1. Función Escalón

La función escalón o umbral únicamente se utiliza cuando las salidas de la red son binarias (dos posibles valores), como se representa en la figura 1.9. La función de transferencia escalón se asocia a neuronas binarias en las cuales cuando la suma de las entradas es mayor o igual que el umbral de la neurona, la activación es 1; y si es menor, la activación es 0 (o -1). La función escalón no podría definir la derivada en el punto de transición, y esto no ayuda a los métodos de aprendizaje, en los cuales se usan las derivadas.

Fig. 1.9 Función escalón.

1.12.7.2. Función Lineal y Mixta

La función lineal o identidad responde a la expresión f(x)=αx donde el valor de x esta dentro de los valores reales y α es un escalar positivo. En la función mixta, si la suma de las señales de entrada es menor que un límite inferior, la activación se define como 0 (o -1), como se muestra en la figura 1.10. Si dicha suma es mayor o igual que el límite superior, entonces la activación es 1. Si la suma de entrada está comprendida entre ambos límites, superior e inferior, entonces la activación se define como una función lineal de la suma de las señales de entrada.

Fig. 1.10 Función mixta.

1.12.7.3. Función Continua ó Sigmoidal

Con la función sigmoidal, para la mayoría de las entradas, el valor dado por la función es cercano a uno de los valores asintóticos, por lo tanto el valor de salida

(34)

está comprendido en la zona alta o baja del sigmoide. La importancia de la función sigmoidal, es que su derivada es siempre positiva y cercana a cero para los valores positivos o negativos y su derivada está definida en todo el intervalo.

Fig. 1.11 Función sigmoidal.

La función sigmoidal es la más usada en las redes neuronales. Es una función estrictamente incremental que muestra suavidad. La función sigmoidal más común es la función lógica que se define por:

( )

_x

x e

f ₋_α

= + 1

1 (1.5)

donde α usualmente es 1, el cual da un valor de salida entre 0 y 1. Una alternativa de la función sigmoidal es la tangente hiperbólica:

^f

( )

^x =^tanh

( )

^x (1.6) donde los rangos están entre 1 y -1.

1.12.7.4. Función Gaussiana

Los centros y anchuras de esta funciones pueden ser ajustados, lo cual las hace más adaptivos que las funciones sigmoidales. Son mapeos que requieren dos niveles ocultos (neuronas en la red que se encuentran entre las de entrada y las de salida) utilizando neuronas con funciones de transferencia sigmoidales.

Esta función se define como:

( )

⁼ _^⁻ _^

v x x

f

2

exp (1.7)

requiere un valor de varianza v>0 para caracterizar dicha función.

1.12.8. Función ó regla de activación

Así como es necesaria una regla que combine las entradas a una neurona con los pesos de las conexiones, también se requiere una regla que combine las entradas con el estado actual de la neurona para producir un nuevo estado de activación.

Esta función F produce un nuevo estado de activación en una neurona a partir del