• No se han encontrado resultados

Reconocimiento de caracteres manuscritos on-line (en línea) usando la función spline

N/A
N/A
Protected

Academic year: 2023

Share "Reconocimiento de caracteres manuscritos on-line (en línea) usando la función spline"

Copied!
169
0
0

Texto completo

(1)

INSTITUTO POLITÉCNICO NACIONAL

E

SCUELA

S

UPERIOR DE

I

NGENIERIA

M

ECÁNICA Y

E

LÉCTRICA

U

NIDAD

C

ULHUACAN

S

ECCION DE

E

STUDIOS DE

P

OSGRADO E

I

NVESTIGACIÓN

RECONOCIMIENTO DE CARACTERES MANUSCRITOS ON-LINE (EN LÍNEA) USANDO LA FUNCION SPLINE

T E S I S

QUE PARA OBTENER EL GRADO DE:

M

AESTRO EN CIENCIAS DE INGENIERÍA EN MICROLECTRÓNICA

PRESENTA:

R OCÍO T OSCANO M EDINA

ING. EN COMUNICACIONES Y ELECTRÓNICA

ASESORES:

DRA. MARIKO NAKANO MIYATAKE DR. HÉCTOR MANUEL PÉREZ MEANA

MÉXICO D. F. OCTUBRE 2004

(2)
(3)

En primera instancia deseo agradecerle a DIOS por la fortuna de haberme dejado nacer en una familia tan maravillosa y estar conmigo cada paso que doy.

Agradezco de todo corazón a mis padres Cristóbal y Rosa, por su amor, comprensión y apoyo para lograr todas las metas que me he propuesto y decirles que todos mis logros son suyos.

A mis hermanos Jorge, Guadalupe, Karina y Cristina, porque cada uno de ellos con su ejemplo de salir adelante y ser mejores cada día me motivaron a realizar esta etapa de mi vida. En especial a ti Karina te agradezco hermana lo mucho que me apoyaste a terminar este sueño porque cuando estuve a punto de dejarlo tú estuviste siempre conmigo.

A ti Gabriel te agradezco mucho tu apoyo, enseñanzas y por haberme impulsado, porque también has estado conmigo cuando más necesitaba un amigo o un cuñado tan especial como tú.

A ti Ariana porque juntas recorrimos este sueño, por estar siempre y ser una gran amiga.

A ti Luis Carlos por aparecer en la faceta final de este sueño y motivarme a terminarlo con tu amor.

Agradezco a Roberto y Natalia, a mis sobrinos por su apoyo. A mis amigos de siempre Eli, Virginia, Michael, Marcos, Yaneth, Yuridia, Armando e Israel.

Agradezco a mis asesores la Dra. Mariko Nakano Miyatake y al Dr.

Héctor M. Pérez Meana por sus enseñanzas, por su paciencia y la confianza de invertir su tiempo en mí para lograr este sueño.

Doy las gracias a todos los profesores de la SEPI por transmitirme su conocimiento, a mis sinodales por el tiempo invertido en la revisión de la tesis, así como también al personal que labora en la sección por todo el apoyo que se me brindo en todo este tiempo.

Agradezco al CONACyT por las facilidades brindadas de esta tesis.

Y para finalizar agradezco a todas aquellas personas que no mencione pero que de una u otra forma ayudaron a la realización de esta tesis.

(4)

Durante los últimos años han sido desarrollados muchos sistemas los cuales son capaces de simular el comportamiento del cerebro. Para realizar este propósito, dos de los más importantes paradigmas usados son las redes neuronales y la inteligencia artificial, ambas son herramientas primordiales para el desarrollo de sistemas capaces de desarrollar tareas encargadas al cerebro, tales como: el reconocimiento de caracteres manuscritos, voz, rostros, firmas y otras aplicaciones biométricas que han tenido relevancia durante los últimos años. En esta investigación se propone mejorar el proceso de reconocimiento de caracteres manuscritos en orden inverso usando la función Spline.

El caracter se captura por medio de una tableta digitalizadora, y los datos que se obtienen se utilizan para interpolar y aproximar su forma usando la función Spline.

El reconocimiento convencional de caracteres manuscritos esta basado en la extracción de características a partir de la forma del caracter tales como: la inclinación de líneas, posición relativa de cada línea, el ancho de las diferentes partes de la línea, etc. Este método de reconocimiento se puede usar para reconocer caracteres de imprenta o caracteres manuscritos en letra de molde (no cursivo). Una razón por la cual los seres humanos pueden leer y entender los caracteres cursivos (muy aerodinámicos o deformados) es porque tenemos la habilidad de retrazar la letra en el orden que fue escrita. El sistema propuesto evaluado muestra un reconocimiento del 93.5%.

ABSTRACT

During the last several years there have been developed many systems which are able to simulate the human brain behavior. To achieve this goal, two of the most important paradigms used, are the Neural Networks and the Artificial Intelligence. Both of them are primary tools for development of systems to capable of performing tasks such as:

handwritten characters, voice, faces, signatures recognition and so many other biometric applications that have attracted considerable attention during the last few years. In this paper a new algorithm for cursive handwritten characters recognition based on the Spline function is proposed, in which the inverse order of the handwritten character construction task will be used to recognize the character.

From the sampled data obtained by using a digitizer board, the sequence of the most significant points (optimal knots) of the handwriting character will be obtain, and then the natural Spline function and the steepest descent method will be used to interpolate and approximate character shape. The proposed system is evaluated by computer simulation and simulation results show the global recognition rate with 93.5%.

(5)

CAPÍTULO 1. La escritura

1.1 Introducción 8

1.2 Objetivo de la investigación 9

1.3 Justificación de la investigación 10

1.4 Organización de la investigación 10

CAPÍTULO 2. Antecedentes del reconocimiento de caracteres manuscritos en línea

2.1 La escritura y el reconocimiento 12

2.1.1 La escritura y el reconocimiento fuera de línea 13

2.1.2 La escritura y el reconocimiento en línea 13

2.1.3 Ventajas y desventajas de reconocimiento fuera de línea 14

2.1.4 Ventajas y desventajas de reconocimiento en línea 14

2.1.5 Aplicaciones 15

2.2 Tecnología de la tableta digitalizadora

2.2.1 Historia 16

2.2.2 Descripción de la tableta digitalizadora WACOM 17

2.3 Dificultad de reconocimiento de la escritura fuera de línea 20

2.4 Dificultad de reconocimiento de la escritura en línea 20

2.4.1 Variaciones geométricas 20

2.4.2 Ruido neuro-biomecánico 20

2.4.3 Variaciones de secuencia de trazos 21

2.4.4 Similitud de las letras con los números 21

2.5 Reconocimiento de patrones 22

2.6 Adquisicion de datos 22

2.7 Preprocesamiento 22

2.7.1 La segmentación 23

2.7.2 El filtrado 24

2.7.3 Algoritmos de Dehooking 25

2.7.4 Normalización 25

2.8 Extracción de características 26

2.8.1 Punto inicial, punto final y el orden de la escritura 27

2.8.2 Velocidad y aceleración de la escritura 27

2.8.3 Presión 28

2.8.4 El ángulo de inclinación de la pluma 28

2.9 Sistemas de reconocimiento 28

2.10 Trabajos reportados en la literatura 28

2.11 Conclusiones 32

CAPÍTULO 3. Redes Neuronales Artificiales y Funciones Spline

3.1 Redes Neuronales Artificiales 33

(en línea) usando la función spline

(6)

3.1.3 Tipo de redes neuronales 35

3.1.4 Estructura y naturaleza de la neurona biológica 35

3.1.5 La neurona artificial 37

3.1.6 Estado de activación de cada neurona 38

3.1.7 Conectividad entre neuronas y regla de propagación 38

3.1.8 Función de salida o de transferencia 39

3.1.8.1 Función escalón 39

3.1.8.2 Función lineal y mixta 40

3.1.8.3 Función continua o sigmoidal 40

3.1.8.4 Función gaussiana 41

3.1.9 Función o regla de activación 41

3.1.10 Regla de aprendizaje 43

3.1.11 Redes con aprendizaje supervisado 44

3.1.12 Redes con aprendizaje no supervisado 44

3.1.13 Redes con aprendizaje híbrido 44

3.1.14 Clasificación de las redes neuronales 44

3.1.15 La red de retropropagación 45

3.1.16 La regla delta 46

3.1.17 La regla delta generalizada 49

3.1.18 Estructura y aprendizaje de la red 55

3.1.19 Aplicaciones de la red de retropropagación 59

3.2 Funciones Spline 59

3.2.1 Spline Cúbico 60

3.2.2 Función Spline Natural 70

3.2.3 Método de slalom 72

3.3 Método de búsqueda de gradiente descendente 79

3.4 Conclusiones 81

CAPÍTULO 4. Sistemas propuestos

4.1 Sistema propuesto I 82

4.2 Adquisición de datos 84

4.2.1 Base de datos 85

4.2.2 Etapa de clasificación 85

4.3 Preprocesamiento 87

4.3.1 La derivación de los datos 87

4.3.2 Cruces por cero 88

4.3.3 Contabilización de puntos encontrados 89

4.3.4 Normalización y filtrado 89

4.4 Extracción de características 90

4.5 Reconocimiento de caracteres manuscritos 90

4.5.1 Estructura de la red neuronal 92

(7)

4.8 Preprocesamiento 95

4.8.1 Filtrado 95

4.8.2 Normalización en tamaño 95

4.8.3 Normalización en posición 96

4.8.4 Normalización en tiempo 96

4.9 Obtención de Nodos Óptimos 97

4.9.1 Derivación de los datos 97

4.9.2 Filtrado 97

4.9.3 División de la señal 98

4.9.4 Nodos iniciales 98

4.9.5 Método de Slalom 98

4.9.6 Método de búsqueda de gradiente descendente 99

4.10 Nodos óptimos 99

4.11 Vectores característicos 99

4.12 Reconocimiento de caracteres manuscritos con la red neuronal 100

4.13 Conclusiones 101

CAPÍTULO 5. Evaluación de los sistemas propuestos

5.1 Resultados obtenidos de la etapa de clasificación 102

5.2 Resultados obtenidos del sistema propuesto I 104

5.3 Resultados obtenidos del sistema propuesto II 110

5.4 Conclusiones 120

CAPÍTULO 6. Conclusiones generales y Trabajo futuro

6.1 Conclusiones Generales 121

6.2 Trabajo futuro 122

Referencias Bibliográficas 124

Anexos

A Lista de figuras 128

B Glosario de términos 131

C Lista de programas 132

D Base de datos 140

E Publicaciones 148

(8)

Capítulo 1

La escritura

1.1 Introducción

La escritura se desarrolló desde hace mucho tiempo como medio de expansión de la memoria humana para facilitar la comunicación. La escritura se ha mantenido como medio de comunicación e información en la vida cotidiana a pesar de las nuevas tecnologías, la razón por la cual la escritura persiste en la edad de la computadora, es la conveniencia del uso de papel y pluma comparado con el uso del teclado en diferentes situaciones día a día [1].

La escritura ha cambiado ampliamente a través del tiempo y cada estímulo de la tecnología ha contribuido a su expansión. La máquina de escribir y la prensa impresa abrieron el mundo a documentos con formato aumentando el número de lectores que, a la vez, aprendieron a escribir y a comunicarse [1]. A principios del nuevo milenio, la tecnología tiene a la escritura una vez más encrucijada. Hoy en día, existen numerosas formas para expandir la memoria humana así como también para facilitar la comunicación y en esta perspectiva, uno podría preguntarse: ¿ la escritura es amenazada con extinguirse, o entra en un período de crecimiento importante?. Las tecnologías de comunicación y computación tales como los procesadores de texto, las máquinas de fax, e e-mails están teniendo un impacto sobre la literatura y la escritura. Nuevas tecnologías tales como los asistentes digitales personales (PAD’s) tienen un gran impacto en nuestra sociedad actualmente.

El estudio de la escritura involucra conceptos de investigación de varias disciplinas: la psicología experimental, neuro-ciencia, física, ingeniería, ciencias de computación, antropología, educación, examinación de documentos forenses, etc. Desde el punto de vista de esta generación, la escritura involucra varias funciones, empezando de la intención de comunicación, la preparación del mensaje dentro de los niveles semánticos, sintácticos, léxicos y convertidos de algún modo en un conjunto de hologramas (forma de modelos de letras) y gráficos (trazos específicos) [1].

Como ya mencionamos, en muchos casos el uso de papel y pluma es más conveniente que un teclado, por ejemplo; los estudiantes en el aula aún no utilizan la computadora como herramienta típica del salón de clase, ellos escriben palabras, ecuaciones, y diagramas con papel y pluma.

(9)

Este paradigma típico ha conducido al concepto de pluma computarizada, donde el teclado es un componente caro y no ergonómico, y es reemplazado con el desarrollo de la tecnología por una pluma electrónica que genera tinta electrónica al realizar el trazo de la escritura sobre una tableta digitalizadora [1], [2].

El reconocimiento de la escritura es la tarea de transformar un lenguaje representado en sus formas espaciales de marcas gráficas en su representación simbólica. Existen diversos tipos de escritura a reconocer, la escritura cursiva es la de mayor complejidad para su reconocimiento debido a la cercanía que hay entre una letra y otra.

Existen dos tipos de sistemas de reconocimiento de la escritura llamados sistemas dinámicos (sistemas en línea) y sistemas estáticos (sistemas fuera de línea).

Los sistemas de reconocimiento de la escritura en línea requieren la presencia física de quien escribe, éste escribe sobre una tableta digitalizadora, la cual nos muestra las características dinámicas de lo escrito en tiempo real, como pueden ser las coordenadas bidimensionales, la velocidad, los ángulos de inclinación, la secuencia escrita así como también la presión que se ejerce. En los sistemas de reconocimiento de la escritura fuera de línea se extraen sus características estáticas desde una imagen capturada. La computadora en un futuro tendrá que procesar la escritura electrónica en un ambiente sin limitaciones, tratar con muchos estilos de escritura e idiomas, trabajar con alfabetos definidos, y comprender cualquier mensaje escrito a mano por cualquier escritor [2].

A través del tiempo se han desarrollado sistemas como las redes neuronales artificiales que intentan expresar la solución de problemas complejos, no como una secuencia de pasos, sino como la evolución de unos sistemas de computación inspirados en el funcionamiento del cerebro humano para resolver problemas relacionados con el reconocimiento de formas o patrones, predicción, codificación, clasificación, control y optimización [3].

Existen diversos métodos de reconocimiento como son las redes neuronales artificiales, Modelos Ocultos de Markov, los métodos estadísticos, entre otros.

1.2 Objetivo de la investigación

Recientemente se han desarrollado sistemas que a partir de la realización de la escritura, se obtienen sus características dinámicas y a partir de ellas se reconstruye la misma escritura, cuando hablamos de escritura nos referimos a los caracteres alfabéticos, números, símbolos específicos, etc.

Basado en lo anterior, el objetivo de esta investigación es el reconocimiento de caracteres manuscritos de acuerdo a la realización de su trazo, esto se determina por medio del sistema en línea que nos dan las características dinámicas en tiempo real, teniendo los vectores característicos para cada caracter, se efectúa la etapa del reconocimiento. El sistema que se presenta plantea una solución al problema de reconocimiento de los caracteres manuscritos en forma dinámica.

(10)

El reconocimiento de caracteres manuscritos en línea se realiza por medio de las redes neuronales artificiales así como también, de otros métodos como la interpolación de puntos con las funciones Splines y el método de búsqueda del gradiente descendente (Steepest Descent).

1.3 Justificación de la investigación

La escritura es considerada para intercambiar hechos de cultura y civilización, hace algunos años la comunicación se establecía por medio de la escritura cursiva [1].

La escritura es una habilidad que es personal en los individuos, por lo que puede asociarse a varios tipos de análisis, reconocimiento e interpretación. Cada manuscrito es conocido como letra o caracter que se necesita reconocer para saber si es en verdad el caracter escrito. Este problema ha sido un desafío de la investigación desde los años sesentas, cuando fueron realizadas las primeras tentativas de reconocimiento de caracteres manuscritos, desde entonces numerosos métodos han sido propuestos y probados. A través de los años, estos proyectos de investigación han pasado de ser simples ejercicios académicos convirtiéndose en aplicaciones de tecnología potenciales.

El sistema de reconocimiento de caracteres manuscritos, a pesar de sus años de investigación, aún no se tiene un método eficientemente confiable para su reconocimiento [3].

La llegada de las tabletas electrónicas precipitó considerablemente la actividad del reconocimiento de caracteres manuscritos en línea, entre otras actividades. Actualmente se usan las tabletas digitalizadoras para llevar a cabo el reconocimiento de caracteres en línea, el cual es un equipo aceptable en cuestiones de economía y de aplicaciones o soluciones que se muestran en este campo y debido a las características dinámicas que se manejan en estas tabletas se obtiene un mayor porcentaje de reconocimiento, comparado con los resultados que manejan los sistemas fuera de línea [2].

Actualmente no hay resultados del reconocimiento de caracteres manuscritos en español, ya que no se le ha dado la debida importancia.

En escuelas de enseñanza básica se les está inculcando a los niños que escriban de forma cursiva aparte de la convencional como en épocas pasadas, esto posiblemente dará el auge nuevamente a la escritura cursiva.

1.4 Organización de la tesis

Esta tesis se realiza en seis capítulos y anexos que nos muestran la importancia de la escritura manuscrita y su reconocimiento, así como también el sistema propuesto y los resultados obtenidos.

(11)

Capítulo 1. En este capítulo se muestra la importancia de la escritura y la introducción a los sistemas de reconocimiento, el objetivo principal de la investigación y su justificación;

y finalmente se muestra el desarrollo de esta tesis.

Capítulo 2. Dará una mención más amplia de la escritura como un patrón de reconocimiento y de los sistemas de reconocimiento en línea y fuera de línea. Muestra el estado del arte del reconocimiento de caracteres manuscritos en línea, es decir, investigaciones anteriores y trabajos realizados hasta el momento en este campo de investigación.

Capítulo 3. Se dan a conocer los métodos que se usan para el reconocimiento de caracteres manuscritos, tales como las Redes Neuronales Artificiales, las funciones Splines y el método de búsqueda del gradiente descendente.

Capítulo 4. Se da a conocer los sistemas propuestos en esta investigación para obtener un buen porcentaje de reconocimiento de los caracteres manuscritos.

Capítulo 5. Se conocerán los porcentajes de reconocimiento como resultados de los sistemas propuestos.

Capítulo 6. Conclusiones generales y futuras investigaciones.

Referencias Bibliográficas

Anexo A: Lista de figuras mostradas en la tesis.

Anexo B: Glosario de términos.

Anexo C: Programas realizados en MATLAB.

Anexo D: La base de datos de los caracteres manuscritos.

Anexo E: Publicaciones.

(12)

Capítulo 2

Antecedentes del reconocimiento de caracteres manuscritos en línea

Introducción

Este capítulo describe los conceptos básicos del campo de reconocimiento de caracteres manuscritos, como dos métodos principales, el reconocimiento fuera de línea y el reconocimiento en línea; sus respectivas ventajas y desventajas, y principales aplicaciones.

También se mencionan las dificultades existentes para obtener un buen funcionamiento en el reconocimiento en línea, los principales preprocesamientos que se pueden realizar para facilitar el reconocimiento y las características dinámicas que se pueden extraer de la escritura en línea. Finalmente se mencionará los trabajos reportados en la literatura sobre el campo del reconocimiento de caracteres manuscritos en línea.

2.1 La escritura y el reconocimiento

La escritura es un gesto resultante de un acto de voluntad o de un reflejo condicionado en su extensión, dirección, forma y rapidez en los influjos nerviosos por las vías conductoras, fuerza muscular, elasticidad de las articulaciones y longitud de las palancas óseas. La escritura consiste en marcas gráficas sobre una superficie; su propósito es comunicar algo;

este propósito es logrado por la virtud de la relación convencional de marcas del lenguaje [2].

La escritura es de forma analógica y para llevar a cabo su reconocimiento se necesita convertirla en forma digital, la escritura se convierte en forma digital de dos formas diferentes; una forma es cuando usamos un proceso de exploración óptica de la escritura sobre papel, la cual se conoce como la escritura fuera de línea y otra forma es cuando usamos un proceso de digitalización realizando la escritura con una pluma electrónica sobre un digitalizador, la cual se conoce como la escritura en línea.

(13)

2.1.1 La escritura y el reconocimiento fuera de línea

La escritura fuera de línea también conocida como la escritura estática, se realiza sobre papel y el reconocimiento de la escritura se efectúa después de que se realizó lo escrito;

esto puede ser realizado en días, meses, o años más tarde. Un explorador óptico convierte la imagen de la escritura en un patrón de bits, los exploradores tienen resoluciones en x e y típicamente de 300-400 puntos por pulgada. La escritura fuera de línea está disponible como una imagen e involucra el análisis de espacio-luminancia de una imagen [1]. El reconocimiento depende de las características que se pueden obtener de la escritura fuera de línea como son: el tamaño, el ángulo de inclinación, el contorno de la imagen, entre otros.

El reconocimiento de la escritura fuera de línea es un subconjunto del reconocimiento de caracteres ópticos (OCR), aunque la mayoría de las aplicaciones del OCR ha sido en caracteres impresos a máquina, también ha habido un esfuerzo considerable en la escritura de caracteres manuscritos [2], [5]. Los sistemas OCR típicamente procesan centenares de caracteres por segundo.

2.1.2 La escritura y el reconocimiento en línea

La escritura en línea también conocida como la escritura dinámica, es la escritura que se captura y se reconoce mientras el usuario escribe sobre un digitalizador. El reconocimiento en línea se refiere a métodos y técnicas que tratan el proceso automático de un mensaje como éste es escrito usando una pluma electrónica sobre un transductor conocido como digitalizador, el cual captura el trazo del dibujo de la escritura, como una secuencia de puntos de coordenadas con el movimiento de la pluma [1].

El reconocimiento en línea tiene un análisis de espacio-tiempo en la captura de datos [1], [6]. El reconocimiento depende de las características que se pueden obtener de la escritura en línea como son: la posición, la velocidad o aceleración, y el ángulo de inclinación de la pluma electrónica, entre otros.

Dependiendo del procesamiento de las características y de la técnica de reconocimiento, se tiene un mayor o menor porcentaje en el reconocimiento de la escritura.

La mayoría de los reconocedores de caracteres comerciales generalmente fallan por lo menos en uno o dos caracteres. Los sistemas de reconocimiento en línea necesitan ser suficientemente rápidos para seguir el ritmo de la escritura.

El promedio de reconocimiento de la escritura para los alfanuméricos ingleses es de 1.5-2.5 caracteres por segundo y de 0.2-2.5 caracteres por segundo para caracteres chinos. El promedio máximo de reconocimiento para el alfabeto inglés puede aproximarse de 5-10 caracteres por segundo [2]. Para la mayoría de los algoritmos de reconocimiento, esta necesidad de funcionamiento se puede resolver con los microprocesadores actuales.

(14)

Una vez que se capturan los datos en línea y fuera de línea, pueden ser procesados por el reconocedor. En algunas aplicaciones los datos en línea son reconocidos inmediatamente y en otras de ellas el reconocimiento en línea se efectúa tiempo después.

La estimación del reconocimiento reportado es más alto para el caso de la escritura en línea en comparación con el caso de la escritura fuera de línea [2], [7].

2.1.3 Ventajas y desventajas de reconocimiento fuera de línea

Al hablar de ventajas nos referimos a que la escritura fuera de línea no usa un equipo especial para la adquisición de datos en el momento de realizar el trazo, aunque posteriormente se usa un equipo como el escáner para la digitalización de los datos de la escritura. Actualmente existen muchas aplicaciones de la escritura fuera de línea, principalmente en la operación bancaria o financiera.

La conversión de los datos fuera de línea en forma digital es una desventaja ya que se requiere de un preprocesamiento costoso y no del todo perfecto tal como el adelgazamiento o detección de bordes de lo que se escribe, para extraer características útiles para su reconocimiento [1], [2].

Una desventaja más, es cuando usamos una pluma no adecuada para escribir y al hacer la conversión de datos en forma digital se pierde la continuidad del caracter y se tiene que repetir el proceso de la captura de datos.

2.1.4 Ventajas y desventajas de reconocimiento en línea

Las ventajas en este tipo de reconocimiento son los dispositivos en línea que capturan la información temporal o dinámica y se obtienen características de la información al instante para llevar a cabo el reconocimiento.

La información temporal proporcionada por la captura en línea mejora la exactitud del reconocimiento. En un experimento, los datos en línea fueron convertidos a la forma de datos fuera de línea para demostrar que el reconocimiento en línea es superior al fuera de línea con los mismos datos de referencia. Inversamente, los datos fuera de línea han sido convertidos a la forma de datos en línea, alcanzando una exactitud razonable de reconocimiento pero no mejorando el reconocimiento en línea [2], [36].

Una ventaja más es la interactividad, que se efectúa cuando se corrige un símbolo mal escrito. Los errores pueden ser corregidos inmediatamente [2], [8], [36].

La adaptación, es otra ventaja que se tiene cuando el usuario ve que algunos de sus caracteres no ha sido reconocido exactamente, él puede alterar lo escrito para mejorar el reconocimiento.

(15)

Así, el usuario adapta el sistema para el reconocimiento [2], [8]. Algunos reconocedores son capaces de adaptarse al escritor, usualmente almacenando muestras de caracteres del escritor para el posterior reconocimiento. En esta forma, hay adaptación de escritor a máquina y de máquina a escritor.

Una desventaja de los sistemas en línea es la información temporal que complica el reconocimiento con variaciones que no son evidentes en las imágenes estáticas. Por ejemplo, una letra puede ser escrita de uno a diferentes números de trazos o con diferente orden de trazos o direcciones, y muchas variaciones pueden parecerse cuando la letra es concluida.

La principal desventaja del reconocimiento de la escritura en línea es que el escritor es requerido para usar el equipo. Actualmente el equipo en línea es cómodo y natural como utilizar papel y pluma [2], [8],[36].

2.1.5 Aplicaciones

Las tecnologías de comunicación y computación tales como los procesadores de texto, faxes, y correos electrónicos tienen un impacto sobre el alfabetismo y la escritura [1], por lo cual se tienen diversas aplicaciones para los sistemas de escritura en línea y fuera de línea.

Algunas aplicaciones de ambos casos en línea y fuera de línea se encuentran en transacciones bancarias, direcciones postales, cheques bancarios, formatos escritos a mano, etc.

En los sistemas en línea y fuera de línea existen muchas aplicaciones como son el reconocimiento de caracteres, el reconocimiento de la escritura, el reconocimiento de firmas y reconocimiento de rostro, entre otros.

En los sistemas en línea para el reconocimiento de la escritura están disponibles nuevas tecnologías tales como los asistentes digitales personales (PDA’s) que son computadoras manejadas a mano. El desempeño de los PDA’s son aceptables para el procesamiento de los símbolos impresos a mano [1].

Existen sistemas prototipos para los sistemas en línea, los más interesantes de éstos son Linux y Cannon. El sistema de Linux es usado en hospitales para capturar la entrada de cartas médicas electrónicas escritas a mano. El sistema Cannon utiliza la puntuación y la escritura directa para aportaciones en calculadoras, calendarios y planificadores, así como también procesadores de texto simples para cartas de negocios japoneses y un cuaderno de escritura [2], [9], [40].

Una aplicación más, se encuentra en el llenado de formas, por ejemplo, en formas de demanda de una compañía de seguros.

(16)

Las aplicaciones apropiadas para el reconocimiento de la escritura pueden ser al editar, anotar, llenar formas, trabajos en hojas de balance, y otras aplicaciones que confían en la interactividad y la manipulación. El sistema IBM usa el reconocimiento de la escritura en línea para crear y corregir hojas de balance [2], [10].

Se han empleado sistemas para enseñar a estudiantes cómo escribir caracteres chinos y existen sistemas que entrenan las letras inglesas cursivas en un método de caligrafía.

Palmer es un sistema popular que enseña la escritura manuscrita en escuelas primarias de Norteamérica [2], [11].

Fairhurst describió el problema general de enseñar dibujos en dos dimensiones sobre una tableta digital usando la comparación de patrones [2], [12].

El sistema Ecole Polytechnique de Montreal [2], [13], [40] utiliza el reconocimiento de caracteres en línea para incorporar y corregir el lenguaje FORTRAN. La entrada del sistema es a través de una tableta gráfica. Aparte de los caracteres alfanuméricos, el sistema utiliza símbolos especiales para suprimir, insertar, y también cuenta con lazos de control.

2.2 Tecnología de la tableta digitalizadora

2.2.1 Historia

El concepto de pluma electrónica fue propuesto por Kay en 1968 [1]. Desde entonces, muchos investigadores han trabajado sobre la implementación de este concepto [2], tratando de integrar un sistema ergonómico en un dispositivo de detección y posición con una pantalla gráfica, bajo el control de un poderoso microcontrolador. El objetivo es extender la metáfora del papel y pluma por medio del proceso automático de la tinta electrónica.

Las tabletas electrónicas capturan los datos de las coordenadas x e y, a través de los movimientos de la pluma. Su advenimiento en los años 50’s precipitó considerablemente la actividad en el reconocimiento de la escritura en línea. Esta actividad intensa duró en los años 60’s, disminuyó en los 70’s, y fue renovada en los 80’s [1], [2].

Las tabletas digitalizadoras han existido por más de tres décadas. La más antigua fue

‘Stylator’ de Diamond. Sin embargo, la tableta RAND, fue el digitalizador más popular y estimuló la actividad inicial en el reconocimiento de la escritura en línea [2], [14].

Las tabletas digitales pueden ser usadas por una variedad de tareas gráficas. Los digitalizadores y otros dispositivos manejan seis clases de tareas: selección, posición, orientación, trayectoria, cuantificación, y entrada de texto [2].

En esta investigación, nos referimos al uso de digitalizadores en la captura de tiempo real de trazos dibujados, tales como la escritura, firmas, y diagramas; ya que las tabletas son una herramienta poderosa para la captura de la escritura y los gráficos.

(17)

En la actualidad están disponibles dos tipos de tabletas digitalizadoras [1], [2], [15]. Una de ellas es la tableta electromagnética-electrostática y la otra es la tableta de presión sensible.

Las tabletas electromagnéticas-electrostáticas [2], [15] tienen rejillas conductoras de x e y, espaciadas en la tableta desde 0.1 a 0.5, y un lazo de alambre en la extremidad de la pluma.

La posición de la extremidad de la pluma se determina cuando una rejilla o lazo se excita con un pulso electromagnético, y la otra detecta el voltaje o la corriente inducido en una señal sinusoidal. Los conductores de la tableta son explorados para localizar el par más cercano al lazo, y la interpolación se lleva a cabo para determinar la posición exacta entre estos dos conductores.

Las tabletas de presión sensible [1], [2], tienen capas de material conductor y resistente con un espaciamiento mecánico entre las capas. Un potencial eléctrico se aplica a través de una de las capas resistivas, en dirección x e y, para instalar un gradiente de voltaje que corresponde a la posición. La presión de la extremidad de la pluma en un punto resulta en la capa de conductividad mejorando el voltaje (y así la posición) desde la capa resistiva. La tecnología de la presión sensible tiene la ventaja de no requerir el uso de una punta especial.

Otras tecnologías incluyen la onda acústica en la superficie, triangularización de rayos láser reflejados, y la detección óptica de una pluma ligera. Existen dispositivos especiales que cifran la presencia de la punta en áreas específicas o direcciones cuantizadas de la pluma [2].

El desarrollo actual integra el digitalizador y la pantalla en una sola unidad de hardware [1], [2].

La medida de precisión de las tabletas digitalizadoras se caracteriza por la resolución, la exactitud, y el rango de muestreo. Para capturar los datos de la escritura, los requisitos de la tableta son rigurosos. Los requisitos son una resolución por lo menos de 200 puntos por pulgada y un índice de muestreo por lo menos de 100 muestras por segundo [2], [8], [16].

Los sistemas actuales de la tableta, no son fáciles de usar y requieren otras mejoras para que lleguen a ser aceptados [2], [5].

2.2.2 Descripción de la tableta digitalizadora WACOM

La tableta digitalizadora o digitalizador usado en esta investigación es la tableta Wacom Intuos2, versión 4.0 para Windows. La tableta gráfica Intuos2 de presión sensible se compone de dos elementos básicos: una tableta gráfica que sirve como área de trabajo y sus herramientas de la tableta las cuales son un lápiz ergonómico con puntilla sustituible, un portalápiz y un dispositivo óptico inalámbrico (mouse) de cuatro dimensiones.

(18)

Las especificaciones de la tableta usada cuenta con dimensiones de 9 x 12 pulgadas, resolución de 100 lpmm (líneas por milímetro), precisión de lápiz de +/- 0.0010 pulgadas, altura máxima de lectura con el lápiz es de 6 mm (milímetros), velocidad máxima de lectura de 200 puntos por segundo y una interfaz de comunicación USB.

La tableta gráfica Intuos2 de presión sensible, es una tableta en la cual se puede dibujar y escribir. Esta tableta se adaptó para localizar las características dinámicas de lo que se escribe o se dibuja. Estas características dinámicas son las coordenadas bidimensionales x e y, presión y ángulo de inclinación con que se escribe.

La figura 2.1 muestra la tableta Intuos2 de Wacom, la figura 2.2 muestra el lápiz ergonómico que se utiliza para escribir cualquier trazo en la tableta, la figura 2.3 muestra la sensibilidad del lápiz, el cual a una altura de 6 mm es detectado por la tableta y la figura 2.4 muestra el explorador óptico inalámbrico (mouse) el cual también forma parte de las herramientas de la tableta.

Fig. 2.1 Tableta gráfica de presión sensible.

(19)

Fig. 2.2 Lápiz ergonómico.

Fig. 2.3 Altura máxima para que el lápiz sea detectado por la tableta.

Fig. 2.4 Explorador óptico inalámbrico (mouse) de cuatro dimensiones.

(20)

2.3 Dificultad de reconocimiento de la escritura fuera de línea

El reconocimiento de la escritura fuera de línea se realiza partir de la digitalización de la escritura por un explorador óptico (escáner) después de que el usuario termina de escribir.

El proceso de la digitalización, introduce algunos factores que dificultan la extracción de características y su reconocimiento [1], [2]. Los principales factores son trazos falsos y trazos discontinuos por la calidad no adecuada de la pluma y papel.

Al escribir un caracter con una pluma de punto fino, y al hacerle la exploración óptica se pierden ciertos datos de continuidad y la imagen se degrada. Por lo tanto se requiere una pluma de punta especial para obtener datos lo más fiel posible.

Otro factor puede ser la captura de datos en un papel que contenga otros datos como logotipos y caracteres no necesarios, el papel puede estar sucio y se obtienen datos indeseados. Un ejemplo muy común, es cuando se quiere reconocer la firma de un cheque, en donde solo se requiere extraer la imagen de la firma y todos los demás datos que conforman el cheque no son requeridos ya que el papel no es totalmente blanco e introduce datos conocidos como ruido.

2.4 Dificultad de reconocimiento de la escritura en línea

Como ya se mencionó el reconocimiento de la escritura en línea es cuando la máquina reconoce lo que el usuario escribe. Existen 4 factores principales que dificultan el reconocimiento de la escritura manuscrita (molde o cursiva) [17], [18], los cuales son:

2.4.1 Variaciones Geométricas

Las variaciones geométricas existen cuando hay cambios en la posición, el tamaño, la orientación y la inclinación que realiza un escritor mientras escribe. Cuando un usuario escribe muchas veces un mismo caracter o diferentes caracteres, no lo escribe de forma idéntica; ya que se puede escribir de diferente tamaño, posición e inclinación. Otra variación geométrica es cuando un usuario escribe con caracteres mayúsculos y minúsculos, los cuales difieren en la posición de la línea de fondo o referencia.

Un ejemplo son los caracteres P-p y Y-y, otro ejemplo se muestra en los tamaños de los caracteres como en el caso de C-c, K-k y O-o.

2.4.2 Ruido neuro-biomecánico

El ruido neuro-biomecánico es causado por vibraciones pequeñas de la mano a la hora de realizar la escritura. Este ruido ocasiona la aparición de varios trazos cortos dentro del trazo original que conforma al caracter y que afecta considerablemente al funcionamiento del sistema de reconocimiento de caracteres.

(21)

La intensidad de este tipo de ruido depende de la condición física y anímica del usuario, o sea la intensidad del ruido varía dependiendo de si el usuario cansado, apresurado, relajado o agitado.

2.4.3 Variaciones de secuencia de trazos

Es la variación del orden en que se realiza el trazo de un caracter. Como se mencionó, la información temporal de sistemas en línea complica el reconocimiento con variaciones que no son evidentes en imágenes estáticas. Un ejemplo es el caracter E que puede realizarse de uno a cuatro movimientos y con diferente orden de movimiento, como se muestra en la figura 2.5.

ε ∈ E

Un Dos Tres o cuatro trazo trazos trazos

Fig. 2.5 Los diferentes trazos o movimientos que se realizan al escribir la letra E.

La variación del orden de la escritura afecta el funcionamiento del sistema, cuando el sistema requiere reconocer los caracteres manuscritos independientemente del usuario. Sin embargo, si el sistema requiere reconocer caracteres manuscritos de uno o algunos usuarios conocidos de antemano, esta variación se podría considerar en el sistema.

2.4.4 Similitud de las formas de los caracteres

Hay caracteres que tienen formas similares y son difíciles para realizar su reconocimiento.

Los caracteres que tienen formas similares en su extensión de línea son u-v, c-l, a-d n-h, v-y; hay otros caracteres que son similares en su forma circular como la C-0-O, como se muestra en la figura 2.6. Existen formas similares entre ciertos caracteres y números como son O-0, I-1, l-1, Z-2, S-5, G-6. Los cuales se pueden escribir idénticamente y pueden ser distinguidos por contexto.

C O 0

Fig. 2.6 Los diferentes caracteres similares en su forma circular.

Para hacer frente a todos estos problemas, los métodos de reconocimiento que existen tienen que ser combinados para diseñar un sistema lo suficientemente eficiente para tratar de combatirlos.

(22)

2.5 Reconocimiento de patrones

El reconocimiento de patrones se utiliza actualmente para la solución de tareas tales como el reconocimiento de caracteres, de huellas dactilares, de rostros y el reconocimiento del habla, entre muchos otros. Por esta razón, desde hace varios años se ha venido desarrollando diferentes metodologías que intentan resolver este tipo de problemas. De manera general, podemos decir que existen tres metodologías básicas para el reconocimiento de patrones: la Heurística, la Matemática y la Lingüística [3].

La metodología Heurística es la que hace uso de la experiencia y la intuición humana. La metodología Matemática hace uso de las propiedades comunes de los patrones y se basan en las reglas de clasificación formuladas en un marco matemático. Además, este enfoque se divide a su vez en otras dos categorías: la determinística y la estadística.

Entre los métodos determinísticos podemos encontrar, por ejemplo, los algoritmos de aprendizaje iterativo tales como los algoritmos utilizados para el entrenamiento de las redes neuronales. Por otra parte, dentro de los métodos estadísticos podemos encontrar a los clasificadores basados en las reglas de clasificación de Bayes. La metodología Lingüística, es la que hace uso de los elementos primitivos que componen a los patrones (sub-patrones) y la relación que existe entre ellos.

De manera general, cuando se intenta resolver algún problema que implique el reconocimiento de patrones se deben de tomar en cuenta las siguientes etapas, [1], [2],[38],[39]:

• Adquisición de datos

• Preprocesamiento

• Extracción de características

• Reconocimiento

2.6 Adquisición de datos

Para realizar el reconocimiento es necesario implementar una etapa de adquisición de los datos que describen el patrón que se desea clasificar. Esto implica que, el método que se utilizará para realizar la adquisición de los datos, dependerá de la naturaleza del patrón. Por ejemplo, si se desea desarrollar un sistema para reconocer caracteres, esta etapa se podría realizar con la ayuda de una tableta digital o utilizando un explorador óptico (escáner).

2.7 Preprocesamiento

Una vez que ya se cuentan con los datos que describen a cada uno de los patrones, es conveniente realizar una etapa de preprocesamiento sobre cada uno de ellos en lugar de ser dados como entrada al sistema tal y como fueron obtenidos durante la etapa de adquisición de datos.

(23)

Al realizar un preprocesamiento sobre los datos tiene varias ventajas; la principal de ellas es que puede reducir la dimensionalidad de los datos, lo cual mejora substancialmente la ejecución del sistema, sobre todo cuando se utiliza una metodología como la de redes neuronales. Dentro de esta etapa se pueden preprocesar los datos o patrones de entrada de tal forma que todos tengan el mismo tamaño (escala) consiguiendo con esto que el sistema sea invariante al escalamiento. Además de esto, también se busca lograr que el sistema sea invariante en traslación.

El preprocesamiento implica mejorar los patrones de entrada para obtener un mayor reconocimiento. Por ejemplo en el caso de la escritura, existen diversos métodos de preprocesamiento como pueden ser: la segmentación, el filtrado, la eliminación de puntos (Dehooking) y la normalización, estos son algunos de los diversos métodos de preprocesamiento.

A continuación se explicarán algunos métodos de preprocesamiento usando la palabra

“luz”, que es capturada de la tableta Wacom Intuos2.

2.7.1 La segmentación

La segmentación se refiere a separar una cantidad determinada de datos en cantidades menores para su reconocimiento. Existen dos tipos de segmentación, la segmentación externa e interna. La Segmentación Externa es la separación de la escritura en varias unidades, tales como palabras, unidades de palabra o caracteres, previamente a su reconocimiento. Muchas palabras pueden ser escritas con un solo trazo en la escritura cursiva, por lo cual se necesita este tipo de preprocesamiento para reconocer sus unidades de palabra y llevar a cabo su reconocimiento con mayor facilidad. Algunos reconocedores cuentan con su propia segmentación, a este tipo de segmentación se le llama segmentación interna, que también separa la escritura en diversas unidades de acuerdo como se encuentre programado el reconocedor [19],[37]. La segmentación externa proporciona mayor interactividad, ahorro de costo computacional y simplifica el trabajo del reconocedor.

La figura 2.7 muestra la segmentación externa, la cual segmenta una palabra en unidades de la misma en el eje de las x. Se ha utilizado también la información temporal para separar las unidades de escritura. Cuando la diferencia de tiempo entre el termino de un trazo y el comienzo del siguiente excede un valor de tiempo, se asume que el caracter esta terminado o completado, y se tiene una unidad de la palabra a reconocer.

Para caracteres escritos en bloques predefinidos, el escritor lleva a cabo la segmentación, en un determinado tiempo. Las máquinas comerciales reconocen los caracteres en bloques predefinidos, y la segmentación resulta confiable.

(24)

(a) (b)

Fig. 2.7 (a) Palabra capturada por la tableta digitalizadora, (b) Palabra segmentada en unidades de palabras o caracteres.

2.7.2 El filtrado

El filtrado elimina el ruido en una imagen. La forma del filtrado puede depender del método de reconocimiento [20].

El ruido se origina desde las limitaciones de exactitud de la tableta, el proceso de digitalización, el movimiento errático de la mano (ruido neuro-biomécanico), y en la movilidad de la pluma electrónica, como se muestra en la figura 2.8.

La suavización aproxima los puntos de una imagen. La corrección de puntos puede reemplazar o eliminar un punto falso, usualmente causado por un problema de hardware. Se pueden detectar puntos falsos por: la aceleración del movimiento de la mano limitada por la fuerza de la contracción muscular, la masa de la mano y la pluma.

(a) (b)

Fig. 2.8 (a) Palabra capturada por la tableta digitalizadora, (b) Palabra filtrada que elimina el ruido y se ve suavizada.

(25)

2.7.3 Algoritmos de Dehooking

El algoritmo de Dehooking elimina los ganchos que pueden ocurrir al inicio o al final del trazo de la escritura, como se muestra en la figura 2.9. Los ganchos se deben a las inexactitudes en la detección de la pluma, el rápido o el errático movimiento de la punta, o elevaciones en la tableta [21].

La conexión de trazos puede eliminar extrañas elevaciones de la pluma. Un método conecta los trazos cuando la distancia es mínima entre la elevación de la pluma y el subsecuente trazo relativo al tamaño del caracter.

(a) (b)

Fig. 2.9 Algoritmo de Dehooking, (a) Palabra capturada con ganchos al inicio y al final de ella, (b) Palabra sin ganchos aplicando el algoritmo de Dehooking.

2.7.4 Normalización

Las letras o palabras manuscritas pueden variar en tamaño e inclinación desde una línea horizontal. Antes de extraer características de estas letras o palabras, hay que corregir las variaciones existentes. Este proceso de corrección se le llama normalización. Para algunos proyectos de reconocimiento de caracteres manuscritos, se ha realizado la normalización en tamaño e inclinación [2], [22], [23]. Algunos algoritmos corrigen la inclinación de una letra o de una palabra usando una línea horizontal llamada “Baseline” [22]. En la normalización en tamaño, se ajusta el tamaño del caracter a un tamaño estándar definido por cada reconocedor.

(26)

(a) (b)

Fig. 2.10 Normalización en inclinación usando “Baseline”, (a) Palabra capturada, (b) Palabra normalizada en la inclinación.

La figura 2.10 muestra el resultado de la normalización en la inclinación de una palabra usando el método de “Baseline”. La figura 2.11 muestra el resultado de la normalización en tamaño.

(a) (b)

Fig. 2.11 Normalización en tamaño, (a) Palabra capturada, (b) Palabra normalizada en tamaño en el eje y.

2.8 Extracción de características

Uno de los principales problemas en el reconocimiento de patrones, es encontrar una manera óptima de representar la información original que describe a cada uno de los patrones. Este problema es conocido como extracción de características. Este proceso trata de reducir la cantidad de información que representa a cada uno de los patrones, obteniendo de esta forma, un vector de características que represente de la mejor manera posible al patrón original.

(27)

La extracción de características debe cumplir con las siguientes condiciones:

• La dimensionalidad del vector de características debe ser menor que la del patrón original.

• Las características deben representar una codificación óptima de la entrada, perdiendo la información que no sea muy importante.

Algunas características extraídas para el reconocimiento de letras o caracteres manuscritos en el sistema en línea son las siguientes [24], [25], [26]:

• Punto inicial, punto final y orden de la escritura.

• Velocidad y Aceleración de la escritura.

• Presión.

• El ángulo de inclinación de la pluma.

2.8.1 Punto inicial, punto final y el orden de la escritura

Esta característica es muy útil para reconocer las letras que se escribieron, debido a que el orden de escritura de cada caracter esta determinado de antemano y todos los escritores deben escribir cada letra en el orden determinado, aunque muchos de ellos escriben las letras en diferente orden como se menciono en la sección 2.4.3. La información del orden de escritura incluyendo el punto inicial y el punto final se extraen de la escritura dinámica y se convierten en forma de datos para usarlos en el reconocimiento.

En esta tesis de investigación, la extracción de esta información, se lleva a cabo utilizando una función Spline natural para extraer únicamente los datos significativos, eliminando la redundancia de la información. El marco teórico sobre la función Spline se mencionará en el capítulo 3.

2.8.2 Velocidad y aceleración de la escritura

El escritor tiene una determinada velocidad de escritura al escribir una palabra o letra. A veces un escritor empieza escribiendo lento y termina escribiendo rápido o viceversa, pero cada escritor tiene su ritmo de escritura.

Por lo tanto estas características son útiles para determinar o reconocer al escritor que escribió los caracteres, pero generalmente para el reconocimiento de caracteres no nos da una información útil. Cuando el sistema de reconocimiento de caracteres depende del escritor, o sea el sistema trata de reconocer caracteres manuscritos de un escritor o varios determinados de antemano, estas características ayudan considerablemente al funcionamiento del sistema de reconocimiento, ya que cada persona escribe a diferente velocidad y aceleración cada caracter.

(28)

2.8.3 Presión

La presión se efectúa con la pluma cuando el usuario escribe algo. La tableta digitalizadora de presión sensible, detecta la pluma a 6 mm (milímetros) sobre la tableta sin que haya roce sobre ella, como se menciona en 2.2.2; por lo tanto al acercarnos a esta distancia hay presión y datos, pero estos datos no se toman en cuenta en una evaluación de reconocimiento porque son datos sin información. Existen dos tipos de presión, la presión alta y la presión baja.

La presión alta es cuando recargamos con mayor fuerza la pluma sobre la tableta al realizar una palabra o caracter. La presión baja es cuando suavizamos la fuerza de la pluma sobre la tableta al realizar una palabra o caracter. Estas presiones altas y bajas son características propias de cada escritor.

2.8.4 El ángulo de inclinación de la pluma

El escritor al escribir una palabra o caracter tiene un ángulo de inclinación con respecto al eje x y al eje y de donde se escribe, esta es una característica propia de cada escritor.

Estas características extraídas usualmente se usan de forman conjunta para llevar a cabo el reconocimiento y tener un mayor porcentaje de reconocimiento.

2.9 Sistemas de reconocimiento

Finalmente, una vez que se han realizado las etapas de preprocesamiento y extracción de características, se procede a realizar el objetivo principal del sistema: el reconocimiento. De manera general, la etapa de reconocimiento consiste en obtener salidas del sistema como respuesta a un conjunto de estímulos dados como entradas (patrones). Muchos sistemas llevan a cabo el reconocimiento por medio de las Redes Neuronales Artificiales, Métodos Estadísticos, Modelos Ocultos de Markov, entre otros.

En esta investigación se utilizan las redes neuronales como sistema de reconocimiento por lo que en el siguiente capítulo se mencionará detalladamente sobre ellas desde el punto de vista de definición, clasificación, operación y funcionamiento.

2.10 Trabajos reportados en la literatura

A continuación se muestra algunos avances que se han hecho en el campo de reconocimiento de caracteres.

K. S. Nathan, et al, [27] propone una solución al reconocimiento de caracteres cursivos en línea usando los modelos ocultos de Markov. Su meta fue desarrollar un algoritmo robusto suficiente para manejar las variaciones en el proceso de la escritura cursiva.

(29)

Su método se basa en el modelo oculto de Markov (HMM) para representar cada variación de caracter del texto escrito. El reconocimiento es realizado calculando la probabilidad máxima de un caracter. Utiliza un preprocesamiento ordenando sus muestras en puntos igualmente espaciados, para eliminar los efectos debido a las inconsistencias en velocidad;

extrae las características de la escritura, formando un vector característico que consiste en la información local de la posición y de la curvatura que se construye para cada punto.

Antes de construir modelos para los caracteres, necesitó identificar las variaciones exhibidas por cada caracter manuscrito. Estas variaciones se pueden diferenciar en la forma, en la dirección del movimiento de la pluma, o en el número de las elevaciones de la pluma.

Para cada variación o característica identificada de los datos, se construye un modelo oculto de Markov, asociado con cada estado hay una transición. Estas transiciones gobiernan la trayectoria del caracter a través de la secuencia de estados. La probabilidad total de la secuencia dado un modelo particular, es aproximada por la probabilidad de la trayectoria más probable al modelo. Esta probabilidad es calculada para cada uno de los caracteres para los cuales se han entrenado los modelos. El caracter reconocido es el que se asemeja a la máxima probabilidad.

Los resultados de Krishna S. Nathan, et al, demuestra que el método propuesto disminuye significativamente la tasa del error para el reconocimiento de los caracteres discretamente escritos comparados con otras técnicas.

S. Manke y U. Bodenhausen [28], [29], hacen investigación proponiendo una solución coneccionista para el problema del reconocimiento de la escritura cursiva y del caracter aislado. Ellos proponen a la MS-TDNN (red neuronal de retraso en tiempo de multi- estados) el cual integra a la red TDNN (red neuronal de retraso en tiempo) con un procedimiento de alineación no lineal en tiempo, para encontrar los movimientos y los límites de los caracteres aislados y palabras; y posteriormente llevar a cabo el reconocimiento.

Las palabras manuscritas se pueden representar como una secuencia de tiempo-ordenado de coordenadas, la velocidad y la presión variante en cada coordenada. El problema principal de reconocer palabras continuas es que los caracteres o los límites del movimiento no son conocidos y se debe encontrar una alineación óptima de tiempo. El reconocedor coneccionista, integra el reconocimiento y la segmentación dentro de una sola arquitectura de red, la red neuronal de retraso en tiempo de Multi-Estados (MS-TDNN), que fue propuesta originalmente para las tareas continuas del reconocimiento del habla.

Para el reconocimiento de caracteres en línea aislados, la red neuronal de retraso en tiempo de Multi-Estados (MS-TDNN) con la arquitectura invariante en tiempo se ha desarrollado con éxito.

(30)

Las palabras se representan como una secuencia de caracteres, donde cada caracter es modelado por unos o más estados. Cada caracter se modela con 3 estados que representan la primera, el centro, y la ultima parte de los caracteres. Utilizó esta aproximación no solamente para el reconocimiento de palabras cursivas, sino también para el reconocimiento de caracteres aislados (letras y dígitos).

Todos los parámetros de la red son optimizados manualmente. Los límites del movimiento se determinan automáticamente en base a esta red. La MS-TDNN es entrenada con la red de retropropagación, con los límites de movimiento durante el cual la MS-TDNN se entrena con datos de entrenamiento segmentados.

Todos los datos se registran en una tableta grafica de presión sensible con una pluma sin conexión, que produce una secuencia de tiempo ordenada de vectores de 3 dimensiones consistiendo en la coordenada x, la coordenada y y el valor de la presión para cada punto.

S. Manke y U. Bodenhausen entrenaron y probaron la misma arquitectura de red para escritores dependientes y escritores independientes, y en tareas de reconocimiento de caracteres.

Utilizaron redes separadas para las letras minúsculas (a_z), las letras mayúsculas (A_Z), y los dígitos (O_9). Los resultados que obtuvieron fueron mayores del 95% de reconocimiento en los sistemas dependientes y menores del 90% en el reconocimiento de sistemas independientes.

La escritura se ha analizado para estudiar el comportamiento motor, control y aprendizaje, para detectar la robustes antropomorfa. Este estudio se limita a los modelos físicos, es decir, los modelos matemáticos que se pueden utilizar directamente para analizar o para generar una parte de la escritura.

R. Plamondon y F. Maarse [13], [30] proponen el estudio de la escritura desde el programa motor del cerebro que es donde se piensa lo que se quiere escribir, después se transmite esta información a los nervios, posteriormente los movimientos del músculo se activan, para finalmente trazar la trayectoria en una tableta digitalizadora.

De esta manera, se lleva a cabo la escritura pero ellos quieren saber que característica o variable es controlada para llevar a cabo el proceso de forma inversa, desde la trayectoria de la escritura en la tableta digitalizadora hasta el programa motor del cerebro.

La incógnita es saber qué variable es controlada por el sistema nervioso durante la escritura. Stein [30] ha sugerido las siguientes variables de control: fuerza, velocidad, longitud (espacio en blanco), viscosidad. Usando modelos simplificados, tres variables de control son aprobadas en el estudio por medio de la simulación de la computadora:

aceleración, velocidad, y espacio en blanco (longitud).

Plamondon y Maarse haciendo pruebas llegan a la conclusión que la teoría de la Transformada de Laplace y los modelos lineales hasta de segundo orden usando la velocidad como variable de control pueden regenerar a la escritura.

(31)

Un modelo propuesto por Denier van der Gon [31] dice que la escritura se basa en cuatro principios: 1) la escritura rápida es un fenómeno balístico, 2) los movimientos son causados por dos independientes grupos perpendiculares de músculos, 3) estos músculos aplican las fuerzas a la mano y a la pluma que se consideran como masa con una cierta fricción interna, y 4) aplicada una vez, la fuerza aumentan a cierto valor fijo y después sigue constante, la duración de su uso es relacionado con la magnitud del movimiento. En este modelo, los movimientos de diversas longitudes fueron producidos por diversas sincronizaciones de la fuerza, la amplitud de las fuerzas que eran constantes para un tamaño específico de la escritura fueron tomadas en cuenta como las variables de control.

Eden [32] propuso a las señales sinusoidales como la función de entrada a un integrador.

Con la diferencia apropiada en la frecuencia de oscilación de los ejes ortogonal de x y de y, más un desplazamiento de fase apropiado, la escritura se podría generar, proporcionado también que es una tendencia lineal.

Mermelstein y Eden [33] modificaron esta representación para incorporar una amplitud en la velocidad de subida y la caída de la excitación de la entrada. Encontraron que podrían ser mejor simulados con la ayuda de un sistema más grande de parámetros apropiados:

amplitud de la velocidad de x y de y, frecuencia y desplazamiento de fase entre las velocidades de x y de y, y sincronización en los cambios de la velocidad.

Hollerbach [34], usando un acercamiento similar, realizó un estudio extenso de interés práctico del modelo oscilatorio en controlar la forma, la altura, y la inclinación de la escritura cursiva.

T. Wakahara y K. Odaka [23], [35], introducen un método de normalización adaptiva de categoría-dependiente que normaliza cada patrón de entrada contra un patrón de referencia usando la transformación afín global-local (GAT-LAT) de una manera jerárquica. También, el criterio de la normalización se define claramente como la minimización de distancias entre los vecinos más cercanos entre un patrón de referencia y cada patrón normalizado de entrada.

Para el reconocimiento de caracteres manuscritos, los métodos de normalización desempeñan un papel esencial de reducir cada patrón de entrada con la meta de realzar la semejanza entre los patrones en la misma categoría sin suprimir las características que distinguen otras categorías.

El uso jerárquico de GAT y de LAT como modelo de deformación realiza la normalización adaptante de la forma. El patrón de entrada se escribe libremente mientras que el patrón de referencia se escribe sobre una plantilla. Primero, se aplica GAT o la transformada afín global al patrón de entrada para rendir la mejor semejanza con el patrón de referencia.

(32)

La operación de GAT absorbe los componentes de la deformación de la rotación uniforme, cambio de escala, y traduce la información contenida en el patrón de entrada contra el patrón de referencia. La ventaja de GAT es su costo bajo en cómputo. Sin embargo, la capacidad de GAT se limita en asemejar la deformación de la escritura cursiva.

Después, se aplica LAT o la transformación afín local a cada punto del patrón de entrada con la deformación de GAT. La función de LAT es asemejar la anchura del patrón de entrada con el patrón de referencia. La combinación de ambas logra una capacidad de semejanza muy alta entre los patrones. Esta es la idea dominante del uso jerárquico de GAT y de LAT como modelo de deformación en la normalización adaptante de la forma.

Entonces, el papel de la normalización adaptante de GAT-LAT explica un sistema total de reconocimiento de caracteres manuscritos.

La unificación de la deformación modelada como GAT-LAT y modelos ocultos de Markov, son un desafío interesante.

2.11 Conclusiones

Este capítulo muestra los sistemas en línea y fuera de línea, sus ventajas y desventajas;

para la realización de esta investigación se usa el sistema en línea usando la tableta digitalizadora y obteniendo datos dinámicos de lo que se escribe, que son los datos que se necesitan para la elaboración de esta investigación.

También se mencionó varias dificultades existentes para obtener un buen funcionamiento de reconocimiento en el campo de reconocimiento en línea y los principales preprocesamiento que se realizan antes de realizar dicho reconocimiento, así como también las características que se pueden extraer de la escritura dinámica.

Se muestran los métodos que han empleado algunos investigadores para llevar acabo el reconocimiento de caracteres manuscritos. De acuerdo a estos datos se concluye que no hay aún un método exacto u óptimo para el reconocimiento de caracteres manuscritos.

(33)

Capítulo 3

Redes Neuronales Artificiales y Funciones Spline

Introducción

La etapa de reconocimiento de los sistemas propuestos en esta tesis esta basada en las redes neuronales multicapas con el algoritmo de retropropagación. En el campo de las redes neuronales, existen varias estructuras y algoritmos de aprendizaje para el entrenamiento de ellas. Las redes neuronales se consideran como una de las principales herramientas para el reconocimiento de patrones, y se han utilizado en varias aplicaciones, tales como el reconocimiento de voz, el reconocimiento de rostros, el reconocimiento de objetos y el reconocimiento de firmas, etc. Por lo tanto la primera parte de este capítulo se dedica a la descripción amplia de redes neuronales, incluyendo las diferentes estructuras existentes en dicho campo y operaciones básicas de cada neurona, así como también los diferentes tipos de algoritmos de aprendizaje que se usan generalmente en las redes neuronales [3], [4].

Uno de los dos sistemas propuestos esta basado en la función Spline para la extracción de las características. Generalmente la función Spline se ha usado para la interpolación de los datos muestreados para su análisis matemático. En el sistema propuesto de esta tesis, la función Spline se usa para extraer los nudos (puntos) significativos o relevantes de los caracteres manuscritos. Posteriormente los nudos se adaptan para ser nudos óptimos usando un algoritmo adaptivo “Método de búsqueda de gradiente descendente”. En la segunda parte de este capítulo se describen las funciones Spline y el Método de búsqueda de gradiente descendente.

3.1 Redes Neuronales Artificiales

Existe actualmente una tendencia a establecer un nuevo campo de las ciencias de la computación que integraría los diferentes métodos de resolución de problemas que no pueden ser descritos fácilmente mediante un enfoque algorítmico tradicional.

Referencias

Documento similar

La Normativa de evaluación del rendimiento académico de los estudiantes y de revisión de calificaciones de la Universidad de Santiago de Compostela, aprobada por el Pleno or-

A través de la experiencia de un reconocido productor mexicano Alfonso Rosas Priego, tendrás una visión general de todo el proceso que lleva el iniciar la aventura

BUBER'NEUaiAMN, Margarete ¡ Von Potsáam ndch Moskau. SMíionen eines Irftveges. Stuttgart, 1957; Deutsche Verlags-Anstalt, 480 págs... DAHM: Deutsches Reckt. Die geschichüichen

Sin embargo, esta interpretación ecomorfológica cuenta con una evidencia en contra, ya que en venta Micena está presente una especie de Praeovibos que exhibe también una gran

Gastos derivados de la recaudación de los derechos económicos de la entidad local o de sus organis- mos autónomos cuando aquélla se efectúe por otras enti- dades locales o

1. LAS GARANTÍAS CONSTITUCIONALES.—2. C) La reforma constitucional de 1994. D) Las tres etapas del amparo argentino. F) Las vías previas al amparo. H) La acción es judicial en

Volviendo a la jurisprudencia del Tribunal de Justicia, conviene recor- dar que, con el tiempo, este órgano se vio en la necesidad de determinar si los actos de los Estados

El tercero tiene notas bajas pero la mayor es estadística, una de las temáticas trabajadas de forma más mecánica, asimismo el último arquetipo muestra que, aun con notas buenas,