• No se han encontrado resultados

SISTEMA DE NAVEGACIÓN AUTOMÁTICA CONTROLADA POR VOZ PARA UNA SILLA DE RUEDAS RESUMEN

N/A
N/A
Protected

Academic year: 2021

Share "SISTEMA DE NAVEGACIÓN AUTOMÁTICA CONTROLADA POR VOZ PARA UNA SILLA DE RUEDAS RESUMEN"

Copied!
11
0
0

Texto completo

(1)

SISTEMA DE NAVEGACIÓN AUTOMÁTICA CONTROLADA POR VOZ PARA UNA SILLA DE RUEDAS

Marcelo Arévalo Luzuriaga1

RESUMEN

Este sistema de navegación es un conjunto de elementos mecánicos, eléctricos y electrónicos ensamblados sobre la estructura de una silla de ruedas capaz de facilitar la movilidad y desplazamiento de personas discapacitadas parapléjicas utilizando instrucciones o comandos de voz.

El sistema de control del navegador esta basado en un microcontrolador tipo PIC 16f877A (Microchip) como elemento maestro del comando y de 2 microcontroladores esclavos para la ejecución del reconocimiento de voz y manejo de los actuadores. El microcontrolador RCS 300 (Sensory) es el encargado de realizar el almacenamiento y reconocimiento de los comandos de voz utilizados para el control del equipo, por su gran capacidad y conversor análogo/digital de 32 bits constituye un elemento especializado para este tipo de aplicaciones. Todo el conjunto está montado sobre la estructura de una silla de ruedas y permite una navegación manual y automática del equipo dependiendo la necesidad y la instrucción que realice el usuario.

EL objetivo principal del presente proyecto fue desarrollar un sistema autónomo capaz de movilizar a personas discapacitadas parapléjicas sobre una silla de ruedas, utilizando un simple comando o instrucción de voz. Teniendo la capacidad de trabajar hasta con 15 instrucciones previamente establecidas y grabadas por el usuario en la memoria EEPROM del microcontrolador especializado para esta actividad. Este equipo posee también la alternativa de un comando manual mediante un joystick ubicado en la parte frontal de la silla, siendo esta función una de las 15 posibilidades de trabajo que posee el equipo, así mismo el sistema esta dotado con un conjunto de sensores ultrasónicos (6) programables que entran a funcionar en el modo autónomo y sirven de seguridad al hablante ante posibles colisiones con obstáculos en todo su perímetro y también abismos que encuentre durante su trayectoria. Palabras clave: Control – Reconocimiento-Voz – Microcontroladores

1

Facultad de Ciencias de la Ingeniería, Universidad Tecnológica Equinoccial, Av. Occidental y Mariana de Jesús. Quito, Ecuador. mjarevalo@ute.edu.ec

(2)

INTRODUCCIÓN

El trabajo de analizar una señal de voz o acústica y su posterior reconocimiento deben llevar una metodología que al parecer es trivial para el ser humano, este análisis inicia desde cuando la señal es generada en las cuerdas vocales del hablante, a esta se la podría considerar una señal sonora. Las señales sonoras que se caracterizan por tener alta energía y una frecuencia que va en el rango de los 300 Hz a 4000 Hz las cuales se generan por intermedio de las cuerdas vocales y además presentan cierta periodicidad como se muestra en la figura siguiente

Figura 1. Señal sonora

Las señales no sonoras se caracterizan por tener baja energía y una frecuencia uniforme presentando aleatoriedad en forma de ruido blanco se muestra en la figura siguiente

Figura 2. Señal no sonora

La señal de voz básicamente está constituida por ondas de presión producidas por el aparato humano. La manera obvia de capturar este tipo de señal se realiza mediante un micrófono, el cual se encargará de convertir la onda de presión sonora en una señal eléctrica.

La siguiente etapa será aquella que se encargue de amplificar las señales a niveles que sean manejables.

A partir de la señal analógica obtenida se hace necesario convertir la señal a formato digital para poder procesarla en la computadora lo que se realiza mediante dos procesos: muestreo y cuantificación. Este proceso de dos etapas se conoce como Modulación por Código de Pulsos (PCM).

(3)

Posteriormente se hace necesario para el análisis realizar un pre procesamiento de la señal vocal. Esto se realiza a través de técnicas que permitan extraer la información acústica directamente a partir de la señal vocal emitida. Esto se realiza mediante la técnica de preénfasis y la aplicación de una ventana de Hamming.

Modelado del tracto vocal

El modelado del tracto vocal se expresa como un filtro variante en el tiempo, cuyos parámetros son también variantes de acuerdo con la pronunciación de una palabra.

El filtro variable en el tiempo tiene dos posibles señales de entrada que dependerán del tipo de señal, sonora o no sonora. Para señales sonoras la excitación será un tren de impulsos de frecuencia controlada, mientras que para las señales no sonoras la excitación será ruido aleatorio.

La combinación de estas señales modelizan el funcionamiento de la glotis. El espectro de frecuencias de la señal vocal puede obtenerse a partir del producto del espectro de la excitación por la repuesta en frecuencia del filtro.

El tracto vocal manifiesta un número muy grande de resonancias, sin embargo se consideran solo las tres o cuatro primeras que toman el nombre de 'formantes' y cubren un rango de frecuencias entre 100 y 3500 hz. Esto debido a que las resonancias de alta frecuencia son atenuadas por la característica frecuencial del tracto que tiende a actuar como un filtro pasabajo con una caída de aproximadamente -12 dB por octava.

Este modelo es una simplificación del proceso del habla. Los sonidos fricativos no se filtran por el tracto con la misma extensión en que lo hacen las señales sonoras por lo que el modelo no es muy preciso para este tipo de señales. Además el modelo supone que las dos señales pueden separarse sin considerar ninguna interacción entre ellas, lo cual no es cierto ya que la vibración de cuerdas

(4)

vocales es afectada por las ondas de presión dentro del tracto. Sin embargo estas consideraciones pueden ser ignoradas resultando el modelo lo suficientemente adecuado.

El rango dinámico del oído (desde inaudible hasta doloroso) ronda los 20 bits (±1 a ±106). A continuación se lista los diferentes tipos de sonidos y sus niveles en dB.

Nivel sonido/

dB Ratio potencia

Ratio

amplitud Ejemplo típico

140 1014 107 Disparo a quemarropa

120 1012 106 Grupo de rock ruidoso

100 1010 105 Grito cercano

80 108 104 Calle ruidosa

60 106 3160 Conversación normal

40 104 316 Susurro suave

20 102 31.6 El campo por la noche

6.5 4.5 2.1 Umbral absoluto a 1kHz

(5)

Dentro del reconocimiento de señales acústicas se puede tener tres tipos de sistemas de reconocimiento los cuales son:

 Dependiente del hablante,

 Independiente del hablante, y

 Adaptable al hablante

Un sistema dependiente del hablante es desarrollado para funcionar para un sólo hablante. Estos sistemas, normalmente, son más fáciles de desarrollar, más baratos de comprar, y más precisos, pero no tan flexibles como los sistemas adaptables al hablante o los sistemas independientes del hablante.

Un sistema independiente del hablante es desarrollado para funcionar para cualquier hablante de un determinado tipo (por ejemplo, Inglés Americano). Estos sistemas son los más complicados de desarrollar, los más caros y la precisión es menor que la de los sistemas dependientes del hablante. Sin embargo son más flexibles.

Un sistema adaptable al hablante es desarrollado para adecuar su funcionamiento a las características de nuevos hablantes. Su dificultad reside en alguna zona entre los sistemas independientes del hablante y los dependientes de él.

Tratamiento de la palabra

Se entiende como tratamiento de la palabra al conjunto de disciplinas que estudian la manera de trasladar la forma de comunicación que conocemos como el lenguaje hablado hacia las máquinas. El Tratamiento de la palabra está dividido en tres partes importantes:

Síntesis

Codificación

Reconocimiento

Síntesis de la señal vocal

Viene a ser la creación de seáal vocal sintética, se desea que una maquina sea capaz de expresarse emitiendo sonidos que podamos entender como palabras u oraciones.

Esto conlleva a la comprensión total del proceso del habla, implica la interacción de disciplinas en las que están incluidas la fisiología del órgano humano así como también la lingüística.

(6)

Codificación

La computadora debe ser capaz de procesar la información de tal forma que le permita disponer de la posibilidad de almacenar señal vocal de una forma eficiente y así comprimir la señal y/o transmitirla por un medio de ancho de banda limitado.

Reconocimiento

Tal vez esta es la parte más complicada del tratamiento de la palabra, hacer posible que la computadora sea capaz de escuchar y reconocer las palabras emitidas por una persona. Involucra el desarrollo de algoritmos que sean capaces de realizar la comparación de patrones de voz entre palabras pronunciadas y las palabras de un diccionario predeterminado.

En el desarrollo de este proyecto se utiliza un microcontrolador para realizar el proceso de adquisición, digitalización y reconocimiento de una señal acústica, el modo de trabajo del sistema está considerado como un sistema dependiente del hablante.

A este proceso de reconocimiento de voz se suma el comando de varios actuadores que permiten la movilidad de un sistema motriz montado sobre la silla de ruedas, dando como resultado un equipo terminal capaz de reconocer las ordenes acústicas del hablante y transformarlas en movimientos del sistema motriz del equipo.

PARTE EXPERIMENTAL

Para el desarrollo experimental del equipo se ha considerado tres etapas:

 Diseño e implementación de la estructura mecánica sobre la silla de ruedas.

 Diseño e implementación de hardware.

 Diseño e implementación de software.

Para conseguir la movilidad autónoma de la silla fue necesario adaptar engranes a las ruedas posteriores y transmitir movimiento con una cadena desde un motor acoplado a un motor reductor, como se puede apreciar en la figura.

(7)

Figura 3. Motor reductor acoplado a eje de la silla

De igual manera se hicieron adaptaciones mecánicas para poder transportar la fuente de poder del conjunto y ubicar estratégicamente los sensores ultrasónicos en la periferia de la silla.

(8)

Figura 5. Estructura para parte electrónica

Toda la estructura está comandada por un conjunto de microcontroladores que constituyen la parte inteligente de la silla, el hardware de este sistema está formado por varios elementos electrónicos unidos en una tarjeta madre que recibirá las señales de los elementos externos y generará el comando lógico de las saldas de control.

Además de la tarjeta madre se tienen dos tarjetas electrónicas enlazadas a esta por un bus de datos, la primera encargada del reconocimiento mismo de la instrucción del hablante, y la segunda encargada del manejo de la potencia de la parte motriz.

(9)

Figura 7. Tarjeta de potencia, parte motriz

Figura 8. Tarjeta de reconocimiento de voz

Figura 9. Esquema de la tarjeta de reconocimiento de voz

Por último el software de programación de los microcontroladores, tanto PIC como RSC 300, se desarrolló en lenguaje ensamblador, compilado y descargado en los mismos hasta obtener los resultados deseados.

(10)

RESULTADOS Y DISCUSIÓN

Luego del desarrollo del proyecto el equipo construido tiene la capacidad de realizar las siguientes subrutinas de acción, descritas a continuación:

Como se puede observar, únicamente se ocupan 7 de las 15 posibles instrucciones que puede recibir el microcontrolador RSC 300 en el sistema dependiente del hablante, dando la posibilidad de aumentar las subrutinas de acción de este equipo, añadiendo accesorios que mejoren el desempeño del equipo.

De igual manera los sensores ultrasónicos son calibrables a una distancia que va desde 5 cm hasta 80 cm desde el mismo hacia el obstáculo, lo que permite que la silla en modo automático pueda mantener una trayectoria y evadir cualquier tipo de obstáculo o abismo.

Descripción de la Orden PALABRA

1 Modo automático Auto

2 Modo manual Manual

3 Movimiento hacia delante Adelante

4 Movimiento hacia atrás Atrás

5 Giro a la izquierda Izquierda

6 Giro a la derecha Derecha

7 Paro Paro 8 No utilizada No utilizada 9 No utilizada No utilizada 10 No utilizada No utilizada 11 No utilizada No utilizada 12 No utilizada No utilizada 13 No utilizada No utilizada 14 No utilizada No utilizada 15 No utilizada No utilizada

(11)

CONCLUSIONES

Se ha comprobado que el reconocimiento de voz es una gran herramienta que no ha sido desarrollada en su totalidad aun en nuestro país, y que ofrece una verdadera comunicación directa y confiable entre el hombre y la maquina, cosa que antiguamente se constituía en un sueño, ya que la manera de comunicación con la maquina era por medio de interfaces graficas, botones o hmi’s que necesitaban de acciones físicas del usuario. Mas ahora se puede controlar a todo tipo de maquinaria por medio de nuestra voz y con palabras comunes como si se estuviera hablando con un operario más dentro de la industria.

Este sistema de exploración posee ventajas sobre los otros sistemas existentes, pues en este caso el usuario no necesita más que su voz para poder realizarlo, permitiendo de esta manera ser manejado por personas físicamente discapacitadas y para nuestro caso, parapléjicas.

Por último se logro contribuir con el avance tecnológico del Ecuador, creando un prototipo acorde con los avances científicos del nuevo milenio, que además de ser tecnológicamente avanzado, está enfocado a relacionar la parte científica de la Universidad con la comunidad y su responsabilidad social.

BIBLIOGRAFÍA

J.M. Montero*, J. Gutiérrez-Arriola*, J. Colás*, J. Macías-Guarasa*, E. Enríquez**, J.M. Pardo*, “desarrollo de un sintetizador de habla en español”, Universidad Politécnica de Madrid, 2008

Hoja de especificaciones técnicas del microcontrolador RSC 300/364 de la sensoryinc 2009

Lleida, E., Rose, R.C.: "Utterance verification in continous speech recognition: decoding and training procedures" IEEE Transactions on Speech and Audio Processing, vol. 8(2), pp. 126--139, 2008.

Xuedong Huang, Alex Acero, Hsiao-Wuen Hon: "Spoken Language Processing: A Guide to Theory, Algorithm and System Development", Prentice Hall, 2009.

http://www.euskalnet.net/iosus/speech/recog.html

Ron Cole, “Aplicaciones de reconocimiento de voz”, Oregon Institute, 2007 http://www.euskalnet.net/iosus/speech/recog.html

Referencias

Documento similar

Debido al riesgo de producir malformaciones congénitas graves, en la Unión Europea se han establecido una serie de requisitos para su prescripción y dispensación con un Plan

Como medida de precaución, puesto que talidomida se encuentra en el semen, todos los pacientes varones deben usar preservativos durante el tratamiento, durante la interrupción

"No porque las dos, que vinieron de Valencia, no merecieran ese favor, pues eran entrambas de tan grande espíritu […] La razón porque no vió Coronas para ellas, sería

Abstract: This paper reviews the dialogue and controversies between the paratexts of a corpus of collections of short novels –and romances– publi- shed from 1624 to 1637:

entorno algoritmo.

Habiendo organizado un movimiento revolucionario en Valencia a principios de 1929 y persistido en las reuniones conspirativo-constitucionalistas desde entonces —cierto que a aquellas

The part I assessment is coordinated involving all MSCs and led by the RMS who prepares a draft assessment report, sends the request for information (RFI) with considerations,

Sistema para trasmitir una señal, entre unos medios de emisión de la señal y unos medios de recepción de la señal, comprendiendo los medios de emisión de la señal una agrupación