ESCUELA SUPERIOR DE INGENIERIA MECÁNICA
Y ELÉCTRICA
UNIDAD ZACATENCO
TOPICOS SELECTOS DE ACÚSTICA
“SISTEMA DE SEGURIDAD ACTIVADO POR MEDIO
DE LA VOZ HUMANA”
TESIS
QUE PARA OBTENER EL GRADO DE
INGENIERO EN COMUNICACIONES Y ELECTRÓNICA
PRESENTA
ANGUIANO BONIFACIO ADRIÁN EDUARDO
CHAVEZ SOTO HÉCTOR HUMBERTO
VASQUEZ TAPIA JORGE LUIS
DIRECTORES DE TESIS
M. EN C. MARIO JIMÉNEZ HERNÁNDEZ
D.R. PABLO LIZANA HERNANDEZ
A mi padre y a mi madre por darme la vida, por darme la oportunidad de estudiar, por confiar en mi, que sin dudar gracias a su apoyo moral, económico y sobre todo su amor he llegado a realizar uno de los anhelos mas grandes de mi vida, por eso este logro también es de ustedes, los amo.
A mis hermanas, por que ustedes fueron mi inspiración para alcanzar este sueño que he tenido desde que era un niño. Espero que al igual que yo, JESICA, encuentres un motivo para que logres tus sueños y que te sirva esta tesis como ejemplo para que algún día llegues a ser una mujer profesional y exitosa y juntos podamos ayudar a nuestra hermana DIANA. Las amo hermanas.
A la virgen de Guadalupe, por que siempre estas conmigo en los momentos difíciles y de angustia también en los grandes momentos de éxito y felicidad, sin duda este logro también es gracias a ti.
A dios, a mis padres y a mis hermano que han estado conmigo en las buenas y en las malas, a todo ese esfuerzo de toda una vida, el que puedan tener este trabajo en sus manos es el primer
eslabón de una cadena interminable de gracias por todo lo que han hecho por mi………
(Dios no manda cosas imposibles, sino que, al mandar lo que manda, te invita a hacer lo que
puedas y pedir lo que no puedas y te ayuda para que puedas.)
Jehová Dios por poner en mi camino a las personas indicadas que me han guiado hacia el camino del éxito.
A todos y cada uno de los maestros que han contribuido con sus conocimientos, enseñanzas y consejos en mi formación profesional, así como personal, a mi abuela Cristina que aunque ya no se encuentra con migo fue uno de los peldaños mas fuertes en mi educación inicial, a mi abuelo Juan por sus lecciones de vida, a mi papá José por su apoyo incondicional e infinita bondad, a mi madre Roxana por su perseverancia inagotable, su gran visión y virtuosismo que me han sacado adelante ante cualquier circunstancia, a mi hermana Norma por su comprensión y ánimos que me da cuando mas lo necesito, y a mi tía Ana y sus angelitos, ya que ellos representan lo mas valioso que tengo, a mi familia que sean ganado mi admiración y eterno agradecimiento, ya que son mi inspiración para seguir adelante en mi progreso profesional y personal.
Una mención especial a los profesores que me apoyaron en la elaboración de este trabajo: Mario Jiménez, Patricia Lorena Ramírez, Teresa Franco, Pablo Roberto Lizana y Alejandro Vivas.
A y a mis amigos, que hicieron de esta etapa de mi vida, una etapa fabulosa y divertida: Ricardo, Adrián, Héctor, Mario y Juan.
A nuestros amigos y amigas con quienes convivimos durante nuestra estancia en ESIME campus Zacatenco; por las vivencias que pasamos juntos y por estar siempre con nosotros en los momentos agradables y en los momentos difíciles además que nos brindaron parte de su conocimiento, experiencia de trabajo que sin duda ayudaron a nuestro crecimiento académico.
A nuestros profesores que nos impartieron clases en ESIME campus Zacatenco, por que sus conocimientos y enseñanzas que nos proporcionaron dentro y fuera del aula de clases nos ayudaron a complementar nuestra formación académica y profesional.
A nuestros asesores de Tesis M. EN C. MARIO JIMÉNEZ HERNÁNDEZ y al D.R. PABLO LIZANA HERNANDEZ, por la paciencia que nos tuvieron, y especialmente por los consejos, sugerencias y comentarios que nos brindaron durante la realización de este proyecto de tesis.
A Dios, por permitirnos estar aquí y darnos la oportunidad de mejorar al mundo.
i
RESUMEN
El presente trabajo de tesis muestra el diseño de un sistema de seguridad (software) para la autentificación de una persona por medio del reconocimiento de voz humana.
Se desarrolló a nivel de software el método de reconocimiento de voz, que consiste en la comparación del tono fundamental de cada una de las muestras contenidas en la base de datos del programa con el tono fundamental de las muestras de entrada. También se diseñó una interfaz gráfica de usuario (IGU), tanto como el método de reconocimiento como la interfaz grafica de usuario (IGU) se programaron en lenguaje M (Matlab).
El sistema permite autentificar la voz de entrada con la voz que se encuentra en la base de datos, por medio de la pronunciación de las cinco vocales para la comparación de estas con las muestras de la pronunciación de las mismas en la base de datos del programa.
ii
ABSTRACT
This thesis shows the design of a security system (software) to authenticate a person by recognizing human voice.
It developed the software level voice recognition method, which involves the comparison of the fundamental tone of each of the samples contained in the database of the program with the fundamental tone of the input samples. Also designed a graphical user interface (GUI) as well as the method of recognition as the graphical user interface (GUI) is programmed in M (Matlab).
The system can authenticate the input voice with the voice that is in the database, through the pronunciation of the five vowels to compare these with samples from the pronunciation of them in the database program.
iii
ÍNDICE GENERAL
Resumen. i
Abstract. ii
Índice general. iii
Índice de figuras. iv
Índice de tablas. v
Nomenclatura. vi
Introducción. 1
Objetivo. 2
Justificación. 2
Contenido. 2
Capítulo 1. Introducción teórica. 3
1.1. Biometría. 3
1.1.1. Seguridad. 4
1.2. Naturaleza de la señal sonora. 5
1.2.1. Movimiento armónico simple. 5
1.2.2. Sonido complejo. 7
1.2.3. Obtención de muestras. 8
1.2.4 Criterio de Nyquist. 8
1.3. Producción de la voz humana. Fonética articulatoria. 9
1.3.1. Fisiología y funcionalidad del aparato fonador. 9
A) Cavidades infraglóticas. 10
B) Cavidad glótica. 10
C) Cavidades supraglóticas. 11
1.4. Percepción de la voz humana. El aparato auditivo. 13
1.4.1. Fisiología del aparato auditivo. 13
A) Oído externo. 13
B) Oído medio. 13
C) Oído interno. 14
iv
1.5. Fuente de sonido. 15
1.6. Función de Auto Correlación. 17
17. Archivos WAV. 18
Capítulo 2. Diseño y desarrollo del sistema propuesto. 19
2.1. Archivo M. 20
2.1.1. Introducción y almacenamiento de la señal de audio. 21
2.1.2. Análisis, comparación y resultado de la señal de audio. 22
2.2. Archivo FIG. 27
2.3. Interfaz gráfica GUIDE. 29
2.4. Operación de la interfaz grafica 32
Capítulo 3. Resultados. 39
Conclusiones. 50
Bibliografía y Referencias. 51
Apéndice A. Código fuente del software desarrollado. 52
Apéndice B. Tablas con los resultados de 15 pruebas realizadas al sistema. 59
Apéndice C. Tarjeta de sonido. 63
v
INDICE DE FIGURAS
1.1. Movimiento vibratorio de un diapasón. 5
1.2. Movimiento armónico simple. 6
1.3. Movimiento circular uniforme. 6
1.4. Composición de un sonido complejo a partir de una suma de armónicos simples. 7
1.5. Representación esquemática del aparato fonador. 10
1.6. Corte transversal de la laringe. Movimiento del cartílago aritenoides y de los repliegues vocales (líneas continuas o discontinuas). 11
1.7. Representación esquemática de las zonas bucales. 12
1.8. Distribución de frecuencias en caracol. 14
1.9. Evolución de la señal en el proceso auditivo. 15
1.10. Sección coronal de la laringe. 16
1.11. Velocidad del volumen glotal; (a) función en el tiempo; (b) espectro de magnitud. 16
1.12. Funciones de autocorrelación de corto tiempo, y magnitud promedio diferencial para una señal de voz; (a) forma de onda en el tiempo; (b) la FAC; (c) función magnitud promedio diferencial. 17
2.1. Diagrama a bloques de la estructura del programa propuesto. 21
2.2. Proceso de introducción y almacenamiento de datos. 22
2.3. Localización del tono fundamental en la autocorrelación de una señal de voz para la vocal A. 23
2.4. Estructura de la interfaz gráfica. 28
2.5. Interfaz gráfica GUIDE. 29
2.6. Ventana abierta de MATLAB 32
2.7. Submenú del botón File. 32
2.8. Ventana de búsqueda y localización del archivo tesis1.fig. 33
2.9. Interfaz grafica. 33
2.10. Botón inicio para comenzar la ejecución del programa. 34
2.11. Mensajes de texto y sonoros que proporciona la interfaz grafica 34
2.12. Mensajes de texto y acústicos que proporciona la interfaz grafica para la identificación del usuario. 35
2.13. Resultado de la comparación del tono fundamental de cada vocal con la registrada en la base de datos. 35
vi 2.15. Graficas que muestran la forma de onda de la señal de audio para la vocal A de
una persona masculina de 22 años. 37 2.16. Graficas que muestran la autocorrelación de la señal de audio para la vocal A de
una persona masculina de 22 años. 37 2.17. Opciones de la herramienta zoom.
2.17. Sección donde se muestra el valor numérico del tono fundamental de la vocal A así como el número de la muestra donde fue localizado este valor, para una
persona masculina de 22 años. 38 3.1. Señal que describe a la vocal A para diferentes personas. Usuario A hombre de
23 años, usuario B mujer de 44 años. 39 3.2. Autocorrelación y tono fundamental para la señal que describe a la vocal A de
vii
INDICE DE TABLAS.
3.1. Pruebas para determinar el valor del tono fundamental y la muestra donde fue
localizada la vocal A del usuario original. 41
3.2. Pruebas para determinar el valor del tono fundamental y la muestra donde fue localizada para cada una de las vocales del usuario original. 42
3.3. Prueba número 11 para el usuario original. 43
3.4. Prueba número 12 para el usuario original. 43
3.5. Tono fundamental y muestra de la voz de usuario original. 44
3.6. Prueba numero uno para el usuario original. 44
3.7. Prueba numero dos para el usuario original. 44
3.8. Prueba numero tres para el usuario original. 45
3.9. Prueba numero uno para el primer usuario actual. 45
3.10. Prueba numero dos para el primer usuario actual. 45
3.11. Prueba numero tres para el primer usuario actual. 46
3.12. Prueba numero uno para el segundo usuario actual. 46
3.13. Prueba numero dos para el segundo usuario actual. 46
3.14. Prueba numero tres para el segundo usuario actual. 47
3.15. Prueba numero uno para el tercer usuario actual. 47
3.16. Prueba numero dos para el tercer usuario actual. 47
3.17. Prueba numero tres para el tercer usuario actual. 48
3.18. Prueba numero uno para el cuarto usuario actual. 48
3.19. Prueba numero dos para el cuarto usuario actual. 48
1
INTRODUCCIÓN.
Durante varios años se ha utilizado el potencial de la tecnología biométrica para proteger los datos frente a los accesos no autorizados, mediante el robo de identidad o alteración de software. También se mencionan algunas aplicaciones de la tecnología biométrica.
El robo de identidad plantea retos cada vez más complicados a personas y empresas a la hora de proteger los datos frente a un posible robo de identidad, estas preocupaciones han creado una gran industria orientada a la seguridad de datos. La forma más común de protección mediante software que encontramos es la implementación de la contraseña, la cual es vulnerable a ataques y errores humanos. Además de tener que memorizar cadenas de caracteres, la inversión que se debe de hacer por grandes corporaciones en soporte técnico por gestión de contraseñas olvidadas es altamente considerable.
2
OBJETIVO.
Diseñar un sistema de seguridad basado en el reconocimiento de voz humana, para autentificar a una persona.
JUSTIFICACIÓN.
Hoy en día las personas no presentan disgusto alguno ni desconfianza en hacer uso de sus rasgos biológicos para identificarse en vez de hacer uso de una contraseña. Puesto que al tener algunas personas por lo general tantas contraseñas que recordar en su vida cotidiana (computadora, tarjeta de crédito, etc.), les resulta a estas más fácil, rápido y cómodo hacer uso de alguna herramienta de tecnología biométrica, como por ejemplo, el solo escanear sus dedos sobre un panel. Es por ello, que en el campo de la seguridad, todo gira en torno a la gestión de identidad, haciendo uso de parámetros físicos y lógicos de cada persona, para así tener acceso a ciertos lugares, cuentas o recursos.
CONTENIDO.
3 CAPÍTULO 1. INTRODUCCIÓN TEORICA.
1.1 Biometría.
La biometría es el estudio de métodos de reconocimiento de características físicas o conductuales únicos de un ser humano. La biometría tiene uso en la informática, desarrollándose por medio de técnicas matemáticas y estadísticas sobre rasgos físicos o conductuales, con el fin de identificar a una persona en específico. Ejemplo de características podemos mencionar a las huellas dactilares, las retinas, el iris y los patrones faciales por mencionar algunas, a estas se les conoce características físicas o estáticas, mientras que entre los ejemplos de características del comportamiento se incluye la firma o el paso y el tecleo que se clasifican así por ser dinámicas. La voz se considera una mezcla de características físicas y del comportamiento. De esta clase de biometría, las tecnologías para la firma y la voz son las más desarrolladas.
Así que en este apartado se trata a la biometría haciendo referencia al campo de la tecnología dedicada a la identificación de personas mediante los rasgos biológicos. Los métodos que cuentan con algoritmos de reconocimiento comparan las características físicas o conductuales de las personas de una base de datos con una característica entrante.
En un sistema típico de biometría, la persona que se autentifica en el sistema siempre y cuando exista en tal sistema una base de datos que contenga alguna de sus características ya sea física o de conducta, para poder así compararla con su característica entrante al sistema por medio proceso de un algoritmo numérico, y de esta forma si la característica entrante concuerda con la característica contenida en la base de datos.
4 proceso de autentificación es más rápido al hacer solo una comparación de características biométricas.
1.1.1 Seguridad.
En la industria de la seguridad conocemos tres tipos diferentes para poder autenticarnos; como los son datos ya conocidos por la persona, por ejemplo una contraseña o un numero PIN, también algo que una persona posee, como los es una tarjeta de autentificación, o mejor aún, algo que posee el usuario, al que llamamos rasgo biométrico; de estos tipos ya mencionados, la comparación de un rasgo biométrico es la herramienta de autentificación mas segura y conveniente, puesto que la persona no pude olvidarlas, y es mas difícil de duplicar o falsificar, pues cada persona tiene su propia identidad biológica, distinta de los demás, los que da sentido a la dificultada de manipular o falsificar este tipo de características.
.
Para mostrar la fiabilidad de la biometría, muchas corporaciones han tomado la decisión utilizar la digitalización de huellas dactilares y rostro en los documentos de identidad, y en el gobierno por ejemplo, en las visas para identificar mejor a las personas. Mediante la identificación biométrica se evita el riesgo de olvidar una contraseña o de manipular el control de acceso a los datos.
A) En la actualidad.
5 1.2 Naturaleza de la señal sonora.
El diccionario de la Real Academia Española define el sonido como: "Sensación producida en el órgano del oído por el movimiento vibratorio de los cuerpos, transmitido por un medio elástico, como el aire". Vemos que el origen del sonido es la vibración de los cuerpos. Se dice que la vibración es periódica cuando se repite a intervalos determinados.
Si golpeáramos un diapasón produciría una vibración periódica y con forma sinusoidal. En la gráfica siguiente tenemos su representación.
Figura 1.1. Movimiento vibratorio de un diapasón.
Existen otros muchos fenómenos en la naturaleza cuyo movimiento tiene la misma forma sinusoidal (por ejemplo el movimiento ondulatorio del agua, el movimiento de un péndulo, etc.).
A continuación vamos a definir un modelo matemático que describe perfectamente el movimiento vibratorio que produce el diapasón.
1.2.1 Movimiento armónico simple.
6
Figura 1.2. Movimiento armónico simple.
El parámetro A es la amplitud de la onda, es el valor máximo que puede alcanzar. El parámetro T0 es el período, se expresa en segundos; T0es igual a la inversa de la frecuencia:
F0. La frecuencia se expresa en ciclos por segundo o hercios (Hz).
La forma de onda se puede describir, perfectamente con el siguiente modelo: partimos de un punto que se mueve de forma uniforme sobre una circunferencia a una velocidad angular de ω, en radianes por segundo. La proyección de dicho punto sobre el eje R, representa el valor de la onda a lo largo del tiempo.
Figura 1.3. Movimiento circular uniforme.
7 1.2.2 Sonido complejo.
Cualquier sonido complejo se puede formar como una suma de armónicos simples de distinta frecuencia.
Figura 1.4. Sonido complejo.
Para facilitar el análisis de un sonido genérico debemos descomponerlo en el conjunto de armónicos simples que lo forman, ya que sus intensidades y frecuencias nos informan de las características del sonido original.
Una buena parte de los sonidos producidos en el habla son cuasiperiódicos, especialmente las vocales. Por ello, para reconocerlas se descomponen en sus ondas simples que lo componen, y según sean las frecuencias de las mismas se puede distinguir entre distintas vocales.
8 1.2.3 Obtención de muestras.
Sería razonable pensar que a mayor frecuencia de muestreo obtendríamos mejor calidad en la onda capturada, concepto que resulta falso. Si aumentamos la frecuencia de muestreo se consigue capturar frecuencias más altas de la onda original, pero las frecuencias bajas se siguen capturando con la misma calidad; este aumento de frecuencia conlleva un costo: convertidores analógicos/digitales más caros, mayor necesidad de memoria, mayor tiempo de cómputo, etc. Se debe capturar muestras a más frecuencia de lo estrictamente necesario.
1.2.4 Criterio de Nyquist: el muestreo de una onda se debe realizar al menos al doble de su frecuencia máxima.
Si se muestrea por debajo, se pierde información de las frecuencias altas. Si se muestrea por encima del doble, se aumenta el coste informático sin ampliar el conjunto de frecuencias capturadas del sonido original. Por lo que debemos utilizar la frecuencia de muestreo oportuna a cada caso.
La calidad de la onda capturada depende de varios elementos: calidad del micrófono utilizado, calidad del convertidor analógico/digital y número de bits utilizados para el almacenamiento de cada muestra. A nivel informático, el parámetro que se puede modificar es el número de bits por muestra; 8 bits sería una calidad aceptable y 16 bits sería calidad de un disco compacto de música.
El ancho de banda o rango de frecuencias que puede percibir el oído humano varía habitualmente desde 20 Hz hasta 20.000 Hz. Para una captura perfecta se debe utilizar una frecuencia de muestreo superior a 40.000 Hz. El estándar de un archivo tipo WAV determina que las frecuencias posibles son 11.025 Hz, 22.050 Hz y 44. 100 Hz, con lo que si se muestrea a 44. 100 Hz se recogerán casi la totalidad de los sonidos audibles.
9 1.3Producción de la voz humana. Fonética articulatoria.
El análisis de la lengua se realiza a tres niveles:
Nivel fonológico. Se estudian las unidades lingüísticas mínimas: fonemas. El conjunto de los fonemas se establecen por oposición, es decir, si se cambia un sonido de una palabra y la palabra cambia de significado, al sonido se le considera fonema. En las palabras coco, loco y toco hemos cambiado un fonema y su significado es distinto.
Nivel morfosintáctico. Se estudian las palabras estableciendo su género, número y tiempo y las relaciones entre ellas.
Nivel semántico. Se estudia el significado de las frases y su coherencia.
Se profundizará en el nivel fonológico. Dentro de la fonética se pode distinguir la articulatoria y la acústica. La primera estudia el movimiento de los órganos fonadores para la formación y emisión del sonido. La fonética acústica se preocupa de las características de la onda sonora y su percepción.
1.3.1 Fisiología y funcionalidad del aparato fonador.
En los manuales de anatomía se habla de la voz humana como una función secundaria dentro del aparato respiratorio; nuestra necesidad de respirar es constante y vital, pero ello no quita importancia al papel jugado por el aparato respiratorio/fonador en la comunicación oral lograda por los humanos.
10
Figura 1.5. Aparato fonador.
A) Cavidades infraglóticas.
Tienen como misión proporcionar la corriente de aire espirada necesaria para producir el sonido. Están compuestas por diafragma, pulmones, bronquios y tráquea.
El diafragma es un músculo situado por debajo de los pulmones y con forma de cúpula. Su misión es controlar el despliegue e hinchado de la cavidad pulmonar o su reducción y vaciado junto con los músculos pectorales, y con ello la respiración. Cuando se contrae el diafragma se ensancha la cavidad torácica, produciéndose la inspiración de aire; al relajarse se reduce la cavidad, produciéndose la espiración del aire contenido en los pulmones.
Los bronquios y la tráquea son tubos cartilaginosos que conducen el aire entre los pulmones y la laringe. Su función en la fonación es la de simples canales de transmisión del flujo aéreo.
B) Cavidad glótica.
11 se trata de dos marcados pliegues musculosos. Cuando el aire sale de los pulmones pasa por la hendidura glótica (la glotis es el espacio triangular que queda entre las cuerdas vocales), haciéndolas vibrar. La -vibración producida que se emite puede variar en frecuencia e intensidad según varíe la masa, longitud y tensión de las cuerdas vocales.
Figura 1.6. Corte transversal de la laringe. Movimiento del cartílago aritenoides y de los repliegues vocales (líneas continuas o discontinuas).
C) Cavidades supraglóticas.
Existen cuatro cavidades: faríngea, nasal, bucal y labial. Más arriba de la laringe, lo primero que se encuentra es la faringe, de donde arranca la raíz de la lengua. Aparece el primer obstáculo móvil: la úvula; es el apéndice final del paladar blando o velo del paladar. Cuando está unida a la pared faríngea, la corriente de aire sale exclusivamente por la boca, produciendo sonidos orales. Si el velo del paladar está caído, también se expulsará aire por la cavidad nasal. La cavidad nasal carece de elementos móviles, por lo cual su función es pasiva en la producción del habla.
12 por estar engarzados en la mandíbula inferior, siendo ésta activa en la articulación. El paladar es una amplia zona que va desde los alvéolos hasta la úvula. En ella se distingue el paladar duro, situado sobre el hueso palatino, y el paladar blando o velo del paladar que acaba en la úvula.
[image:25.612.224.402.241.460.2]Finalmente tenemos los labios, elemento que posee bastante movilidad y, que por lo tanto, permite modificar los sonidos.
Figura 1.8. Zonas bucales.
Para la producción del habla se dan los siguientes elementos:
Una fuente de energía, proporcionada por el aire a presión que se expulsa en la espiración. Un órgano vibratorio: las cuerdas vocales.
Una caja de resonancia: las fosas nasales, la cavidad bucal y la faringe. Un sistema de articulación del sonido: lengua, labios, dientes y úvula.
13 frecuencia fundamental; cuando el tono es grave indica que la frecuencia es baja y cuando es agudo que la frecuencia es alta. Según como se encuentren articulados los órganos se formará una caja de resonancia distinta, la cual potenciará un conjunto de frecuencias y atenuará el resto. Aunque articulemos de forma similar los distintos fonemas, según la distancia, forma, dureza, etc. de los órganos, aparecen características especiales de cada individuo, que es el timbre. Finalmente sale al exterior la voz. Este proceso explica el conjunto de fonemas sonoros. El resto de fonemas se producen por fricciones y explosiones de aire.
1.4 PERCEPCIÓN DE LA VOZ HUMANA. EL APARATO AUDITIVO.
1.4.1 Fisiología del aparato auditivo.
El oído es un órgano cuya función es captar las ondas acústicas y transformarlas en impulsos nerviosos que el cerebro puede interpretar. Está formado por tres partes: oído externo, oído medio y oído interno.
A) Oído externo.
Está formado por el pabellón auditivo y por el conducto auditivo externo. El pabellón auditivo (conocido comúnmente como oreja) recoge las ondas sonoras y facilita su paso hacia el interior, realizando una amplificación de las mismas, y acaba en el tímpano, una membrana que le separa del oído medio; así también este conduce las ondas hacia la membrana y las amplifica, pero atenúa aquellos sonidos más agudos que podrían dañar a la cóclea.
B) Oído medio.
14 misma; cuando la intensidad es grande, se produce una disminución de la intensidad para evitar daños al oído interno.
C) Oído interno.
[image:27.612.240.386.260.371.2]Está formado por el caracol y el órgano vestibular. El caracol es el órgano de audición y su función es percibir las frecuencias de las vibraciones sonoras; las convierte en impulsos nerviosos que transmite al cerebro para su interpretación. En la figura posterior tenemos la localización de las frecuencias dentro del caracol.
Figura 1.9. Distribución de frecuencias en el caracol.
El órgano vestibular está formado por canales semicirculares que intervienen en el equilibrio del ser humano.
1.4.2 Factores psicológicos que intervienen en la percepción de los sonidos.
La percepción es la forma en que cada individuo siente los diferentes sonidos. Es una cuestión totalmente subjetiva; el oído humano es capaz de percibir un rango de frecuencias que van entre los 20 Hz a los 20.000 Hz, aunque estos límites dependen de la persona en cuestión.
15 En la siguiente figura se describen los pasos seguidos desde que el sonido penetra por el oído hasta que la información llega al cerebro.
Figura 1.10. Evolución de la señal en el proceso auditivo.
En primer lugar el sonido es amplificado, y posteriormente se equilibran los diferentes volúmenes; el sonido se transforma en su representación a través del caracol, del cual salen un conjunto de señales nerviosas que son las que van al cerebro.
1.5 Fuente de sonido.
La fuente de sonido es lo que genera la energía acústica del habla y puede ser considerado como la excitación aplicada al sistema. El sonido de excitación puede ser de dos tipos: sonoro y fricativa.
16 fundamental, con una marcada atenuación de la magnitud de alrededor de los -12 dB / octava (ver figura 1.12b). La frecuencia fundamental que comúnmente se llama el tono fundamental, mientras que los armónicos se llaman armónicos del tono fundamental.
Figura 1.11. Sección coronal de la laringe.
Figura 1.12. Velocidad del volumen glotal; (a) función en el tiempo; (b) espectro de
17 1.6 Función de Auto Correlación.
La función de auto correlación general se define como:
18 1.7 Archivos WAV.
Los sonidos WAV son archivos que contienen información sonora codificada en forma binaria, es decir, mediante ceros y unos.
EL termino WAV es conocido como formato de audio digital el cual no ha pasado por una compresión de datos como en el caso de los MP3, su nombre deriva del término en Inglés Wave que significa "onda" haciendo referencia a las ondas electromagnéticas constitutivas del sonido. Otro nombre que se les ha dado es "Wave audio format" o "formato de audio en forma de ondas" haciendo también alusión a lo recientemente mencionado.
El desarrollador del formato son Microsoft y de IBM que es el más utilizado para almacenar datos en la PC. Este tipo de formatos admite archivos mono y estéreo a diversas resoluciones y velocidades de muestreo, su extensión es .WAV.
Este formato surge de una variación del formato RIFF que en español significa formato de fichero para intercambio de recursos, el cual es muy popular en métodos para almacenar paquetes de datos.
19
CAPÍTULO 2. DISEÑO Y DESARROLLO DEL SISTEMA PROPUESTO.
El desarrollo del sistema de seguridad está diseñado a nivel software, consiste de una interfaz gráfica dedicada a la instrumentación acústica, cuenta con herramientas que nos proporcionan información sobre una señal acústica tales como autocorrelación, muestreo y tono fundamental.
Se utilizaron estas características de la señal acústica para poder diseñar un sistema de seguridad mediante reconocimiento de voz, esto basado en el tono fundamental de la persona a reconocer, que es comparado con la información de la voz del usuario almacenada en una base de datos.
El diseño de este software se llevó a cabo en MATLAB, el cual es un lenguaje de muy alto nivel diseñado para cómputo técnico. En este caso se utilizó una herramienta de MATLAB llamada GUIDE (GUI Development Environmet) la cual nos permite generar interfaces gráficas.
Una interface gráfica es el vínculo entre el usuario y un programa computacional, constituida generalmente por un conjunto de comandos o menús, instrumentos y métodos por medio de los cuales el usuario se comunica con el programa durante las operaciones que se desean realizar, facilitando la entrada y salida de datos e información.
20 La interfaz gráfica esta formada por dos archivos:
Un archivo M. Un archivo FIG.
2.1. Archivo M.
Un archivo M contiene las funciones y los controles del GUI necesarios para poder ejecutar la GUIDE.
El programa diseñado en esta tesis tiene como objetivo principal, determinar la similitudes que exista entre el tono fundamental de una señal de audio proveniente de la señal de voz del usuario almacenada en una base de datos y la señal de audio proveniente de la voz del usuario que se encuentre ejecutando el programa en ese momento. El análisis de señales debe ser casi en tiempo real y arrojar los resultados de la comparación en una interfaz gráfica. Debido a que la comparación de señales de audio provenientes de la voz, son de diferentes fuentes, para facilitar su entendimiento, se recurre a nombrar a la señal de audio proveniente de la voz del usuario que se encuentra almacenada en la base de datos como “usuario
original” y a la señal proveniente de la voz del usuario que se encuentra ejecutando el programa en ese momento como “usuario actual”.
El programa tiene que determinar si el tono fundamental del usuario actual coincide con el del usuario original, si esto sucede el programa proporciona un aviso al usuario actual indicando que su voz es la que se encuentra autorizada para ingresar al sistema, en caso contrario el programa proporciona un mensaje de error indicando que la voz no coincide. Para lograr esto el programa pide al usuario actual que pronuncie las 5 vocales en intervalos de tiempo, las cuales serán analizadas y comparadas con otras que se encuentran en una base de datos provenientes del usuario original.
21 ambas señales, además proporciona el valor numérico del tono fundamental de cada señal y el número de la muestra donde fue localizado este valor.
El programa que controla a la GUIDE se encuentra estructurado de la siguiente forma:
Figura 2.1. Diagrama a bloques de la estructura del programa propuesto
El código fuente de todo el programa se incluye en el apéndice A.
2.1.1. Introducción y almacenamiento de la señal de audio.
El programa se encarga mediante comandos de voz, de pedir al usuario que ingrese una de las 5 vocales de forma ordenada, es decir primero que ingrese la vocal A, después la vocal E y así sucesivamente. Cada vocal se grabará en un vector de MATLAB que posteriormente será utilizado para el análisis de la señal. El tiempo de grabación es de 3 segundos por vocal a 16 bits con una frecuencia de muestreo de 16Khz con formato monoestéreo.
El comando de voz que el programa emite para la introducción de las vocales es “por favor ingrese la vocal X (X indica cualquiera de las 5 vocales) después del tono”, la grabación
Introducción de la señal de audio
Almacenamiento de la señal
Análisis de la señal
Comparación de las señales
22 iniciara después de la reproducción de un tono y concluirá con la reproducción del mismo tono. La figura 2.2 muestra el proceso de introducción y almacenamiento de datos.
Figura 2.2. Proceso de introducción y almacenamiento de datos.
Previamente al programa fueron cargados los comandos de voz que se utilizan en la GUIDE y que son ejecutados por el programa cuando sean requeridos.
2.1.2. Análisis, comparación y resultado de la señal de audio.
Una vez que el programa guarda las señales de voz en vectores de MATLAB obtenidas en la etapa de introducción y almacenamiento de la señal de audio, el programa está dedicado a obtener la autocorrelación de cada señal almacenada, es decir, obtiene la autocorrelación de las 5 señales de voz del usuario actual y la 5 señales de voz del usuario original, esto para poder obtener el tono fundamental de cada señal de audio.
Puesto que el tono fundamental esta estrechamente relacionada con la frecuencia recurrimos a la autocorrelación ya que nos sirve para encontrar patrones repetitivos dentro de una señal a si como su frecuencia fundamental.
23 del programa. Estos valores fueron determinados a partir de un análisis gráfico realizado para poder encontrar la amplitud más alta de la autocorrelación y a si mismo el valor numérico del tono fundamental. La figura 3.3., muestra lo mencionado anteriormente.
Figura 2.3. Localización del tono fundamental en la autocorrelación de una señal de voz para la vocal A.
Se realiza una comparación del tono fundamental del usuario actual con la del usuario original, señal por señal, es decir, se compara este valor de la vocal A del usuario actual con el valor obtenido de la vocal A del usuario original así sucesivamente con las demás vocales. Si de esta comparación resulta que el tono fundamental coincide, el programa asignará a una variable el valor 1 y se visualizará en un display de la interfaz gráfica “A coincide”, de lo
contrario el programa asignara en una variable el valor 0 y se visualizará en un display de la interfaz gráfica “A no coincide”. Esta acción se realizara con cada una de las 5 señales de voz
para tener una mejor confiabilidad del sistema propuesto.
24 “Bienvenido al sistema ingeniero su voz ha sido reconocida” . Si el resultado es diferente a 5
25 Diagrama de flujo del programa del sistema propuesto.
INICIO
Obtención de señales de voz usuario actual
ra= señal voz usuario original A re= señal voz usuario original E ri= señal voz usuario original I ro= señal voz usuario original O ru= señal voz usuario original U
Guardar señales
v= señal de voz usuario actual A w= señal de voz usuario actual E x= señal de voz usuario actual I y= señal de voz usuario actual O z= señal de voz usuario actual U
v1= autocorrelación de v v2= autocorrelación de w v3= autocorrelación de x v4= autocorrelación de y v5= autocorrelación de z
ra1= autocorrelación de ra re1= autocorrelación de re ri1= autocorrelación de ri ro1= autocorrelación de ro ru1= autocorrelación de ru
Buscando Pitch
1
1
vumaxa= Pitch de v1 vumaxb= Pitch de v2 vumaxi= Pitch de v3 vumaxo= Pitch de v4 vumaxu= Pitch de v5
vrmax= Pitch de ra1 vrmax1= Pitch de re1 vrmax2= Pitch de ri1 vrmax3= Pitch de ro1 vrmax4= Pitch de ru1
Vumaxa=vrmax
si1= 1
s1=0
Si
No
Vumaxb=vrmax1 si2=0
si2= 1
Si
No
26
2
Vumaxi=vrmax2
Si3=1
Si3= 0 No
Si
Vumaxo=vrmax3 Si4= 0
Si4=1 Si
No
Vumaxu=vrmax4 Si5= 0
Si5=1 Si
No
3
3
suma= si1+si2+si3+si4+si5
suma=5
Bienvenido al sistema ingeniero su voz ha sido reconocida
FIN Si
Su voz no ha sido reconocida por favor inténtelo nuevamente
27
2.2. Archivo FIG.
Un archivo FIG contiene la descripción de los componentes que contiene la interface gráfica. Es aquí donde el usuario intervine para poder comunicarse con el programa.
La GUIDE diseñada cuenta con botones, gráficas y cuadros de texto que le proporcionan al usuario la información necesaria para utilizar el sistema propuesto, del mismo modo le proporcionan algunas características de las señales de voz que se estén utilizando como autocorrelación, muestreo y el tono fundamental.
Esta interfaz gráfica cuenta con comandos de voz que ayudan al usuario a manejar y entender el sistema diseñado, tales como:
Bienvenido al sistema de seguridad AVL, por favor hable fuerte y claro.
Introduzca la vocal A después del tono.
Analizando señal por favor esperé.
Bienvenido al sistema ingeniero su voz ha sido reconocida.
Su voz no ha sido reconocida por favor inténtelo nuevamente.
Gracias por utilizar sistemas de seguridad AVL.
28
Figura 2.4. Estructura de la interfaz gráfica.
La sección de área de títulos despliega mensajes del proceso que este ejecutando el
programa. En la sección de gráficas se representa la autocorrelación de forma gráfica de la
señal de voz del usuario actual y original, así como la representación gráfica de las señales ingresadas. Se pueden visualizar las representaciones gráficas de las señales de las 5 vocales.
La sección de cuadros de texto, muestra al usuario información como:
Valor numérico de Pitch.
Número de muestra donde fue localizado el pitch.
Comparación del pitch de la señal de voz del usuario actual y original.
En la sección de botones se encuentran los botones necesarios para inicializar y
terminar el programa y los botones para controlar el área de gráficas:
Botón inicio. Botón fin.
29
2.3. Interfaz gráfica GUIDE.
[image:42.612.87.542.168.532.2]La interfaz gráfica GUIDE terminada se muestra en la Figura 2.5., es así como el usuario la visualizara para poder tener comunicación con el programa.
Figura 2.5. Interfaz gráfica GUIDE.
Esta interfaz gráfica se encuentra estructurada de la siguiente manera:
Área 1.
Botón inicio. Inicia la ejecución del programa.
30
Área 2.
Botón A. Habilitación de la representación gráfica de autocorrelación y función con respecto al tiempo, así como el tono fundamental determinado de la vocal A.
Botón E. Habilitación de la representación gráfica de autocorrelación y función con respecto al tiempo, así como el tono fundamental determinado de la vocal E.
Botón I. Habilitación de la representación gráfica de autocorrelación y función con respecto al tiempo, así como el tono fundamental determinado de la vocal I.
Botón O. Habilitación de la representación gráfica de autocorrelación y función con respecto al tiempo, así como el tono fundamental determinado de la vocal O.
Botón U. Habilitación de la representación gráfica de autocorrelación y función con respecto al tiempo, así como el tono fundamental determinado de la vocal U.
Área 3.
Gráfica. Muestra la representación gráfica de la forma de onda de la vocal determinada por alguno de los botones del área 2 de la señal de voz del usuario actual.
Área 4.
Gráfica. Muestra la representación gráfica de autocorrelación de la vocal determinada por alguno de los botones del área 2 de la señal de voz del usuario actual.
Área 5.
Gráfica. Muestra la representación gráfica de la forma de onda de la vocal determinada por alguno de los botones del área 2 de la señal de voz del usuario original.
Área 6.
31
Área 7.
Muestra si la señal de voz del usuario actual de la vocal X (X corresponde a la vocal A, E, I O ò U) coincide con la que se encuentra almacenada en la base de datos, si esto sucede se visualizará en el cuadro de texto “X coincide”, en caso contrario se visualizara en el cuadro de
texto “X no coincide”. En el área 7 se observan 5 cuadros de texto, cada cuadro corresponde a
una de las 5 vocales donde se mostrará el resultado anteriormente mencionado.
Área 8.
Los cuadros de texto del área 8 muestran el tono fundamental promedio de las 5 vocales y el número de muestra donde fue localizado este valor, para la señal de voz del usuario actual y original.
Área 9.
Los cuadros de texto del área 9 muestran el tono fundamental de cada una de la 5 vocales y el número de muestra donde fue localizado este valor, determinado por alguno de los botones del área 2.
32
2.4. Operación de la interfaz gráfica
Es importante recordar que el programa propuesto en esta tesis solo puede ser ejecutado en una computadora que cuente con MATLAB instalado, ya que la estructura de la interfaz gráfica se encuentra diseñado en este programa.
Para poder comenzar con la ejecución del programa es necesario abrir una ventana de MATLAB, una vez abierta buscar y abrir el archivo llamado tesis1.fig desde la ventana
[image:45.612.164.464.241.454.2]abierta, utilizando el menú que se encuentra en la parte superior de la ventana de MATLAB. En la Figura 2.6., se muestra la ventana de MATLAB así como los menús que la compone.
Figura 2.6. Ventana abierta de MATLAB.
Después de dar clic en el botón File aparecerá un nuevo submenú, donde se buscara y
dará clic en el botón open como lo muestra la figura 2.7.
[image:45.612.240.394.520.683.2]33 Una vez que se halla dado clic en el botón Open aparecerá una nueva ventana, la cual
es una ventana de búsqueda y nos sirve para explorar todos los archivos que se encuentren almacenados en la PC, ahí se buscara el archivo tesis1.fig según la dirección donde esté
[image:46.612.179.474.440.684.2]guardado este archivo. La Figura 2.8. Muestra la ventana de búsqueda y localización del archivo.
Figura 2.8. Ventana de búsqueda y localización del archivo tesis1.fig.
Después de localizar el archivo dar clic en el botón abrir de la ventana de búsqueda
para poder abrir la interfaz gráfica. La figura 2.9 muestra la interfaz gráfica diseñada.
34 Para comenzar la ejecución de la interfaz gráfica es necesario dar clic en el botón inicio como se muestra en la Figura 2.10.
Figura 2.10. Botón inicio para comenzar la ejecución del programa.
Una vez que el programa haya comenzado a ejecutarse, la interfaz gráfica comenzará a solicitar la información requerida por el programa para la autentificación del usuario mediante mensajes sonoros (comandos de voz emitidos por los altavoces de la PC) y mensajes de texto que serán visualizados en un display propio de la interfaz gráfica. La Figura 2.11 muestra lo anteriormente mencionado.
[image:47.612.102.552.383.666.2]35 El usuario tendrá que seguir las instrucciones que el programa este indicando para un correcto funcionamiento del programa.
Cuando el programa indique “Por favor introduzca la vocal A después del tono” el usuario después de escuchar un tono tendrá que pronunciar la vocal A por un tiempo de 3 segundos hasta que el programa indique el fin de la grabación con la reproducción del mismo tono, este proceso tendrá que ser repetido por cada una de las vocales.
Al termino de las 5 grabaciones, el programa comenzara a analizar y comparar las señales y casi de forma inmediata proporcionará al usuario, los resultaos obtenidos. El programa mediante la interfaz gráfica indicara si la voz del usuario que se encuentra ejecutando el programa en ese momento coincide con la registrada en la base de datos, mediante un mensaje sonoro y de texto. La Figura 2.12 muestra los mensajes proporcionados por la interfaz.
Figura 2.12. Mensajes de texto y acústicos que proporciona la interfaz gráfica para la identificación del usuario.
La interfaz gráfica cuenta con un apartado donde mostrara el resultado de la comparación de las 5 vocales, indicando cual vocal fue aceptada por el programa y cual no. La Figura 2.13 muestra esta área.
[image:48.612.269.351.531.661.2]36 Una vez hecha la identificación de la voz, independientemente si la voz coincide o no con la que se encuentra en la base de datos, el usuario podrá utilizar las herramientas que la interfaz proporciona para obtener algunas de las características de las señales de audio guardadas, como la forma de onda, autocorrelación o el valor numérico del tono fundamental.
Para poder obtener las características de las señales de audio guardadas, el programa cuenta con un apartado de botones de selección de vocal, los cuales habilitaran las características de la señales de audio con las que cuenta la GUIDE según para cada vocal, es decir, hay 5 botones cada uno con su respectivo nombre, en este caso tendrán el símbolo de la vocal que habilitaran, cuando se haga clic en el botón A, habilitara las características de la señales de audio grabadas de la vocal A (mostrara las características de la señales tanto del usuario actual como del usuario original), y así con cada uno de las vocales de acuerdo a su respectivo botón, por lo que el usuario que este ejecutando el programa tendrá que hacer clic en el botón de la vocal que desee obtener sus características. En la Figura 2.14 se muestra el apartado de botones de selección de vocal.
Figura 2.14. Apartado de botones de selección de vocal.
Las características de las señales de audio que se muestran son:
Forma de onda de las señales de audio grabadas. En este apartado el usuario podrá
amplificar la imagen con zoom, pudiendo observar de forma detallada el comportamiento que esta tenga.
37
Autocorrelación de las señales de audio grabadas. En este apartado el usuario podrá amplificar la imagen con zoom, pudiendo observar de forma detallada el comportamiento que esta tenga.
Figura 2.16. Gráficas que muestran la autocorrelación de la señal de audio para la vocal A de una persona masculina de 22 años.
La herramienta de zoom con la que cuentan cada una de las gráficas puede aplicarse de forma horizontal, vertical o ambas, para poder activar esto solo hay que posicionarse en cualquiera de las gráficas con el mouse y dar clic derecho, seguido de esto aparecerá un menú en el cual habrá un apartado con el nombre de zoom options, dentro de ese apartado hay un submenú en el cual están las herramientas de zoom horizontal vertical o ambas. En la Figura 2.17 se observa lo anteriormente explicado.
38
[image:51.612.255.386.150.268.2]Tono fundamental de las señales de audio grabadas. En este apartado se muestra el valor numérico del tono fundamental de cada vocal (dependiendo del botón de selección de vocal) así como el número de la muestra donde fue localizado este valor.
Figura 2.17. Sección donde se muestra el valor numérico del tono fundamental de la vocal A así como el número de la muestra donde fue localizado este valor, para una persona
masculina de 22 años.
En la figura 2.17 se observa que el valor numérico del tono fundamental de la vocal A es 0.943576 y fue localizado en la muestra 150 para el usuario actual, de igual forma se observa que el valor numérico del tono fundamental del usuario original es de 0.884056 y fue localizado en la muestra 149.
39
CAPITULO 3. RESULTADOS.
Es evidente que una señal acústica producida por las cuerdas bucales de diferentes personas nunca va a ser la misma aunque estas repitan la misma palabra con la misma intensidad, esto es debido a que estas señales están compuestas por una suma de armónicos simples de distinta frecuencia; a esto se le denomina sonido complejo.
Sin embargo una buena parte de los sonidos producidos son cuasiperiódicos especialmente las vocales, es decir, a pesar de que no son ondas periódicas repiten una y otra vez condiciones arbitrariamente cercanas a una posición ya sucedida.
[image:52.612.179.444.410.676.2]Las vocales, a pesar de que sean pronunciadas por diferentes personas van a presentar esta característica, provocando que tengan una forma de onda parecida, sin embargo esto no significa que el sonido de la vocal proveniente de diferentes fuentes sea igual o tenga las mismas características es decir cada persona tendrá su propia frecuencia fundamental a si como su tono. La figura 3.1 muestra la señal que describe a la vocal A de dos personas distintas, donde se observa el comportamiento anteriormente mencionado.
Figura 3.1. Señal que describe a la vocal A para diferentes personas. Usuario A hombre de 23
40 En la figura 3.1 se observa que se repite cierto comportamiento de las señales de forma periódica. Las señales en primera instancia podrían parecer que provienen de la misma fuente por lo que es difícil determinar cual pertenece a cada persona.
[image:53.612.147.477.239.476.2]Sin embargo mediante la autocorrelación podemos determinar cual señal pertenece a cada persona localizando el tono fundamental de cada señal. En la figura 3.2 se observa la localización de este valor para cada señal.
Figura 3.2. Autocorrelación y tono fundamental para la señal que describe a la vocal A de diferentes personas. Usuario A hombre de 23 años, usuario B mujer de 44 años
En la figura 3.2. Se observa claramente que el tono fundamental no es el mismo para cada señal por lo que nos permite identificar que señal pertenece a cada persona. Esto sucede con cada una de las vocales.
41 Estas ligeras variaciones provocan que el tono fundamental se modifique de valor o que se desplace de una muestra a otra su localización. Debido a esto se realizaron pruebas al sistema propuesto en esta tesis para poder calibrar y tener una mejor precisión y así mismo que el sistema sea confiable para cualquier usuario que desee usarlo.
[image:54.612.76.555.449.687.2]Después de 10 pruebas realizadas al sistema, se observo que el tono fundamental del usuario original para la vocal A varía aproximadamente de 0.80653 a 0.98325 lo que da una diferencia de .17672, para poder aproximar este valor al que se tiene registrado en la base de datos que es de .925145 se dió una tolerancia de 0.05 para el valor del tono fundamental en la grabación de las vocales del usuario actual para que el programa pudiera determinar si el valor del tono fundamental coincide con el registrado en la base de datos. De igual forma se observó que la localización de este valor, varía de la muestra 146 a 166 por lo que se limitó al programa a localizarlo en las muestras 100 y 180 para tener un mayor rango. La tabla 3.1 muestra las pruebas realizadas para determinar lo anteriormente explicado.
Tabla 3.1. Pruebas para determinar el valor del tono fundamental y la muestra donde fue localizada la vocal A del usuario original.
Prueba Muestra m (Usuario original)
Amplitud del tono fundamental (Usuario
original)
Muestra m (Base de datos)
Amplitud del tono fundamental (Base de
datos)
1 149 0.835145 161 0.884056
2 152 0.870432 161 0.884056
3 146 0.831491 161 0.884056
4 163 0.895795 161 0.884056
5 166 0.895101 161 0.884056
6 161 0.983258 161 0.884056
7 159 0.910416 161 0.884056
8 148 0.806537 161 0.884056
9 156 0.865711 161 0.884056
42 Se determinó la misma tolerancia para cada una de las vocales puesto que mantienen el mismo comportamiento que la vocal A. La tabla 3.2 muestra las pruebas para cada una de las vocales.
Tabla 3.2. Pruebas para determinar el valor del tono fundamental y la muestra donde fue localizada para cada una de las vocales del usuario original
El sistema es vulnerable a cualquier cambio de tonalidad de la voz del usuario, es decir el sistema no reconoce al usuario original si este cambia la tonalidad de su voz (más grave o más agudo), por lo que se obliga a utilizar el mismo tono de voz con el que se hallan hecho las grabaciones almacenadas en la base de datos para que el sistema pueda reconocerlo.
Después de haber hecho 10 pruebas seguidas para la identificación del usuario original se notó que el sistema en ocasiones no reconocía alguna de las vocales del usuario original,
Prueba Vocal Amplitud del tono fundamental (Usuario
original)
Muestra m (Usuario original)
1 A 0.86197 167
2 A 0.894448 151
3 A 0.87734 153
1 E 0.885089 166
2 E 0.96524 154
3 E 0.983858 155
1 I 0.95876 159
2 I 0.970657 151
3 I 0.966021 146
1 O 0.921346 159
2 O 0.991265 154
3 O 0.975621 150
1 U 0.931518 148
2 U 0.973531 142
43 debido al cansancio de las cuerdas bucales, quedando claro que para que el sistema pueda reconocer su voz, el usuario original necesita estar relajado y con la garganta descansada.
Tabla 3.3. Prueba número 11 para el usuario original
Vocal Amplitud del tono fundamental (Usuario
original)
Muestra (Usuario original)
Estado
A 0.837447 155 Aprobado
E 0.893142 157 Rechazado
I 0.942405 146 Aprobado
O 0.976706 154 Aprobado
U 0.977945 143 Aprobado
Tabla 3.4. Prueba número 12 para el usuario original
Vocal Amplitud del tono fundamental (Usuario
original)
Muestra (Usuario original)
Estado
A 0.944256 153 Rechazado
E 0.93905 152 Aprobado
I 0.970915 146 Aprobado
O 0.970797 148 Aprobado
U 0.98302 141 Aprobado
Se comprobó que el sistema propuesto cuenta con un 80% de precisión en el reconocimiento de la voz del usuario original, cuando el usuario se encuentra relajado y con la garganta descansada, ya que se realizaron 15 pruebas seguidas al sistema de las cuales 12 fueron respuestas positivas y 3 negativas. Las tablas que contienen los resultados de las 15 pruebas realizadas al sistema se encuentran en el apéndice B.
44 Características de la voz de usuario original.
Tabla 3.5. Tono fundamental y muestra de la voz de usuario original.
Vocal Amplitud del tono fundamental (Usuario
original)
Muestra (Usuario original)
A 0.884056 149
E 0.950011 159
I 0.944414 157
O 0.95616 140
U 0.992259 138
Primer usuario, hombre de 22 años (usuario original).
Prueba 1.
Tabla 3.6. Prueba número uno para el usuario original.
Vocal Amplitud del tono fundamental (Usuario
original)
Muestra (Usuario original)
Estado
A 0.916291 151 Aprobado
E 0.910413 150 Aprobado
I 0.932246 146 Aprobado
O 0.957858 147 Aprobado
U 0.985136 137 Aprobado
Prueba 2.
Tabla 3.7. Prueba número dos para el usuario original.
Vocal Amplitud del tono fundamental (Usuario
original)
Muestra (Usuario original)
Estado
A 0.857486 146 Aprobado
E 0.929909 144 Aprobado
I 0.915299 143 Aprobado
O 0.978033 145 Aprobado
45 Prueba 3.
Tabla 3.8. Prueba número tres para el usuario original.
Vocal Amplitud del tono fundamental (Usuario
original)
Muestra (Usuario original)
Estado
A 0.883708 157 Aprobado
E 0.950861 156 Aprobado
I 0.960026 146 Aprobado
O 0.911961 153 Aprobado
U 0.956744 141 Aprobado
Segundo usuario, mujer de 44 años.
Prueba 1.
Tabla 3.9. Prueba número uno para el primer usuario actual.
Vocal Amplitud del tono fundamental (Usuario actual)
Muestra (Usuario actual)
Estado
A 0.823007 153 Rechazado
E 0.890743 156 Rechazado
I 0.976285 147 Aprobado
O 0.853292 152 Aprobado
U 0.978568 149 Aprobado
Prueba 2.
Tabla 3.10. Prueba número dos para el primer usuario actual.
Vocal Amplitud del tono fundamental (Usuario actual)
Muestra (Usuario actual)
Estado
A 0.79882 160 Rechazado
E 0.937077 156 Aprobado
I 0.973173 150 Aprobado
O 0.957796 154 Aprobado
46 Prueba 3.
Tabla 3.11. Prueba número tres para el primer usuario actual.
Vocal Amplitud del tono fundamental (Usuario actual)
Muestra (Usuario actual)
Estado
A 0.827909 154 Rechazado
E 0.928789 152 Aprobado
I 0.976254 149 Aprobado
O 0.892286 153 rechazado
U 0.978329 151 Aprobado
Tercer usuario, mujer de 12 años.
Prueba 1.
Tabla 3.12. Prueba número uno para el segundo usuario actual.
Vocal Amplitud del tono fundamental (Usuario actual)
Muestra (Usuario actual)
Estado
A 0.911593 121 Aprobado
E 0.834609 119 Rechazado
I 0.964453 115 Aprobado
O 0.904725 129 Aprobado
U 0.943796 117 Rechazado
Prueba 2.
Tabla 3.13. Prueba número dos para el segundo usuario actual.
Vocal Amplitud del tono fundamental (Usuario actual)
Muestra (Usuario actual)
Estado
A 0.893406 122 Aprobado
E 0.882924 126 Rechazado
I 0.935864 119 Aprobado
O 0.944265 124 Aprobado
47 Prueba 3.
Tabla 3.14. Prueba número tres para el segundo usuario actual.
Vocal Amplitud del tono fundamental (Usuario actual)
Muestra (Usuario actual)
Estado
A 0.910853 117 Aprobado
E 0.936722 119 Aprobado
I 0.934834 117 Aprobado
O 0.820546 119 Rechazado
U 0.962042 110 Aprobado
Cuarto usuario, hombre de 23 años.
Prueba 1.
Tabla 3.15. Prueba número uno para el tercer usuario actual.
Vocal Amplitud del tono fundamental (Usuario actual)
Muestra (Usuario actual)
Estado
A 0.5034 121 Rechazado.
E 0.796912 119 Rechazado.
I 0.841249 104 Rechazado.
O 0.853879 116 Rechazado.
U 0.897102 100 Rechazado.
[image:60.612.155.470.372.507.2]Prueba 2.
Tabla 3.16. Prueba número dos para el tercer usuario actual.
Vocal Amplitud del tono fundamental (Usuario actual)
Muestra (Usuario actual)
Estado
A 0.807564 115 Rechazado
E 0.644779 115 Rechazado
I 0.80737 100 Rechazado
O .891584 111 Aprobado