Algoritmo para la cuantificación de la hipernasalidad en niños con Labio paladar hendido

Texto completo

(1)Universidad Central “Marta Abreu” de Las Villas Facultad de Ingeniería Eléctrica Departamento de Telecomunicaciones y Electrónica. TRABAJO DE DIPLOMA Algoritmo para la cuantificación de la hipernasalidad en niños con Labio Paladar Hendido. Autor: Rosana Mustelier Bernal Tutora: Dra. María E. Hernández – Díaz Huici. Santa Clara. 2004-2005 "Año de la Alternativa Bolivariana para las Américas”.

(2) Universidad Central “Marta Abreu” De Las Villas Facultad de Ingeniería Eléctrica Departamento de Telecomunicaciones y Electrónica. TRABAJO DE DIPLOMA. Algoritmo para la cuantificación de la hipernasalidad en niños con Labio Paladar Hendido Autor: Rosana Mustelier Bernal E-mail: [email protected]. Tutora: Dra. María E. Hernández – Díaz Huici Prof. Asistente, CEETI Facultad de Ing. Eléctrica. UCLV. E-mail: [email protected]. Santa Clara 2004-2005 "Año de la Alternativa Bolivariana para las Américas".

(3) Hago constar que el presente trabajo fue realizado en la Universidad Central “Marta Abreu” de las Villas como parte de la culminación de los estudios de la especialidad de Telecomunicaciones y Electrónica autorizando a que el mismo sea utilizado por la institución, para los fines que estime conveniente, tanto de forma parcial como total y que además no podrá ser presentado en eventos, ni publicado sin autorización de la Universidad. ________________ Firma del Autor. Los abajo firmantes, certificamos que el presente trabajo ha sido realizado según acuerdo de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de esta envergadura referido a la temática señalada.. ________________ Firma del Tutor. _______________________ Firma del Jefe de Dpto. donde se defiende el trabajo. ____________________ Firma del Responsable de Información Científico- Técnica.

(4) PENSAMIENTO.

(5) Pensamiento. ... La vida es muy peligrosa. No por las personas que hacen mal, sino por las que se sientan a ver lo que pasa.... Albert Einstein (1879 -1955) Físico Alemán. I.

(6) DEDICATORIA.

(7) Dedicatoria. A mis padres, darle gracias por la vida, en especial a mi mamá que ha sido madre, amiga, dedicación, ternura, comprensión, ejemplo y apoyo incondicional a lo largo de todos estos años.. A mi hermana, por compartir todos sus sueños conmigo y regalarme su confianza.. A mis abuelos, por su ayuda brindada, y sobre todo por existir.. A mi esposo, por ser tan especial, por creer en mí, por permitirme flotar, por apoyarme en cada paso que voy dando en la vida y por sobre todas las cosas hacerme tan feliz. A mi otra hermanita (Yinet), por los tan especiales momentos que compartimos. A todos los que de una manera u otra han permitido que me sienta realizada brindándome su apoyo y cariño a lo largo de estos años.. II.

(8) AGRADECIMIENTOS.

(9) Agradecimientos. Un sincero agradecimiento a Carlos Ferrer, por el tiempo dedicado y por su ayuda brindada incondicionalmente.. A mi tutora, por brindarme la grandiosa posibilidad de trabajar en este proyecto.. Un profundo agradecimiento a Ailén y Yenisey, por todo el tiempo que me han dedicado, por ser excelentes amigas.. No puedo olvidar a los compañeros y amigos, con los cuales dejo buenos momentos de mi vida.. Y no podría dejar de agradecer el apoyo incondicional de mi mamá y la comprensión, amor, confianza y dedicación de mi esposo.. A todos los que me han ayudado a materializar este mi gran sueño.. Y a los que de una forma u otra me han enseñado que la dedicación y el esfuerzo construyen escalones para seguir adelante.. III.

(10) RESUMEN.

(11) Resumen RESUMEN La cuantificación de la hipernasalidad es un parámetro relevante poco estudiado, basado en las evaluaciones subjetivas de los especialistas en la mayoría de los casos. Se presenta aquí un estudio acústico y computacional sobre la cuantificación de la hipernasalidad, recurriendo a diferentes análisis acústicos realizados a muestras de voz de un grupo de 38 pacientes, conformados tanto por niños sanos como por niños con LPH corregido. Los análisis se llevaron a cabo a través de programas implementados en MATLAB, que examinan la frecuencia fundamental y la amplitud espectral a partir de registros de la vocal [i] extraída del contexto de una palabra. Se ofrecen los resultados para cada uno de los análisis, mediante correlaciones establecidas entre los algoritmos planteados y las evaluaciones subjetivas. De acuerdo con los resultados obtenidos se extraen conclusiones útiles para la práctica clínica.. IV.

(12) ÍNDICE.

(13) Índice INTRODUCCION.................................................................................................................1 Situación del problema...................................................................................................................................2 Objetivo general .............................................................................................................................................2 Objetivos específicos .....................................................................................................................................2 Estructura del trabajo .....................................................................................................................................4. METOLOGIA DE LA INVESTIGACIÓN...............................................................................6 CAPITULO 1 HIPERNASALIDAD EN NIÑOS CON LABIO PALADAR HENDIDO .............7 1.1 Mecanismo de producción de la voz. Introducción a los trastornos del lenguaje....................................7 1.1.1 Mecanismo de producción de la voz ................................................................................................7 1.1.2 Introducción a los trastornos del lenguaje .........................................................................................8 1.2 Disglosias .................................................................................................................................................9 1.2.1 Labio Paladar Hendido (LPH).........................................................................................................10 1.2.1.1 ¿Tienen problemas del habla los niños con paladar hendido?.................................................11 1.3 Hipernasalidad........................................................................................................................................14 1.4 Necesidad de cuantificar la hipernasalidad en niños con LPH...............................................................15 1.5 Medios para cuantificar la hipernasalidad en niños con LPH ..............................................................16 1.5.1 Reseña histórica...............................................................................................................................16 1.6 Conclusiones parciales ...........................................................................................................................21. CAPITULO 2 MATERIALES Y METODOS ......................................................................22 2.1 Base de datos de las señales a procesar .................................................................................................22 2.2 Extracción de una vocal de alguna palabra de la base de datos..............................................................24 2.2.1 Conversión estéreo/mono de las señales de voz..............................................................................24 2.3 Búsqueda de características espectrales que evidencien una buena correlación con la hipernasalidad percibida.......................................................................................................................................................25 2.3.1 Frecuencia fundamental ..................................................................................................................26 2.3.2 Amplitud espectral ..........................................................................................................................27 2.3.2.1 Análisis de la amplitud de la señal en frecuencias espaciadas 1/3 de octava en el espectro (1, 1.6 y 2.5 kHz).......................................................................................................................................28 2.3.2.2 Análisis de las amplitudes de la señal en bandas significativas del espectro ...........................31 2.4 Método de Regresión Lineal ..................................................................................................................33 2.5 Conclusiones parciales ...........................................................................................................................34. CAPITULO 3 RESULTADOS ............................................................................................35 3.1 Análisis de los resultados .......................................................................................................................35 3.1.1 Frecuencia fundamental ..................................................................................................................35 3.1.2 Amplitud espectral ..........................................................................................................................37 3.1.2.1 Análisis de la amplitud de la señal en frecuencias espaciadas a 1/3 de octava del espectro (1, 1.6 y 2.5 kHz).......................................................................................................................................37.

(14) Índice 3.1.2.2 Análisis entre las amplitudes de la señal en bandas significativas del espectro .......................40 3.2 Validación de los resultados a través del Método de Regresión Lineal Múltiple...................................42 3.3 Conclusiones parciales ...........................................................................................................................44. CONCLUSIONES Y RECOMENDACIONES ....................................................................45 REFERENCIAS BIBLIOGRAFICAS ..................................................................................46 ANEXO 1 Código fuente para calcular la frecuencia fundamental media (FOm)..............48 ANEXO 2 Código fuente para calcular la amplitud normalizada en frecuencias puntuales ...........................................................................................................................................49 ANEXO 3 Ficheros y Subrutinas utilizadas .......................................................................50 GLOSARIO DE TERMINOS..............................................................................................51.

(15) INTRODUCCION.

(16) Introducción. INTRODUCCION El lenguaje es una de las conductas primarias que separa a los humanos de las especies animales, siendo el gran instrumento de humanización. Es una habilidad de gran significado en las oportunidades de éxito del niño en la escuela. Además de ser el vehículo para la adquisición de un nuevo conocimiento, el lenguaje es, sobre todo, la expresión en su máximo esplendor del pensamiento. Desafortunadamente se encuentran niños con trastornos del habla desde muy temprana edad, lo que les imposibilita su inclusión plena en la sociedad. Los trastornos del habla son manifestados a través de dificultades en la producción de los sonidos requeridos para hablar o problemas con la calidad de la voz. Estos se pueden caracterizar por una interrupción en el flujo o ritmo del habla, además de incluir dificultades con el tono, volumen, calidad de la voz o existir una combinación de varios problemas. El estudio que se abordará en este trabajo está referido, en gran medida, a un trastorno del habla: la hipernasalidad percibida en niños, causada por el impedimento que constituye el Labio Paladar Hendido (LPH), patología que aparece durante los primeros tres meses de embarazo. Cuando no logran formarse en el feto las estructuras que unen el labio superior o el paladar, se produce una hendidura en el área afectada, que además de limitar su funcionalidad, afecta su estética, no contando estos niños con la capacidad de crear la presión de aire necesaria en la boca, porque gran parte del mismo se escapa por la nariz. Este trabajo da continuidad a investigaciones relacionadas con el tema, por el Laboratorio de Procesamiento de Voz del CEETI, con el fin de crear algoritmos que sustenten una medida cuantificada de la hipernasalidad, no sólo desde el punto de vista de las habilidades perceptivas de los especialistas, sino que nos brinden una vía objetiva para así poder diagnosticar el tipo e intervalo de las terapias, los que dependerán del estado del niño; reconociendo incluso un grado de hipernasalidad que en ocasiones no es detectada por especialistas acostumbrados a trabajar con este tipo de patología. En estos momentos, en Cuba (como en muchos otros lugares a nivel internacional) estos pacientes son operados y luego rehabilitados, no obstante no se cuenta con un mecanismo para cuantificar la evolución del paciente una vez iniciada la rehabilitación. Por lo que nuestro reto es encontrar la manera de cuantificar de modo objetivo la evolución del. 1.

(17) Introducción paciente bajo rehabilitación, hasta el punto de lograr que las terapias sean evaluadas sistemáticamente, dándoles seguridad, confianza y fortaleciendo la autoestima que suele estar dañada en estos niños porque son objetos de burla por la forma en que hablan; con la ventaja fundamental de que, a partir de este momento, se contará con una herramienta integrada de muy bajo costo para estos propósitos. Situación del problema Las pruebas que en el momento se están haciendo a la hora de diagnosticar el grado de hipernasalidad en niños con LPH, son de forma aproximada, (de una manera subjetiva) pues no se cuenta con el equipamiento necesario para esta aplicación. Estas pruebas dependen en gran medida de las valoraciones subjetivas de los especialistas, quienes en estos casos se comportan como oyentes. Debido a que estos especialistas son personas habituadas a tratar este tipo de padecimientos, se acostumbran con el tiempo, a entender en gran medida a sus pacientes, los cuales en realidad siguen sintiéndose limitados en la sociedad por problemas en el habla, por lo que en ocasiones sus diagnósticos pueden estar catalogados como insatisfactorios. ¿Cómo lograr, a través de la aplicación de un algoritmo elaborado, obtener de una manera cuantitativa un índice de hipernasalidad que brinde una medida de la inteligibilidad real del habla? Para dar respuesta a esta interrogante, en este trabajo se ha propuesto el cumplimiento de los siguientes objetivos: Objetivo general Crear un algoritmo que permita detectar con efectividad y de manera cuantificada la hipernasalidad en niños con LPH, sobre la base de MATLAB y validándolo con bases de datos referentes al tema, obteniendo resultados, que al correlacionarlos con las evaluaciones subjetivas de los especialistas, aumente el grado de confiabilidad de las evaluaciones. Objetivos específicos •. Explicar las causas del por qué se hace necesaria la cuantificación de la hipernasalidad en niños con LPH, así como realizar una amplia búsqueda de información sobre las pruebas que actualmente se realizan a la hora de diagnosticar dicha patología.. 2.

(18) Introducción •. Expresar de forma detallada el diseño metodológico de la investigación y los algoritmos propuestos.. •. Desarrollar un Software que permita procesar de forma digital una base de datos existente, con el objetivo de obtener resultados para su posterior análisis e interpretación.. •. Evaluar la metodología y los algoritmos desarrollados para medir su eficacia, en términos de poder cuantificar la hipernasalidad percibida en niños de una forma eficiente.. A fin de dar un correcto cumplimiento a los objetivos propuestos para este trabajo, se han planteado un grupo de tareas técnicas y de investigación, las cuáles se enumeran a continuación: 1. Búsqueda bibliográfica y estudio de trabajos relacionados con el tema. 2. Creación de un algoritmo en bloque para llevar a cabo la solución del problema. 3. Adquirir habilidades con el MATLAB. 4. Seleccionar algoritmos a programar según las necesidades. 5. Procesamiento de una base de datos para validar los algoritmos. 6. Escritura del informe del trabajo de diploma. Con este proyecto se pretende crear algoritmos que permitan la evaluación de voces patológicas, brindando resultados a las demandas de software para la rehabilitación de niños con LPH que presentan problemas de hipernasalidad (lo que trae consigo falta de inteligibilidad en el habla), con soluciones económicamente factibles. Con el objetivo final de que en estudios posteriores se logre llegar a determinar cual debe ser la terapia utilizada en la rehabilitación, obteniendo con el uso de este proyecto una mayor eficiencia y mejores prestaciones a la hora de ofrecer el servicio médico que merece nuestra población. Además se espera introducir el procesamiento digital como los resultados finales. Los resultados esperados servirán como guía para estudios y trabajos posteriores que permiten tener una mejor comprensión de esta patología. Con la ejecución de este proyecto se dará solución a una problemática que existe actualmente, vinculada a una pobre cuantificación de la hipernasalidad en niños con LPH. Este proyecto permitirá arribar a resultados, en ocasiones, de mayor exactitud que los obtenidos por los especialistas, brindando una solución factible y a muy bajo costo de. 3.

(19) Introducción implementación. Además con el desarrollo de este proyecto se contribuye a mejorar la calidad de vida de la población, lo cual es de mera importancia en nuestro país. Los resultados de la investigación poseen una aplicación práctica y teórica de gran trascendencia para todos los especialistas, investigadores y diseñadores de algoritmos para la rehabilitación de pacientes con trastornos del habla, principalmente para aquellos que traten niños con LPH. Además este proyecto puede servir de apoyo al programa 70 de la Revolución el cual busca propiciar una atención diferenciada a aquellas personas con discapacidades para facilitar su inclusión en la sociedad. Estructura del trabajo El informe de la investigación se estructurará en introducción, capitulario, conclusiones, referencias bibliográficas y anexos. INTRODUCCION En la introducción se dejará definida la importancia, actualidad y necesidad del tema que se aborda y se dejarán explícitos los elementos del diseño teórico. CAPITULO I Se dedicará a explicar las causas del por qué se hace necesaria la cuantificación de la hipernasalidad en niños con LPH, así como realizar un estudio comparativo de los procedimientos que se realizan en la actualidad. De esta forma, se puede establecer un criterio de comparación entre éstos últimos y los que se elaborarán en este trabajo, mediante la creación de algoritmos. CAPITULO II Se utilizará para expresar de forma detallada el diseño metodológico de la investigación y los algoritmos propuestos, así como los materiales a utilizar, donde unidos permitan diseñar un Software eficiente, con el cual procesar de forma digital, utilizando MATLAB, una base de datos elaborada. CAPITULO III Se dedicará a analizar los resultados obtenidos a partir de los análisis espectrales realizados, con ayuda de una base de datos seleccionada, teniendo como objetivo final cuantificar la hipernasalidad para su posterior análisis e interpretación. Al final de este Capítulo quedará un algoritmo propuesto capaz de detectar la nasalidad y aportar un indice 4.

(20) Introducción de su severidad, demostrándose la eficacia de la metodología seguida y la validación del algoritmo creado.. Los anexos contienen información complementaria, que sirven de base en la profundización de diferentes temáticas tratadas en el informe.. 5.

(21) Metodología de la Investigación METOLOGIA DE LA INVESTIGACIÓN Determinación del Problema. A N A L I S I S. Planteamiento. Definición de los. Definición del Método. del Problema. Objetivos. de Trabajo. Formación de la Base Documental. Activa. Pasiva Localización de las fuentes de. Observación de la realidad.. información.. Realización de un conjunto de pruebas de. Bibliografía.. laboratorio.. Búsqueda en INTERNET.. Experimentación. S Í N T E S I S. •. Elaboración de un algoritmo que permita realizar una correcta cuantificación de la hipernasalidad percibida en niños con Labio Paladar Hendido.. •. Procesamiento de toda la información obtenida.. Conclusiones y Recomendaciones. 6.

(22) CAPÍTULO 1.

(23) Capítulo 1 CAPITULO 1 HIPERNASALIDAD EN NIÑOS CON LABIO PALADAR HENDIDO. 1.1 Mecanismo de producción de la voz. Introducción a los trastornos del lenguaje 1.1.1 Mecanismo de producción de la voz La voz es producida por la excitación acústica de una cavidad variante en el tiempo, el tracto vocal, la cual es la región de la cavidad de la boca acotada por la cuerdas vocales y los labios. Los variados tipos de sonidos son producidos ajustando tanto el tipo de excitación, como la forma del tracto vocal [Sepúlveda, 2004]. El mecanismo de producción de la voz puede modelarse por un sistema compuesto de tres etapas [Sepúlveda, 2004]: Fuente: encargada de la generación de sonidos (pulmones, cuerdas vocales). Específicamente, el sonido puede pertenecer a uno u otro tipo: sonoro o insonoro. Se dice que un sonido es del tipo sonoro si participan las cuerdas vocales en su generación, de lo contrario se dice que es insonoro. La fuente de sonido del tipo sonoro puede ser modelada como un tren de pulsos o por ondas triangulares asimétricas las cuales son repetidas para cada período fundamental. Por otra parte, el tipo de voz insonora puede ser modelado como un generador de ruido blanco. Articulación (Modulador): le da forma y entonación a los sonidos que se están generando, comprende el tracto vocal el cual se puede modelar como una caja resonante que modifica (filtra) el sonido proveniente de las cuerdas vocales. Radiación: corresponde a la parte final de las cavidades oral y nasal, por donde se expulsa el sonido. El modelo básico de producción del habla [Fant, 1960], se muestra en la figura 1.1. Figura 1.1 Modelo de Producción del Habla. 7.

(24) Capítulo 1 El aparato vocal humano está compuesto por los pulmones, la tráquea, la laringe, la faringe y las cavidades oral y nasal (ver figura 1.2). El mecanismo de producción de la voz se inicia en los pulmones; el aire sale expulsado de ellos hacia la laringe (atravesando la traquea y la glotis) a diferente presión en función del sonido que se desea generar. La glotis separa las cuerdas vocales y se mantiene abierta mientras se respira, pero en el momento de producir sonidos se va estrechando de manera intermitente. La velocidad con la que las cuerdas vocales se abren y se cierran está ligada con lo que se conoce como frecuencia fundamental. Tras superar la glotis, el aire se acerca al tracto vocal, el cual varía su forma dependiendo de los sonidos a generar. El tracto vocal es una caja de resonancia, cuya forma, y por lo tanto su respuesta, varían de acuerdo a la posición de los órganos articuladores (lengua, labios, mandíbula, velo del paladar). Las resonancias producidas tienen su energía concentrada alrededor de determinadas frecuencias del espectro, a las que se refiere como formantes [Rabiner y Schafer, 1978].. Figura 1.2 Aparato fonador humano. 1.1.2 Introducción a los trastornos del lenguaje No siempre el lenguaje se desarrolla normalmente. Existen múltiples trastornos del habla que afectan la relación social y la adaptación escolar de los niños y adolescentes, así como la vida en comunidad de los adultos. La presencia de dichos trastornos en el lenguaje de. 8.

(25) Capítulo 1 determinada persona, limita en gran medida la adquisición de los conocimientos e influye desfavorablemente en la formación y desarrollo de la personalidad. De lo anterior se deduce la importancia que tiene la temprana atención que se le debe brindar a pacientes con patologías en el lenguaje así como la realización de toda una labor profiláctica para prever estos trastornos. El idioma Español está constituido por fonemas [Llorach, 1974]. Estos se clasifican en vocales y consonantes (ver figura 1.3).. Figura 1.3 Concepto fonológico: el fonema.. Dentro de los trastornos del lenguaje tenemos: trastornos en la articulación de los fonemas que unido a lesiones anatómicas y/o fisiológicas en los órganos periféricos del habla constituyen el trastorno conocido como disglosia. 1.2 Disglosias La disglosia aparece por alteración orgánica, por lesión de los órganos periféricos del habla y sin origen neurológico, provocando trastornos de la articulación de los fonemas en las personas que poseen este padecimiento.. 9.

(26) Capítulo 1 Existen cinco tipos de disglosias: •. Disglosias labiales. •. Disglosias mandibulares. •. Disglosias linguales. •. Disglosia palatina. •. Disglosias nasales. Este proyecto se limitará sólo al análisis de dos de estas disglosias: la labial y la palatina, así como la consecuencia que suelen traer: la hipernasalidad. El conjunto formado por ambos trastornos es una malformación conocida como Labio Paladar Hendido (LPH) o fisura del labio y del paladar. Disglosia labial: Es un trastorno de la articulación de los fonemas originado por una alteración de la forma, movilidad, fuerza o consistencia de los labios. Las más frecuentes se deben a los labios leporinos, frenillo, labial superior y neuralgia del trigémino. Las fisuras pueden ser unilaterales o bilaterales. Estas personas tienen dificultades al pronunciar fonemas labiales [Centro Nacional de Información y Comunicación Educativa, 2004]. Disglosia palatina: Es una alteración de la articulación causada por alteraciones orgánicas del paladar óseo y del velo del paladar. Las más frecuentes son la fisura del paladar, el velo largo o corto del paladar y la rinolalia abierta o cerrada, con repercusión, a veces, en hipoacusias no detectadas [Centro Nacional de Información y Comunicación Educativa, 2004]. 1.2.1 Labio Paladar Hendido (LPH) Un labio hendido es una separación del labio de arriba. Muchas veces la separación incluye los huesos del maxilar superior y/o el borde alveolar (encía). Un paladar hendido es una abertura del paladar donde los dos lados del paladar no se juntaron cuando el bebé estaba desarrollando antes de haber nacido. Labio hendido y paladar hendido pueden suceder a sólo un lado (hendido unilateral del labio y/o paladar), o a los dos lados (hendido bilateral del labio y/o paladar). Puesto que el labio y el paladar se desarrollan separadamente, es posible que el bebé tenga el labio hendido, el paladar hendido o ambos, conociéndose este padecimiento como labio paladar hendido. Labio hendido y paladar hendido son defectos congénitos, o sea, defectos de nacimiento que ocurren muy temprano en el embarazo. La mayoría de las hendiduras se forman debido. 10.

(27) Capítulo 1 a una combinación de causas genéticas y ambientales. La probabilidad de que se repita la hendidura en otro niño depende de varios factores, incluyendo el número de personas afectadas en la familia, el nivel de parentesco, la raza y el sexo de todas estas personas, así como la severidad de las hendiduras. Fisiológicamente la cavidad nasal trabaja como una cámara de resonancia en armonía funcional con la resonancia de la cavidad bucal. El paciente con paladar hendido tiene alterada la resonancia nasal y es incapaz de una oclusión velofaríngea eficiente, para evitar el escape del aire a través de la nariz. Cuando hay paladar hendido, la voz que se produce es excesivamente nasal, reduciendo la precisión de las consonantes oclusivas (/p/, /b/, /t/, /d/, /g/), fricativas (/s/, /z/, /f/, /v/, /d/) y africadas (/ch/) por el escape nasal. En el caso del labio hendido corregido, los sonidos que probablemente se afectan son los que requieren el cierre, arqueamiento y extensión de los labios (/p/, /b/, /m/, /u/, /i/) [Sepúlveda, 2004]. En la actualidad la fisura del labio y del paladar es una malformación congénita muy frecuente, siendo en diversos países la primera reportada en los certificados de nacimiento. Su frecuencia es muy alta en algunos países sudamericanos, 1/450 recién nacidos (RN) vivos. En Estados Unidos es de 1/700 RN vivos y en asiáticos de 1/500 RN vivos. Es un poco menos frecuente en caucásicos y negros. Tiene carácter genético en un tercio de los casos, pero en los 2/3 restantes se presenta como un hecho aislado multifactorial. Si un progenitor tiene labio leporino, el riesgo de tener descendencia con la misma patología es de 2%. Si dos padres sanos tienen un hijo fisurado, tienen un riesgo de 5% de tener otro hijo con esta deformidad [Pesqueira, 2003]. 1.2.1.1 ¿Tienen problemas del habla los niños con paladar hendido? La existencia de una hendidura facial en el niño requiere un plan terapéutico a largo plazo. Tanto el tratamiento como la rehabilitación comienzan ya tras el nacimiento, y muchos de los pacientes continúan con algún tipo de terapia hasta la adolescencia o la juventud. Las secuelas de la fisura palatina incluyen problemas en la alimentación y en la nutrición, infecciones otológicas recurrentes que pueden desencadenar una pérdida de la audición, producción anormal del lenguaje y una alteración del crecimiento facial. Pero la discapacidad principal en los pacientes con fisura palatina es la disfunción del habla, fundamentalmente en forma de hipernasalidad o escape del sonido a la cavidad nasal 11.

(28) Capítulo 1 durante la producción de múltiples consonantes y vocales, que llega a alterar la inteligibilidad del lenguaje. Antes de que a los niños se les arregle el paladar, les falta la separación entre la cavidad nasal y la boca. Esto significa que: a). El niño no tiene la capacidad de crear la presión de aire en la boca debido a que el aire sale por la nariz. b). Existe menos tejido en el paladar para que toque la lengua.. Ambos de estos problemas conllevan a que el niño presente dificultad al aprender a producir los sonidos. No es raro para un niño que nace con el paladar hendido que tome tiempo en aprender a hablar y desarrollar los sonidos del habla durante los primeros 9 a 24 meses de edad. Una vez que el paladar se haya arreglado a través de una intervención quirúrgica, el niño puede aprender a pronunciar más sonidos, consonantes y más palabras. Sin embargo, no es de esperar que el paciente hable claramente sin resonancia residual ni articulaciones sustitutivas o distorsionadas luego de cualquier procedimiento quirúrgico, debido a que estos, luego de ser asistidos quirúrgicamente, tienden a mantener las características del habla de un niño con fisura. Por lo tanto los problemas de articulación (dificultades en producir ciertos sonidos) pueden continuar en algunos niños durante la primera infancia, por lo que suele ser necesaria la rehabilitación con el foníatra después de valorar la correcta competencia del esfínter velofaríngeo a los 3 meses [Zarbakhsh, De Biasio y Cuellar, 2001]. La terapia de la voz postoperatoria optimiza los resultados quirúrgicos para lograr la producción de tonos vocales normales y el desarrollo de una presión oral de aire necesario para el lenguaje normal. El paciente debe ser reeducado para producir su voz sin tono nasal y eliminar los hábitos compensatorios (excesivo flujo de aire, emitir sonidos sin cierre de las cuerdas vocales, paradas glóticas, tensar en exceso la laringofarínge, retraer la lengua, articulación faríngea) con ayuda de su patólogo del habla y el lenguaje, el que comparará la calidad de vocalización nueva con la antigua, a medida que avance la terapia. Las evaluaciones brindadas por dichos especialistas son en su gran mayoría subjetivas, no obstante la valoración definitiva de los resultados del lenguaje debería ser realizada por el terapeuta de la voz de forma objetiva e imparcial, acerca de discursos espontáneos de los. 12.

(29) Capítulo 1 pacientes en su entorno habitual. También es importante recordar que algunos niños con o sin paladar hendido, pueden desarrollar el habla un poco más lentamente que otros niños. Cuando el habla se produce correctamente, el paladar blando se dirige hacia la parte de atrás de la garganta, separando la cavidad nasal de la boca para que el aire y sonido sean dirigidos hacia afuera. La imposibilidad de separar la cavidad nasal de la boca se denomina incapacidad velofaríngea (velopharyngeal inadequacy). De acuerdo a la clasificación según el origen de los trastornos de resonancia nasal, la incapacidad velofaríngea puede ser subdividida en tres categorías [Lierde, 2001]: •. Incompetencia velofaríngea.. •. Error en el aprendizaje del manejo del puerto velofaríngeo.. •. Insuficiencia velofaríngea. La incapacidad velofaríngea es un término genérico usado para denotar cualquier tipo de función velofaríngea patológica. La incompetencia velofaríngea incluye etiologías de origen neurológico que resultan en un control motor deteriorado de la función velofaríngea. El error en el aprendizaje del manejo del puerto velofaríngeo incluye trastornos que no son causados por defectos estructurales, ni patologías neuromotoras. Por ultimo, el término insuficiencia velofaríngea incluye cualquier defecto estructural del velo del paladar o paredes de la faringe. La mayoría de estos defectos son congénitos. Cuando el mecanismo velofaríngeo no funciona de forma adecuada para evitar que el aire se escape hacia la cavidad nasal, estamos en presencia de trastornos en la resonancia. En el contexto de la incapacidad velofaríngea, el término “trastorno en la resonancia” se usa para referirse a la hipernasalidad, así como a otros trastornos nasales que ocurren en la región supraglótica, cuando la comunicación entre la cavidad nasal y el tracto vocal es inapropiada [Lierde, 2001]. A los niños que tienen deficiencia velofaríngea se les escucha, como si “estuvieran hablando por la nariz”. Debido a que el paladar blando no puede separar la nariz de la boca y el aire y el sonido salen por la nariz durante el habla, este problema probablemente resultará en la hipernasalidad y la emisión nasal del aire. (Es normal que el aire y sonido salgan por la nariz cuando se pronuncia la ‘m’, ‘n’ o ‘ñ’.) Aproximadamente el 25% de los niños con hendiduras arregladas del paladar todavía tienen deficiencia velofaríngea [Cleft Palate Foundation, 2002].. 13.

(30) Capítulo 1 Los efectos que trae consigo la deficiencia velofaríngea en el habla de un paciente incluyen hipernasalidad, disminución de la inteligibilidad del habla y emisiones nasales. Diversos factores determinan cuan severamente ha sido afectada el habla de un paciente, tales como: el grado de abertura del velo del paladar, la articulación de los pacientes y la habilidad motora oral, así como las estrategias compensatorias que el paciente puede haber desarrollado para disminuir la emisión nasal o la hipernasalidad. 1.3 Hipernasalidad Hipernasalidad: Es una calidad de la voz excesivamente nasal que puede resultar en un habla ininteligible. Se debe a una insuficiencia velofaríngea con una emisión de aire excesiva por la nariz. También se denomina rinolalia abierta [Instituto Químico Biológico, 2002]. La voz del niño con hipernasalidad es excesivamente nasal, neutra o de sonido central en lugar de oral, clara y de sonido fuerte. La hipernasalización normal se produce, entonces, cuando ocurre una interacción entre la cavidad oral y la cavidad nasal. Es en estos casos cuando el velo palatino permite la salida del sonido tanto por la nariz como por la boca. La hipernasalidad o voz nasal es una voz: débil, respiratoria, ligera, carente de calidez, de riqueza y de calidad estética, consonantes sin claridad ni precisión y desarrollo de hábitos compensatorios (excesiva tensión del tracto vocal, incremento del flujo respiratorio, sustitutos articulares y sonidos faríngeos y glóticos), que comprometen la calidad, claridad e inteligibilidad del habla, dificultando y empobreciendo la comunicación. El hecho de que el esfínter velofaríngeo se encuentre cerrado, evita la entrada de aire en el compartimiento nasal, necesario para la pronunciación de los sonidos no nasales (todas excepto la m, n y ñ). El cerebro ante la incapacidad del cierre velofaríngeo, adopta patrones de articulación compensatorios que pueden producir un habla completamente ininteligible. A esto hay que sumar la hipernasalidad que adquieren los sonidos. Como consecuencia de estas severas perturbaciones en el habla, el tratamiento debe iniciarse lo más precozmente posible, generalmente con el inicio del habla hacia los 2 años de edad, hasta aproximadamente los 10 años, aunque se trata de una terapia individualizada, dependiendo de cada paciente en concreto. Son muchas las causas de la hipernasalidad y la deficiencia velofaríngea (VPD), y van desde problemas neuromusculares como los presentes en el síndrome velocardiofacial. 14.

(31) Capítulo 1 (VCF), hasta causas estructurales, tales como el paladar hendido, siendo este último el de interés en este trabajo. 1.4 Necesidad de cuantificar la hipernasalidad en niños con LPH El lenguaje cumple tres funciones importantes entre la edad preescolar y el inicio de la escolaridad: •. permite la socialización de los niños. •. es el vehículo para la interiorización del pensamiento. •. es la base para lograr los aprendizajes escolares, la lectura y la escritura. Cuando un niño presenta alteraciones importantes del habla al iniciar su aprendizaje escolar, puede tener mayores dificultades que un niño que tenga el lenguaje oral debidamente consolidado. El aprendizaje de la lectura-escritura, no es otra cosa que trasponer un código oral a uno gráfico, y para hacerlo sin dificultad es indispensable que el primero se encuentre estabilizado en una forma adecuada, de lo contrario se evidenciarán los mismos errores en la lectura y la escritura, dejando en los maestros la sensación de ser un niño con capacidades limitadas para el aprendizaje. En adición, sin un buen lenguaje, la socialización posiblemente se haga defectuosa, generando en el niño sentimientos de inferioridad y minusvalía. Las evaluaciones rutinarias que son dadas por un patólogo del habla y del lenguaje, determinan si se necesitan los servicios de terapia del habla evaluando la producción de la misma y el desarrollo del lenguaje mediante evaluaciones subjetivas (aproximadas), donde las habilidades perceptivas de los mismos se va perdiendo, debido a la costumbre que adquieren luego de haber tratado un sinnúmero de pacientes. Por lo que se hace necesaria la cuantificación de la hipernasalidad a través de un método acústico, que al correlacionarlo con las evaluaciones clínicas se logren grandes avances en el diagnóstico de la enfermedad durante el proceso de rehabilitación de pacientes con estas afecciones patológicas. El análisis acústico de la voz ha alcanzado un importante desarrollo en los últimos tiempos gracias, entre otras razones, al progreso y difusión experimentados por los medios informáticos que lo hacen posible. Entre sus ventajas destaca el ser un método no invasivo de evaluación de la voz y el ofrecer la oportunidad de objetivizar la evaluación en parámetros numéricos.. 15.

(32) Capítulo 1 Uno de los problemas principales en el diagnóstico perceptivo de la voz por el oído del clínico es que el sistema auditivo humano está preparado fundamentalmente para percibir la voz o el habla como un todo integrado, lo cual es altamente beneficioso desde el punto de vista de la comunicación lingüística. Ahora bien, esta capacidad se ve limitada cuando se trata de tomar conciencia de componentes acústicos individualizados que, sin embargo, son relevantes desde una perspectiva clínica. En muchas ocasiones existe dificultad en determinar por un procedimiento exclusivamente perceptivo el origen de ciertas anomalías o particularidades de la voz. Por ejemplo, algunos rasgos del habla son más el producto de las resonancias del tracto vocal que la frecuencia de vibración de las cuerdas vocales. La hipernasalidad percibida en una voz puede ser la consecuencia de una desincronización en los tiempos de oclusión velar antes que una oclusión incompleta. Es decir, un mismo atributo o alteración de la calidad del habla puede tener su origen en subsistemas distintos difícilmente aislables por la mera audición. En otras ocasiones, una adecuada percepción no puede matizarse con el grado de precisión que ofrece una medida numérica. En este sentido, junto a la evaluación subjetiva por parte del clínico experimentado, el diagnóstico se enriquece y gana precisión cuando se complementa con la medida objetiva de parámetros relevantes de la voz. Las ventajas de ello se traducen en una mejor objetividad en el informe médico y en una mayor exactitud en la evaluación del progreso terapéutico, especialmente cuando éste es lento [González, Cervera y Miralles, 2002]. 1.5 Medios para cuantificar la hipernasalidad en niños con LPH 1.5.1 Reseña histórica Una evaluación cuantitativa de la hipernasalidad es muy importante para monitorear el desarrollo del habla, así como para determinar si es necesaria alguna intervención quirúrgica o terapia. Para realizar este tipo de evaluación, han existido diversas técnicas disponibles para los clínicos, que les permiten medir la deficiencia velofaríngea, así como la severidad de la hipernasalidad, cada una de ellas con ventajas e inconvenientes. Históricamente, la hipernasalidad como manifestación en el habla de niños con LPH, ha sido utilizada en la fonética clínica sobre la base de evaluaciones subjetivas de sus características. Dichas evaluaciones han sido realizadas basándose en la apreciación auditiva (método subjetivo) de los expertos, incluso hasta los días de hoy este. 16.

(33) Capítulo 1 procedimiento es utilizado en muchos lugares del mundo. Las impresiones auditivas del terapeuta, los registros audiométricos y el análisis espectrográfico de las percepciones auditivas son el escalón básico más utilizados pero tienen difícil correlación con la hipernasalidad inmediatamente percibida por el oído humano y por tanto, escaso valor de diagnóstico [Kataoka et al, 2001]. Aparejado a este procedimiento, ya desde la década de los 60, en un intento de medir la intensidad del sonido oral y nasal y su correlación, se utilizaron diversos dispositivos e instrumentos como el TONAR, pero presentaba deficiencias a la hora de estimar la función velofaríngea. El Nasómetro (modelo 6200) desarrollado por Fletcher y Bishop [Fletcher y Bishop, 1973], que tuvo como precursor al TONAR, se convirtió en una herramienta atractiva para patólogos del habla y del lenguaje. Este fue concebido como un instrumento para evaluaciones de nasalidad indirectas y objetivas. No obstante presenta limitaciones debido a que sus evaluaciones son concebidas a través del uso cuidadoso de los datos de nasalización, además de que deben ser relacionadas con otras técnicas de evaluación, por lo tanto el Nasómetro no puede ser usado como un sustituto a las evaluaciones perceptúales, sino como un instrumento objetivo de verificación de las mismas. También se intentó medir el flujo de aire nasal utilizando neumotacómetros, manómetros, ultrasonidos, estetoscopios, acelerómetros y sistemas aeromecánicos tipo PERCI, que brindaban información de las diferencias de presión en las cavidades oral y nasal durante el habla, permitiendo correlacionarlas con el tamaño del orificio velofaríngeo. Su uso estaba limitado, pues no era sensible ante mínimas aberturas y no traducía el funcionamiento preciso del esfínter [Zarbakhsh, De Biasio y Cuellar, 2001]. El método subjetivo, como se mencionó anteriormente, ha sido usado para evaluar la hipernasalidad en la fonética clínica. Se pensó entonces que si se hallaba un método acústico con el cual se pudiese cuantificar la hipernasalidad, la correlación entre este y el que hasta el momento se utilizaba en el ambiente clínico conduciría a un enfoque científico más completo y certero en la evaluación de voces patológicas, por lo que se realizaron estudios donde su principal objetivo fue desarrollar un método acústico para cuantificar la severidad de la hipernasalidad percibida en niños con deficiencia velofaríngea. El análisis acústico de muestras de voz, obtenidas a partir de la grabación con un micrófono, ofrece una ventaja a la hora de realizar la evaluación de la severidad de la. 17.

(34) Capítulo 1 hipernasalidad, porque este tipo de análisis permite procesar las mismas señales que son percibidas por un oyente. Usando una comparación entre vocales nasalizadas y no nasalizadas para un mismo sujeto o modelo, la síntesis articulatoria y el análisis de formantes han sido usados para investigar las características acústicas de la nasalización. En un intento para cuantificar las propiedades espectrales de las vocales nasalizadas, Hawkins y Stevens sintetizaron acústicamente vocales nasalizadas y no nasalizadas, a través de la manipulación de las frecuencias y el espaciamiento del primer par polo-cero nasal [Hawkins y Stevens, 1985]. Ellos especularon que las propiedades acústicas correspondientes a la nasalidad percibida, era el grado de prominencia espectral en la región del primer formante (F1). Un formante es un máximo local en la función de transferencia del tracto vocal. Es una frecuencia a la cual la transmisión del tracto vocal es más eficiente. Para una posición particular de los articuladores, la frecuencia de resonancia más baja es llamada primer formante (F1), la próxima será el segundo formante (F2) y así sucesivamente [Centro de Estudios de Electrónica y Tecnologías de la Información, 2002]. Para evaluar la hipótesis anteriormente mencionada, Chen propuso el parámetro acústico A1-P1 en dB [Chen, 1995]. A1 es la amplitud de F1 y P1 es la amplitud del segundo pico nasal en la vecindad de F1. Este autor reportó algunas características relacionadas con el parámetro acústico A1-P1: -. El pico nasal no fue fácilmente detectable cuando este aparecía en la vecindad de un formante.. -. La frecuencia y la amplitud del pico nasal pueden mostrar alguna variabilidad cuando la frecuencia fundamental es alta, como comúnmente suele suceder en el habla de los niños. (ver tabla 1.1). Tabla 1.1 Frecuencia fundamental promedio del habla. Sujeto. Frecuencia Fundamental. Hombre. 125 Hz. Mujer. 200 Hz. Niño. 300 Hz. 18.

(35) Capítulo 1 En adición a esto, el parámetro A1-P1 fue vocalmente dependiente. Esto se demostró al calcular el coeficiente de correlación de nasalidad (normalizado A1-P1), obteniéndose un valor de –0.76 para diferentes vocales. Chen propuso otro parámetro acústico: A1-P0. P0 es la amplitud del primer pico nasal. El parámetro A1-P0 no fue aplicable para la vocal nasalizada [i], debido a que el primer pico nasal, en ocasiones, aparecía en la región de frecuencias de F1. Este parámetro además fue influenciado por una voz jadeante [Chen, 1997]. Las investigaciones de estos estudios demostraron que la severidad de nasalización no podía ser medida exactamente a través del análisis de formantes cuando la frecuencia fundamental es alta, como es común en el habla de niños. En adición a esto, Bakkum, Plomp y Pols se unieron para dar a conocer que el análisis de formantes no era aplicable para aplicaciones de tiempo real [Bakkum, Plomp y Pols, 1995]. Por lo tanto, su uso no es aplicable en el ambiente clínico. Más tarde se usó el análisis de 1/3 de octava, para representar las características acústicas de la hipernasalidad en niños como un espectro auditivo [Kataoka, 1988; Kataoka et al, 1996]. El análisis de 1/3 de octava aparece para ser compatible con el concepto de análisis de formantes como un modelo auditivo [Bakkum, Plomp y Pols, 1995]. Este ancho de banda fue seleccionado, pues es muy semejante al ancho de banda crítico de los mecanismos de análisis que utiliza el oído [Pols et al., 1969]. Las diferencias en la calidad percibida de las vocales, incluyendo la severidad de la hipernasalidad, estarían representadas como las diferencias en el espectro de 1/3 de octava. Por lo tanto, un análisis de 1/3 de octava fue considerado muy útil a la hora de cuantificar la severidad percibida de hipernasalidad en ambientes clínicos, debido a que puede ser desarrollado en tiempo real. En uno de los últimos trabajos, donde se relacionan las características espectrales de la señal de voz con la hipernasalidad percibida en niños, realizado por Kataoka, se plantea que al procesar las señales de voz, correspondientes a la vocal [i] aislada, en intervalos espaciados a 1/3 de octava en el espectro de frecuencias, se observan resultados significativos en 1, 1.6 y 2.5 kHz [Kataoka et al, 2001]. Estas investigaciones fueron realizadas tomando en consideración y como punto de partida los análisis a nivel de grupos. Estos se crearon según las diferentes escalas de severidad de hipernasalidad percibida en. 19.

(36) Capítulo 1 niños, además de un grupo de control, formado por niños con resonancia normal. A cada uno de estos grupos se les efectuó el siguiente análisis: Se realizaron mediciones de la amplitud de la señal de voz (vocal [i] aislada) a cada una de las personas del grupo, en los valores de frecuencias de referencia (1, 1.6 y 2.5 kHz), obteniéndose en el grupo un valor promedio de amplitud. para cada una de dichas. frecuencias. El espectro de 1/3 de octava promedio obtenido a partir del análisis para el grupo de niños de resonancia normal, y el que se obtuvo al analizar un grupo hipernasal, fueron comparados. De esta comparación, las características espectrales de la hipernasalidad en niños de paladar hendido durante la pronunciación de la vocal [i] fueron identificadas. Múltiples análisis revelaron una alta correlación (R=0.84) entre las amplitudes promedios en 1, 1.6 y 2.5 kHz y las evaluaciones perceptivas. El incremento de las amplitudes en 1 kHz y 1.6 kHz, así como el decremento de la amplitud en 2.5 kHz, se consideraron asociados con un aumento de la hipernasalidad percibida. Por lo que según los resultados alcanzados, en esta publicación se plantea que las amplitudes en frecuencias espaciadas a un tercio de octava, son parámetros acústicos apropiados para cuantificar la hipernasalidad en la vocal aislada [i]. No obstante, este análisis en 1/3 de octava como se pudo apreciar en los últimos estudios realizados fue un método considerado para análisis estadísticos por grupos, no así para evaluar y darle seguimiento a terapias individualizadas, pues no fue analizada la dependencia de la hipernasalidad con las amplitudes en 1, 1.6 y 2.5 kHz, considerando la severidad de este padecimiento en cada paciente aislado, lo que sería de interés de este trabajo de diploma. Por lo que el presente trabajo tiene como objetivo la búsqueda de un algoritmo que permita cuantificar la hipernasalidad percibida en niños a través de dos características espectrales (frecuencia fundamental y amplitud espectral), donde los resultados obtenidos, a diferencia de los análisis anteriormente realizados en frecuencias espaciadas a 1/3 de octava en el espectro, alcancen una alta correlación con las evaluaciones subjetivas de los especialistas, para cada paciente en particular.. 20.

(37) Capítulo 1 1.6 Conclusiones parciales Como se puede apreciar, desde tiempos remotos existen enfermedades que causan alteraciones en los mecanismos de producción del habla, donde las manifestaciones de estas enfermedades se han analizado clínicamente sobre la base de evaluaciones subjetivas por los especialistas. A estas evaluaciones se han incorporado las mediciones acústicas con el fin de brindar un punto de vista mas objetivo sobre estos diagnósticos. Las mediciones acústicas más comunes son realizadas con la intensidad (energía) del habla, el tono fundamental y sus variaciones, las modificaciones que aparecen en los espectrogramas de los sonidos vocálicos y las características distintivas de algunas consonantes. Al establecer una correlación entre las características subjetivas y las mediciones acústicas se pueden obtener resultados científicos más completos que conlleven a una mejor evaluación y rehabilitación de pacientes con voces patológicas, lo que incluye niños con hipernasalidad producto del Labio Paladar Hendido.. 21.

(38) CAPÍTULO 2.

(39) Capítulo 2. CAPITULO 2 MATERIALES Y METODOS Con el objetivo de detectar y cuantificar la hipernasalidad en niños con Labio Paladar Hendido a partir de bases de datos existentes, se propone el algoritmo que se muestra a continuación, que ha sido elaborado siguiendo un grupo de pasos lógicos y en función de los estudios previamente realizados sobre el tema:. 1. Crear una base de datos con las señales (muestras de voz) a procesar a partir de dos bases de datos existentes. 2. Extraer una vocal de alguna palabra de la base de datos con el fin de ser procesada. • Convertir las señales de voz grabadas con dos canales (señales estereofónicas) a señales monofónicas (solo un canal). 3. Buscar las características espectrales de las señales, que evidencien una buena correlación con la hipernasalidad percibida. 4. Utilizar el método de Regresión Lineal para validar las características espectrales que demostraron una aceptable correlación con las evaluaciones subjetivas de hipernasalidad. 5. Comparar las características espectrales del grupo de resonancia normal con las del grupo con hipernasalidad. 6. Elaborar un programa, utilizando como herramienta el MATLAB, que instrumente los resultados alcanzados. 2.1 Base de datos de las señales a procesar La base de datos a utilizar fue creada a partir de muestras de voz obtenidas de 30 niños colombianos. Estas muestras formaban parte de una base de datos previamente elaborada, obtenida por la evaluación perceptual de tres logopedas graduados (jueces A B y C), especialistas del departamento de rehabilitación de la Universidad Hospital de Caldas. Los niños, de ellos 16 niñas y 14 niños, tenían el diagnóstico de Labio Paladar Hendido corregido. Todos fueron clínicamente diagnosticados de tener habla hipernasal por estos especialistas del habla y el lenguaje, menos uno que sirvió como control en el grupo de. 22.

(40) Capítulo 2 pacientes con LPH corregido (código NCCX). La edad promedio para este grupo de niños fue de 9.2 años, con un rango de variación entre 5 y 15 años para los niños y niñas. También se obtuvieron muestras de voz de una base de datos de pacientes sanos (sin Labio Paladar Hendido) diagnosticados de poseer habla normal (grupo de control). Este grupo estaba formado por cuatro niñas y cuatro niños, que al igual que los pacientes de la base de datos anterior son colombianos, con edades entre 7 y 13 años, para un promedio de edad de 9.4 años. Estos pacientes fueron analizados demostrando poseer fonética y resonancia normal. Por lo que la base de datos a procesar quedó conformada con 38 pacientes, entre sanos y con LPH corregido. Las bases de datos de pacientes con LPH corregido y pacientes sanos previamente elaboradas, fueron creadas una vez que los patólogos realizaron un diagnóstico inicial. Luego se llevaron a cabo sesiones de grabación de vocales y algunas palabras dichas por cada paciente, tales como: baile, bola, coco, queso, jugo, jaula, gato, gol, choza, mano, mamá, pipa, papá, Susi, cielo, yoyo y llama. Para formar la base de datos a procesar, las muestras de voz se seleccionaron de forma tal que estuviesen equilibrados los dos géneros, tanto masculino como femenino, además de que el grado de hipernasalidad dentro del grupo fuese variable. Los tres logopedas graduados, cada uno con años de experiencia, sirvieron como jueces. Estos fueron considerados por poseer habilidades aislando la hipernasalidad de otras características del habla, estando capacitados para usar una escala de 4 puntos con igual probabilidad de aparición, para evaluar la severidad de la hipernasalidad representando con 0 “resonancia normal” y con 1, 2, 3, “leve”, “moderada” y “severa”, respectivamente. En un esfuerzo por mantener el número de muestras a un nivel manejable, de la base de datos creada con anterioridad (38 pacientes), fueron seleccionadas aleatoriamente. 31. muestras de voz, incluyendo dentro de ellas, tanto voces patológicas como de resonancia normal, sin dejar de considerar que si los resultados obtenidos dieran satisfactorios para 31 pacientes, el algoritmo sería probado en la base de datos íntegra. De estos pacientes se cuenta con 27 pacientes con LPH corregido, de ellos 13 niñas y 14 niños. Todos clínicamente diagnosticados de poseer habla hipernasal por los especialistas, menos uno. 23.

(41) Capítulo 2 (código NCCX) que sirvió como control en el grupo de pacientes con LPH corregido. Las edades de estos pacientes oscilaron entre 5 y 12 años para las niñas y entre 5 y 13 años para los niños, para una edad promedio de 8.4 años. Las restantes muestras de voz fueron obtenidas de los pacientes diagnosticados de poseer resonancia normal, de la misma base de datos creada con 38 pacientes, siendo 2 niñas y 2 niños con edades entre 7 y 13 años, para un promedio de edad de 9.5 años. 2.2 Extracción de una vocal de alguna palabra de la base de datos Se decidió escoger la vocal [i] dentro de la palabra “pipa” pues ésta vocal se encontraba antecedida y precedida por la consonante oclusiva /p/, no ejerciendo esta última ninguna influencia nasal sobre dicha vocal. La vocal no fue tomada de las vocales aisladas grabadas, para que fuese una [i] con sonoridad y tono natural, pues en la evaluación de la vocal [i] aislada el número de parámetros preceptúales (características subjetivas) es limitado [Kataoka et al, 2001]. Luego de haber seleccionado el grupo de pacientes con hipernasalidad, así como el grupo de resonancia normal (grupo de control) se obtuvo la vocal [i] a partir de la palabra “pipa” para los 38 pacientes usando un sistema para el análisis y evaluación de la voz: ECAH (Estación Computarizada de Análisis del Habla), que brinda al usuario la posibilidad de visualizar seis representaciones diferentes de la señal de voz [Centro de Estudios de Electrónica y Tecnologías de la Información, 2002]: • Oscilograma • Espectrograma de Banda Ancha • Espectrograma de Banda Estrecha • Intensidad • Entonación • Formantes 2.2.1 Conversión estéreo/mono de las señales de voz No obstante, antes de utilizar este sistema, fue necesario a través de la grabadora de sonido (sound recorder) encontrada dentro de los accesorios de WINDOW, llevar todas las muestras de voces patológicas (voces de pacientes con LPH corregido) que fueron grabadas con 2 canales (estereofónico) a un solo canal (monofónico), pues el ECAH brinda la. 24.

(42) Capítulo 2 posibilidad al usuario de analizar señales de voz, siempre y cuando dentro de las propiedades de los archivos de audio, encuentre que dichas señales son monofónicas. Las propiedades de los archivos de audio que fueron utilizados como muestras de voz a la hora de realizar el procesamiento son: • Formato: *.wav • Frecuencia de muestreo: 48000Hz • Bits por muestra: 16 • Canales: 1 (monofónico) 2.3 Búsqueda de características espectrales que evidencien una buena correlación con la hipernasalidad percibida La extracción de características relevantes de las señales de voz es un importante proceso a la hora de efectuar el análisis de la base de datos. En el análisis de la voz es común el empleo de las características acústicas (CA), que califican las cualidades vocales y poseen un sentido físico determinado. El uso de características acústicas en la descripción de las cualidades patológicas de la voz ha sido probado en varios contextos y con una variedad de objetivos. Uno de sus atractivos se centra en el hecho de que podría entregar una evaluación cuantitativa de las características vocales que de otra forma sería difícil medir [Sepúlveda, 2004]. Son muchas las características espectrales que describen una señal de voz y entre ellas tenemos: • frecuencia fundamental • duración • amplitud espectral • calidad de voz • cambios espectrales en el tiempo. Los análisis discretos de las señales de voz en las siguientes secciones fueron basados en dos de estas características: frecuencia fundamental y amplitud espectral.. 25.

(43) Capítulo 2. 2.3.1 Frecuencia fundamental Las muestras de voz seleccionadas fueron procesadas utilizando un programa elaborado con la herramienta MATLAB (ver código fuente en el Anexo 1). Dicho programa calcula la frecuencia fundamental media (F0m) para cada muestra de voz procesada, a partir de determinar la frecuencia fundamental en intervalos de 30 ms (ventanas de 30 ms) de señal, obteniendo el valor medio del conjunto de valores de frecuencias obtenidos en cada ventana (Ver Tabla 3.1). Existe una amplia variedad de algoritmos para la detección del período fundamental de la voz [Hernández, 1996]. Para la selección del método a emplear se tuvo en cuenta que fuese un algoritmo eficaz, que respondiera a las necesidades planteadas y a su vez, relativamente sencillo de implementar. Después de analizar las características del amplio conjunto de algoritmos reportado en [Hernández, 1996], se escogió el algoritmo digital AMDF [Ross et al, 1974]. El método de detección grueso del período fundamental utilizado (AMDF), con frecuencia mínima de F0 aceptada de 65 Hz (fmin = 65 Hz), frecuencia máxima de 600Hz (fmax = 600 Hz) y un solapamiento de la ventana de análisis para la detección gruesa en segundos de 0.01 (S = 0.01), forma parte de los algoritmos propuestos anteriormente, utilizados en la búsqueda de altos valores de correlación entre un análisis acústico y las evaluaciones subjetivas de los especialistas. La figura 2.1 muestra el diagrama en bloques del detector de tono AMDF [Salvador, 2004]. A la señal del habla previamente muestreada a 48 kHz se le calcula la AMDF para ventanas de 30 milisegundos según la ecuación general: D( k ) =. 1 L. L. ∑ S( j) − S( j − k ) ,. k = 0,1... k max. (2.1). j=1. donde: S (j) es la señal de entrada. S (j-k) es la señal desplazada k muestras respecto a S(j). En este caso k solo toma valores en el intervalo donde se sabe que se encontrará el período fundamental, desde el valor mínimo del período fundamental (1/fmax = 1/600) hasta el valor máximo del período fundamental aceptado (1/fmin = 1/65) y L es la cantidad de muestras, teniendo valor constante. En la función AMDF aparece un mínimo en una de las. 26.

(44) Capítulo 2 posiciones del intervalo k, correspondiente al período fundamental (T0) en número de muestras (N). La lógica para el cálculo del período ha de detectar dicho mínimo, que al sumarle 1/fmax = 1/600 (N(s)+1/600) se obtendrá T0. Con el inverso de T0 se obtiene el resultado en Hertz, y por lo tanto la frecuencia fundamental.. Figura 2.1 Diagrama en bloques del AMDF. A continuación, la figura 2.2, muestra los detalles de la explicación anterior.. Figura 2.2 Intervalo de cálculo de la ADMF. 2.3.2 Amplitud espectral Partiendo de la idea de considerar la amplitud espectral como una característica que puede ser utilizada para estudiar diferentes tipos de análisis a una misma señal de voz, se muestran a continuación dos ejemplos que sustentan el planteamiento anterior, y que fueron. 27.

(45) Capítulo 2 utilizados en aras de encontrar una dependencia significativa entre la hipernasalidad percibida por los especialistas y la amplitud espectral en las señales procesadas [Kataoka et al, 2001]. Ambos ejemplos se apoyaron en los Coeficientes de Predicción Lineal (LPC) para dibujar la envolvente espectral para un segmento de habla seleccionado. La función “lpc” obtiene los Coeficientes de Predicción Lineal, encontrando los coeficientes de una función transferencial racional digital, aproximándose a brindar una respuesta al impulso en el dominio del tiempo. LPC es definido para modelos todo polo, brindando una señal x como la respuesta a un impulso de un filtro de este tipo. Si se asume que cada muestra de salida de una señal x (k), es una combinación lineal de n salidas pasadas (lo que significa que la muestra sea predicha linealmente de las salidas anteriores) y que los coeficientes son constantes de muestra a muestra [Rabiner y Schafer, 1978]:. x (k) = - a(2)x(k-1)-a(3)x(k-2)-...- a(n+1)x(k-n). (2.2). Un modelo todo polo de una señal x es:. a = lpc (x, n). (2.3). La función “lpc” de MATLAB, usa el método de autocorrelación de un modelo todo polo para encontrar los coeficientes de predicción lineal. Los coeficientes de un filtro todo polo de orden 15 fueron los utilizados en ambos análisis de amplitud espectral: a = lpc (x, 15) Como el número de raíces depende del valor n y el número de coeficientes del valor n+1, se obtiene en ambos análisis 15 raíces y 16 coeficientes “lpc”. 2.3.2.1 Análisis de la amplitud de la señal en frecuencias espaciadas 1/3 de octava en el espectro (1, 1.6 y 2.5 kHz) Teniendo en cuenta que el análisis de 1/3 de octava del espectro ha sido utilizado en trabajos anteriores por su compatibilidad con el ancho de banda crítico de los mecanismos de análisis que utiliza el oído [Pols et al., 1969], se decidió incursar en la búsqueda de la amplitud en las frecuencias 1, 1.6 y 2.5 kHz, pero con la diferencia de que los análisis no. 28.

(46) Capítulo 2 sólo se realizarán a nivel de grupos sino que también tendrán lugar para cada paciente en particular, con el fin de darle seguimiento a las terapias individualizadas. A diferencia de los estudios realizados por Kataoka y otros investigadores en el año 2001, donde las muestras procesadas fueron de la vocal [i] aislada, las muestras de voz que se utilizan en este procesamiento son vocales [i] extraídas de la palabra “pipa” dicha por cada paciente. Esta marcada diferencia fue soportada por la idea de que una vocal extraída de un contexto natural cuenta con un mayor número de características subjetivas que cuando se encuentra aislada. Método Las muestras de voz seleccionadas, previamente muestreadas a 48kHz, fueron procesadas utilizando un programa elaborado con ayuda del MATLAB (ver código fuente en el anexo 2). Dicho programa dibuja la envolvente espectral para un segmento de habla seleccionado a través de los Coeficientes de Predicción Lineal (LPC), mostrando dos representaciones gráficas: el LPC promedio y los LPC por cada ventana de 20ms dentro de cada muestra del habla dada (ver figura 2.3 (a) y 2.3 (b) respectivamente), además de calcular las amplitudes normalizadas en las frecuencias 1, 1.6 y 2.5 kHz.. (a). (b). Figura 2.3 Coeficientes de predicción Lineal de AMXX (a) promedio (b) por ventanas. Dado que las muestras de voz fueron producidas usando sonoridad y tono natural, los niveles de intensidad fueron variables. Así, para hacer posibles comparaciones entre los. 29.

(47) Capítulo 2 pacientes, las amplitudes en las frecuencias antes mencionadas, partiendo de los coeficientes de predicción lineal promedio, fueron normalizadas respecto a la amplitud espectral promedio de cada muestra de voz, obteniéndose niveles de amplitud que no dependen del nivel de sonido. A continuación se muestra la función utilizada para obtener la representación gráfica de los LPC para cada ventana de 20ms (multigraphcolor) implementada en MATLAB. Esta función realiza el cálculo analítico y la representación gráfica de los coeficientes de predicción lineal por ventanas, representando gráficamente con color rojo, el coeficiente “lpc” para la primera ventana y con color negro la última, los coeficientes para las ventanas intermedias estarán representados en azul. Este tipo de análisis permitirá examinar si la ocurrencia. de cambios temporales depende del grado de severidad de la hipernasalidad. percibida.. Función para obtener la representación gráfica de los LPC para cada ventana de 20 ms (código fuente) function multigraphcolor (M, n); figure; hold on; plot (n, M (:, 1),'r'); for t =2: size (M, 2)-1; plot (n, M (:, t)); end plot (n, M (:, t+1),'k'); hold off Pasos para su uso •. Poseer el paquete MATLAB instalado en la PC.. •. Copiar la función “multigraphcolor” en un directorio determinado.. •. Redireccionar el MATLAB hacia el directorio en que se ha copiado la función.. •. Tener definido en el código fuente del programa Indicexbanda el tamaño de las ventanas y el orden de los Coeficientes de Predicción Lineal.. 30.