Conformación de la percepción de disfonía a partir de valoraciones de aspereza y jadeo

Texto completo

(1)Universidad Central “Marta Abreu” de Las Villas Facultad de Ingeniería Eléctrica Centro de Estudio de Electrónica y Tecnologías de la Información (CEETI). TRABAJO DE DIPLOMA Conformación de la percepción de disfonía a partir de valoraciones de Aspereza y Jadeo Autor: Elianny Maria Pérez Salazar. Tutor: Dr. Carlos Ariel Ferrer Riesgo. Santa Clara 2014 " Año 56 de la Revolución”.

(2) Universidad Central “Marta Abreu” de Las Villas Facultad de Ingeniería Eléctrica Centro de Estudio de Electrónica y Tecnologías de la Información (CEETI). TRABAJO DE DIPLOMA Conformación de la percepción de disfonía a partir de valoraciones de Aspereza y Jadeo Autor: Elianny Maria Pérez Salazar E-mail: [email protected]. Tutor: Dr. Carlos Ariel Ferrer Riesgo E-mail: [email protected]. Santa Clara 2014 " Año 56 de la Revolución”".

(3) Hago constar que el presente trabajo de diploma fue realizado en la Universidad Central “Marta Abreu” de Las Villas como parte de la culminación de estudios de la especialidad de Ingeniería Biomédica, autorizando a que el mismo sea utilizado por la Institución, para los fines que estime conveniente, tanto de forma parcial como total y que además no podrá ser presentado en eventos, ni publicados sin autorización de la Universidad.. Firma del Autor Los abajo firmantes certificamos que el presente trabajo ha sido realizado según acuerdo de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de esta envergadura referido a la temática señalada.. Firma del Autor. Firma del Jefe de Departamento donde se defiende el trabajo. Firma del Responsable de Información Científico-Técnica.

(4) i. PENSAMIENTO. “Nunca una noche ha vencido al amanecer, y nunca un problema ha vencido a la esperanza.”. Bern Williams.

(5) ii. DEDICATORIA. A mis padres por darme lo más importante la vida. A mi hermana por ser la fuente de máxima inspiración para mí. Al resto de mi familia por estar siempre, por su apoyo, amor y confianza. A mi novio por su ayuda incondicional, su esfuerzo y comprensión. A la Amiga quien siempre estuvo a mi lado y juntas logramos este sueño..

(6) iii. AGRADECIMIENTOS. Agradecer no es simplemente reconocer la ayuda que nos brindan, es guardar en un pequeño rincón de nuestro corazón un sentimiento puro hacia quienes en algún momento te ofrecen su mano para caminar por la vida. Por ello quiero hacer llegar mediante estas líneas, mis agradecimientos: A mis padres Ady y Carlos, por ser la razón de mí existir, por mostrarme el camino correcto, y enseñarme a transitar por él, por hacerme saber que todo es posible de alcanzar, por ser ejemplos de sacrificio y esfuerzo. A mi hermana Erika, la luz de mi vida, mi inspiración para seguir adelante y superarme cada día, quien llena de alegrías cada momento, cada segundo en su compañía y lo hace eterno. A mi maravillosa familia, en general, mis abuelas Paula y Matilde, a mis tíos y muy en especial a mi tía Daisy a quien considero mi segunda madre por su apoyo en los momentos más importantes y difíciles de mi vida ,y a mis primos Maikel y Marlon por ser más que eso, mis hermanos varones. A Eddy que me ha acompañado durante estos años tan difíciles de mi carrera, por brindarme su cariño, por su esfuerzo y comprensión. A Dianet la Amiga como así un día me llamó y así quedará para toda la vida, por todos estos años que hemos compartido juntas, en los cuales nunca me faltó su apoyo, por todas aquellas experiencias que compartimos y que el tiempo no podrá borrar, por ser más que amiga una hermana para mí..

(7) iv. A mi tutor Carlos Ferrer a quien admiro mucho por su dedicación y paciencia, por brindarme su ayuda y apoyo durante la realización de este trabajo, por todas las horas que compartimos juntos, en fin porque lo considero una persona excepcional. A mis amigas Karla y Yeilis a quienes voy a extrañar por todos aquellos buenos y malos momentos que compartimos juntas y por suerte siempre estuvieron presente. A Lorena, Arasay y Ailen que a pesar de no estar juntas estos cinco años me han apoyado siempre. A todos los compañeros de aula y fuera de ella, los que por suerte tuve la dicha de conocer y compartir con ellos cinco años inolvidables de mi vida. A todos los profesores que de forma directa o indirectamente con su profesionalidad y conocimientos contribuyeron a mi formación como Ingeniera Biomédica. A todos los que de una manera imperdonable no he mencionado llegue mi más sincero y dulce agradecimiento..

(8) v. TAREA TÉCNICA. -Estudio de los mecanismos de producción de la voz y los trastornos relacionados con el habla, mediante la búsqueda y revisión bibliográfica del tema. -Análisis de las relaciones reportadas entre G B y R. -Análisis de los resultados obtenidos en trabajos previos. -Selección, propuesta y análisis de modelos. -Obtención de una base de datos representativa de valoraciones de G B y R -Evaluación de los modelos. Firma del Autor. Firma del Tutor.

(9) vi. RESUMEN. La voz contiene información útil para el diagnóstico médico, lo cual justifica un sinnúmero de investigaciones dedicadas a su estudio, y un amplio campo de aplicaciones médicas del procesamiento de voz. Entre los parámetros más utilizados para evaluar el estado del paciente destacan los de calidad vocal. Como indicadores de afección se emplean las valoraciones subjetivas, que depende de la experiencia del especialista, y las mediciones objetivas que pueden ser totalmente automáticas o requerir la intervención del especialista. Dichas valoraciones se realizan de acuerdo a determinadas escalas, una de las más empleadas es la GRBAS por su sencillez y fácil comprensión de sus rasgos (Grado general de disfonía, Aspereza, Jadeo, Astenicidad y Esfuerzo respectivamente). En el presente trabajo se aborda la relación entre las percepciones subjetivas de G y sus componentes B y R. Se propusieron modificaciones a modelos reportados en la literatura, así como un nuevo modelo basado en Lógica Difusa. Como resultado se obtuvo que los modelos no lineales mostraron una mejor correspondencia entre G y sus componentes, que los lineales. Se puede concluir que para realizar una medición objetiva de Grado es necesario desarrollar mediciones acústicas de sus componentes y combinarlas con los modelos..

(10) vii. TABLA DE CONTENIDOS. PENSAMIENTO .....................................................................................................................i DEDICATORIA .................................................................................................................... ii AGRADECIMIENTOS ........................................................................................................ iii TAREA TÉCNICA ................................................................................................................. v RESUMEN ............................................................................................................................vi INTRODUCCIÓN .................................................................................................................. 1 Organización del informe ................................................................................................... 3 CAPÍTULO 1. 1.1. MEDICIÓN DE ALTERACIONES DEL HABLA .................................. 4. Habla normal ............................................................................................................ 4. 1.1.1. Características Acústicas de los sonidos del habla ........................................... 5. 1.1.1.1. Sonidos sonoros ......................................................................................... 5. 1.1.1.2. Sonidos sordos ........................................................................................... 6. 1.1.2. Modelo de producción desde el punto de vista Anatómico .............................. 6. 1.1.3. Modelo de producción del habla desde el punto de vista físico. ...................... 6. 1.2. 1.1.3.1. Antecedentes.............................................................................................. 8. 1.1.3.2. Descripción ................................................................................................ 8. Habla patológica..................................................................................................... 10. 1.2.1. Alteraciones en las distintas etapas de producción ........................................ 10.

(11) viii 1.2.2. 1.3. Alteraciones por niveles de análisis ............................................................... 11. 1.2.2.1. Calidad Vocal .......................................................................................... 11. 1.2.2.2. Articulación ............................................................................................. 12. 1.2.2.3. Prosodia ................................................................................................... 13. Medición de Calidad Vocal .................................................................................... 13. 1.3.1. Mediciones Subjetivas . .................................................................................. 14. 1.3.2. Mediciones Objetivas .................................................................................... 17. 1.3.3. Problemas existentes de correspondencia ....................................................... 18. 1.4. Medición de grado.................................................................................................. 20. 1.4.1. Definición de grado ........................................................................................ 20. 1.4.2. Medidas objetiva ............................................................................................. 22. 1.4.3. Resultados Objetivos ...................................................................................... 22. 1.5. Consideraciones metodológicas sobre la percepción de grado .............................. 22. 1.5.1. Modelo G(R,B) ............................................................................................... 23. 1.5.2. Base de Datos.................................................................................................. 23. 1.6. Conclusiones parciales ........................................................................................... 24. CAPÍTULO 2. 2.1. MATERIALES Y MÉTODOS................................................................ 25. Bases de datos ........................................................................................................ 25. 2.1.1. Descripción .................................................... ¡Error! Marcador no definido.. -Conclusiones............................................................... ¡Error! Marcador no definido. 2.2. Modelos a evaluar .................................................................................................. 27. 2.2.1 2.3. Separación entre modelos ............................................................................... 29. Criterio de semejanza a emplear ........................... ¡Error! Marcador no definido.. CAPÍTULO 3.. RESULTADOS Y DISCUSIÓN ............................................................. 31.

(12) ix 3.1. Distribución de valores en la Base de Datos. ......................................................... 31. 3.1.1. Nawka ............................................................................................................. 31. 3.1.2. Youry Maryn´s ................................................................................................ 33. 3.1.2.1. Valoraciones originales .......................... ¡Error! Marcador no definido.. 3.1.2.2. Valoraciones en este trabajo .................................................................... 36. 3.1.3 3.2. Kay Elemetric ................................................................................................. 38. Resultados de los modelos ..................................................................................... 38. 3.2.1. Nawka ............................................................................................................. 40. 3.2.2. Youry Maryn´s ................................................................................................ 41. 3.2.2.1. Valoraciones originales ........................................................................... 41. 3.2.2.2. Valoraciones en este trabajo ................... ¡Error! Marcador no definido.. 3.2.3. Kay Elemetric ................................................................................................. 44. CONCLUSIONES Y RECOMENDACIONES ................................................................... 46 Conclusiones ..................................................................................................................... 46 Recomendaciones ............................................................................................................. 46 REFERENCIAS BIBLIOGRÁFICAS ................................................................................. 47 ANEXOS ............................................................................. ¡Error! Marcador no definido. Anexo I Anexo II. Inserte título del primer anexo ....................... ¡Error! Marcador no definido. Inserte título del segundo anexo ................. ¡Error! Marcador no definido..

(13) INTRODUCCIÓN. 1. INTRODUCCIÓN. En diferentes manuales de anatomía se habla de la voz humana como una función secundaria dentro del aparato respiratorio; nuestra necesidad de respirar es constante y vital. Sin embargo ello no quita importancia al papel jugado por el aparato respiratorio/fonador en la comunicación oral lograda por los humanos (Bernal et al., 2000). La producción de la voz es un proceso complejo que incluye la concepción del mensaje en el cerebro, la transmisión de las órdenes correspondientes por el sistema nervioso periférico y la ejecución de los movimientos por los músculos involucrados. Como medio de comunicación humana, porta información en varios niveles: lingüístico, para-lingüístico y extralingüístico (Kreiman and Gerratt, 1996). Dada su importancia, se puede mencionar el sinnúmero de investigaciones dedicadas a su estudio, y el campo de las aplicaciones médicas del procesamiento de voz que evoca gran interés en la comunidad científica internacional. Las alteraciones patológicas del habla se evalúan tradicionalmente de manera subjetiva por los especialistas médicos. Los rasgos subjetivos a evaluar se pueden dividir en tres grandes categorías, en base a si pertenecen a Calidad Vocal, Articulación o Prosodia. Las alteraciones de Calidad Vocal se aprecian en sonidos (fonemas) sostenidos, y entre los rasgos más empleados en la literatura se pueden mencionar la aspereza, el jadeo, el grado general de disfonía, la astenicidad y el esfuerzo. Estos cinco rasgos conforman la escala GRBAS propuesta desde los años 80(Hirano, 1981), para la evaluación clínica de las disfonías. La relación entre estos rasgos perceptuales no está completamente clara, y en el caso particular de la ronquera o disfonía general (G en la escala) se plantea que es una combinación de jadeo y aspereza(Martin et al., 1995)..

(14) INTRODUCCIÓN. 2. Se han realizado esfuerzos por efectuar de manera objetiva esta evaluación clínica, reduciendo la dependencia de la experiencia del evaluador. A este fin se han desarrollado mediciones sobre la señal acústica orientadas a brindar una medición objetiva equivalente, de alguna manera, a la de un parámetro subjetivo dado. Estas medidas intentan por una parte medir las características físicas que se le atribuyen a una voz con presencia del rasgo dado, y por otra corresponder proporcionalmente a la percepción del rasgo. En el caso específico del grado de disfonía, existen múltiples medidas objetivas (perturbaciones de la periodicidad, parámetros de la forma de onda del flujo glotal, etc.) que se han propuesto como índices de la severidad del rasgo. Sin embargo estas medidas no han resultado suficientemente sensibles al rasgo, o específicas al mismo, o consistentes entre diferentes estudios. Las causas pueden ser múltiples, pero el hecho de definirse como una combinación de los rasgos jadeo y aspereza y no como una manifestación acústica particular es de por si un motivo evidente de fallo y hace difícil que pueda obtenerse un índice único con buenos resultados. En este trabajo se intenta establecer una relación entre el grado general de disfonía (G) y sus componentes jadeo y aspereza (B y R), de manera que medidas objetivas que resulten buenas representaciones de B y R puedan ser combinadas y obtenerse una buena representación de G. Problema de investigación: Ausencia de modelos que representen la relación entre las percepciones subjetivas de G y sus componentes B y R. Objetivos: General: -Establecer una relación entre las percepciones subjetivas G y sus componentes R y B. Específicos: -Analizar críticamente las relaciones asumidas entre G, R y B en la literatura. -Proponer diferentes modelos de la relación G con sus componentes R y B. -Evaluar los modelos en un conjunto de sujetos valorados subjetivamente en las tres dimensiones..

(15) INTRODUCCIÓN. 3. Organización del informe En el ¡Error! No se encuentra el origen de la referencia. se presentan los principales conceptos que se tratan en este trabajo, introduciendo el tema de las mediciones del habla, tanto desde el punto de vista objetivo como subjetivo. Se describe la escala GRBAS para la evaluación de las disfonías, las definiciones de grado y sus relaciones con los diferentes. En el ¡Error! No se encuentra el origen de la referencia. se describen las bases de datos de valoraciones subjetivas empleadas, y los modelos de correspondencia G(R,B) a emplear. En el ¡Error! No se encuentra el origen de la referencia. se muestran los resultados obtenidos en los experimentos y se efectúa su análisis, planteando las implicaciones de los mismos en cada caso. Por último se presentan las conclusiones de la tesis y las recomendaciones de trabajo futuro. El cuerpo de la tesis consta de 50 páginas, con 13 tablas, 16 figuras y 9 ecuaciones contenidas en el texto..

(16) CAPÍTULO 2. MATERIALES Y METODOS. 4. CAPÍTULO 1. MEDICIÓN DE ALTERACIONES DEL HABLA. En este capítulo se presentan varios de los principales conceptos relacionados con el tema de las mediciones de las alteraciones del habla con fines médicos. Se ofrece una panorámica de la literatura que aborda el tema de las aplicaciones médicas de la señal de voz, desde el empleo de valoraciones subjetivas hasta mediciones objetivas, así como el problema de correspondencia existente entre ambas. Se mencionan varias de las medidas objetivas empleadas y algunos de los resultados obtenidos para las mismas, además de plantearse el problema de no existir una relación de correspondencia explícita el Grado y el resto de los rasgos de la escala GRBAS. 1.1. Habla normal. Durante la producción del habla acontecen una serie de procesos en ausencia de desórdenes tanto físicos, fisiológicos como orgánicos que pueden considerarse habla normal. Puede concebirse el habla desde el punto de vista del trayecto del mensaje partiendo de la concepción en el cerebro hasta la emisión de la señal acústica, lo cual se corresponde con la visión lingüística de Laver (Laver, 1991), donde se plantea que el habla, como medio de comunicación humana porta información en varios niveles: lingüístico, para-lingüístico y extra-lingüístico. En el primero se incluye la información de lo que se desea transmitir, el “texto” del mensaje, el segundo porta información sobre los estados de ánimo, emocionales u otros, de la persona, así como su procedencia social y otros factores culturalmente determinados y el tercer nivel comprende todos los factores físicos y fisiológicos (incluyendo todos los aspectos orgánicos involucrados en la producción del habla) característicos del locutor. El habla también ha sido conceptualizada desde el punto de vista.

(17) CAPÍTULO 2. MATERIALES Y METODOS. 5. ingenieril modelando los distintos elementos del proceso (Fant, 1960), en el conocido modelo fuente filtro. 1.1.1 Características Acústicas de los sonidos del habla La acústica es una rama de la física interdisciplinaria que estudia el sonido, a efectos prácticos, la acústica estudia la producción, transmisión, almacenamiento, percepción o reproducción del sonido. Los variados tipos de sonidos son producidos ajustando el tipo y el lugar de excitación, y la forma del tracto vocal (Hillenbrand and Houde, 1996). Los sonidos generados se clasifican en sonoros o sordos en dependencia si existe periodicidad o no en la señal emitida. Existen dos mecanismos básicos de producción de la voz: 1- La vibración de las cuerdas vocales, que da lugar a los sonidos tonales o sonoros (vocales, semivocales, nasales, etc.). 2- Las interrupciones (totales o parciales) en el flujo de aire que sale de los pulmones, que dan lugar a los sonidos sordos (fricativos, explosivos, etc.). Adicionalmente hay combinaciones de ambos mecanismos, como las oclusivas sonoras (en español b, d y g). Los sonidos así producidos luego se matizan por la configuración del resto del tacto vocal. 1.1.1.1 Sonidos sonoros Los sonidos sonoros o periódicos son típicos de las vocales (y algunas consonantes como “m”, “n”, “b”, etc) en los cuales se observa una estructura de formantes definida por zonas estables a lo largo del tiempo donde existe una alta concentración de energía fruto de la emisión del flujo de aire por el conducto bucal sin apenas resistencia. Ellos se generan cuando la constricción se produce en las cuerdas vocales. Estas poseen una frecuencia de oscilación conocida como frecuencia fundamental (Fo), o su recíproco el período fundamental (To), en dependencia de la tensión de los músculos aledaños su longitud y su masa, que permite que la generación del sonido vocálico pueda mantenerse mientras exista la presión de aire en los pulmones..

(18) CAPÍTULO 2. MATERIALES Y METODOS. 6. 1.1.1.2 Sonidos sordos Los sonidos sordos o aperiódicos, se producen si no hay vibración de las cuerdas vocales, son únicos de las consonantes, y se generan al hacer pasar el aire (aire turbulento) por constricciones en el tracto vocal (consonantes fricativas: “f”, “s”, “j”, otras) o al liberar repentinamente una oclusión en el mismo (consonantes explosivas sordas: “p”, “t”, “k”). 1.1.2 Modelo de producción desde el punto de vista Anatómico Para la producción del habla se deben tener en cuenta diferentes elementos, partiendo de que el aparato fonador nos sirve para emitir sonidos, y está formado por diversos órganos, estos son: órganos de respiración, órganos de fonación y órganos de articulación. 1.1.2.1 Sonoros El aparato fonador humano (Figura 1.1) consta de tres elementos indispensables para la producción del sonido: un cuerpo que vibra que corresponde a las cuerdas vocales, situadas en la laringe; un medio de propagación que sería el aire proveniente de los pulmones y una caja de resonancia la cual está formada por la cavidad torácica, la faringe, las cavidades oral y nasal y una serie de elementos articulatorios, que son los labios, los dientes, el alvéolo, el paladar, el velo del paladar y la lengua.. Figura 1.1 Aparato Fonador.

(19) CAPÍTULO 2. MATERIALES Y METODOS. 7. La fonación se realiza durante la fase de espiración de la respiración, cuando el aliento o aire contenido en los pulmones sale de éstos, bajo la presión de los músculos abdominales, los intercostales y el diafragma, y, a través de los bronquios y la tráquea, llega a la laringe. Este funcionamiento simplificado del sistema desde el punto de vista físico o anatómico puede explicarse de manera similar a un instrumento musical de viento ya sea un órgano o flauta (Liljencrants 1991). El proceso continúa al pasar este a través de las cuerdas vocales lo que las hace vibrar, conformando los llamados sonidos sonoros. Si las cuerdas vocales se encuentran separadas, la glotis adopta una forma triangular. El aire pasa libremente, sin hacer presión, lo que permite respirar y, prácticamente, no se produce sonido. Por el contrario, si la glotis comienza a cerrarse las cuerdas se juntan. El aire choca contra ellas y experimenta una turbulencia, emitiéndose un ruido de origen aerodinámico conocido como aspiración (aunque en realidad acompaña a una espiración o exhalación). Al cerrarse más, las cuerdas vibran a modo de lengüetas, lo que produce un sonido tonal. La frecuencia de este sonido depende de varios factores, entre otros del tamaño y la masa de las cuerdas vocales, de la tensión que se les aplique y de la velocidad del flujo del aire proveniente de los pulmones. A mayor tamaño, menor frecuencia de vibración, lo cual explica por qué en los varones, cuya glotis suele ser mayor que la de las mujeres, la voz es en general más grave. Esta frecuencia se le conoce como frecuencia del fundamental o tono fundamental. Cuando el tono es grave indica que la frecuencia es baja y cuando es agudo que la frecuencia es alta (Bernal et al., 2000). 1.1.2.2 Sordos Los sonidos sordos como ya se mencionó, se producen al efectuar una contracción parcial (sonidos fricativos) o total (sonidos explosivos) en alguna ubicación en el tracto vocal, produciendo una turbulencia audible en el flujo de aire proveniente de los pulmones. Existen once posiciones reportadas internacionalmente en la producción de sonidos consonánticos: bilabial, labio dental, dental, alveolar, post-alveolar, retroflexa, palatal, velar, uvular, faríngea y glotal..

(20) CAPÍTULO 2. MATERIALES Y METODOS. 8. 1.1.3 Modelo de producción del habla desde el punto de vista físico (Fuente/Filtro). El modelo físico del proceso de producción de la voz ha sido de gran interés desde hace algún tiempo y en particular en los últimos años .Contar con un modelo confiable del proceso puede facilitar la realización de medidas de parámetros alterados o que no se correspondan adecuadamente con el modelo, caracterizar su estado, así como reproducir un estado a partir de valores de los parámetros. 1.1.3.1 Antecedentes El estudio de la fonética acústica se ha mejorado en gran medida desde el siglo 19 por la invención del fonógrafo de Edison. El fonógrafo permitió a la señal de voz ser grabada y luego procesada y analizada. La expresión verbal podía ser construida por la reproducción de la misma señal de voz desde el fonógrafo varias veces, cada vez filtrada con un filtro pasa banda diferente. En una serie de artículos por Ludimar Hermann publicado en Pflügers Archiv en las dos últimas décadas del siglo 19 (Hermann, 1890) se investigó las propiedades espectrales de las vocales y consonantes con el fonógrafo de Edison, y fue en estos documentos que el término fue introducido por primera vez „formante‟. En el plano teórico, la acústica del habla se puede modelar de una manera análoga a los circuitos eléctricos. Lord Rayleigh fue uno de los primeros en reconocer que la nueva teoría eléctrica podría ser utilizada en la acústica. En 1941 que se utilizó efectivamente el modelo de circuito en un libro de Chiba y Kajiyama llamado "La Vocal: su naturaleza y estructura". En 1952, se escribió "Preliminares de Análisis del habla" (Jakobson et al., 1952), una obra fundamental que relaciona la fonética acústica y la teoría fonológica. Este pequeño libro fue seguido en (Fant, 1960), que se ha mantenido como una base teórica importante para la investigación acústica del habla, tanto en la academia como la industria. 1.1.3.2. Descripción. La señal de voz en los seres humanos y muchas especies no humanas se considera comúnmente como el resultado de una combinación entre la fuente de energía del sonido (por ejemplo, la laringe) modulada por una función de transferencia (filtro) determinado por la forma del tracto vocal supralaríngeo. Esta combinación resulta en un espectro con picos en forma de energía de banda ancha. Este modelo se refiere a menudo como la "teoría.

(21) CAPÍTULO 2. MATERIALES Y METODOS. 9. fuente-filtro de la producción del habla" y se deriva de los experimentos de (Muller, 1848)en el que la teoría funcional de la fonación fue probada soplando aire a través de laringes extirpadas a cadáveres humanos. El modelo más empleado frecuentemente en cuanto a síntesis y análisis de voz es precisamente el fuente-filtro (ver Figura 1.2), en el cual se asume que los pulsos de aire g(t) generados en la glotis son conformados espectralmente por la función de transferencia del tracto vocal H(f). La principal ventaja de este modelo está dada por su sencillez al asumir el proceso de producción del habla como lineal, además de su aplicabilidad, y los resultados de su uso son la base de los adelantos en la codificación y transmisión de voz. Su limitación principal radica, simultáneamente, en su sencillez (Titze, 1980) puesto que no sucede de esta forma . Otro aspecto a considerar es la suposición de estacionariedad del tracto vocal, o sea, que el tracto no varía su posición en el intervalo de análisis, pero aquí también se imponen consideraciones prácticas para poder aplicar las técnicas más comunes de análisis, como la correlación, la Transformada de Fourier y otras.. Figura 1.2 Modelo de producción del habla. De la Figura 1.2 se define matemáticamente la relación entre los diferentes componentes del Modelo Fuente-Filtro como:. s(t )  g (t ) * h(t ) * r (t ). (1.1). S ( f )  G ( f ) H ( f ) R( f ). (1.2). Donde * denota la operación de convolución (Krom, 1993), las mayúsculas son las transformadas de Fourier de las señales correspondientes en el tiempo, t y f son variables que representan el dominio del tiempo y la frecuencia respectivamente..

(22) CAPÍTULO 2. MATERIALES Y METODOS. 1.2. 10. Habla patológica. La incapacidad de expresarse a través del habla es quizás la mayor limitante de las discapacidades físicas. La participación significativa en la vida requiere de la comunicación de la información básica, deseos, necesidades, sentimientos y aspiraciones. La falta de comunicación interpersonal completa reduce sustancialmente el potencial de un individuo para la educación, el empleo y la independencia. Hoy en día, a través de contribuciones multidisciplinarias, las personas que no pueden hablar ni escribir tienen efectivamente el acceso a una amplia variedad de técnicas, terapias y sistemas diseñados para mejorar los retos de la comunicación verbal. Debido a que en la producción del habla se tiene una multiplicidad de sistemas y órganos involucrados, existe un gran número de enfermedades que provocan alteraciones en la misma. Se pueden mencionar desde desórdenes neurológicos que afectan la propia información lingüística (Apraxias, Afasias) pasando por otras enfermedades neurológicas que afectan la transmisión y ejecución de las acciones orientadas por el cerebro (Disartrias) hasta afecciones específicas de alguno o varios de los órganos involucrados (tumores, infecciones, inflamaciones, traumatismos) que dificultan la ejecución. Las alteraciones patológicas del habla pueden clasificarse por la etapa del mecanismo de producción en que ocurre o por el nivel fonético-lingüístico en que se aprecia. 1.2.1 Alteraciones en las distintas etapas de producción Las alteraciones, anomalías, perturbaciones o trastornos del lenguaje en las distintas etapas de producción dificultan, de manera más o menos persistente, la comunicación lingüística, afectando no solo a aspectos lingüísticos (fonológicos, sintácticos o semánticos, tanto en el nivel de comprensión y decodificación como de expresión o producción-codificación), sino también intelectuales y de la personalidad, interfiriendo en las relaciones y rendimiento escolar, social y familiar de los individuos afectados. Se denominan Trastornos Motores del Lenguaje lo que equivale al quebrantamiento sobre el control de los movimientos musculares del aparato fonador como consecuencia de una lesión del sistema nervioso central o periférico. Se reconocen dos clases que son: Disartria y Apraxia del lenguaje..

(23) CAPÍTULO 2. MATERIALES Y METODOS. 11. La Disartria es cualquier combinación de trastornos de la respiración, fonación, articulación, resonancia o prosodia que puede ser causada por incoordinación muscular, debilidad muscular o alteración del tono muscular, es decir donde se afecte la transmisión y ejecución de las acciones orientadas por el cerebro (Kent et al., 1997). La apraxia, es un trastorno neurológico caracterizado por la pérdida de la capacidad de llevar a cabo movimientos de propósito, aprendidos y familiares, a pesar de tener la capacidad física (tono muscular y coordinación) y el deseo de realizarlos. En otras palabras, el control muscular permanece intacto, pero aparece una pérdida del conocimiento de la articulación de la palabra. En contraste con la disartria no hay distorsión del sonido del lenguaje sino más bien sustituciones fonéticas, que afectan la concepción de la propia información lingüística (Aronson, 1993). Sólo en la transmisión y ejecución se provocan cambios acústicos que pueden considerarse patológicos desde el punto de vista extra lingüístico (comprende todos los factores físicos y fisiológicos incluyendo todos los aspectos orgánicos involucrados en la producción del habla como característicos del locutor). 1.2.2 Alteraciones por niveles de análisis Las alteraciones del habla pueden clasificarse en tres grupos, de acuerdo con la escala de tiempo en que se perciben. 1.2.2.1Calidad Vocal La Calidad Vocal es multidimensional por definición. De acuerdo con la norma ANSI, (1960) es "el atributo de la sensación auditiva en términos de lo que un oyente puede juzgar que dos sonidos igualmente presentados y teniendo el mismo volumen y el tono son diferentes". Esta definición de calidad vocal obliga a incluir los efectos subjetivos de la envolvente espectral y su variación temporal, la amplitud y la frecuencia de las perturbaciones, y cualquier componente de ruido en la señal (Plomp, 1976). Las mediciones de la calidad vocal principalmente son realizadas por la percepción, basada en la experiencia de los especialistas. Se consideran perturbaciones que se perciben en sonidos aislados, generalmente vocales. Son característicos de este grupo las perturbaciones de la periodicidad de la señal de.

(24) CAPÍTULO 2. MATERIALES Y METODOS. 12. excitación generada en la glotis (la fuente en el modelo fuente-filtro) y la hiper/hiponasalidad, correspondiente a un inadecuado acople de la cavidad nasal al tracto vocal, que modifica su estructura de formantes [(Klatt and Klatt, 1990 ), (Shrivastav and Sapienza, October 2003)]. Se reportan múltiples parámetros de la señal acústica que resultan anómalos a nivel de sonido individual tales como jitter (perturbación de duración de los pulsos glotales), shimmer (perturbación de la amplitud de los pulsos glotales), ruido aditivo y medidas espectrales (Buder, 2000 ). La medición se realiza generalmente sobre grabaciones de vocales sostenidas. Algunos términos para denotar los rasgos subjetivos anómalos encontrados en Calidad Vocal son: jadeo, aspereza, ronquera, estridor y voz estrangulada/forzada. 1.2.2.2 Articulación La articulación se define como la posición específica adoptada por los órganos articulatorios en el momento de la producción del sonido(Hardcastle et al., Feb 22, 2010). Se refiere a perturbaciones que se aprecian en las transiciones entre sonidos, por lo que requieren que la persona pronuncie como mínimo sílabas. La causa está en un inadecuado control de los músculos que regulan la conformación del tracto vocal, y algunos rasgos representativos son las consonantes imprecisas, los fonemas prolongados o repetidos, y las vocales distorsionadas. La característica acústica más reportada es la alteración de las trayectorias temporales de los formantes (Maryn et al., 2007). Otra de las medidas obtenidas en Articulación es la de diadocokinesis (capacidad de efectuar repeticiones rápidas de patrones simples de contracciones opuestas) con la razón de repetición como medida más empleada. También puede mencionarse aquella medida que representa aspectos de coordinación articulatoria que es el VOT (del inglés Voice Onset Time) o sea, el intervalo entre la oclusión y el comienzo de energía periódica, el intervalo fisiológico entre la liberación de la constricción de la consonante y el comienzo de la vibración de las cuerdas vocales; del cual se puede calcular un estimado de esta variable, donde este valor de resultar positivo y, en el caso de pacientes sanos mayor que 20 ms clasifica a la consonante como sorda, de ser negativo la clasifica inmediatamente como sonora, brindando de esta manera un dato adicional para el diagnóstico..

(25) CAPÍTULO 2. MATERIALES Y METODOS. 13. El nivel de complejidad de las mediciones acústicas es considerablemente superior al caso de Calidad Vocal, pues se requiere detectar la zona de interés dentro de la grabación (primer problema, no trivial en habla patológica) para luego obtener las curvas de interés (segundo problema) y compararlas (tercer problema) con patrones normales (cuarto problema). 1.2.2.3 Prosodia La prosodia se generaba mediante sistemas basados en reglas, obtenidas a partir de estudios lingüísticos y retocados empíricamente hasta conseguir un habla sintética aceptable. Actualmente se empiezan a utilizar métodos estadísticos sobre bases de datos para generar automáticamente modelos prosódicos. Se perciben en unidades del habla de mayor duración, como frases u oraciones y también tienen causa en el control muscular. Como ejemplos pueden mencionarse la acentuación igual y excesiva, las ráfagas cortas del habla, los silencios inapropiados y las monotonías de intensidad y tono. La complejidad en la obtención de medidas de anomalía es mucho mayor que en el caso de Articulación, pues se mantienen los cuatro problemas mencionados, pero con un nivel de dificultad superior. Resulta particularmente complicado el establecimiento de los patrones de normalidad, con rangos muy amplios en cualquiera de los parámetros a considerar. 1.3. Medición de Calidad Vocal. La medición es el proceso de determinar la existencia, características, tamaño y/o cualidad de una variable. Estos aspectos relacionados con la variable que se desea caracterizar pueden ser determinados. Existen dos enfoques dominantes en la literatura y la clínica para medir la calidad de la voz: a través del análisis acústico o del perceptivo. . El análisis acústico de la voz es una herramienta muy eficaz y no invasiva para la detección precoz de enfermedades de voz y un soporte objetivo de los diagnósticos. Las medidas de calidad vocal son las más reportadas en la literatura (ver compilación en Buder 2000), por su relativa sencillez, comprobados por muchos estudios experimentales. Sin embargo, estas medidas acústicas y objetivas por lo general se complementan con los juicios de percepción realizadas por otorrinolaringólogos (ORL).

(26) CAPÍTULO 2. MATERIALES Y METODOS. 14. o terapeutas del habla. Por medio de este procesamiento, una serie de características temporales o espectrales se puede extraer del registro de voz, que se supone que está relacionada con su calidad. Clásicamente, una gran cantidad de parámetros a largo plazo se han introducido para medir la calidad y " grado de normalidad " de los registros de voz(Bernal et al., 2000). . Por otra parte, se puede proporcionar algunas evaluaciones de percepción sobre la calidad de la voz, sobre la base de sus características perceptivas y físico acústico. El análisis perceptual es el método más practicado para la evaluación y manejo clínico de los trastornos de la voz. La escala GRBAS es recomendada como un estándar para la práctica de los médicos de voz(Dejonkere et al., 2000). Se ha demostrado que, sobre la base de bajas variaciones ya sean entre o intra -evaluador, los parámetros de escala GRBAS parecen ser las calificaciones perceptuales más fiables y pertinentes de calidad vocal.. Para llevar a cabo la evaluación vocal, el clínico debe aplicar diferentes pruebas y procedimientos con el objeto de valorar cada uno de los elementos que intervienen en la producción de la voz hablada y cantada. Estos elementos se evalúan en gran parte a través de valoración perceptual auditiva, palpación y observación visual, lo que convierte a este tipo de evaluación en subjetiva. Es conveniente complementar esta evaluación funcional con el uso del laboratorio de la voz que es objetivo. 1.3.1 Mediciones Subjetivas Las valoraciones subjetivas de alteración de la normalidad son el enfoque tradicional del análisis de las patologías del habla. En su contra pueden señalarse aspectos intrínsecos del instrumento empleado y de procedimiento. Con respecto al instrumento, el sentido del oído está especializado en integrar las unidades del habla (de fonemas a sílabas, a palabras, a frases, a oraciones), para favorecer la extracción de información lingüística. Esto hace que muchas veces el escucha no quede con una clara conciencia de los detalles acústicos que se combinan para formar una determinada percepción, y son generalmente estos detalles los que deben ser evaluados en la práctica clínica(Alku and Vilkman, 1996). La definición del término empleado para denominar el rasgo que se desea evaluar es el primer aspecto de procedimiento a tener en cuenta. En diferentes estudios se reportan muy.

(27) CAPÍTULO 2. MATERIALES Y METODOS. 15. diversas cantidades rasgos a los que se le atribuye valor diagnóstico (38 en (Maryn et al., 2007), 5 en (Kent, 1996), 31 en (Titze, 1980), 57 en (Gelfer, 1988)), incluso con definiciones diferentes para el mismo rasgo o término. A esto se suma la influencia de la experiencia del especialista en la interpretación del término y la evaluación del rasgo en la práctica. En segundo lugar se encuentra la escala de medición empleada, con dos tipos principales: continuas y discretas. En las primeras se emite un número cualquiera en un intervalo dado, mientras en la segunda el número se selecciona de un conjunto finito de opciones (generalmente los enteros). No se reporta un resultado concluyente sobre la superioridad de una u otra alternativa, aunque las escalas discretas de 4 y 7 puntos son las más empleadas (Kent, 1996, Maryn et al., 2007, Dancey and Reidy, 2004). Las escalas de calificación se han ideado incluyendo los rasgos diferentes con valor clínico. La cantidad de rasgos correspondientes notificados varía desde tan pocos como 3 a tantos como 67 (Hillenbrand, accessed May 21, 2012). La escala de calificación debe contener el número mínimo de características relevantes y tratar el máximo número de diferentes cualidades vocales. En particular, la escala propuesta por Hirano es muy empleada por ser muy sencilla (5 rasgos, escala discreta de 4 puntos) y sin embargo brindar resultados satisfactorios en la práctica clínica. Esta escala se conoce por las siglas GRBAS y es la más aceptada para la Calidad Vocal, a partir de las iniciales de los rasgos propuestos por Hirano (Kent, 1996)(Grade: grado o nivel general de anomalía, Roughness: aspereza o fluctuación irregular de la frecuencia fundamental, Breathiness: jadeo o ruido turbulento producido por el escape de aire, Asthenicity: esteticidad o debilidad global de la voz y Strain: esfuerzo o impresión de tensión. Cada una de estas cinco dimensiones tiene una clasificación en una escala de 0 a 3 (valores enteros), con 0 la ausencia de la perturbación y tres su nivel máximo. Se ha argumentado que la escala GRBAS es a la más bien definida y suficiente para clasificar la variedad de voces patológicas. Otro aspecto es la confiabilidad de las mediciones, pues varios trabajos ver (Hillenbrand, accessed May 21, 2012) para un análisis detallado) han puesto en duda la validez de los modelos para analizar la coincidencia de los jueces, tanto entre ellos como de uno en específico (Yumoto et al., 1982, Laver, 1991). Las propias medidas de confiabilidad.

(28) CAPÍTULO 2. MATERIALES Y METODOS. 16. empleadas son diversas y se emplean sin analizar la relevancia de los valores obtenidos, en particular teniendo en cuenta la probabilidad de coincidencia por azar o la influencia de las características de la muestra (Hillenbrand, accessed May 21, 2012). En esta última importante compilación se concluye que, al parecer: . El desacuerdo entre los jueces resulta en parte debido a la comparación del estímulo externo con patrones subjetivos inestables o idiosincrásicos.. . Los jueces son incapaces de discernir selectivamente un rasgo o dimensión individual, tal como requieren los paradigmas tradicionales.. A pesar de todas estas limitaciones, no existe una alternativa establecida que sustituya el esquema tradicional de valoraciones subjetivas. 1.3.1.1. Escala GRBAS. La gravedad del grado general de disfonía se cuantifica en el parámetro G (Grado) la integración de todos los componentes desviados. Dos componentes principales de la ronquera se pueden identificar como: jadeo (B), que es la impresión audible de la fuga de aire a través de un cierre glotal insuficiente, y puede incluir momentos áfonos cortos (segmentos sin voz), y de Aspereza (R), que es una impresión acústica de impulsos irregulares en la glotis, fluctuaciones anormales en Fo, impulsos acústicos percibidos por separado. Estos dos parámetros han demostrado la fiabilidad suficiente (inter e intra-observador) cuando se utiliza en un entorno clínico actual. Los parámetros de comportamiento A (astenicidad) y S (Strain - esforzada) son comúnmente menos fiables y a veces se omiten en el protocolo básico utilizado por los médicos. Las características R y B están asociados a lesiones orgánicas en las que hay una reducción de la vibración (R) y por defecto de cierre (B), mientras que las características A y S se asocian a trastornos funcionales, relacionadas con el cansancio vocal (A) y de emisión hiper-fónica (S)(Nicolás et al., Aug 30-Sept 3, 2006). La evaluación GRBAS se lleva a cabo por lo general sobre la base de discurso continuo ((Hammarberg et al., 1980),(Yingyong et al., April 1999), (Dominique et al., Nov/Dec 2001),(Ping et al., 2007)).Sin embargo, a veces es abordado por medio de vocales.

(29) CAPÍTULO 2. MATERIALES Y METODOS. 17. sostenidas lo cual puede ser confirmado en el artículo de (Maryn et al., 2009), donde se ha reportado que 18 de los 25 estudios revisados por ellos, examinó exclusivamente vocal sostenida, 4 solo habla fluida y los 3 restantes vocal sostenida y habla fluida. Aunque hay estudios que demuestran que los resultados pueden variar en función del material utilizado(Revis et al., 1998), llegando a la conclusión de que la evaluación de vocales sostenidas es menos grave (o sea que la disfonía es subestimada) que la que se lleva a cabo a partir de habla continua, especialmente en aquellos pacientes con disfonía severa. El mismo estudio llama la atención sobre la variabilidad de cada uno de los cinco parámetros GRBAS. El parámetro más consistente es G , mientras que las escalas A y S demostraron una fuerte variabilidad , debido al hecho de que estos conceptos son más complejos de evaluar , incluso por un experto humano. 1.3.2 Mediciones Objetivas Ha habido una gran cantidad de trabajo en la obtención de medidas acústicas que muestran una buena correlación con determinadas dimensiones de la percepción de calidad vocal (más de 500 referencias son analizados por Buder, para el período 1902-1990). Una tendencia marcada en las mediciones acústicas es la de intentar que los parámetros obtenidos se correspondan con rasgos con valor de diagnóstico descritos en las valoraciones subjetivas tradicionales (Shrivastav and Sapienza, 2003). En esta dirección se desea que el índice sea sensible a la percepción del rasgo, que sea específico (no se correlacione significativamente con otros rasgos) y además consistente (ante diferentes muestras y paneles de jueces). A medida que se incrementa la complejidad de las unidades del lenguaje a analizar, desde los fonemas a las oraciones transitando de calidad vocal a prosodia, se incrementa también la complejidad del desarrollo y la obtención de medidas objetivas relacionadas con la percepción de los rasgos correspondientes. Tanto en Articulación como en Prosodia las medidas acústicas completamente automáticas están en desventaja con respecto a las mediciones subjetivas o que requieren de la intervención del especialista. El oído está especializado en la extracción de la información lingüística, a la que contribuyen la correcta articulación y prosodia, por lo que las desviaciones de lo normal de los rasgos con definiciones “subjetivas” (monotonía,.

(30) CAPÍTULO 2. MATERIALES Y METODOS. 18. envolvente adecuada, frases cortas, etc.) pueden ser mejor percibidas auditivamente (Castillo, 2004). Por otra parte, en las medidas que pueden considerarse “objetivas” por su definición (razón del habla, VOT, y otras) la intervención del especialista en el marcado o conteo de los eventos de interés resulta superior a lo que se logra mediante métodos automáticos, con un esfuerzo relativamente pequeño. En (Ferrer et al., 2005) se describen mediciones completamente automáticas de los rasgos Razón del Habla, Decadencia del Nivel y Consonantes Imprecisas, respectivamente, en grabaciones del ejercicio de diadocokinesis (Aronson, 1993) que resultan ilustrativos de las dificultades que se presentan en este tipo de mediciones. Las perturbaciones acústicas pueden surgir de un gran número de fuentes, incluyendo irregularidades en la inervación muscular, lesiones masivas en las cuerdas vocales, las asimetrías de tensión, la aleatoriedad en el flujo a través de la glotis y las irregularidades en las interacciones del tracto fuente-vocales a través de las configuraciones articulatorias inestables, entre otras. 1.3.3 Problemas existentes de correspondencia En la práctica, las medidas objetivas de las características acústicas asumidas han mostrado correlaciones inconsistentes con el nivel percibido. Las mediciones de parámetros de la señal acústica para aplicaciones médicas han sido ampliamente abordadas en la literatura a partir de los trabajos de Liebermans (1963) aunque, al igual que las valoraciones subjetivas, no están exentas de dificultades. Ambos tipos de mediciones (subjetivas y acústicas) han sido empleados para conformar sistemas de diagnóstico que permiten, a partir de las mediciones de determinados rasgos, efectuar una clasificación del paciente más o menos precisa, desde la clasificación normal/patológico hasta el diagnóstico diferencial entre un conjunto de enfermedades. Las mediciones de Calidad Vocal son más factibles de obtener de manera completamente automática empleando la señal acústica, sin la intervención de un especialista, que las de Articulación y Prosodia, como se ha explicado en las secciones anteriores. Los casos más tratados de aspereza, jadeo y grado general de disfonía han producido correlaciones desde insignificantes (cercanos a cero) hasta muy altas (0.94) (ver tablas resumen en(Hillenbrand,.

(31) CAPÍTULO 2. MATERIALES Y METODOS. 19. accessed May 21, 2012)). Las posibles explicaciones a la ausencia de correspondencia en algunos trabajos entre las valoraciones subjetivas y las mediciones acústicas son: 1. Incorrecta suposición teórica en cuanto a la correspondencia entre la valoración subjetiva y la medida objetiva. En este caso la valoración subjetiva es correcta, pero la medida objetiva no está realmente correlacionada con ella. 2. La suposición es correcta, pero existen fallos en la obtención de la medida objetiva. En este caso el problema es achacable al instrumento y al proceso de medición. 3. La relación existe y las medidas objetivas son correctas, pero hay problemas en la determinación de la correspondencia de estas últimas con las valoraciones subjetivas (errónea selección de la muestra o las técnicas estadísticas, efectos aleatorios, etc.). 4. El problema está en las valoraciones subjetivas. Aquí cabe la inconsistencia de la coincidencia de los jueces, tanto entre ellos como de uno en específico, y la naturaleza multidimensional de las percepciones de los rasgos (por ejemplo, el efecto de enmascaramiento de un rasgo por la presencia de otro). Resulta imposible determinar a través de estudios asociativos (entre las valoraciones subjetivas y las mediciones acústicas) cuál de las razones anteriores provoca la falta de correspondencia entre ambas. En las mediciones subjetivas de Calidad Vocal se consideran excelentes valores de correlación por encima de 0.7, y aceptables por encima de 0.5 (según la compilación de Kreiman & Gerrat(Hillenbrand, accessed May 21, 2012). Aunque no debe esperarse que las correlaciones de las mediciones acústicas con las valoraciones subjetivas de un rasgo estén por encima de estos valores, tampoco deben ser muy inferiores. En la práctica las correlaciones de mediciones objetivas / valoraciones subjetivas han oscilado muy por debajo de las mostradas por los jueces (a veces llegando a ser insignificantes). Kreiman y Gerrat proponen el uso de técnicas de síntesis de voz, variando controladamente los parámetros acústicos, para poder arribar a una mejor comprensión de la relación objetiva-subjetiva, incluyendo la posibilidad de analizar el efecto de la naturaleza multidimensional de la percepción. Sin embargo, la limitada naturalidad de los sintetizadores de voz puede introducir un efecto adicional, cuya influencia en las valoraciones subjetivas de los rasgos específicos no ha sido estudiada..

(32) CAPÍTULO 2. MATERIALES Y METODOS. 1.4. 20. Medición de grado. La medición del nivel general de alteración presente en la voz es deseable puesto que el oído percibe la voz como un todo, y lo que se desea es que suene bien en general y no evaluando cada rasgo en particular.. Esto ha favorecido la investigación en este. "rasgo"(Ping et al., 2007). No hay muchos intentos de combinar de manera explícita las dimensiones perceptivas individuales en calidad Vocal en general. La suposición subyacente en la mayoría de los estudios es la relación lineal, frecuentemente en forma de un ajuste de regresión lineal de varias medidas acústicas en la calificación de la percepción de Grado(Tarika et al., 2004), (Muñoz et al., 2003). 1.4.1 Definición de grado Varios autores han elaborado diferentes conceptos o definiciones de grado en la medida de la forma particular en que cada uno lo percibe. Algunas de estas definiciones se muestran a continuación: . (G de la escala GRBAS), es considerado como la severidad general o calidad vocal. general.(Haderlein et al., 2012). . Una combinación de aspereza y jadeo que se corresponde con la vibración irregular. de las cuerdas vocales y el ruido aditivo(Martin et al., 1995). . Una calidad de voz que claramente contiene componentes de ruido, y que pueden ser. etiquetados (por ejemplo, elementos de ruido en la fuente, más el ruido de fricción) áspera y entrecortada; su tono percibido tiende a variar de forma sustancial; descriptores comunes de esta calidad son "ruidosa", "duro '' (Lofquist et al., 1988). . "Jadeo más Aspereza; es, por lo tanto, un resultado de una combinación de escape de. aire excesivo y una aperiodicidad de la vibración de las cuerdas vocales"(Eskenazi et al., 1990). Como podemos observar varios autores de los citados anteriormente coinciden en sus definiciones perceptuales al considerar el grado como la combinación de la presencia de Jadeo y Aspereza. En cuanto a sus características acústicas particulares e no se describen al igual que no hay causa fisiológica particular puesto que como se dijo con anterioridad es.

(33) CAPÍTULO 2. MATERIALES Y METODOS. 21. una combinación de rasgos. A continuación se describen los modelos reportados en la literatura de combinación de G en función de sus componentes. En un artículo de Bonastre (Bonastre et al., 2007) se propone la idea de considerar la escala GRBAS como un espacio de tres dimensiones, con dos de los ejes definidos por la aspereza o rugosidad y el jadeo, respectivamente, y la astenia y la tensión puesta en direcciones opuestas en el tercer eje, como se muestra en la Figura 1.3. Este tercer eje reflejaría una voz normal en el origen, mientras que la dirección asténica reflejaría un hipofuncionamiento anormal, y la tensión un hiper-funcionamiento anormal. Grado (G) se considera como la distancia escalar desde el origen hasta el punto definido por los demás rasgos, que sería la calificación del paciente en particular. B G. 4 3. S. 2 1 0. 1. 2. 3. 4. R. 1 2. A 4. 3. Figura 1.3. Representación tridimensional de la cartografía GRBAS propuesto por(Bonastre et al., 2007). Grado correspondiente a jadeo B = 3, aspereza R = 2 y strain S = 1.. Haderlein & Moers por otra parte han planteado en sus artículos que “H, como superclase de R y B, tiene que tener valores mayores o iguales a cualquiera de estas dos por separado” (Moers et al., 2012, Haderlein et al., 2012). Un modelo lineal separado fue utilizado en(Tarika et al., 2004), para analizar el Grado planteando que representa una puntuación compuesta por el resto de los rasgos R, B, A, y S, de la escala GRBAS, y se obtiene a partir de regresiones lineales..

(34) CAPÍTULO 2. MATERIALES Y METODOS. 22. 1.4.2 Medidas objetivas y resultados obtenidos En (Heman-Ackah et al., 2002),se investigó sobre la relación entre la Prominencia del Pico Cepstral y ciertos parámetros de disfonías. En este estudio se trata el tema de la irregularidad en la confiabilidad, de las medidas tradicionales de disfonía y su correlación con el grado de percepción. Las medidas empleadas fueron: CPP suavizado (CPPS), relación ruido-a-armónico (NHR), el cociente de perturbación de la amplitud (APQ), media de perturbación relativa (RAP), y cociente de perturbación pitch suavizado (sPPQ). Los resultados obtenidos en relacionar valoración perceptual y grado (G) mostraron que las mejores correlaciones fueron para CPPS-s (r2= 0.74) y CPPS-/α/ con (r2= 0.64), el resto de las medidas oscilaron entre los valores de 0.28 y 0.36. En un artículo de(BHUTA et al., 2004), se investiga la relación del Grado general, la aspereza, el jadeo, la astenicidad, y el esfuerzo, parámetros de la escala GRBAS y un Programa de Voz Multi-Dimensional (MDVP) desarrollado por la Kay Elemetrics que ofrece 34 medidas acústicas. Fueron consideradas 19 medidas, seleccionadas del MDVP. De estas medidas solo 3(índice de turbulencia vocal (VTI), relación armónicos a ruido (NHR), índice de fonación suave (SPI)), resultaron significativas para GRBAS, y como resultado se obtuvo en específico para el Grado que el valor más alto de r2 fue de 0.43. En otro artículos (Virgilijus et al., 2005) , se refleja como las perturbaciones de frecuencia y amplitud así como el ruido glotal son significativamente superior en los grupos de pacientes comparados con el grupo normal. La medición de la energía del ruido normalizada (NNE) resulto ser un parámetro óptimo para la discriminación entre las voces normal y anormal. Los resultados obtenidos en cuanto a la correlación entre las evaluaciones de la voz subjetiva y acústica fueron: la correlación más alta para el grado se obtuvo con el jitter con valor de (r2= 0.73), mientras que para el shimmer fue de (r2=0.66) y para NNE (-dB), alcanzo tan solo (r2=0.62). 1.5. Consideraciones metodológicas sobre la percepción de grado. A pesar de varios intentos para automatizar la evaluación de la voz, los métodos basados en la percepción continúan siendo la base para la evaluación de patologías de la voz por los pacientes y médicos, y sirven como referencia para los métodos objetivos. La percepción de la calidad de voz, sin embargo, es demasiado inconsistente entre los evaluadores.

(35) CAPÍTULO 2. MATERIALES Y METODOS. 23. individuales para establecer una clasificación estandarizada y unificada(Kreiman and BR., 1996). De esta manera, no se puede utilizar para los propósitos clínicos y científicos. Por esta razón, la opinión promedio de un grupo de evaluadores se elige a menudo como una referencia para la evaluación automática(Haderlein et al., 2012). 1.5.1 Modelo G(R,B) En la propia definición de la escala GRBAS (Kent, 1996)está implícito que G, como grado o nivel de disfonía presente, depende en alguna manera de las dimensiones o componentes (R, B, A y S) en que se manifiesta la disfonía según la escala. Sin embargo, no existe una relación de correspondencia explícita G (R, B, A, S) que establezca la relación. La escala alemana RBH, equivalente al subconjunto GRB de la GRBAS, tampoco define esta relación. La manera en que se establece esta relación en cada juez es completamente subjetiva, con múltiples aspectos acústicos incidiendo en la percepción de cada rasgo subjetivos y la valoración general, y además puede suponerse única para cada juez. Para la valoración general G no existe una definición donde se mencionen parámetros acústicos directamente relacionados con su alteración, a diferencia de sus componentes mucho mejor definidas desde el punto de vista fisiológico y acústico (ver definiciones de B y R en el epígrafe 1.3.1). El hecho de que G sea un parámetro de suma importancia desde el punto de vista clínico, unido al hecho de que para B y R existen parámetros acústicos que se espera sean distintivos hace deseable establecer una relación perceptual G(R, B) que permita, a partir de medidas objetivas de B y R, combinarlas de esa manera y obtener el estimado objetivo de G. 1.5.1.1 Suposición Lineal La suposición lineal emerge como la alternativa implícitamente asumida en todos los trabajos donde se ha considerado G (grado) como una combinación lineal de rasgos o medidas acústicas. Algunas definiciones de grado como las que observamos en el epígrafe 1.4.1 plantean dicha combinación como la suma aritmética de Jadeo y Aspereza, lo cual ha sido tomado en cuenta para diversos trabajos ((Muñoz et al., 2003, Wendler et al., 1996))..

(36) CAPÍTULO 2. MATERIALES Y METODOS. 24. 1.5.1.2 Modelado Euclidiano La representación tridimensional de la escala GRBAS en la Figura 1 difiere de la descripción original de Hirano en que algunas de las dimensiones dependen explícitamente de los otros. En primer lugar, las dimensiones A y S son exclusivos (si uno de ellos está presente, el otro debe ser cero). Esto está en contradicción con algunas valoraciones de ejemplo suministrado por Hirano. Otro problema de este modelo euclidiano es descrito en la próxima sección, y se le denomina problema de las esquinas. 1.5.1.3 Problemas de las esquinas Según (Haderlein et al., 2012), la valoración de grado en la escala RBH, como superclase de R y B, tiene que ser igual o mayor que cualquiera de estas por separado(G ≥ máx(R,B)). Dado que la escala GRBAS (ó RBH, según el caso) solo contempla valoraciones entre 0 y 3, el plano de posibles valores de (R y B) está limitado por el cuadrado (0.0), (0.3), (3.3) y (3.0). Por el mismo motivo en las esquinas (0.3), (3.3) y (3.0), el valor de G tiene que ser 3. Sin embargo, los modelos lineares y euclidiano produce valores diferentes para (3.3) y las otras dos esquinas. En cuanto a la igualdad de estas dos esquinas, aunque perceptualmente R y B puedan contribuir de distinta manera a G, ambos modelos producen predicciones de G simétricas con respecto a la diagonal (0.0)-(3.3). 1.5.2 Base de Datos Para que los resultados sean representativos, la base de datos debe tener una cobertura total del plano (R, B), para poder evaluar la dependencia de G en todo el plano. Una excepción a esta característica deseada puede hacerse si la base de datos tiene una cobertura adecuada solo a un lado de la diagonal (0.0)-(3.3) dada la simetría de los modelos hasta ahora descritos (linear y euclidiano). 1.6. Conclusiones parciales. Se ha descrito la ausencia de definiciones o modelos de relación entre G y sus componentes, que hayan sido validadas además experimentalmente. Se explican además los modelos o consideraciones planteados hasta la fecha, mostrando sus limitaciones..

(37) CAPÍTULO 2. MATERIALES Y METODOS. 25. CAPÍTULO 2. MATERIALES Y MÉTODOS. La medición objetiva del grado es altamente deseada pero al no existir una descripción de las características acústicas de G se hace necesario establecer una relación entre Grado y sus componentes de Jadeo y Aspereza, en este capítulo se aborda el tema. Se describen los modelos a evaluar, y las bases de datos que se emplean. 2.1. Bases de datos. Para el desarrollo de este trabajo fueron empleadas tres bases de datos:  Nawka& Anders  Youry Maryn´s  Kay Elemetrics. Estas contienen diferentes números de grabaciones de pacientes con distintas patologías de la voz. Es recomendable como se planteó en el epígrafe 1.5.2 que estas se encuentren bien distribuidas sobre todo en los valores de las esquinas. A continuación se presenta la descripción de cada una de estas. 2.1.1. Nawka & Anders. Esta BD se encuentra disponible en una edición de dos CD, y cuyo propósito es lograr la capacitación de los distintos evaluadores para una mejor utilización de la escala RBH. Los CDs constan de un total de 40 grabaciones de habla fluida en alemán de pacientes seleccionados con la intención de cubrir el rango de aspectos relevantes en esta escala. La base de datos cuenta también con una tabulación de las valoraciones subjetivas en la misma por tres paneles de jueces para cada grabación..

(38) CAPÍTULO 2. MATERIALES Y METODOS. 26. Un panel estuvo compuesto por un conjunto de 7 expertos, y los otros estuvieron formados por dos grupos de estudiantes de logopedia, cada uno con más de 20 estudiantes. Las valoraciones se encuentran conformadas por cinco conjuntos: 1-. El consenso de los expertos (valores enteros en la escala GRB).. 2-. La media de los expertos.. 3-. La media del grupo 1 de estudiantes.. 4-. La media del grupo 2 de estudiantes.. 5-. La media del grupo 2 de estudiantes en una segunda valoración.. 2.1.2. Youry Maryn´s. La BD se compone de un total de 229 grabaciones de voces a una frecuencia de muestreo de 44,1 kHz y 16 bits de resolución, a partir de los pacientes realizando la lectura de un párrafo estándar "números" y la fonación sostenida de la vocal "a" por un tiempo de 3 segundos. Esta Base de Datos contiene las calificaciones en las dimensiones GRB de la escala GRBAS, realizada por 5 jueces belgas, terapeutas del habla con más de 5 años de experiencia. Estas valoraciones subjetivas fueron desarrolladas emitiendo un criterio único para cada paciente, luego de escuchar consecutivamente las grabaciones de los dos ejercicios. No se cuenta con valoraciones repetidas, además estas cinco valoraciones de jueces belgas, se efectuaron en este trabajo valoraciones de la misma escala por parte de tres jueces cubanos, emitiendo las valoraciones con respecto al ejercicio de la vocal sostenida. 2.1.3. Kay Elemetric. Esta BD contiene un total de 657 grabaciones de voces patológicas, digitalizadas a 50 KHz, con 16 bits de resolución, para un segundo de grabación. De esta base de datos no se cuenta con valoraciones subjetivas por un panel de expertos por lo que en este trabajo se efectuaron dichas valoraciones por parte de tres jueces, dos veces con más de dos semanas de separación entre valoraciones. Como el objetivo es establecer la relación G(R, B) ambas rondas de valoraciones se dividieron en dos sesiones, una para valorar G y otra para valorar.

(39) CAPÍTULO 2. MATERIALES Y METODOS. 27. R y B. De esta manera los jueces no tenían conocimiento de que valor de G le habían asignado a una voz, al emitir las valoraciones de R y B (y viceversa). 2.2. Modelos a evaluar. Las valoraciones con que se cuenta están en la escala GRBAS simplificada a GRB (o RBH). Por esta razón, los modelos aquí descritos expresan G (o H) en función de R y B. A pesar de esto, los modelos se extienden fácilmente a más dimensiones. 2.2.1 Modelo lineal y variante recortado El primer modelo de G(R, B) es considerarlo proporcional a una combinación lineal de R y B denotada L(R, B):. GR, B   kLR, B . LR, B   mR  nB  o. (2.1). Los valores de los coeficientes m, n y o se pueden determinar a través de un mejor ajuste de regresión lineal, sin embargo, se aplicaron dos heurísticas que fijan sus valores. En primer lugar, o debe ser cero, ya que para B = 0 y R = 0 el G resultante debe ser cero. En segundo lugar, m y n se suponen iguales, ya que no hay razón para considerar R o B más relevante uno que el otro. De esta manera, L (R, B) se puede escribir como:. LR, B   R  B. (2.2). Dejando el factor de proporcionalidad a la constante k en (2.1). Este es el primer modelo evaluado. Una representación en escala de grises de L (R, B) (independiente de k) se muestra en la Figura 2.1 donde a) con la intensidad más alta (blanco) que corresponde a la máxima calificación. Para k = 1, en la esquina superior derecha de la figura, que corresponde a G (3,3) el valor sería 6, y en las esquinas G (3,0) y G (0,3) el valor sería de 3. Para corregir la inconsistencia en la esquina G (3,3), podría ser utilizado k = 0,5, pero el valor en las esquinas G (3,0) y G (0,3) sería 1,5 violando la restricción G ≥ máx(R, B). Una posible solución es el uso de k = 1 y limitar a tres el valor de L (R, B) cuando es mayor que 3:.