Clasificación automática de voces patológicas

Texto completo

(1)Universidad Central “Marta Abreu” de Las Villas Facultad de Ingeniería Eléctrica Centro de Estudios de Electrónica y Tecnologías de la Información. TRABAJO DE DIPLOMA Clasificación Automática de Voces Patológicas. Autor: Luis Idalberto Ruiz Duarte.. Tutor: Dr. C. Diana Torres Boza.. Santa Clara 2015 "Año 57 de la revolución".

(2) Universidad Central “Marta Abreu” de Las Villas Facultad de Ingeniería Eléctrica Centro de Estudios de Electrónica y Tecnologías de la Información. TRABAJO DE DIPLOMA Clasificación Automática de Voces Patológicas. Autor: Luis Idalberto Ruiz Duarte. E-mail: Lruiz@uclv.edu.cu. Tutor: Dra. C. Diana Torres Boza. E-mail: dtb@uclv.edu.cu Santa Clara 2015 “Año 57 de la revolución".

(3) Hago constar que el presente trabajo de diploma fue realizado en la Universidad Central “Marta Abreu” de Las Villas como parte de la culminación de estudios de la especialidad de Ingeniería en Biomédica, autorizando a que el mismo sea utilizado por la Institución, para los fines que estime conveniente, tanto de forma parcial como total y que además no podrá ser presentado en eventos, ni publicados sin autorización de la Universidad.. Firma del Autor Los abajo firmantes certificamos que el presente trabajo ha sido realizado según acuerdo de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de esta envergadura referido a la temática señalada.. Firma del Tutor. Firma del Jefe de Departamento donde se defiende el trabajo. Firma del Responsable de Información Científico-Técnica.

(4) i. TAREA TÉCNICA. 1. Revisión Bibliográfica y definición del Marco Teórico relacionado con la clasificación de voces patológicas 2. Implementación de las mediciones acústicas que se emplearán como rasgos para la clasificación. 3. Selección de las herramientas de clasificación que se utilizarán para separar las diferentes clases de voces patológicas. 4. Diseño de los experimentos. 5. Análisis de los resultados obtenidos a partir de la aplicación de los métodos de clasificación.. Firma del Autor. Firma del Tutor.

(5) ii. RESUMEN El siguiente trabajo aborda la temática de la clasificación de voces patológicas utilizando mediciones acústicas. El objetivo fundamental es clasificar las voces patológicas según su etiología en Sano, hiperfuncional con cambios en la mucosa de las cuerdas vocales (MTDc) o Neurogénico. Para ello se conforma una base de datos de voces patológicas a partir de la unión de las bases de datos reportadas MEEI y YM, teniendo en cuenta las limitaciones de estas. La nueva base de datos estandariza la frecuencia de muestreo y el tiempo de fonación del ejercicio de vocal sostenida y se logra un balance entre las diferentes clases. Los rasgos acústicos utilizados son: las componentes de irregularidad y ruido que forman el diagrama de ronquera (HD). Estos rasgos acústicos se utilizan como entrada de cuatro métodos de clasificación (LDA, SVM, MLP y J48), ampliamente utilizados en la literatura, para separar las diferentes clases. Como resultado se logra una tasa de clasificación correcta entre las clases Sano, MTDc y Neurogénico, en el plano HD, de un 73% empleando el método MLP como clasificador..

(6) iii TABLA DE CONTENIDOS. TAREA TÉCNICA ..................................................................................................................i RESUMEN ............................................................................................................................ ii INTRODUCCIÓN .................................................................................................................. 1 Capítulo 1. Características de la Señal de Voz .................................................................... 4. Anatomía del Proceso de Producción de la Voz ...................................................... 4 Sistema Fonador ............................................................................................... 4 Sistema Articulatorio ........................................................................................ 5 Características Acústicas de los Sonidos ................................................................. 6 Modelo Fuente-Filtro de Producción de la Voz. ...................................................... 6 Características de la Fuente .............................................................................. 7 Caracerísticas del Filtro .................................................................................... 8 Perturbaciones de la Periodicidad ................................................................... 10 Patologías de la Voz: Presentación y Clasificación ............................................... 10 Clasificación de los Desórdenes de la Voz ............................................................ 11 Desórdenes Hiperfuncionales ......................................................................... 13 Desórdenes Neurológicos ............................................................................... 15 Diagnóstico Automático de Voces Patológicas ..................................................... 18 Capítulo 2. Materiales y Métodos...................................................................................... 23. Mediciones Acústicas: Diagrama de Ronquera (HD) ............................................ 23 Componente de Irregularidad (CI) .................................................................. 24 Componente de Ruido (CR) ........................................................................... 25 Base de datos .......................................................................................................... 25 Base de datos MEEI ........................................................................................ 26 Base de datos YM ........................................................................................... 27 Base de Datos Híbrida (MEEI+YM) .............................................................. 27 Métodos de Clasificación ....................................................................................... 29 2.1.1. Análisis Discriminante Lineal (LDA) ............................................................. 29. 2.1.2. Máquinas de soporte Vectorial (SVM) ........................................................... 30. 2.1.3. Redes Neuronales Multicapa (MLP) .............................................................. 31.

(7) iv 2.1.4 2.2. Árboles de Decisión (J48)............................................................................... 33. Experimentos.......................................................................................................... 35. Conlcusiones Parciales ......................................................................................................... 38 Capítulo 3. Resultados y Discusión ................................................................................... 39. Análisis de los Valores Obtenidas CI y CR ........................................................... 39 Distribución de los Datos en el Plano HD ............................................................. 41 Resultados de la Clasificación ............................................................................... 43 Análisis de Discriminante Lineal (LDA) ........................................................ 43 Máquina de Vector Soporte (SVM) ................................................................ 44 3.3.2.1. Kernel Polinomial Grado 1: SVM-G1 ..................................................... 44. 3.3.2.2. Kernel Polinomial Grado 2: SVM-G2 ..................................................... 46. 3.3.2.3. Kernel Polinomial Grado 3: SVM-G3 ..................................................... 47. Redes Neuronales Multicapa (MLP) .............................................................. 49 Árboles de Decisión (J48)............................................................................... 50 Conclusiones Parciales ......................................................................................................... 52 CONCLUSIONES Y RECOMENDACIONES ................................................................... 53 Conclusiones ..................................................................................................................... 53 Recomendaciones ............................................................................................................. 54 REFERENCIAS BIBLIOGRÁFICAS ................................................................................. 55.

(8) ¡Error! Utilice la pestaña Inicio para aplicar Title al texto que desea que aparezca aquí.. 1. INTRODUCCIÓN Una de las características que distingue al ser humano es la capacidad para comunicarse mediante el lenguaje hablado. El habla contiene abundante información sobre la persona, su sexo, edad aproximada, lugar de origen por el acento, sus sentimientos de alegría o pena, intranquilidad o nerviosismo, además de información útil desde el punto de vista clínico. Por tal razón muchos han sido los estudios realizados en el área de procesamiento de voz. Entre las aplicaciones podemos mencionar: 1. Aplicaciones en los sistemas de comunicación: Incluyen el análisis, transmisión y síntesis de voz, reconocimiento de voz, etc. 2. Aplicaciones en fonética y lingüística: Comprenden el estudio de la entonación, los aspectos emocionales del habla, el estudio de los fonemas en diferentes idiomas, etc. 3. Aplicaciones en la educación: Abarca tanto la ayuda en la enseñanza del habla a los sordos como el aprendizaje de lenguas extranjeras. 4. Aplicaciones en la medicina: Engloba tanto el diagnóstico de enfermedades a partir del habla como la obtención de información sobre progreso de pacientes en proceso de rehabilitación. Este trabajo está relacionado con las aplicaciones médicas del procesamiento de voz y específicamente con la detección y seguimiento de voces patológicas. Para el diagnóstico de voces patológicas el especialista primeramente realiza un examen subjetivo a partir de determinados ejercicios de la voz [1]. Esta prueba depende de la experiencia y el entrenamiento del especialista. A esta limitante podemos añadir el hecho de que debido a las limitaciones del sistema auditivo, es muy difícil determinar las patologías en sus etapas iniciales [1]. Después del análisis subjetivo de la voz, el especialista efectúa un examen físico (laringoscopia, endoscopía, electroglotografía, entre otros) el cual se caracteriza por ser altamente invasivo y doloroso para el paciente [1] Dada las limitaciones del diagnóstico diferencial han surgido investigaciones relacionadas con la aplicación de técnicas de procesamiento digital de señales para la extracción de parámetros acústicos de la voz. De esta manera se puede cuantificar características de la voz imperceptibles al especialista y se reduce el efecto invasivo de los equipos de inspección física [1]..

(9) ¡Error! Utilice la pestaña Inicio para aplicar Title al texto que desea que aparezca aquí.. 2. En la valoración de la calidad de la voz, el análisis acústico está siendo aplicado cada vez más como herramienta de apoyo diagnóstico [1]. Se han reportado trabajos basados en análisis acústico, extracción paramétrica y no paramétrica de rasgos, técnicas de reconocimiento de patrones y variantes estadísticas [2-18]. No existe una uniformidad en el diseño de los experimentos. Algunos trabajos utilizan bases de datos muy limitadas en cantidad de elementos mientras otros utilizan bases con cientos de instancias. Muchas veces las condiciones de grabación difieren, en algunos trabajos son utilizados equipos profesionales y en otros la tarjeta de sonido perteneciente a las computadoras personales. Incluso cuando la bases de datos es la misma, la manera en que los elementos son seleccionados difieren de un experimento a otro. Además en muchos casos la cantidad de elementos por clases es desbalanceada influyendo esto en los resultados finales de la predicción. La mayoría de los trabajos reportados en la literatura se relaciona con la caracterización de las voces en patológicas o sanas. En [19] se reporta que el 60% de los artículos estudiados corresponden a la clasificación de voces patológicas utilizando mediciones acústicas para separar las voces patológicas de las sanas. En menor medida (18 % de los trabajos estudiados se reportan artículos donde se trate la separación de las voces patológicas por su etiología. Una posible razón radica en que este problema es más complejo que el de separación sano/patológico pues varios indicadores acústicos pueden caracterizar diferentes grupos etiológicos [18]. Por otro lado existe un solapamiento entre los sujetos que presentan características normales de loa voz y los patológicos: muchos desórdenes de la voz no causas cambios perceptibles y algunos sujetos normofónicos pueden mostrar mediciones acústicas anómalas. Esta inconsistencia reportada pudiera ser una de las razones para explicar le porque los esfuerzos de relacionar diferentes mediciones acústicas con diagnósticos específicos han sido reducidos con respecto a la clasificación sano/patológico. Situación del Problema Las mediciones acústicas de la voz han surgido como un excelente complemento para el diagnóstico de las patologías de cuerda vocal. Sin embargo la mayor cantidad de esfuerzos se concentran en la clasificación entre sano/patológico por su sencillez con respecto a la categorización de etiologías..

(10) ¡Error! Utilice la pestaña Inicio para aplicar Title al texto que desea que aparezca aquí.. 3. Objetivo Generar: Clasificar voces patológicas según su etiología a partir del empleo de rasgos acústicos de la señal de voz. Objetivos Específicos: . Conformar una base de datos de voces patológicas a partir de las limitaciones encontradas en las bases de datos MEEI y YM.. . Emplear un conjunto de rasgos acústicos que caracterizan el proceso biomecánico de las cuerdas vocales.. . Evaluar métodos conocidos de clasificación para la predicción de voces patológicas según su etiología.. Organización del informe Capítulo 1: Se describe el proceso fisiológico de la producción de la voz y la modelación de este proceso mediante el Modelo Fuente-Filtro. Adicionalmente se describen las afecciones de la voz y el estado del arte en la clasificación de voces patológicas. Capítulo 2: Se describen los rasgos acústicos así como la base de datos de voces patológicas y los clasificadores para la separación de los diferentes grupos. Además se describe el diseño experimental. Capítulo 3: Se describen los resultados obtenidos de la clasificación..

(11) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. CAPÍTULO 1. 4. CARACTERÍSTICAS DE. LA SEÑAL DE VOZ En este capítulo se describe el proceso fisiológico de la producción de la voz y la modelación de este proceso mediante el Modelo Fuente-Filtro. Adicionalmente se describen las afecciones de la voz y el estado del arte en el tema de clasificación de voces patológicas. Anatomía del Proceso de Producción de la Voz La voz es una onda de presión de aire originada a partir de la interacción de varios órganos y sistemas. En su producción intervienen el sistema de fonación y el articulatorio [20] (Ver Figura 1.1). En la fonación el aire proveniente de los pulmones es forzado a pasar entre. Sistema Articulatorio. Sistema Fonador. Figura 1.1 Representación de los diferentes sistemas involucrados en la producción de la voz. las cuerdas vocales haciéndolas vibrar. Durante la articulación el flujo de aire resultante de la fonación pasa a través de la cavidad vocal modificándolo espectralmente y luego es radiado por los labios para conformar la onda de presión resultante [21]. A continuación se realiza una descripción detallada de cada uno de estos sistemas. Sistema Fonador La fonación es el proceso físico de vibración de las cuerdas vocales [22, 23], donde participan varios órganos de las cavidades infraglótica y glótica. La cavidad infraglótica está compuesta por los pulmones, diafragma, bronquios y tráquea y su función es proporcionar el flujo de.

(12) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 5. aire necesario para producir el sonido [20, 24]. El aire proveniente de la cavidad subglótica pasa entonces por la laringe donde se encuentran las cuerdas vocales responsables de la vibración para la producción de la voz. Las cuerdas vocales son, en realidad, dos membranas dentro de la laringe orientadas de adelante hacia atrás [20] que se unen, por adelante, en el cartílago tiroides (que puede palparse sobre el cuello, inmediatamente por debajo de la unión con la cabeza; en los varones suele apreciarse como una protuberancia conocida como nuez de Adán). Por detrás, cada una está sujeta a uno de los dos cartílagos aritenoides, los cuales pueden separarse voluntariamente por medio de músculos. La abertura entre ambas cuerdas se denomina glotis. Cuando las cuerdas vocales se encuentran separadas, la glotis adopta una forma triangular y el aire pasa libremente y prácticamente no se produce sonido (es el caso de la respiración).[20]. Sin embargo cuando la glotis comienza a cerrarse, el aire que la atraviesa proveniente de los pulmones experimenta una turbulencia, emitiéndose un ruido de origen aerodinámico conocido como aspiración (aunque en realidad acompaña a una espiración o exhalación). Al cerrarse más, las cuerdas vocales comienzan a vibrar a modo de lengüetas, produciéndose un sonido tonal, es decir periódico [20]. La frecuencia de este sonido depende de varios factores, entre otros, del tamaño y la masa de las cuerdas vocales, de la tensión que se les aplique y de la velocidad del flujo del aire proveniente de los pulmones [20]. A mayor tamaño, menor frecuencia de vibración, lo cual explica por qué en los varones, cuya glotis es en promedio mayor que la de las mujeres, la voz es en general más grave [20]. A mayor tensión la frecuencia aumenta, siendo los sonidos más agudos. Así, para lograr emitir sonidos en el registro extremo de la voz es necesario un mayor esfuerzo vocal. También aumenta la frecuencia (a igualdad de las otras condiciones) al crecer la velocidad del flujo de aire, razón por la cual al aumentar la intensidad de emisión se tiende a elevar espontáneamente el tono de voz [20]. Sistema Articulatorio El sistema articulatorio, por otra parte, es el encargado de producir unidades del lenguaje más complejas, desde los fonemas hasta los párrafos o frases [20]. Los órganos articulatorios están compuestos por la mandíbula, la lengua, los labios y el velo, ubicados en la cavidad vocal (ver ¡Error! No se encuentra el origen de la referencia.). El tracto vocal es una cavidad.

(13) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 6. acústica definida convencionalmente como el espacio entre la glotis y los labios, incluyendo la cavidad nasal, donde los sonidos son propagados para la producción de la voz. Los valores representativos de longitud del tracto vocal varían desde los 14 cm hasta los 17.5 cm según la edad y el sexo de la persona [20]. Al igual que en el caso del sistema fonador cualquier afección en las partes que componen el sistema articulatorio altera el funcionamiento del mismo y por tanto la forma en que la voz es percibida. Características Acústicas de los Sonidos Los sonidos generados por el sistema de producción de la voz pueden clasificarse en sonoros y sordos, según la fuente de excitación que los produce. Cuando la excitación se produce por la vibración cíclica de las cuerdas vocales, el sonido resultante es sonoro. Estos sonidos son propios de las vocales (/a/, /e/, /i/, /o/, /u/) y algunas consonantes sonoras (/d/, /m/, /n/) y se caracterizan por tener una frecuencia de oscilación (frecuencia o período fundamental) que depende de la masa, longitud y tensión muscular de las cuerdas vocales. Los sonidos sordos son característicos de las consonantes y se producen al hacer pasar aire por una constricción en el tracto vocal (sonidos fricativos) o liberar repentinamente una oclusión en el mismo (sonidos oclusivos). Los sonidos fricativos, propios de consonantes como (/f/, /s/), se caracterizan por la falta de estructura de formantes y la presencia de ruido de alta frecuencia. Los sonidos oclusivos, propios de consonantes como (/p/, /t/ /b/), se caracterizan por la zona de silencio, previa a la liberación de la oclusión, en su representación en el dominio del tiempo o tiempo-frecuencia (espectrogramas). Modelo Fuente-Filtro de Producción de la Voz. Desde el punto de vista acústico el proceso de producción de la voz puede ser simplificado a un modelo de tubos concatenados con secciones transversales variables (ver Figura 1.2). Esto permite expresar la señal de voz s(t) a la salida de los labios en función de la señal de la glotis g(t) y los coeficientes de reflexión en cada una de las fronteras de las secciones con área Ai [25]..

(14) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. g(t). 7. s(t). Figura 1.2 Modelo de producción de la voz como concatenación de tubos con área (Ak). Adaptada de [25]. Figura 1.3 Modelo Fuente-Filtro. Figura Adaptada de [26]. El Modelo Fuente-Filtro (MF-F) es ampliamente aceptado para modelar de forma matemática este proceso y ha sido utilizado en aplicaciones de análisis y síntesis de la voz [25, 27-32]. Un esquema general del mismo es representado en la Figura 1.3 Características de la Fuente La obtención de la forma de onda g(t) para sonidos sonoros no es un problema trivial [33] pues su obtención directa es altamente invasiva y pudiera dañar incluso el patrón de vibración [34]. En este caso se encuentran la electroglotografía y la laringoestroboscopía [35, 36] orientadas a encontrar el área de contacto o separación de las cuerdas vocales de forma eléctrica y óptica respectivamente. Las desventajas de estos métodos, además de su alta invasividad, radican en que el área de apertura de las cuerdas vocales y el flujo de aire entre ellas no tienen una relación lineal y depende de las diferencias de presión sub y supraglotal [37, 38]. A partir de las limitaciones de los modelos físicos de g(t) han sido propuestos métodos matemáticos para su estimación. El método más utilizado es el residuo del filtrado inverso [25, 39] que requiere la obtención del filtro que transforma g(t) en s(t) para realizar luego el.

(15) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 8. proceso inverso (obtener g(t) a partir de s(t)). Esta técnica tiene sus desventajas relacionadas con la calidad de la grabación o la forma de definir el filtro inverso [39], estas limitantes se agravan cuando se trata de modelar la señal de excitación de voces patológicas [40].. g(t). g’(t) tiempo (ms). Figura 1.4 Representación de las fases del ciclo glotal: T duración total del ciclo glotal; Tu duración de la fase de apertura, Td duración de la fase de cerrado; Tc duración del cierre. g(t) función glotal, g’(t) derivada de la función glotal.. Las formas obtenidas a partir del filtrado inverso han sido aproximadas mediante la asignación de expresiones matemáticas a las diferentes fases del ciclo glotal (ver Figura 1.4). En la literatura se han reportado modelos paramétricos con este fin [39]. Los más utilizados en aplicaciones de análisis y síntesis son los de Fant [41, 42] y las variantes polinomiales o trigonométricas de Rosenberg [43]. Como indicador de cuán adecuado es un modelo u otro se han empleado medidas de naturalidad de la voz sintetizada [40, 42, 43] y minimización del error cuadrático medio (ECM) con la señal residual del filtrado inverso [40, 41]. Rosenberg reporta que las señales sintetizadas con sus modelos B o C se perciben más naturales que las grabaciones reales [43]. El modelo de Fant [41] a pesar de reportar los menores valores de ECM y ser el más popular ha sido criticado por no proveer una aproximación precisa de la señal de presión glotal g’(t) en voces patológicas [40]. Atendiendo a las ventajas y desventajas de los modelos de g(t) reportados no se ha establecido la superioridad de un modelo u otro para su uso [33]. Caracerísticas del Filtro El empleo de técnicas de filtrado inverso ha sido posible asumiendo la fusión de las características espectrales de G(f), H(f) y R(f), para simplificar el MF-F [25, 44]. A esta fusión se puede arribar a partir de dos maneras. La primera de ellas consiste en aprovechar las características complementarias de G(f) (pasa-bajo) y R(f) (pasa-alto) para fundirlas en una.

(16) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 9. señal de espectro plano en la glotis de tal forma que toda la conformación espectral de la señal radiada s(t) sea atribuida a la influencia del tracto vocal (H(f)). La señal más simple que cumple con las suposiciones de periodicidad y espectro plano es el tren de impulsos de Dirac [45], periódico con período T0. En ese caso la señal de voz s(t) se define como una suma de respuestas del tracto vocal a la función de impulsos de la excitación. La ecuación que describe s(t) es: P. s(t )  h(t ) *    t  iT0  i 1. (1.1).  1 si t  iT0  0, i  1, P    t  iT0     0 en otro caso. donde N es la cantidad de pulsos glotales, T0 es el período del tren de impulsos de Dirac (δ(tiT0)) y h(t) la respuesta al impulso del tracto vocal. En la segunda alternativa el radiador se asume físicamente como una operación de derivación (convierte la velocidad del flujo g(t) en una señal de presión s(t)) [25, 45] de tal manera que la señal g(t) se puede convertir, aplicando a conveniencia la derivación sobre ella, en g’(t). El modelo presentado en la ¡Error! No se encuentra el origen de la referencia. se convierte en:. h(t). g’(t). Tracto Vocal. s(t). Figura 1.5 Esquema general del MF-F reducido.. La señal de voz que representa el diagrama de la Figura 1.5 puede expresarse como: P. s (t )  h(t ) *  g 'i  t . (1.2). i 1. donde g’i(t) representa al pulso glotal i-ésimo. Esta segunda alternativa constituye un modelo más realista de la excitación que la función δ(t-iT0), y produce resultados más naturales al oído, por lo que ha sido utilizada en aplicaciones de síntesis. Sin embargo, el requerimiento de los estimados de g(t) y g’i(t) la hace más compleja que la anterior, y ha favorecido el uso de δ en aplicaciones de análisis [46-49]..

(17) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 10. Perturbaciones de la Periodicidad La alteración más frecuente de Calidad Vocal es la perturbación de la periodicidad de la señal de excitación glotal g(t) cuando la glotis se ve afectada por alguna patología. Las alteraciones de la periodicidad están dadas por: 1. Perturbación de la duración de los pulsos (jitter): separación entre pulsos diferente de T0. 2. Perturbación de la amplitud de los pulsos (shimmer): factor de proporcionalidad entre pulsos diferente a la unidad. 3. Presencia de ruido turbulento generado en la glotis: un pulso difiere de otro en cada instante de tiempo en una magnitud aleatoria de media 0. Este ruido turbulento se asume generado en la glotis (cierre incompleto de las cuerdas vocales) y luego de pasar por el tracto, tiene una conformación espectral que no es plana (ruido “coloreado”) [50]. La inclusión de los tres factores de perturbación en la ecuación (1.1) resulta en:.  P  s  t   h  t  *   ai  t  (Ti 1  T0  Ti 1 )    e  t   i 1 . (1.3). donde ai representa el shimmer, ∆Ti el jitter y e(t) la componente de ruido turbulento. Patologías de la Voz: Presentación y Clasificación Los desórdenes de la voz van desde la ausencia completa de voz (afonías) hasta la variación gradual de la función vocal (disfonías) [51]. La presencia de estos desórdenes provoca cambios en algunos parámetros de la voz como son: la frecuencia, el rango de frecuencias, la energía, la calidad vocal, las resonancias, la flexibilidad y la estamina [51]. Cualquiera que sea el origen de la disfuncionalidad vocal los cambios vocales son la manifestación de algún desorden laríngeo, respiratorio o de la función del tracto vocal. Estos desórdenes pueden ser reflejo de algún problema funcional, estructural, neurológico o psicogénico [51]..

(18) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 11. A continuación se presenta una descripción de la clasificación de los desórdenes de la voz así como sus principales características perceptuales y acústicas. Clasificación de los Desórdenes de la Voz Tradicionalmente los desórdenes de la voz han sido clasificados en orgánicos y no orgánicos pero este sistema de clasificación no considera necesariamente la etiología de la patología[51]. Este problema es obvio en afecciones donde existan cambios de la mucosa de las cuerdas vocales. Por ejemplo la existencia de nódulos vocales es sin duda una patología orgánica sin embargo estos aparecen como una manifestación secundaria de abuso de la voz. La clasificación de los desórdenes de la voz en orgánico y no orgánico ha sido rechazada también por Titze [52] quien prefiere clasificarlos de acuerdo con “la respuesta del oscilador biomecánico a las condiciones ambientales, sistémicas o traumáticas”. Estas tres categorías se pueden observar en la Tabla 1.1. Tabla 1.1 Clasificación de los desórdenes de la voz según Titze [52] CLASIFICACIÓN Congénito (estructurales) Cambio de Tejido Infección Cambios sistémicos Stress mecánico Irritación Cáncer Neurológico o Cambios musculares. EJEMPLOS. Laringitis, Broquitis, etc… Deshidratación, Agentes Farmacológicos, Hormonas, Drogas, etc Nódulos, Pólipos, Úlceras, Granulomas, Hemorragia, etc Laringitis, Reflujo Gástrico, Tabaco, etc Parálisis, Páresis, Parkinson, Corea, Espasmofonía, Fonación Ventricular, etc.. Fatiga Vocal. En [51] se propone una clasificación de los desórdenes de la voz basada en su etiología. De forma general se proponen dos grandes grupos: Funcional y Orgánico. El término funcional se utiliza para representar aquellas patologías que presentan un tracto vocal sano pero su funcionamiento no es correcto y por tanto resulta en un desorden de la voz. La Tabla 1.2 muestra un resumen de esta clasificación. Los desórdenes hiperfuncionales se caracterizan por el abuso excesivo de las cuerdas vocales. A este grupo de desórdenes se le denomina frecuentemente como disfonía por tensión muscular [53] (MTD, del inglés Muscular Tension Dysphonia) y como se observa en la Tabla 1.2 pueden dividirse en dos grupos dependiendo de la existencia o no cambios en la mucosa.

(19) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 12. de las cuerdas vocales [51]. La presencia de alguna afección psicogénica, donde existen cambios en los estados emocionales, se refleja en cambios de comportamiento en el aparato fonador y por tanto en la voz [51]. A pesar de que los desórdenes psicogénicos presentan la misma etiología que los desórdenes hiperfuncionales es necesario analizarlos de forma separada ya que etología y presentación son diferentes[51]. Tabla 1.2 Clasificación de los desórdenes de la voz según Mathieson [51] DESÓRDENES FUNCIONALES Hiperfuncionales. Disfonía por Tensión Muscular (MTD, del inglés Muscle Tensión Dysphonia), sin cambios en la mucosa de las cuerdas vocales. MTD con cambios en la mucosa de las cuerdas vocales: nódulos, edema, granuloma, pólipos, hemorragia, úlceras de contacto, laringitis crónica, etc.. Psicogénicos. Estados de ansiedad, disfonías por conversión, conversión, cambio de voz retrasado, conflictos transexuales, etc.. DESÓRDENES ORGÁNICOS Estructurales. Congenitales: Web laríngea, estenosis, laringomalacia, labio-paladar hendido etc. Adquiridos: trauma, estenosis de tracto vocal,etc.. Neurológicos. Sistema Periférico: parálisis/páresis del nervio laríngeo superior/recurrente. Sistema Central: ataxia, temblor, espasmofonía, síndromes post ACV (Accidentes Cerebro-Vasculares). Endocrinos. Terapia por drogas, retardo en el desarrollo sexual masculino, masculinización femenina, etc…. Inflamación. Papiloma Humano, quistes, laringitis, enfermedades autinmunes, artritis reumatoide, reflujo gástrico, alergia, sífilis, infección por hongos, tuberculosis, etc.. Por otro lado la voz puede verse afectada de existir irregularidades estructurales en el tracto vocal. Las anomalías en la laringe comprometen el ciclo vibratorio de las cuerdas vocales mientras que las resonancias pueden ser afectadas por alteraciones del tracto vocal [51]. El grupo de enfermedades estructurales abarca todas aquellas afecciones (congeniales o adquiridas) presentes tanto en la cavidad subglótica como supraglótica. Los desórdenes neurológicos pueden ocurrir como resultado de una lesión en el sistema nervioso central o periférico. Muchos de los padecimientos neurológicos producen efectos en los movimientos musculares de la laringe lo que puede afectar el tracto vocal y los patrones de respiración [51]. Cuando la afección se encuentra en el sistema nervioso central (SNC) las lesiones pueden apreciarse a lo largo de todo el tracto vocal sin embarco cuando las.

(20) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 13. lesiones son del sistema nervioso periférico (SNP) solo los músculos de la laringe y el paladar se afectan [51]. A continuación se realiza una breve descripción de las diferentes etiologías listadas en la Tabla 1.2 y se presentan las principales características acústicas de cada grupo. En este trabajo se hará especial énfasis en los grupos MTD con cambios en la mucosa de las cuerdas vocales y el neurológico debido a la representatividad de los mismos en los datos utilizados. Desórdenes Hiperfuncionales Todos los trastornos hiperfuncionales de la voz son afecciones producidas por el uso prolongado e inadecuado de la voz [51]. En algunos casos esto puede producir típicas patologías laríngeas (por ej.: laringitis crónicas, nódulos y pólipos vocales y úlceras de contacto), generalmente de tipo reversibles [51]. En otros casos de hiperfunción laríngea no se observan cambios en la mucosa de las cuerdas vocales aunque existe una aberración del mecanismo de sistema fonador y pueden durar varios años sin experimentar cambios estructurales [51]. En el caso de MTD sin cambios en la mucosa se observa, en la laringoscopia indirecta, una estructura normal de las cuerdas vocales y la laringe. Además se observa, en algunos casos, una reducción de la vibración de las cuerdas vocales provocando una constricción en la glotis y la fase abierta de las cuerdas prolongada. En otros casos se observa una hiperaducción de las cuerdas vocales y una prolongada fase cerrada de las mismas [51]. Desde el punto de vista subjetivo la voz se percibe áspera y jadeante, la frecuencia más baja/alta de lo habitual y en ocasiones se perciben los ataques glotales. También es posible percibir el reducido rango de frecuencias así como una intensidad de voz excesivamente alta o baja. Acústicamente esto produce un reducción de la relación señal a ruido (HNR, del inglés Harmonics to Noise Ratio) y un incremento o decremento de la frecuencia fundamental [51]. MTD con cambios en la mucosa es un efecto secundario del esfuerzo y abuso vocal sobre todo cuando el abuso es agudo o mantenido por mucho tiempo [52]. Entre los cambios que pueden aparecer producto del abuso vocal están los nódulos vocales. Estos son una especie de callos formados por traumas de contacto entre las superficies opuestas de las cuerdas vocales. Los nódulos ocurren frecuentemente en adolecente menores de 20 años [54, 55]. En la mayoría de los casos son lesiones simétricas y bilaterales y ocurren en la zona de la mayor.

(21) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 14. amplitud e impacto de la vibración [51]. En la laringoscopia indirecta se puede observar como existe una reducción de la vibración de las cuerdas vocales y se puede percibir un timbre de voz jadeante o áspero acompañado de varios segmentos sordos. También se percibe una frecuencia de voz baja y la voz se deteriora con su uso constante. Desde el punto de vista acústico se puede percibir una reducción de la HNR así como una reducción de la intensidad de la voz [51]. Otras de las lesiones que pueden aparecer debido a MTD son los pólipos. Estas son lesiones que pueden aparecer como colgajos o protuberancias en las cuerdas vocales y aparecen como resultado de algún trauma de la mucosa de las cuerdas vocales combinado con infecciones, alergias o enfermedades endocrinas [56]. En la laringoscopia indirecta puede observarse pequeñas /largas masas en o colgadas de las cuerdas vocales. Los pólipos que se forman como colgajos solo son visibles durante la fonación pues cuelgan hacia la cavidad subglótica [51]. También se observa un patrón asimétrico en la vibración de las cuerdas vocales, así como una constricción anterior y posterior al pólipo. Adicionalmente es posible que el pólipo vibre también. Desde el punto de vista acústico se reduce la frecuencia fundamental, el HNR, se incrementa la irregularidad del ciclo vibratorio (jitter y shimmer) y se reduce la intensidad. La voz se percibe ronca con componente de jadeo y aspereza [51]. La úlceras de contacto o granulomas son lesiones en forma de cráter que aparecen en las cuerdas vocales. Al igual que en los casos anteriores se observa en la laringoscopia indirecta una reducción de la vibración de las cuerdas vocales y se percibe la voz ronca y con un rango limitado de frecuencia en el tono. Desde el punto de vista acústico los granulomas producen una reducción de HNR y de la frecuencia fundamental [51]. En el caso de las hemorragias estas pueden ser producidas por la ruptura de algunos vasos particulares o puede involucrar a las cuerdas vocales completamente [51]. Puede ser producida por un esfuerzo vocal muy agudo, tos etc. En la laringoscopia indirecta se observa algunos cambios vasculares y de coloración en la cuerda afectada y asimetría en la mucosa vocal. La voz se percibe normal incluso cuando toda la cuerda está afectada por la hemorragia, solo algunos signos de ronquera se advierten durante el canto y en ciertas frecuencias. Desde el punto de vista acústico se reduce el HNR pero solo en ciertas frecuencias [51]..

(22) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 15. En general la característica fundamental de las voces hiperfuncionales es el esfuerzo excesivo en la fonación. En algunos casos no se percibe cambio en la mucosa de las cuerdas vocales mientras que en otros es evidente. Desde el punto de vista acústico en la mayoría de los casos se observa una reducción del HNR [51]. Desórdenes Neurológicos Los trastornos neurológicos son comúnmente el resultado de daños en el nervio laríngeo recurrente, que es el nervio que controla el movimiento de la laringe. A veces, los trastornos neurológicos de la voz están relacionados con otros tipos de problemas en el sistema nervioso central, pueden ocurrir como resultado de las lesiones ya sea en el sistema nervioso central o periférico. Cuando el sistema nervioso periférico (SNP) está involucrado, sólo los músculos laríngeos y palatinas son afectados. EL sistema nervioso central (SNC) suelen producir lesiones más extensas produciendo señales en todo el tracto vocal, que interactúan para dar lugar al problema en la voz. Las disfonías neurológicas han sido clasificadas en dependencia del sitio de la lesión [51]. En [57] se caracterizan las principales características del comportamiento laríngeo en los desórdenes neurológicos como: . Problemas de aducción de las cuerdas vocales (hiperaducción/hipoaducción ). . Inestabilidad en la Fonación. . Descoordinación en la Fonación. Los problemas de hipoaducción de las cuerdas vocales resultan, en todos los casos, en voces jadeantes [51]. Cuando no existe aducción de las cuerdas vocales o esta es mínima estamos en presencia de una afonía. También la intensidad vocal se reduce debido al ineficiente cierre de las cuerdas vocales. En algunos casos donde existe flacidez o un comportamiento caótico del sistema fonador está presente una diplofonía [51]. Desde el punto de vista acústico la hipoaducción presenta bajo HNR, reducción del rango de intensidad, y reducción o ausencia de la fase abierta de las cuerdas vocales [51]. La hipoaducción es característica de alteraciones del tronco cerebral y el bulbo. También puede ocurrir una disfunción de las.

(23) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 16. neuronas motoras como en el caso de la disfonía espasmódica o el temblor esencial, o bien una falta de función provocando parálisis de los nervios laríngeos superior y recurrencia [51]. En los casos de hiperaducción las cuerdas vocales están sometidas a un incontrolado y fuerte movimiento. En estos casos se puede apreciar un timbre forzado. En algunos casos el excesivo esfuerzo del sistema fonador provoca que se dificulte el inicio de la fonación debido a espasmos de la laringe y en otros las cuerdas vocales falsas intervienen también en el proceso de fonación [51]. Las características acústicas de la hiperaducción son el decrecimiento del flujo de aire, incremento/decremento de la intensidad, rango de frecuencia reducido y prolongada fase de cierre de las cuerdas vocales [51]. Este rasgo es característico de las lesiones en neurona motora superior. El ictus es la causa más frecuente de esta lesión, aunque también puede aparecer en la parálisis cerebral, esclerosos múltiple, arteriosclerosis, etc. Aparte de las dificultades del lenguaje, deglución y estabilidad emocional, a nivel laríngeo existe debilidad e hiperactividad muscular. La voz suele ser nasal, monótona, de baja intensidad y gran velocidad lo que dificulta su comprensión [51]. En la mayoría de las disfonías neurológicas la voz es inestable y muestra características como el temblor y frecuencia e intensidad inestables. En algunos pacientes este comportamiento empeora debido a la mala coordinación de la respiración en la fonación [51]. En este caso se manifiesta un aumento del jitter y el shimmer. La inteligibilidad sucede cuando no existe coordinación entre el proceso de fonación y articulación. Se observa un retraso en los tiempos de transición hacia la vocal y puede resultar en segmentos sordos así como contrastes entre los sonidos sordos y sonoros. En estos casos los pacientes presentan problemas de entonación, acentuación y velocidad del habla [51] produciendo contornos de frecuencia anómalos. Las lesiones del sistema extrapiramidal. Afectan a la coordinación de la fonación. Las enfermedades causantes pueden ser: 1.. Parkinson: la voz se caracteriza por disminución de la sonoridad con monotonía, sin cambios en la intensidad y voz apagada, que tiende a desvanecerse al final de la fonación. Desde el punto de vista acústico se observa un incremento de la variabilidad de la frecuencia fundamental, reducido HNR e incremento del jitter y el shimmer. En la laringoscopia indirecta se observan movimientos débiles de las.

(24) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 17. cuerdas vocales así como una incompleta aducción/ abducción de las cuerdas vocales. 2.. Esclerosis Lateral Amiotrófica (ELA): aparece ronquera y voz áspera, junto con hipernasalidad y habla lenta. Esto se debe a la debilidad muscular generalizada propia de la enfermedad. En la laringoscopia indirecta se observa, a pesar de que la estructura del sistema fonador es normal, una tendencia a la hiperaducción si predomina la espasticidad y una hipoaducción si predomina la flacidez. El timbre de voz resulta estrangulado, monótono y con intensidad reducida.. 3.. Corea de Hutchinson: Es un desorden hipercinético con movimientos bruscos de cabeza, cuello y hombros. La voz es áspera, monótona junto con hipertonía y sobreesfuerzo al hablar.. Las lesiones del sistema nervioso periférico pueden provocar parálisis de la laringe debido a afecciones de los nervios superiores o recurrentes [51]. Estas parálisis pueden resultar unilaterales o bilaterales dependiendo del daño neurológico. Las parálisis del nervio superior pueden ser producidas por algún trauma [51]. En la laringoscopia indirecta se observa que la cuerda paralizada tiene menor tamaño que la cuerda sana, la glotis esta desplazada hacia el lado sano y la cuerda paralizada se encuentra en una posición intermedia en posición de descanso. En el caso de las parálisis bilaterales existe un colgamiento de la epiglotis. La voz se percibe jadeante y ronca con intensidad reducida y alteraciones del tono. Desde el punto de vista acústico se produce una reducción de HNR, un incremento del jitter y el shimmer y una reducción del rango de frecuencias [51]. La parálisis del nervio recurrente es producida por alguna presión sobre el área del nervio, trauma producido por intubación, hábitos tóxicos o alguna enfermedad idiopática [51]. Durante la laringoscopia indirecta se puede observar como en el caso de la parálisis unilateral la cuerda lesionada tiene un comportamiento caótico y desfasado con respecto a la cuerda sana. En el caso de las características acústicas durante las parálisis del nervio recurrente existe una reducción de HNR, de la intensidad y un incremento del jitter y el shimmer [51]. En general los desórdenes de la voz pueden ser reportados como una indicación temprana de algún trastorno neurológico [58]. La mayoría de las lesiones presentan características acústicas donde existe reducción de HNR y aumento del jitter y el shimmer [51]..

(25) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 18. Diagnóstico Automático de Voces Patológicas La caracterización y descripción de voces patológicas ha demandado atención por parte de los especialistas en foniatría y logopedia [1]. Como se ha mencionado anteriormente la disfonía es una cualidad perceptual de la voz que indica alguna irregularidad en los órganos fonadores (principalmente la laringe y los órganos asociados) [18] por tanto las patologías dela voz y las disfonías están estrechamente asociadas. En los últimos años se han reportado un gran número de trabajos enfocados en la detección y clasificación de voces patológicas, mediante el análisis acústico y la extracción de rasgos paramétricos y no paramétricos, reconocimiento automático de patrones o métodos estadísticos [18]. En [19] se realiza una revisión bibliográfica exhaustiva de los trabajos publicados sobre la clasificación de voces patológicas hasta el 2013. En este análisis, aunque no se dan detalles de todos los trabajos estudiados, se reporta que la clasificación de voces patológicas sano/patológico ha sido el tema más abordado en la literatura científica representando el 78% de los artículos revisados (100 artículos) seguido de la clasificación por etiologías (44% de los artículos revisados) y en menor número de artículos encontrado (18%) la determinación de la severidad de los desórdenes de la voz (ver ¡Error! No se encuentra el origen de la referencia.). Tabla 1.3 Número de estudios clasificados por dominio de medición de rasgos e interrogante clínica. Tomado de [19] DOMINIO DE SANO/PATOLÓGICO ETIOLOGÍA SEVERIDAD TOTAL DE MEDICIONES ARTÍCULOS ÚNICOS Historias Clínicas 3 4 0 5 Perceptuales 21 8 13 30 Auditivas Perceptuales 3 3 0 5 Visuales Aerodinámicas 6 4 7 10 Funcionales 4 3 0 5 Acústicas 50 17 18 60 Procesamiento de 24 15 2 32 Imágenes Examen Físico 1 1 0 1 Electroglotografía 9 5 2 11 Total de artículos 78 44 18 únicos.

(26) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 19. En la ¡Error! No se encuentra el origen de la referencia. se puede observar como en el estudio realizado en [19] se reporta que el dominio más utilizado para la medición de los rasgos es el acústico. El 60% de los artículos analizados corresponde con estudios donde se utilizan mediciones acústicas. El segundo grupo de mediciones más utilizado en la clasificación de voces patológicas es el procesamiento de imágenes (32% de los artículos analizados) luego las mediciones perceptuales (11%) y por último las mediciones aerodinámicas (10%). Sin embargo se observa en la tabla como con el uso de medidas acústicas la menor cantidad de estudios analizados reportan, en menor medida, clasificación de los niveles de severidad (18%) o las etiologías (17%) debido a su complejidad (en ese orden [18]) sobre todo en el caso de la caracterización de la etiologías. En este caso la clasificación es mucho más complicada pues un indicador acústico puede ser atribuido a diferentes patologías [18]. La relación entre las propiedades de las cuerdas vocales y la precepción de la calidad vocal has sido definida en [59] donde se sugiere que la percepción de la ronquera se caracteriza por al menos dos aspectos: irregularidad y ruido. La irregularidad de la frecuencia fundamental es producida por la asimetría de las cuerdas vocales y es característica de voces “creaky”. Por el contrario la percepción del jadeo está asociada con la presencia de la componente de ruido por la aproximación incompleta de las cuerdas vocales [59]. Por el contrario desde el punto de vista acústico el análisis se realiza asumiendo las propiedades de las cuerdas vocales de forma cuantitativa. Sin embargo existe un solapamiento entre los sujetos que presentan características normales de la voz y los patológicos: muchos desórdenes de la voz no causan cambios perceptibles y algunos sujetos normofónicos pueden mostrar mediciones acústicas anómalas. Por ejemplo en [60] se reporta que en observaciones estroboscópicas no se observó diferencias entre los sujetos sanos y aquellos que presentaban MTD sin cambios en la mucosa de las cuerdas vocales. En el 60% de los sujetos sanos se observó características de MTD como: compresión anteroposterior, aproximación de los aritenoides y movimiento de las cuerdas vocales falsas. Las mediciones acústicas deben ser consistentes con la impresión perceptual de la voz, sin embargo, la calidad vocal puede resultar normal aun cuando se observen algunas irregularidades de forma visual [60]. De la explicación anterior se infiere que diferentes patologías pueden producir.

(27) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 20. similares mecanismos biomecánicos de las cuerdas vocales y similares características perceptuales. De forma contraria el mismo diagnóstico puede ser emitido aun cuando las características biomecánicas y la percepción de la voz puedan resultar diferente [60]. Esta inconsistencia reportada pudiera ser una de las razones para explicar le porque los esfuerzos de relacionar diferentes mediciones acústicas con diagnósticos específicos han sido reducidos con respecto a la clasificación sano/patológico. Algunos trabajos se han desarrollado para clasificar desórdenes de la voz basándose en las propiedades mecánicas de las cuerdas vocales. Estos se clasifican en patologías que modifican el patrón vibratorio de las cuerdas vocales de aquellos de origen neurológico que afectan el patrón de cierre. En [61] se reporta una discriminación entre tres grupos de acuerdo a las características biomecánicas: el grupo de lesiones de la mucosa de las cuerdas vocales (laringitis, nódulos, pólipos, edema, quistes y granulomas), el grupo de rigidez en las cuerdas vocales (neoplasmas benignos y malignos, trauma laríngeo, MTD sin cambios en la mucosa) y el grupo de deficiencia glótica (hemorragia, parálisis de cuerda vocal, disfonía hipofuncional). El problema en este caso es que las masas en las cuerdas vocales y los cambios de elasticidad pueden provocar que el cierre de las cuerdas vocales resulte incompleto y por tanto exista un alto solapamiento entre los diferentes grupos. Sin embrago en [62] se reportan seis clases para la validación del diagrama de ronquera (HD, del inlgés Hoarseness Diagram) estás se dividen según los patrones de vibración de las cuerdas vocales: tumores malignos, desórdenes que producen una restricción en la movilidad de las cuerdas vocales, lesiones benignas, disfonías funcionales parálisis/páresis y otros. A pesar de los esfuerzos realizados la discriminación entre diferentes grupos disfónicos es extremadamente complicado. En [63-65] las mediciones acústicas utilizadas no fueron suficientes para discriminar entre diferentes tipos de lesiones en las cuerdas vocales. Algunos trabajos reportados donde se utilizan técnicas como análisis espectral de alta resolución [66], o videostroboscopia [67, 68] no han reportado resultados satisfactorios en la diferenciación de diferentes masas en las cuerdas vocales. Sin embargo en [8]se obtuvieron altos valores de discriminación entre las voces normales, espasmofónicas, y desórdenes de la voz analizados antes y después del tratamiento. Para esto se utilizó un mapa autorganizado y seis medidas acústicas y se alcanzó un 75.8% de clasificación correcta. Recientemente se reportó en [69] la discriminación de diferentes grupos patológicos utilizando las mediciones acústicas: índice.

(28) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 21. de severidad de la disfonía (DSI, del inlgés Dysphonia Severity Index) y valoraciones subjetivas de ronquera, sin embargo a pesar de obtenerse diferencias significativas entre los diferentes grupos para los parámetros acústicos los errores de clasificación sobrepasaron el 25% debido a la varianza existente dentro de los grupos. En general, se observa que la discriminación entre los diferentes grupos de patologías o características biomecánicas similares utilizando mediciones acústicas es un campo abierto de investigación en nuestros días [70]. Otro punto importante que debe tratarse cuando se trata de clasificación de voces patológicas utilizando mediciones acústicas es la carencia de un punto de referencia para los análisis [18]. Otro factor fundamental es la carencia de una base de datos rigurosa que represente cada una de las diferentes patologías con un número adecuado de muestras o en condiciones de grabación adecuadas. La mayoría de los problemas cuando se trata de clasificar entre las diferentes clases de patologías es la presencia de múltiples desórdenes en un mismo sujeto ya sean relacionadas entre sí o no. La mayoría de las bases de datos de señales de voz acústicas son producidas en los servicios laringológicos como parte del protocolo de diagnóstico [18] aunque no siempre es el caso pues algunos especialistas prefieren depender solamente de la inspección visual renegando las ventajas del análisis acústico a la hora de emitir un diagnóstico. Otros especialistas que utilizan análisis acústico se interesan más por índices de esfuerzo vocal, eficiencia respiratoria o medidas de distorsión de la señal de voz. Esto produce que la mayoría de las bases de datos etiquetadas por etiologías o niveles de severidad sean escasas. Incluso la mayoría de las bases de datos están incompletas, inconsistentes (las voces grabadas bajo diferentes condiciones) o deficientes (algunas patologías no muy frecuentes no están bien representadas en la base de datos). En otros casos los sujetos sanos no están bien representados en la base de datos como en el caso de la MEEI Database [71] (la base de datos más utilizada en la literatura [72]). Otro problema relacionado con las bases de datos es la representación lingüística. Cuando el ejercicio grabado se corresponde los la fonación de una vocal sostenida esto no representa una limitación pero si se convierte en un obstáculo cuando es necesario analizar habla fluida donde las características acústicas dependen en cierto grado del idioma que se haya utilizado. En la literatura se reportan varias basas de datos de voces patológicas en diferentes idiomas por ejemplo a MEEI Database [73] en idioma inglés, Príncipe de Asturias [74, 75] español,.

(29) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 22. Saarbreucken Database en alemán [76], Czech Parkinsonian Speech Database (PARCZ) [77], entre otras. En general es necesario tener en cuenta algunas consideraciones para diseñar una metodología para el uso adecuado de las mediciones acústicas en la detección de patologías de la voz. En primer lugar es necesario tener claro la relación entre las diferentes características acústicas de la voz y los diferentes modelos biomecánicos de la laringe para de esta forma entender como las diferentes mediciones acústicas se relacionan con los diferentes patologías [78]. Por otro lado la obtención de medidas acústicas que se relacionen con las diferentes patologías es de vital importancia también en la clasificación de voces patológicas. Finalmente es necesario encontrar una variante de aprendizaje que pueda ser utilizada para eliminar las redundancias y escoger le mejor grupo de rasgos que caracterice los grupos que se quieren analizar (sano/patológico, etiologías o severidad) dado diferentes medidas (taza de clasificación correcta, sensibilidad especificidad, etc) [79]. Teniendo en cuenta las ideas planteadas anteriormente, el presente trabajo se enmarca en la clasificación de diferentes grupos de patologías de laringe utilizando mediciones acústicas que caracterizan el proceso biomecánico de las cuerdas vocales utilizando diferentes algoritmos de clasificación ampliamente utilizados en la literatura.. Conclusiones parciales Debido limitaciones del diagnóstico diferencias y el análisis instrumental en la detección de voces patológicas, fundamentalmente en etapas tempranas de los desórdenes de la voz, se han reportado en la literatura un conjunto de herramientas basadas en análisis acústico del habla con este fin. Los trabajos reportados en la literatura se concentran en su mayoría en la discriminación sano/patológico y en menor medida en la caracterización de las diferentes etiologías debido a su complejidad con respecto a la discriminación sano/patológico. Este trabajo se enmarca en el estudio de los diferentes grupos patológicos utilizando mediciones acústicas utilizadas en la práctica clínica para caracterizar diferentes tipos de biomecánica de las cuerdas vocales y métodos de clasificación ampliamente conocidos en la literatura y empleado en un sinfín de aplicaciones prácticas..

(30) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. CAPÍTULO 2. MATERIALES. 23. Y. MÉTODOS En este capítulo se considera la clasificación de la voz por etiologías. Para este proyecto se detalla todo el pre-procesamiento que se realiza sobre la base de datos y la confección del nuevo conjunto de datos. También se aplica un modelo de elaboración de vectores característicos basados en propiedades acústicas de la voz (irregularidad de la vibración de las cuerdas vocales y ruido. Se detallan los diferentes métodos de clasificación utilizados así como el diseño de los experimentos para la obtención de los resultados. Mediciones Acústicas: Diagrama de Ronquera (HD) El objetivo de este trabajo es caracterizar las diferentes etiologías en las que se dividen las patologías de la voz. Específicamente se analizarán las patologías de origen hiperfuncional que producen cambios en la mucosa delas cuerdas vocales (grupo MTDc), las patologías de origen neruológico de forma concreta las parálisis/páresis del nervio superior (grupo Neurogénico) y en último lugar el grupo de voces diagnosticadas como normofónicas (grupo Sano). La exclusión de otros grupos de etiologías se debe a la poca representación de estas en las bases de datos utilizadas en este trabajo. Para las diferentes formas de cambios de la mucosa (nódulos, pólipos, granulomas etc.) en la laringoscopía indirecta, se observan problemas de contacto de las cuerdas vocales pues debido a las lesiones no se cierran correctamente [51]. En algunas patologías como los pólipos se observan asimetrías del ciclo vibratorio y en otras como las hemorragias solo se observa alguna irregularidad en ciclo glotal durante el canto en cierta frecuencias. Desde el punto de vista acústico de forma general las MTDc se caracterizan por la reducción de HNR y cambios en la frecuencia fundamental [51]. En el caso de las patológicas neurológicas predominan los problemas de asimetría en la vibración de las cuerdas vocales pues la cuerda paralizada se encuentra en una posición intermedia con respecto a la posición de descanso, su masa es menor que la de la cuerda sana y la glotis se desplaza hacia el lado normal. En las parálisis unilaterales es posible lograr la fonación completa [62]. Desde el punto de vista acústico se caracterizan estas patologías por el incremento del jitter y el shimmer.

(31) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 24. (irregularidad en la vibración de las cuerdas vocales) y también la reducción de HNR lo que constituye un espacio bidimensional. Una herramienta clínica reportada en la literatura basada en estas dos dimensiones mencionadas anteriormente es el Diagrama de Ronquera (HD, del inglés Hoarseness Diagram) [62]. El HD permite una descripción cuantitativa y gráfica de las características de la voz basada en cuatro medidas acústicas [4, 80-84]. Estas cuatro medidas fueron obtenidas a partir de la selección de rasgos entre 21 medidas acústicas. De la aplicación del análisis de componentes principales se obtuvo que estas dimensiones se pueden distribuir en un espacio bidimensional las cuales conforman el HD [62]. Tres medidas acústicas (jitter, shimmer y correlación media entre pulsos glotales) conforman el eje de las abscisas denominado componente de irregularidad (CI) y el eje de las ordenadas está compuesto por la medida de ruido y se denomina componente de ruido (CR). Componente de Irregularidad (CI) La CI se estima según la siguiente ecuación:. CI  5 . 1  MWC  1.614 j 3  0.374 s15  0.757      0.574 0.645 0.368  3. (2.1). Donde MWC (del inglés Mean Waveform Matching Coefficient) representa la medida de correlación entre los pulsos individuales de la señal de voz y se estima mediante la detección de período fundamental basada en el error cuadrático medio propuesto en [85]. j3 representa la medida de jitter denominada Coeficiente de Perturbación de la Frecuencia (PPQ, del inglés Pitch Perturbation Quotient) y s15 es la medida acústica de shimmer denominada Coeficiente de Perturbación de la Energía (EPQ, del inglés Energy Perturbation Quotient). Estas medidas de jitter y shimmer se agrupan bajo el término de coeficientes de perturbación (PQ, del inglés Perturbation Coefficient) y se estima según la siguiente ecuación:. 100% N [( K 1)/2]1 PQ  *  N  K v ( K 1)/2. u (v )  1 K. 1 K. ( K 1)/2. . k  ( K 1)/2 ( K 1)/2. . k  ( K 1)/2. u (v  k ). u (v  k ). (2.2).

(32) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 25. Donde N representa el número total de pulsos de la señal, K el número de pulsos utilizados en el cálculo de PQ y u representa la secuencia utilizada en el cálculo de la medida. En el caso de la medida j3 de jitter se estima utilizando (2.2) donde u es la secuencia de período, obtenida utilizando el método propuesto en [85], y K = 3. La medida s15 se obtiene utilizando (2.2) donde u es la secuencia de amplitudes, obtenida utilizando el método propuesto en [85] y K = 15. Componente de Ruido (CR) Por otro lado la CR se estima según la siguiente expresión:. CR  1.5 . 0.695  GNE 0.242. (2.3). Donde GNE (del inglés Glottal to Noise Exitation Ratio) representa la relación señal a ruido y se estima según el procedimiento descrito en [80]. De manera general GNE se calcula a partir de la señal obtenida a partir de la señal obtenida de la aplicación del filtrado inverso, esta medida es un indicador de ruido turbulento en la glotis pues en presencia de una aducción normal de las cuerdas vocales existe una alta correlación entre las envolventes de las diferentes bandas de frecuencia. Sin embargo en presencia de un cierre incompleto de la glotis esta correlación disminuye. Se reporta en [62] que esta medida es insensible frente a insuficiencias de asimetría de las cuerdas vocales donde los valores de jitter y shimmer son elevados. Base de datos En esta investigación se analizaron dos bases de datos reportadas en la literatura. En primer lugar la base de datos de la Kay Elemetrics denominada MEEI [73]. Esta base de datos constituye la más utilizada en la literatura en investigaciones relacionadas con la clasificación de voces patológicas principalmente en la discriminación entre sano y patológico [18]. La otra base de datos utilizada es la propuesta por Youri Maryn en [22] utilizada en la validación del índice acústico de calidad vocal (AVQI, del inglés Acoustic Voice Quality Index). Ambas bases de datos, aunque no están conformadas con el mismo propósito, contienen en su descripción los diagnósticos emitidos para cada uno de los casos lo que resulta útil según los.

(33) ¡Error! Utilice la pestaña Inicio para aplicar Heading 1 al texto que desea que aparezca aquí.. 26. propósitos de la presente investigación. En las próximas secciones a pesar de que se describen las bases de datos en su totalidad solamente se muestras los resúmenes por casos para las patologías de interés de este trabajo (MTDc, Neurológicos y Normales) que a su vez son las mejor representadas en cuanto a cantidad de muestras en ambas bases de datos. Base de datos MEEI La base de datos MEEI [73], disponible de forma comercial1, cuenta con grabaciones de pacientes que presentan múltiples tipos de enfermedades, además de un conjunto de sujetos sanos. En ella se recogen 657 grabaciones de voces patológicas de sujetos que presentan afecciones, con diferentes orígenes (funcional, neurológicos, psicogénicos, orgánicos etc…), y 55 de sujetos sanos, realizando el ejercicio de vocal “a” sostenida y 12 s de habla fluida (párrafo del arcoíris). Las grabaciones de las vocales patológicas se encuentran digitalizadas a 50 KHz, y las vocales de sujetos sanos y las lecturas de párrafo a 25 KHz, todo ello con 16 bits de resolución. Como se observa existe una diferencia en cuanto a la frecuencia de muestreo con que se grabaron los sanos y los patológicos. Tabla 2.1 Resumen de los casos seleccionados por etiologías para la base de datos MEEI.. DIAGNÓSTICO. #CASOS. Nódulos. 26. Edema. 35. Parálisis/Páresis Pólipos. 74 18. Quistes. 7. Total MTD. 86. Total Neurológicos Total Sanos. 74 55. Total. 315. Para el propósito de este trabajo sólo se tendrán en cuenta las grabaciones de vocales sostenidas. Estas grabaciones difieren en cuanto el tiempo de fonación entre los sujetos sanos y patológicos. Para los sujetos sanos el tiempo de fonación es de 3 s y para los patológicos. 1. http://www.kaypentax.com.