1. Introducción
1.2. Motivaciones y características generales del presente
Las patologías del aparato fonador se han constituido últimamente en una preocupación que ha alcanzado cierta relevancia dentro de nuestra sociedad; la calidad vocal es considerada de gran importancia para la población en general, pero sobre todo para un porcentaje significativo de ella, que utiliza la voz como herramienta de trabajo: locutores, cantantes, actores, abogados, vendedores, sacerdotes, profesores, teleoperadores, etc. Como consecuencia de esto también ha aumentado el interés de la comunidad médica, y científica en general (Gómez, P. et al, 2007), (Gómez P. et al, 2005c), (Gómez, P. et al, 2011).
Por otra parte, hábitos poco saludables como el consumo de tabaco o el abuso del alcohol, la exposición frecuente a ambientes polucionados o la contaminación acústica que se produce en las ciudades, el uso excesivo o el mal uso de aparatos de aire acondicionado, factores como la alergia o el envejecimiento, etc., contribuyen de manera importante al hecho de agravar los trastornos vocales (Gómez, P. et al, 2007), (Gómez, P. et al, 2011).
1
HyperText Markup Language, lenguaje de marcado estándar utilizado para la elaboración de páginas web.
4
En general, el hecho de que el diagnóstico de las patologías vocales sea temprano influye en el éxito de su tratamiento. En este sentido el análisis de la voz resulta especialmente adecuado, debido a que en determinadas ocasiones las patologías no presentan síntomas fisiológicos visibles en estadios tempranos, pero sí es posible observar ligeras perturbaciones en la voz. Por otro lado, la inspección directa utilizando instrumental especializado como laringoscopios, fibroscopios o videoendoscopios resulta mucho más costosa e incómoda para el paciente, razón por la cual el análisis de la voz, que es mucho más rápido, económico y cómodo puede servir de filtro para decidir si es necesaria o no una posterior intervención más agresiva (Gómez P. et al, 2005c), (Gómez, P. et al, 2009b).
El presente estudio tiene por lo tanto su raíz en el análisis de la voz, con la intención de contribuir en la resolución de los problemas arriba mencionados: es conveniente tratar de realizar un pre-diagnóstico de las patologías vocales de manera rápida, económica y no invasiva, cosa que además facilitará los diagnósticos tempranos.
En general, el estudio de la voz se ha basado tradicionalmente en métodos subjetivos de evaluación basados en la percepción por parte de especialistas, en el análisis acústico de la voz y en la inspección visual directa utilizando laringoscopios, fibroscopios o video-endoscopios (Gómez P. et al, 2007). Esta tesis, basada en el segundo de los aspectos citados, es decir, en el análisis acústico de la voz, propondrá enfoques y estudios que complementan y amplían aquellos realizados anteriormente en esta misma línea.
En particular, la tesis presentada se centra principalmente en el estudio de parámetros extraídos de la señal conocida como fuente glótica. Es cierto que parámetros obtenidos directamente de la señal de voz como las perturbaciones en la frecuencia fundamental o en la amplitud, o como las relaciones señal-ruido o las relaciones establecidas entre los primeros armónicos y los formantes se han mostrado eficaces en cuanto a su capacidad para la detección de patología, pero la presencia del tracto vocal en la señal analizada provoca cierta contaminación en la misma debido a las influencias fonético-acústicas que aquél produce (Gómez, P. et al, 2005a). Para evitar este efecto, nuestro grupo de investigación ha conseguido estimar la señal conocida como fuente glótica, eliminando del modelo la función de transferencia asociada al tracto vocal a través del uso de técnicas de filtrado inverso. La fuente glótica representa directamente el movimiento de los pliegues vocales, y se puede descomponer a su vez en dos señales diferentes: la onda acústica promedio, asociada al movimiento del cuerpo del pliegue vocal y la onda mucosa, asociada al movimiento de la cubierta del pliegue vocal (Gómez, P. et al 2005c).
A partir de las señales glóticas mencionadas se han extraído un conjunto de nuevos parámetros, que podemos clasificar atendiendo a su naturaleza en los siguientes grupos (Gómez P. et al, 2009), (Fernández-Baillo, R. et al, 2007), (Fernández-Baillo, R. & Gómez-Vilda, P., 2009):
5
Parámetros de perturbación y energía: los primeros reflejan las diferencias de distintos valores característicos de la fuente glótica con respecto a los valores medios recogidos en su propio entorno; los segundos recogen valores relacionados con la energía de la onda mucosa o de la onda acústica promedio. Parámetros espectrales o biométricos: relacionados con la forma característica
asociada a la envolvente de la densidad espectral de potencia de la fuente glótica.
Parámetros biomecánicos: relacionados con características mecánicas asociadas directamente a los pliegues vocales: masas, pérdidas de energía y elasticidades, así como sus desbalances. Referidos tanto al cuerpo como a la cubierta de los pliegues vocales.
Parámetros temporales: relacionados con puntos singulares extraídos de la representación en el dominio del tiempo de un ciclo de fonación de la fuente glótica.
La aportación más importante de la tesis consiste en el análisis estadístico de este conjunto de parámetros, con un objetivo claro: identificar los parámetros y conjuntos de los mismos que tienen mayor capacidad discriminadora para detectar presencia de patología vocal.
También es importante descubrir posibles relaciones entre los parámetros, de cara a reducir la dimensionalidad del problema, ya que es experimentalmente conocido que en problemas de clasificación los conjuntos demasiado grandes aumentan la probabilidad de encontrar redundancias (ruido), pudiendo comprometer los resultados (Gómez, P. et al, 2005a). Por otro lado es conveniente, desde un punto de vista computacional, trabajar con un conjunto lo más reducido posible de datos. Además, las representaciones gráficas, útiles para visualizar resultados, precisan de una dimensionalidad reducida.
El protocolo utilizado en la experimentación se basará por tanto en los siguientes pasos:
1. Análisis descriptivo de los parámetros, prestando especial atención a la separación entre los dos grupos esenciales en nuestro estudio: personas con patología vocal y personas sanas desde el punto de vista vocal.
2. Análisis de normalidad de los parámetros, teniendo también en cuenta la distinción realizada en el punto anterior.
3. Prueba paramétrica de diferencia de medias entre los dos grupos mencionados. Será incluida, además, la medida de análisis complementario tamaño del efecto, para valorar la relevancia de la diferencia encontrada.
4. Contrastes no paramétricos entre los dos grupos mencionados. En particular, pruebas de Mann-Whitney, Moses, Kolmogorov-Smirnov y Wald-Wolfowitz. 5. Estudios de correlación lineal bivariada entre los diferentes parámetros, y
también entre cada uno de ellos y la variable que representa el criterio de pertenencia al grupo de sujetos normofónicos.
6
6. Análisis Factorial basado en Componentes Principales sobre el conjunto completo de los parámetros, y también sobre subconjuntos significativos o destacados de los mismos.
7. Análisis Discriminante, sobre el conjunto completo de los parámetros y sobre subconjuntos significativos o destacados de los mismos. También aplicaremos este análisis a los factores obtenidos en el punto anterior.
El protocolo descrito se llevará a cabo utilizando una base de datos robusta y equilibrada que contiene doscientos sujetos. Cien de ellos corresponden al género masculino y los restantes cien corresponden al género femenino; a su vez, la mitad de ellos presentan distintos tipos de patología vocal y la otra mitad corresponde a voces etiquetadas como normales o normofónicas, de tal modo que contamos con cuatro grupos diferenciados: cincuenta sujetos masculinos con patología vocal, cincuenta sujetos masculinos sin ella, cincuenta sujetos femeninos con patología vocal y cincuenta sujetos femeninos sin ella (Gómez P. et al, 2009).
La distinción entre géneros resulta de especial importancia debido a las diferencias orgánicas existentes entre ambos. En general, el estudio tiene en cuenta las diferentes recomendaciones conocidas al respecto que afirman que las muestras deben contener representantes tanto masculinos como femeninos, pero que las diferencias físicas deben ser tenidas en cuenta (Ruiz, M.T. & Verbrugge, L.M., 1997). Sin embargo, en los estudios de detección haremos algunas pruebas complementarias en los que la base de datos se utiliza de manera global, sin distinguir los géneros. Comprobaremos que, en tales casos, los resultados obtenidos son también bastante satisfactorios.
Este estudio está centrado en las patologías de la voz. Sin embargo, este concepto es amplio, pues incluye alteraciones procedentes de disfunciones orgánicas de la laringe, así como problemas funcionales, respiratorios, neurológicos, de resonancia, congénitos o psiquiátricos. La presente tesis se centrará sobre todo en la disfonía resultado de patologías de la voz basadas en alteraciones orgánicas de la laringe, incluso más específicamente, de los pliegues vocales2. Los pliegues vocales son estructuras frágiles que juegan un papel crucial en el proceso de producción de voz, y un gran porcentaje de las enfermedades vocales se debe a algún tipo de alteración o mal funcionamiento de ellos (Gómez, P. et al, 2011). Sin embargo, el estudio también puede incluir otro tipo de patologías vocales, siempre y cuando manifiesten una perturbación en los parámetros utilizados.
De acuerdo con lo anterior, y de forma general, cabe mencionar que las posibles patologías principales que podemos encontrar en los sujetos que forman la base de datos utilizada son de alguna de las categorías que aparecen en la tabla 1-1 (Dworkin, J.P. & Meleca, R.J., 1997).
2
Aún así, en lo que resta de documento hablaremos genéricamente de “patologías vocales” o de “patologías de la voz”, refiriéndonos exclusivamente a las que aquí tratamos.
7
Tabla 1-1. Patologías principales presentes en la base de datos utilizada.
Angioma Laringitis infecciosa
Carcinoma Nódulos/micronódulos
Disfonía espasmódica Parálisis unilateral Edema/Edema de Reinke Parálisis bilateral Granuloma de contacto Paresia
Hematoma Pólipo
Laringitis no infecciosa crónica Quiste Laringitis no infecciosa por reflujo Sulcus
Además, podemos encontrar las siguientes patologías orgánicas asociadas a las anteriores en la tabla 1-2.
Tabla 1-2. Patologías orgánicas asociadas a las listadas en la Tabla 1-1
presentes en la base de datos utilizada.
Defecto de cierre Participación de bandas ventriculares Hiato longitudinal Lesión de contacto
Hiperfunción
Por último, destacaremos que el presente estudio incluye la elaboración de una aplicación informática completa que facilita los estudios estadísticos realizados: se trata de una herramienta que captura la señal de voz y que se preocupa de medir aspectos relacionados con la calidad de la voz grabada, filtrando aquellas señales inválidas para el estudio. También se caracteriza por su facilidad de manejo, cuestión especialmente apropiada teniendo en cuenta que puede ser utilizada por personas con poca experiencia en el uso de programas informáticos, y por su capacidad de integrarse en una página web y de enviar los ficheros grabados a un servidor central para su posterior análisis (Santos, R., 2005).