Aplicación a un problema real: patología de la voz

MÉTODOS DE SELECCIÓN DE LA INFORMACIÓN DE ENTRADA A LA RED NEURONAL

BA 0.6 Mejor BA 0.5: Iguales:

3.9. Aplicación a un problema real: patología de la voz

Revisando la bibliografía se puede ver que es bien conocido que las posibles alteraciones sobre el aparato fonador causan cambios sobre la señal acústica de voz. Usualmente el diagnóstico de alteraciones en la voz es realizado por un experto: este hace hablar al paciente y analiza la voz.

Esta forma de realizar el diagnóstico tiene algunos inconvenientes, por ejemplo:

· El diagnóstico es subjetivo, es decir, el propio estado de ánimo del experto podría influir en el diagnóstico final

· El diagnóstico a través de un experto suele ser muy lento, los problemas se detectan cuando la enfermedad o patología está ya avanzada.

Otra forma de realizar el diagnóstico sería realizar un estudio a partir de las características de la señal de voz, de la cual se pueden extraer multitud de parámetros utilizando técnicas de procesado digital de la señal.

Este último tipo de diagnóstico de patologías a partir de la señal de voz presenta numerosas ventajas respecto a otros métodos:

- No es una herramienta invasiva, el paciente solo debe hablar. - Se puede construir un sistema automático para el diagnóstico.

- El diagnóstico es objetivo porque está basado en el valor de parámetros acústicos.

- Se reduce el coste y tiempo de diagnóstico.

- Puede ser útil para evaluar tratamientos y procesos de rehabilitación, usando la medida actualizada de los parámetros acústicos para observar la evolución.

Los parámetros acústicos definen claramente las características de la voz y serán útiles para determinar si una voz es “normal” o “patológica”. Incluso, se podría distinguir entre patologías, o utilizar la información para la prescripción de tratamientos o rehabilización de voz.

Sin embargo, si estudiamos la bibliografía vemos que no hay un acuerdo en cuantos, ni en qué parámetros son realmente útiles para definir de forma clara y sencilla la señal de voz. En las referencias [41-51], podemos encontrar diferentes algoritmos para calcular los parámetros acústicos que se usarán para distinguir entre voces patológicas y normales. En las referencias [52] y [53], se aplican redes neuronales para resolver el problema. En la primera, se utiliza una red Multilayer Feedforward y en la segunda se utiliza una red SOM.

En nuestras investigaciones, como describiremos más adelante, usaremos una red Multilayer Feedforward con una capa oculta y diferentes métodos de selección de entradas para escoger los parámetros apropiados de entrada a la red. A diferencia de las referencias [52] y [53], veremos que nuestros resultados son mejores, ya que escogemos algunos de los métodos de selección de características de entrada, y el número final de parámetros que utilizaremos es muy bajo, obteniendo sin embargo, una eficiencia del 100%.

Durante la realización de nuestras investigaciones en el campo de selección de entradas en redes neuronales, surgió la participación en el proyecto CICYT

TER96-1938-C02-01 titulado: “Sistemas de Evaluación y Rehabilitación de Problemas de Fonación y/o Audición”. El proyecto estaba dirigido por Dr. Santiago Aguilera de la Universidad Politécnica de Madrid y en él participaban varias entidades.

La Universidad Jaume I se incorporó al proyecto con el objetivo de tratar de aplicar redes neuronales al problema de diagnóstico de patologías de voz, lo cual no estaba en principio contemplado en el proyecto inicial pero pareció interesante incorporarlo.

Nuestra primera meta, fue tratar de aplicar redes neuronales al problema de distinguir entre voces patológicas y no patológicas. Se trata de un problema de clasificación, para el cual utilizamos redes Multilayer Feedforward.

El primer problema que nos encontramos fue precisamente el de seleccionar los parámetros acústicos que debíamos usar como entradas de nuestra red.

Si para un experto esto ya es un problema complejo, para alguien no experto en el tema puede resultar imposible.

Sin embargo, pensamos que podríamos aplicar las técnicas de selección de entradas que estabamos estudiando en aquellos momentos, con el objetivo de reducir el número de parámetros acústicos necesario para resolver el problema de clasificación que abordábamos.

El procedimiento que seguimos de forma resumida fue:

· Utilizar redes Multilayer Feedforward para distinguir entre voces patológicas y normales, utilizando todos los parámetros acústicos de los que disponíamos.

· Aplicar algunas de las técnicas de selección de entradas, para reducir el número de parámetros y ver si la eficiencia resultante era igual o mejor que la obtenida con todos los parámetros.

Para abordar el problema disponíamos de una base de datos comercial de la compañía Kay Elemetrics: “Disorders voice Database”, Versión 1.03, Kay Elemetrics Corp, 1994. Esta base, fue originalmente desarrollada y grabada por “The Massachusetts Eye and Ear Infirmary (MEEI) Voice and Speech Laboratories”.

Se trata de una base de datos en CDROM que contiene alrededor de 1400 ejemplos de voces de unos 700 sujetos. Los ejemplos están obtenidos tanto de pacientes con voces normales como con alguna patología.

Para cada ejemplo, la base de datos contiene un total de 33 parámetros acústicos calculados utilizando el “Multi-Dimensional Voice Program (MDVP)”.

Los 33 parámetros acústicos son abreviados en la base de datos con los siguientes nombres: “Fo”, “To”, “Fhi”, “Flo”, “STD”, “PFR”, “Fftr”, “Fatr”, “Tsam”, “Jita”, “Jitt”, “RAP”, “PPQ”, “sPPQ”, vFo”, “ShdB”, Shim”, “APQ”, “sAPQ”, “vAm”, “NHR”, “VTI”, “SPI”, “FTRI”, “ATRI”, “DVB”, “DSH”, “DUV”, “NVB”, “NSH”, “NUV”, “SEG” y “PER”.

A continuación damos una corta descripción de los mismos.

Fo Frecuencia fundamental media en la vocalización.

To Periodo, en milisegundos, del periodo glotal medio.

Fhi Frecuencia fundamental más alta en la vocalización (en Hz).

Flo Frecuencia fundamental más baja en la vocalización.

STD Desviación estándar de la frecuencia fundamental en la vocalización.

PFR Rango de frecuencia fundamental fonatoria en semi-tonos.

Fftr Frecuencia de la más intensa baja frecuencia de la componente de modulación de Fo.

Fatr Frecuencia de la más intensa baja frecuencia de la componente de modulación de amplitud.

Tsam Longitud en segundos de un ejemplo de voz (dato) analizado.

Jita Jitter absoluto, da una evaluación en microsegundos de la variabilidad de periodo-a-periodo del periodo del pitch.

Jitt Porcentaje jitter, da una evaluación de la variabilidad del periodo del pitch en porcentaje. Representa la variación relativa de periodo a periodo (muy a corto plazo).

RAP Perturbación media relativa: evaluación de la variabilidad del periodo pitch con factor de suavizado de 3 periodos.

PPQ Cociente de la perturbación del periodo del pitch: evaluación en porcentaje de la variabilidad del pitch con factor de suavizado de 5 periodos.

sPPQ Cociente de la perturbación del periodo del pitch suavizado, que da una evaluación en porcentaje de la variabilidad a largo plazo del periodo del pitch, con un factor de suavizado de 55 periodos. Se relaciona con la intensidad de la frecuencia de temblor (tremor, en inglés).

vFo Variación de la frecuencia fundamental que representa la desviación estándar relativa de periodo a periodo, calculada de la frecuencia fundamental. Refleja a muy largo plazo la variación de Fo.

ShdB Shimmer en dB, da una evaluación de la variabilidad de periodo a periodo de la amplitud pico a pico.

Shim Porcentaje Shimmer, evalúa en porcentaje la variabilidad de la amplitud de pico a pico. Representa la variabilidad periodo a periodo relativa (a muy corto plazo) de la amplitud pico a pico.

APQ Cociente de la perturbación de amplitud, da una evaluación en porcentaje de la variabilidad de la amplitud pico a pico, con un factor de suavizado de 11 periodos.

sAPQ Cociente de la perturbación de amplitud suavizada: evaluación en porcentaje de la variabilidad a largo plazo de la amplitud pico a pico, con un factor de suavizado de 55 periodos, se relaciona con la intensidad de la amplitud de temblor (tremor, en inglés).

vAm Variación del pico de amplitud, representa la desviación estándar relativa de periodo a periodo, calculado de pico a pico de la amplitud. Refleja a muy largo plazo las variaciones de la amplitud.

NHR Relación de armónicos-ruido: relación media de la energía de las componentes de los armónicos en el rango de 1,5-4,5 kHz, a las componentes en el rango 70-4500 H. Evaluación general de la presencia de ruido en la vocalización.

VTI Índice de turbulencia vocal: relación media del espectro de energía de los armónicos de alta frecuencia, al espectro de energía de armónicos en áreas de fonación estables, mide el nivel de energía relativa de ruido de alta frecuencia.

SPI Índice de fonación suave: relación media de la energía de los armónicos de baja a alta frecuencia. Mide el tipo de espectro en la vocalización.

FTRI Índice de intensidad de “Fo-tremor” muestra (en porcentaje) la relación de la magnitud de frecuencia de la componente (Fo-tremor) de modulación de la más intensa baja frecuencia, a la magnitud total de frecuencia.

ATRI Índice de la intensidad de “Amplitude tremor” muestra (en porcentaje) la relación entre la amplitud de la componente (amplitude tremor) de modulación-amplitud de la más intensa baja frecuencia, y la amplitud total.

DVB Grado de parada de voz, muestra (en porcentaje) la relación de la longitud total de la áreas que representan paradas de voz en el tiempo total del ejemplo de voz.

DSH Grado de sub-armónicos, es una estimación relativa de los sub-armónicos de las componentes de Fo.

DUV Grado de no-voz: evaluación relativa de las áreas de no-armónicos (donde Fo no puede ser detectado). Considera como no-voz todas las pausas antes y después de áreas de voz.

NVB Número de paradas de voz, muestra las veces que Fo es interrumpido desde el comienzo, desde la primera parada hasta el final de la úlitma área de voz.

NSH Número de segmentos sub-armónicos encontrados durante el análisis.

NUV Número de segmentos de no-voz detectados durante el análisis de autocorrelación.

SEG Número total de segmentos computados durante el análisis de autocorrelación MDVP.

PER Periodo pitch detectado durante la extracción de pitch de periodo a periodo usando MDVP.

También se incluye en la base de datos otra información como la edad (AGE), sexo (SEX), lenguaje nativo (NATLANG), origen racial (ORIGIN) y si el sujeto es fumador o no (SMOKE), etc.

Nosotros hemos utilizado una red Multilayer Feedforward con una capa oculta para implementar la aplicación. Primero, hemos usado todos los parámetros acústicos de la base de datos más la edad y sexo como entradas a la red, es decir, 35 entradas.

El primer paso para entrenar la red fue eliminar aquellos ejemplos en los cuales encontramos “entradas desconocidas” (parámetro cuyo valor se desconoce). Esto se debía a que el software MDVP no había sido capaz de calcular dichos parámetros. La mayor parte de las entradas desconocidas se encuentran en los parámetros “FTRI”, “ATRI”, “Fftr” y “Fatr”.

Si descartamos los ejemplos con entradas desconocidas, quedan un total de 70 registros normales y 211 patológicos. El número total de ejemplo será de 281, lo cual representa una reducción alta respecto el número inicial de 1400.

Realmente teníamos dos posibilidades a la hora de podar la base de datos. Una seria quitar ejemplos con valores desconocidos de algún parámetro, y la otra descartar parámetros acústicos que presentan valores desconocidos. De la segunda forma, el número final de ejemplos de entrenamiento sería mayor, sin embargo, la

importancia de los parámetros no es conocida a priori, por lo que descartando parámetros podríamos eliminar algunos que fueran importantes en la predicción, por lo que, finalmente, adoptamos la primera solución de descartar ejemplos y conservar todos los parámetros.

En cuanto al algoritmo de entrenamiento a usar, se optó por el descrito en el apartado (3.4) de este capítulo de la Tesis Doctoral. Es un algoritmo con eficiencia similar a Backpropagation y bastante más rápido.

Puesto que no disponíamos de muchos ejemplos para el entrenamiento, 281, usamos la técnica de entrenar 36 redes diferentes para medir la eficiencia. Se realizaron 36 particiones de los datos entre conjunto de entrenamiento y test. Así, habría 8 ejemplos diferentes en cada conjunto de test (273 en cada conjunto de entrenamiento), excepto en el último donde solo habría un ejemplo en el conjunto de test (280 en el de entrenamiento).

Después de entrenar las redes y medir la eficiencia nos enfrentamos al problema de reducir el número de entradas a la red, es decir, de seleccionar los parámetros acústicos de tal forma que sean un número mínimo y suficiente para resolver el problema.

Los métodos de selección de entradas aportan ciertas ventajas, se reduce el tamaño final de la red, se reducen los datos a procesar y es posible incrementar la capacidad de generalización de la red. Como hemos visto a lo largo de este capítulo, hay muchos métodos de selección de entradas y en general la eficiencia final suele depender del método que usemos, y del problema al que se aplique.

En el momento que realizamos esta investigación aun no habíamos completado el estudio de todos los métodos. Lo que se hizo fue escoger 6 de los métodos que se habían estudiado en esas fechas.

Los métodos escogidos fueron los siguientes: BL1, BL2, CLO, PRI, DEV, TEK, todos ellos basados en el análisis de redes entrenadas Multilayer Feedforward (ARNMF) y todos descritos al principio de este capítulo.

El entrenamiento de la red inicial se realizó usando todas las entradas. Se entrenaron 36 redes con diferente inicialización (de datos y de pesos).

Para la aplicación de estos métodos, el conjunto de datos utilizado debe estar normalizado, ya que el rango de variabilidad de las entradas influye en las magnitudes finales de los pesos conectados a ellas.

Para realizar la normalización restamos al valor de una entrada el valor mínimo de la misma, y dividimos el resultado entre la diferencia entre el valor

máximo y el mínimo. Esta operación la realizamos para todas las entradas y todos los datos y al final obtuvimos los datos normalizados en el intervalo [0,1].

A continuación, veremos la metodología utilizada en nuestros experimentos. La arquitectura de la red neuronal inicial fue: 35 entradas y 2 salidas. El número de unidades ocultas se determinó por procedimientos de prueba y error. Finalmente se escogieron 6 unidades ocultas.

Las redes fueron entrenadas y testeadas obteniendo un porcentaje de correcta clasificación del 100%. Esto quiere decir, que la red es capaz de distinguir perfectamente entre voces patológicas y no patológicas.

Tabla 9. Ordenación de los parámetros acústicos por importancia.

Métodos

BL1 BL2 CLO PRI DEV TEK

“FTRI” “Shim” “FTRI” “FTRI” “NVB” “NVB” “PFR” “ATRI” “NVB” “PFR” “ATRI” “VTI”

“Jitt” “NUV” “To” “Jitt” “Shim” “NHR” “To” “FTRI” “NUV” “To” “RAP” “ShdB” “NVB” “NVB” “Jitt” “NVB” “NUV” “DVB” “NUV” “APQ” “PFR” “NUV” “APQ” “SEX” “ShdB” “Fftr” “NHR” “ShdB” “ShdB” “NSH” “Fftr” “RAP” “SEX” “Fftr” “FTRI” “FTRI” “SEX” “ShdB” “DVB” “SEX” “DSH” “RAP” “ATRI” “To” “RAP” “ATRI” “VTI” “PPQ” “RAP” “sPPQ” “vAm” “RAP” “Tsam” “Tsam” “vAm” “vAm” “ShdB” “vAm” “vAm” “sPPQ” “PPQ” “VTI” “sAPQ” “PPQ” “To” “NUV” “NHR” “PPQ” “PPQ” “NHR” “PPQ” “DSH” “sAPQ” “Jitt” “Shim” “sAPQ” “NHR” “Jitt”

“DSH” “Tsam” “STD” “DSH” “SEX” “vFo” “DVB” “vFo” “APQ” “DVB” “sPPQ” “PFR” “DUV” “DSH” “DUV” “DUV” “Fftr” “APQ” “Tsam” “NHR” “VTI” “Tsam” “vFo” “ATRI”

“APQ” “PFR” “Tsam” “APQ” “DUV” “Fatr” “STD” “NSH” “Fftr” “STD” “NSH” “Fftr” “Shim” “SEX” “ATRI” “Shim” “Jitt” “STD” “sPPQ” “sAPQ” “DSH” “sPPQ” “STD” “Shim” “VTI” “DVB” “sPPQ” “VTI” “PFR” “sAPQ” “vFo” “STD” “Fatr” “vFo” “sAPQ” “DUV” “Fatr” “Fatr” “NSH” “Fatr” “DVB” “To” “NSH” “DUV” “vFo” “NSH” “Fatr” “vAm” “AGE” “SPI” “AGE” “AGE” “SPI” “SPI” “SEG” “AGE” “SEG” “SEG” “AGE” “AGE”

“SPI” “SEG” “SPI” “SPI” “SEG” “SEG” “Flo” “Flo” “Flo” “Flo” “Flo” “Flo”

“Fo” “Fo” “Fo” “Fo” “Fo” “Fo” “Fhi” “Fhi” “Fhi” “Fhi” “Fhi” “Jita” “Jita” “Jita” “Jita” “Jita” “Jita” “Fhi”

trada más importante

Entrada menos importante

El paso siguiente, fue aplicar los 6 métodos de selección escogidos y obtener las diferentes ordenaciones de la importancia de las entradas.

En la Tabla 9 damos la ordenación de los diferentes parámetros acústicos en orden de importancia para cada uno de los métodos.

A partir de estas ordenaciones se pueden construir diferentes subconjuntos por sucesiva eliminación de una entrada. Por ejemplo, para el método BL1 la primera entrada que se elimina será “FTRI”, la segunda “PFR”. Siguiendo este proceso, el subconjunto de las 5 entradas más importantes para el método BL1 sería el formado por {“Flo”,”Fo”,”Fhi”,”Jita”,”PER”}, y el subconjunto de las dos más importantes para el método TEK {“Fhi”,”PER”}.

Finalmente, se evaluaría la eficiencia de las diferentes redes (entrenando y testeando) usando como nueva capa de entrada los subconjuntos construidos.

En la Tabla 10, se da un extracto de los resultados de la eficiencia para los subconjuntos formados por 6 o menos entradas. El resto de resultados no lo reflejamos aquí porque la eficiencia para todos ello es del 100%.

Tabla 10. Eficiencia de los métodos de selección aplicados.

Métodos Nº entradas en el

subconjunto final BL1 BL2 CLO PRI DEV TEK

6 100% 100% 100% 100% 100% 100% 5 100% 100% 100% 100% 100% 100% 4 100% 100% 100% 100% 100% 100% 3 100% 100% 100% 100% 100% 100% 2 — — — — — 100% 1 — — — — — —

En la tabla el símbolo “—” significa que la red no ha convergido bien con ese subconjunto, el porcentaje obtenido en el entrenamiento era demasiado bajo por lo que no hemos testeado el funcionamiento de dicha red.

Podemos concluir, que el sexto método, TEK, da mejores resultados para este problema concreto. Con este método podemos escoger un subconjunto de 2 entradas para resolver perfectamente el problema de clasificación entre voces patológicas y no patológicas, sin que se produzca pérdida de la eficiencia en la red.

En otros métodos, la entrada “Jita” es más importante que la entrada “Fhi”, pero según los resultados del método TEK podemos ver que “Jita” puede considerarse como innecesaria, pero la entrada “Fhi” es necesaria.

Podemos finalmente concluir, que los parámetros acústicos “Fhi” y “PER”

son suficientes para resolver el problema de clasificación entre voces patológicas y no patológicas. La eficiencia (porcentaje de correcta clasificación) con sólo estas dos entradas es del 100%.

Vimos al principio de este apartado que en la referencia [52] también se usaba una red Multilayer Feedforward para resolver este problema. Los resultados que se dan en dicha referencia son de un 85.8% de clasificación correcta. La principal razón es que los parámetros acústicos usados en la red son diferentes de los nuestros.

En la referencia [53], sí que se realiza una selección previa de los parámetros acústicos a usar. Los seleccionados eran: “APQ”, “BVD”, “RAM”,

“SPI”, “STD” y “vAm”. La relación de correcta clasificación es del 83.3%. En este caso las razones de la diferencia pueden ser, que tanto la red utilizada (SOM) como los parámetros escogidos, son diferentes. En nuestras ordenaciones por ejemplo, el parámetro “APQ” está entre la 6 y 20 entradas menos importantes,

“BVD” entre la 5 y la 26, SPI entre la 28 y 30, “STD” entre la 16 y la 25 y finalmente “vAm” entre la 11 y 27. En general, la importancia de estos parámetros no es demasiado buena teniendo en cuenta que trabajamos con 35 entradas.

Pensamos pues que nuestros resultados son muy buenos en comparación con otro tipo de técnicas que se han aplicado.

Otro problema que se puede abordar usando la misma metodología es el de diagnóstico médico, es decir clasificar entre diferentes patologías.

In document Hacia un diseño óptimo de la arquitectura Multilayer Feedforward (página 159-175)