• No se han encontrado resultados

Evaluación de la contribución y el impacto de las tecnologías del habla en la detección automática del Síndrome de la Apnea Obstructiva del Sueño = Contributions and impact assessment of speech technologies on the automatic detection of severe Obstructive

N/A
N/A
Protected

Academic year: 2020

Share "Evaluación de la contribución y el impacto de las tecnologías del habla en la detección automática del Síndrome de la Apnea Obstructiva del Sueño = Contributions and impact assessment of speech technologies on the automatic detection of severe Obstructive"

Copied!
273
0
0

Texto completo

(1)UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN. ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN. EVALUACIÓN. DE LA CONTRIBUCIÓN Y EL IMPACTO DE LAS TECNOLOGÍAS DEL HABLA EN LA DETECCIÓN AUTOMÁTICA DEL SÍNDROME DE LA APNEA OBSTRUCTIVA DEL SUEÑO. CONTRIBUTIONS. AND IMPACT ASSESSMENT OF SPEECH TECHNOLOGIES ON THE AUTOMATIC DETECTION OF SEVERE OBSTRUCTIVE SLEEP APNEA SYNDROME. TESIS DOCTORAL. JOSÉ LUIS BLANCO MURILLO Ingeniero de Telecomunicación. 2013.

(2)

(3) DEPARTAMENTO DE SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN. ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN. EVALUACIÓN. DE LA CONTRIBUCIÓN Y EL IMPACTO DE LAS TECNOLOGÍAS DEL HABLA EN LA DETECCIÓN AUTOMÁTICA DEL SÍNDROME DE LA APNEA OBSTRUCTIVA DEL SUEÑO. CONTRIBUTIONS. AND IMPACT ASSESSMENT OF SPEECH TECHNOLOGIES ON THE AUTOMATIC DETECTION OF SEVERE OBSTRUCTIVE SLEEP APNEA SYNDROME. Autor:. JOSÉ LUIS BLANCO MURILLO Ingeniero de Telecomunicación. Director:. LUIS ALFONSO HERNÁNDEZ GÓMEZ Doctor Ingeniero de Telecomunicación. Madrid, 2013.

(4) This Thesis was typeset by the author using LATEX 2 . The main body of the text was set using a 11-points CharterBT-Roman font. All graphics and images were included formatted as Encapsulated Postscript (TM Adobe System Incorporated). The final postscript output was converted to portable Document Format (PDF) and printed..

(5) Department:. PhD Thesis:. Señales, Sistemas y Radiocomunicaciones Escuela Técnica Superior de Ingenieros de Telecomunicación Universidad Politécnica de Madrid (UPM) Evaluación de la contribución y el impacto de las tecnologías del habla en la detección automática del Síndrome de la Apnea Obstructiva del Sueño Contributions and impact assessment of speech technologies on the automatic detection of severe Obstructive Sleep Apnea syndrome. Author:. José Luis Blanco Murillo Ingeniero de Telecomunicación (UPM). Advisor:. Dr. Luis A. Hernández Gómez Doctor Ingeniero de Telecomunicación (UPM). Year:. 2013. Board named by the Rector of Universidad Politécnica de Madrid, on the Board:. ..... of. ......................................... 201 . . .. Dr. Juan Ignacio Godino Llorente Universidad Politécnica de Madrid Dr. Jean Schoentgen Université Libre de Bruxelles Dr. Doroteo Torre Toledano Universidad Autónoma de Madrid Dr. Javier Macías Guarasa Universidad de Alcalá Dr. Eduardo López Gonzalo Universidad Politécnica de Madrid Dr. Fernando Díaz de María Universidad Carlos III Dr. Daniel Ramos Castro Universidad Autónoma de Madrid. After the defense of the PhD Thesis on the . . . . . . . . . of . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 . . , at the E.T.S.I. de Telecomunicación, the board agrees to grant the following qualification: ....................................................................................................................................... CHAIR. SECRETARY. MEMBERS. This work was developed at Grupo de Aplicaciones de Procesado de Señales (GAPS) between 2009 and 2012, and partially funded by the Research Fellowship Program of Universidad Politécnica de Madrid (Programa propio del personal investigador en formación para la realización del doctorado en sus Escuelas, Facultades, Centros de I+D e Institutos Universitarios - Octubre 2008)..

(6)

(7) Resumen La presente Tesis analiza las posibilidades que ofrecen en la actualidad las tecnologías del habla para la detección de patologías clínicas asociadas a la vía aérea superior. El estudio del habla que tradicionalmente cubre tanto la producción como el proceso de transformación del mensaje y las señales involucradas, desde el emisor hasta alcanzar al receptor, ofrece una vía de estudio alternativa para estas patologías. El hecho de que la señal emitida no sólo contiene este mensaje, sino también información acerca del locutor, ha motivado el desarrollo de sistemas orientados a la identificación y verificación de la identidad de los locutores. Estos trabajos han recibido recientemente un nuevo impulso, orientándose tanto hacia la caracterización de rasgos que son comunes a varios locutores, como a las diferencias existentes entre grabaciones de un mismo locutor. Los primeros resultan especialmente relevantes para esta Tesis dado que estos rasgos podrían evidenciar la presencia de características relacionadas con una cierta condición común a varios locutores, independiente de su identidad. Tal es el caso que se enfrenta en esta Tesis, dónde los rasgos identificados se relacionarían con una de la patología particular y directamente vinculada con el sistema de físico de conformación del habla. El caso del Síndrome de Apneas Hipopneas durante el Sueño (SAHS) resulta paradigmático. Se trata de una patología con una elevada prevalencia mundo, que aumenta con la edad. Los pacientes de esta patología experimentan episodios de cese involuntario de la respiración durante el sueño, que se prolongan durante varios segundos y que se reproducen a lo largo de la noche impidiendo el correcto descanso. En el caso de la apnea obstructiva, estos episodios se deben a la imposibilidad de mantener un camino abierto a través de la vía aérea, de forma que el flujo de aire se ve interrumpido. En la actualidad, el diagnóstico de estos pacientes se realiza a través de un estudio polisomnográfico, que se centra en el análisis de los episodios de apnea durante el sueño, requiriendo que el paciente permanezca en el hospital durante una noche. La complejidad y el elevado coste de estos procedimientos, unidos a las crecientes listas de espera, han evidenciado la necesidad de contar con técnicas rápidas de detección, que si bien podrían no obtener tasas tan elevadas, permitirían reorganizar las listas de espera en función del grado de severidad de la patología en cada paciente. Entre otros, los sistemas de diagnóstico por imagen, así como la caracterización antropométrica de los pacientes, han evidenciado la existencia de patrones anatómicos que tendrían influencia directa sobre el habla. Los trabajos dedicados al estudio del SAHS en lo relativo a cómo ésta afecta al habla han sido escasos y algunos de ellos incluso contradictorios. Sin embargo, desde finales de la década de 1980 se conoce la existencia de patrones específicos relativos a la articulación, la fonación y la resonancia. Sin embargo, su descripción resultaba difícilmente aprovechable a través de un sistema de reconocimiento automático, pero apuntaba la existencia de un nexo entre voz y SAHS. En los últimos años las técnicas de procesado automático han permitido el desarrollo de sistemas automáticos que ya son capaces de identificar diferencias significativas en el habla de los pacientes del SAHS, y que los distinguen de los locutores sanos. Por contra, poco se conoce acerca de la conexión entre estos nuevos resultados, los se que habían obtenido en el pasado y la patogénesis del SAHS.. I.

(8) Esta Tesis continua la labor desarrollada en este ámbito considerando específicamente: el estudio de la forma en que el SAHS afecta el habla de los pacientes, la mejora en las tasas de clasificación automática y la combinación de la información obtenida con los predictores utilizados por los especialistas clínicos en sus evaluaciones preliminares. Las dos primeras tareas plantean problemas simbióticos, pero diferentes. Mientras el estudio de la conexión entre el SAHS y el habla requiere de modelos acotados que puedan ser interpretados con facilidad, los sistemas de reconocimiento se sirven de un elevado número de dimensiones para la caracterización y posterior identificación de patrones. Así, la primera tarea debe permitirnos avanzar en la segunda, al igual que la incorporación de los predictores utilizados por los especialistas clínicos. La Tesis aborda el estudio tanto del habla continua como del habla sostenida, con el fin de aprovechar las sinergias y diferencias existentes entre ambas. En el análisis del habla continua se tomó como punto de partida un esquema que ya fue evaluado con anterioridad, y sobre el cual se ha tratado la evaluación y optimización de la representación del habla, así como la caracterización de los patrones específicos asociados al SAHS. Ello ha evidenciado la conexión entre el SAHS y los elementos fundamentales de la señal de voz: los formantes. Los resultados obtenidos demuestran que el éxito de estos sistemas se debe, fundamentalmente, a la capacidad de estas representaciones para describir dichas componentes, obviando las dimensiones ruidosas o con poca capacidad discriminativa. El esquema resultante ofrece una tasa de error por debajo del 18 %, sirviéndose de clasificadores notablemente menos complejos que los descritos en el estado del arte y de una única grabación de voz de corta duración. En relación a la conexión entre el SAHS y los patrones observados, fue necesario considerar las diferencias inter- e intra-grupo, centrándonos en la articulación característica del locutor, sustituyendo los complejos modelos de clasificación por el estudio de los promedios espectrales. El resultado apunta con claridad hacia ciertas regiones del eje de frecuencias, sugiriendo la existencia de un estrechamiento sistemático en la sección del tracto en la región de la orofaringe, ya prevista en la patogénesis de este síndrome. En cuanto al habla sostenida, se han reproducido los estudios realizados sobre el habla continua en grabaciones de la vocal /a/ sostenida. Los resultados son cualitativamente análogos a los anteriores, si bien en este caso las tasas de clasificación resultan ser más bajas. Con el objetivo de identificar el sentido de este resultado se reprodujo el estudio de los promedios espectrales y de la variabilidad inter e intra-grupo. Ambos estudios mostraron importantes diferencias con los anteriores que podrían explicar estos resultados. Sin embargo, el habla sostenida ofrece otras oportunidades al establecer un entorno controlado para el estudio de la fonación, que también había sido identificada como una fuente de información para la detección del SAHS. De su estudio se pudo observar que, en el conjunto de datos disponibles, no existen variaciones que pudieran asociarse fácilmente con la fonación. Únicamente aquellas dimensiones que describen la distribución de energía a lo largo del eje de frecuencia evidenciaron diferencias significativas, apuntando, una vez más, en la dirección de las resonancias espectrales. Analizados los resultados anteriores, la Tesis afronta la fusión de ambas fuentes de información en un único sistema de clasificación. Con ello es posible mejorar las tasas de clasificación, bajo la hipótesis de que la información presente en el habla continua y el habla sostenida es fundamentalmente distinta. Esta tarea se realizó a través de un sencillo esquema de fusión que obtuvo un 88.6 % de aciertos en clasificación (tasa de error del 11.4 %), lo que representa una mejora significativa respecto al estado del arte. Finalmente, la combinación de este clasificador con los predictores utilizados por los especialistas clínicos ofreció una tasa del 91.3 % (tasa de error de 8.7 %), que se encuentra dentro del margen ofrecido por esquemas más costosos e intrusivos, y que a diferencia del propuesto, no pueden ser utilizados en la evaluación previa de los pacientes. Con todo, la Tesis ofrece una visión clara sobre la relación entre el SAHS y el habla, evidenciando el grado de madurez alcanzado por la tecnología del habla en la caracterización y detección del SAHS, poniendo de manifiesto que su uso para la evaluación de los pacientes ya sería posible, y dejando la puerta abierta a futuras investigaciones que continúen el trabajo aquí iniciado.. II.

(9) Abstract This Thesis explores the potential of speech technologies for the detection of clinical disorders connected to the upper airway. The study of speech traditionally covers both the production process and post processing of the signals involved, from the speaker up to the listener, offering an alternative path to study these pathologies. The fact that utterances embed not just the encoded message but also information about the speaker, has motivated the development of automatic systems oriented to the identification and verificaton the speaker’s identity. These have recently been boosted and reoriented either towards the characterization of traits that are common to several speakers, or to the differences between records of the same speaker collected under different conditions. The first are particularly relevant to this Thesis as these patterns could reveal the presence of features that are related to a common condition shared among different speakers, regardless of their identity. Such is the case faced in this Thesis, where the traits identified would relate to a particular pathology, directly connected to the speech production system. The Obstructive Sleep Apnea syndrome (OSA) is a paradigmatic case for analysis. It is a disorder with high prevalence among adults and affecting a larger number of them as they grow older. Patients suffering from this disorder experience episodes of involuntary cessation of breath during sleep that may last a few seconds and reproduce throughout the night, preventing proper rest. In the case of obstructive apnea, these episodes are related to the collapse of the pharynx, which interrupts the air flow. Currently, OSA diagnosis is done through a polysomnographic study, which focuses on the analysis of apnea episodes during sleep, requiring the patient to stay at the hospital for the whole night. The complexity and high cost of the procedures involved, combined with the waiting lists, have evidenced the need for screening techniques, which perhaps would not achieve outstanding performance rates but would allow clinicians to reorganize these lists ranking patients according to the severity of their condition. Among others, imaging diagnosis and anthropometric characterization of patients have evidenced the existence of anatomical patterns related to OSA that have direct influence on speech. Contributions devoted to the study of how this disorder affects scpeech are scarce and somehow contradictory. However, since the late 1980s the existence of specific patterns related to articulation, phonation and resonance is known. By that time these descriptions were virtually useless when coming to the development of an automatic system, but pointed out the existence of a link between speech and OSA. In recent years automatic processing techniques have evolved and are now able to identify significant differences in the speech of OSAS patients when compared to records from healthy subjects. Nevertheless, little is known about the connection between these new results with those published in the past and the pathogenesis of the OSA syndrome. This Thesis is aimed to progress beyond the previous research done in this area by addressing: the study of how OSA affects patients’ speech, the enhancement of automatic OSA classification based on speech analysis, and its integration with the information embedded in the predictors generally used by clinicians in preliminary patients’ examination. The first two tasks, though may appear symbiotic at first, are quite different. While studying the connection between speech and OSA requires simple narrow models that can be easily interpreted, classification requires larger III.

(10) models including a large number dimensions for the characterization and posterior identification of the observed patterns. Anyhow, it is clear that any progress made in the first task should allow us to improve our performance on the second one, and that the incorporation of the predictors used by clinicians shall contribute in this same direction. The Thesis considers both continuous and sustained speech analysis, to exploit the synergies and differences between them. On continuous speech analysis, a conventional speech processing scheme, designed and evaluated before this Thesis, was taken as a baseline. Over this initial system several alternative representations of the speech information were proposed, optimized and tested to select those more suitable for the characterization of OSA-specific patterns. Evidences were found on the existence of a connection between OSA and the fundamental constituents of the speech: the formants. Experimental results proved that the success of the proposed solution is well explained by the ability of speech representations to describe these specific OSA-related components, ignoring the noisy ones as well those presenting low discrimination capabilities. The resulting scheme obtained a 18% error rate, on a classification scheme significantly less complex than those described in the literature and operating on a single speech record. Regarding the connection between OSA and the observed patterns, it was necessary to consider inter-and intra-group differences for this analysis, and to focus on the articulation, replacing the complex classification models by the long-term average spectra. Results clearly point to certain regions on the frequency axis, suggesting the existence of a systematic narrowing in the vocal tract section at the oropharynx. This was already described in the pathogenesis of this syndrome. Regarding sustained speech, similar experiments as those conducted on continuous speech were reproduced on sustained phonations of vowel / a /. Results were qualitatively similar to the previous ones, though in this case perfomance rates were found to be noticeably lower. Trying to derive further knowledge from this result, experiments on the long-term average spectra and intraand inter-group variability ratios were also reproduced on sustained speech records. Results on both experiments showed significant differences from the previous ones obtained from continuous speech which could explain the differences observed on peformance. However, sustained speech also provided the opportunity to study phonation within the controlled framework it provides. This was also identified in the literature as a source of information for the detection of OSA. In this study it was found that, for the available dataset, no sistematic differences related to phonation could be found between the two groups of speakers. Only those dimensions which relate energy distribution along the frequency axis provided significant differences, pointing once again towards the direction of resonant components. Once classification schemes on both continuous and sustained speech were developed, the Thesis addressed their combination into a single classification system. Under the assumption that the information in continuous and sustained speech is fundamentally different, it should be possible to successfully merge the two of them. This was tested through a simple fusion scheme which obtained a 88.6% correct classification (11.4% error rate), which represents a significant improvement over the state of the art. Finally, the combination of this classifier with the variables used by clinicians obtained a 91.3% accuracy (8.7% error rate). This is within the range of alternative, but costly and intrusive schemes, which unlike the one proposed can not be used in the preliminary assessment of patients’ condition. In the end, this Thesis has shed new light on the underlying connection between OSA and speech, and evidenced the degree of maturity reached by speech technology on OSA characterization and detection, leaving the door open for future research which shall continue in the multiple directions that have been pointed out and left as future work.. IV.

(11) A mi familia y amigos. "[...] all knowledge degenerates into probability; and this probability is greater or less according to our experience of the veracity or deceitfulness of our understanding, and according to the simplicity or intricacy of the question". "[...] todo conocimiento degenera en probabilidad; y esta probabilidad es mayor o menor según la veracidad o error de nuestro entendimiento, y según la simplicidad o complicación de la cuestión".. David Hume (1711-1776) A Treatise on Human Nature.

(12)

(13) Agradecimientos Una de las primeras lecciones que pude aprender en el doctorado, es que la investigación no es un trabajo individual. Requiere de la colaboración de muchas personas que de una forma o de otra, se ven involucradas en él. Quiero agradecer aquí el papel que todas ellas han tenido. No sólo por el trabajo realizado y los resultados obtenidos, sino también, y muy especialmente, por el papel que han tenido para mí. En primer lugar, y de manera preeminente, quiero dejar aquí constancia de mi mas sincero agradecimiento y estima al director de la tesis, Dr. Luis A. Hernández, quien desde el primer momento aceptó supervisar mis estudios de doctorado y guiarme en esto de la investigación. A él debo toda la experiencia que pueda haber adquirido en estos años, y buena parte de los conocimientos. Le agradezco las incontables oportunidades que me ha ofrecido y las facilidades que me ha brindado para trabajar en campos diversos y con personas de gran valía. Su enorme curiosidad, generosas palabras, y capacidad para plantarme nuevos retos manteniendo siempre su atenta supervisión me han dado la certeza de haber encontrado mi vocación. Todo aquello que no haya logrado aprender de él en este tiempo se debe únicamente a mis propias limitaciones. Sólo por esta oportunidad merece la pena emprender el largo viaje del doctorado. Le agradezco también sus muchos y sabios comentarios sobre esta Tesis, que nunca habría podido desarrollarse sin su dirección y su apoyo. Agradezco también los comentarios de los revisores de esta tesis, cuyo papel ha sido fundamental en la mejora de la calidad de esta memoria previamente a su defensa pública. Los doctores: Jean Schoentgen, Eduardo Moreira y Doroteo Torre Toledano. Extiendo también mi agradecimiento a los responsables de las estancias que he disfrutado durante mi doctorado en las Universidades de Oxford y Libre de Bruselas. Ellos me han ofrecido la oportunidad de vivir la investigación tal y cómo se desarrolla en sus Universidades, y han aportado nuevas perspectivas sobre el problema que se aborda en esta Tesis. Junto a ellos, lo hago extensivo también a los investigadores que he tenido oportunidad de conocer, y con quienes he podido trabajar. Los doctores Max Little, Athanasios Tsanas, Francis Grenez y Jean Schoentgen. Muy especialmente a este último, quien no sólo ha aportado nuevas perspectivas al problema tratado, y aceptó revisar esta Tesis, sino que también me ha ofrecido generosamente sus consejos y se puso a mi disposición para mis muchas preguntas. Reconozco también mi deuda de gratitud con los miembros del grupo de Aplicaciones de Procesado de Señales (GAPS-UPM), profesores y estudiantes, con quienes he compartido toda esta etapa. Muy especialmente a los profesores, Mariano García, que en su momento aceptó dirigir mi proyecto fin de carrera, permitiéndome aventurarme en el mundo de la investigación; y quien siempre mantuvo abierta la puerta de su despacho a mis descabelladas preguntas; y Eduardo López, cuyos trabajos y sugerencias han influido en los experimentos desarrollados a lo. VII.

(14) largo de mi doctorado. También al profesor Santiago Zazo, quien amplió mi visión del doctorado al mostrarme una aplicación distinta para las técnicas que me son conocidas, pero a la que nunca había tenido acceso. Y a mis compañeros, de un lado y otro del "muro": Rubén –pionero en esto de la apnea y maestro del TCL–, Álvaro –compañero de tantos viajes–, David –maestro en usar la lógica, un valor tantas veces desdeñado–, Álvaro, Beatriz; Laura, Nelson, Virginia, Ana..., por tantas cosas que nos han pasado cada día a lo largo de estos años. La experiencia del doctorado no habría sido la misma sin vosotros. Y por supuesto también a Henar, compañera ‘al final del pasillo’ en esta aventura y amiga durante todo este proceso, ya desde antes y también después. Y junto a los miembros del GAPS-UPM, al profesor Juan Ignacio Godino Llorente y el investigador Jorge Andrés Gómez García del Grupo de Bioingeniería y Optoelectrónica (ByO-UPM). Agradezco enormemente la oportunidad de haber podido colaborar directamente con ellos; de pensar y poder discutir nuestros resultados, buenos o malos y su permanente predisposición a investigar. Y junto a estas, a tantas otras personas del departamento de Señales, Sistemas y Radiocomunicaciones y de la E.T.S.I. de Telecomunicación, cuyo trabajo de una manerao de otra me ha ayudado en todo este proceso. A estas quiero sumar también a las personas que he tenido oportunidad de conocer durante esta etapa, y junto a quienes he tenido ocasión de trabajar en el marco de los distintos proyectos de investigación. Muy especialmente a Jesús Bernat, de quién me queda mucho que aprender, y David Conejero, junto a quien compartimos la segunda mitad de un proyecto de investigación que no olvidaré. Y por supuesto a mis padres, familia y amigos. Sé bien que este proceso ha sido duro para todos vosotros, tanto como lo ha sido para mi. Espero que ahora, con el resultado de mi trabajo en vuestras manos podáis llegar a pensar que el tiempo estuvo bien invertido. Os debo buena parte del mucho tiempo dedicado a esta investigación y a la elaboración de este documento. Contad con que la deuda contraída con cada uno de vosotors, será saldada. Gracias a mis padres, por los no pocos sinsabores, pero muy especialmente por su esmero en mi educación. Espero que este tomo sea una digna prueba de vuestro cuidado y esfuerzo, tanto como lo pueda ser del mío. Y a mis amigos, que tantas veces se han preguntado el porqué de tanto trabajo. Sé que muchos me habéis echado en falta en muchos momentos, y es justo admitir mi deuda con vosotros. A los que conocí durante la carrera, y a los que llevaba de antes y a los que hice después. A todos gracias por ponerme los pies en la tierra. Muy especialmente a Fran, quien logró que sobreviviera durante mi estancia y quien siempre me recuerda que hay una hora para comer, otras para dormir e incluso algunas para dejar pasar el tiempo. Y a los que no haya nombrado directamente, e incluso haya podido olvidar mientras escribo estas líneas. No dudéis nunca de mi gratitud y sincero afecto.. Gracias por hacer de ésta una vida que merece la pena ser vivida.. VIII.

(15) Table of Contents Resumen. I. Abstract. III. 1. Introduction 1.1. Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1. Speech processing and biometrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.2. Bioengineering: an alternative approach to health assessment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.3. Phonetic vs speaker-related information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Problem definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4. Goals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5. Thesis outline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.1. Reading guide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1 5 6 9 11 13 14 15 16 18. 2. The Obstructive Sleep Apnea syndrome 2.1. Introduction. OSA definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Pathogenesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1. Related anatomic factors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1.1. Upper airway configuration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1.2. Skeletal structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1.3. Soft tissues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2. Collapse of the pharynx . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3. Snoring and OSA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Prevalence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4. Clinical diagnosis and treatment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1. Polysomnography test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2. Image-based diagnosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.3. OSA treatment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5. State of the art on speech-based OSA detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1. OSA effects on patients’ speech . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.2. Automatic speech-based detection of OSA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6. Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 21 21 23 23 24 25 26 26 27 28 30 30 33 33 34 35 37 37. 3. Materials and methods 3.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Materials . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1. The obstructive sleep apnea database . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1.1. Speech corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1.2. Collection procedure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1.3. Speech data acquisition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1.4. Apnea Database 1.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 39 39 41 41 42 47 48 48. IX.

(16) 3.2.1.5. Apnea Database 2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2. Additional databases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2.1. Albayzin database . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2.2. Childers’ database . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1. Proposed detection scheme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2. The Neyman-Pearson Lemma and the Kullback-Leibler Divergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3. Gaussian Mixture Models training and goodness of fit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.4. Text dependence and acoustic space partition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.5. Experimental framework . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.6. Statistical analysis of test’s outcomes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4. Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 50 53 53 54 54 55 57 59 63 64 67 72. 4. Continuous speech analysis 75 4.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 4.2. Speech spectral contour characterization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 4.3. Baseline automatic OSA detection system . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 4.4. Preliminary optimization of the MFCC parameterization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.4.1. MFCC parameterization on different frequency bands . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.4.2. MFCC parameterization of the 0 to 6kHz frequency range . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 4.5. The role of Δ and ΔΔ coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.6. Assessment of text dependence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 4.6.1. Discrimination capabilities of different sounds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 4.6.2. Experimental setup for the automatic phonetic segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 4.6.3. Broad phonetic classes analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 4.6.4. Vowel sounds analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 4.7. Alternative parameterizations of the spectral contour . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 4.7.1. Alternative parameterization 1: AURORA-MFCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 4.7.2. Alternative parameterization 2: LFCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 4.7.3. Alternative parameterization 3: a-MFCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.7.4. Alternative parameterization 4: LPCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 4.8. AM-FM multicomponent analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 4.8.1. The WAIF representation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 4.8.1.1. Reading and comparing pyknograms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 4.8.1.2. Statistical analysis of the WAIF representation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.8.2. WAIF parameterization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 4.8.3. Interpretation of the AM-FM parameters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 4.8.4. AM-FM parameters evaluation on OSA detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 4.8.5. AM-FM representation of different phonetic classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 4.8.6. AM-FM representation on the five Spanish vowels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 4.9. Articulation assessment based on the long-term average . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 4.9.1. Experimental setup for LTAS analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 4.9.2. Results of LTAS analyses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 4.9.3. The impact of settings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 4.9.4. Reinterpreting LTAS by means of PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 4.9.5. Vowel chart reconstruction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 4.10.Spectral envelope statistical characterization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 4.10.1.A naïve approximation to an OSA-specific warping function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 4.11.Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169. X.

(17) 5. Sustained speech analysis 173 5.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 5.2. Baseline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 5.2.1. MFCC parameterization of the 0 to 6 kHz frequency range . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 5.3. The role of Δ and ΔΔ coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 5.4. Alternative parameterizations based on the spectral contour . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 5.4.1. Alternative parameterization 1: AURORA-MFCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 5.4.2. Alternative parameterization 2: LFCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 5.4.3. Alternative parameterization 3: a-MFCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 5.4.4. Alternative parameterization 4: LPCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 5.5. AM-FM multicomponent analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 5.6. Articulation assessment based on the long-term average . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 5.6.1. Sustained vowel /a/ analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 5.6.2. The five Spanish vowels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 5.7. Spectral envelope statistical characterization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 5.8. Measures on sustained speech dynamics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 5.8.1. Features classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 5.8.2. Features evaluation and OSA classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 5.9. Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 6. Design and testing of an automatic OSA detection system 203 6.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 6.2. Proposed classification scheme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 6.2.1. Results and discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 6.3. The role of predisposing factors on OSA classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 6.4. OSA patients evolution according to our classifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 6.5. Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 7. Conclusions and Future work 217 7.1. Summary of the Thesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 7.2. Novel contributions in this Thesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 7.3. Future work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 7.4. Related contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 References. 231. Links. 243. Statement of Originality. 245. XI.

(18)

(19) List of Figures Chapter 1. Introduction 1.1. Mind map describing the areas involved in this Thesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 1.2. Block diagram describing a standard approach to classification. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 1.3. OSA diagnosis and monitoring solutions displayed in-home or in-facility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4. Thesis reading guide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Chapter 2. The Obstructive Sleep Apnea syndrome 2.1. Apnea - Hypopnea episode development during sleep . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.2. Schematic sagittal view of the upper airway during hypopnea and apnea episodes . . . . . . . . . . . 23 2.3. Schematic sagittal section of the vocal tract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.4. Sagittal and axial views of the vocal tract: healthy and OSA subjects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.5. OSA prevalence rates for males and females at different ages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.6. Standard OSA diagnosis protocol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.7. In-facility polysomnography test data recording . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Chapter 3. Materials and methods 3.1. Vowel chart for Spanish . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.2. Block diagram summarizing the recording protocol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.3. Estimated GMM distribution including three components . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.4. Block diagram describing the models training procedure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.5. Leave-one speaker-out cross validation for the Apnea Database 1.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.6. Characteristic curves and figures of merit in a binary classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 Chapter 4. Continuous speech analysis 4.1. Spectrogram around the /ui/ diphthong on 5 ms, 20 ms and 40 ms analysis windows. . . . 78 4.2. Formants’ trajectories obtained on /ui/ samples extracted from the word ‘Suiza’ . . . . . . . . . . . . . . . 80 4.3. Block diagram for mel-frequency cepstral coefficients calculation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.4. Default mel-scaled filter bank on the HTK implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4.5. DET curves on MFCC parametrization on the 0 to 8kHz range . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.6. DET curves on MFCC varying parameters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.7. Most representative DET curves on alternative MFCC configuration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 4.8. Butterworth filter designed for the 1 to 6kHz frequency range . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.9. DET curves corresponding to all frequency bands evaluated . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 4.10. DET curves corresponding to high-pass and low-pass filtered signals. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 4.11. DET curves corresponding configurations in which f H I ≥ 6 kHz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91. XIII.

(20) 4.12. DET curves on MFCC parametrization on the 0 to 6kHz range . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 4.13. DET curves on MFCC parametrization and derived Δ-coefficients on the 0 to 6kHz range 95 4.14. DET curves corresponding to four classifiers, one per each phrase in the corpus . . . . . . . . . . . . . . . . 97 4.15. Mixtures distribution across GMMs when introducing BPCs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 4.16. DET curves on MFCC parametrization of BPCs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.17. DET curves on MFCC parametrization of vowel sounds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 4.18. Frequency axis warping functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 4.19. DET curves on the AURORA implementation of MFCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 4.20. DET curves on LFCC parametrization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 4.21. DET curves on AMFCC parametrization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 4.22. DET curves on LPCC parametrization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 4.23. Example on a Gabor filter bank including 20 filters between 0 to 8kHz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 4.24. AM-FM multiband and short-time Fourier analysis of a speech record . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.25. Absolute value of Pearson’s correlation coefficient on the pykfec-based features . . . . . . . . . . . . . . . . . 125 4.26. Illustration on the proposed representation for the pyknogram based on its density . . . . . . . . . . 126 4.27. WAIF-based representation of a single vowel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 4.28. Reconstruction of log-amplitude spectrum from the WAIF-based features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 4.29. Block diagram for WAIF-based cepstral coefficients calculation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 4.30. DET curves on AM-FM parametrization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 4.31. Average and variance of the WAIF-based cepstral coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 4.32. DET curves on AM-FM parametrization on 20 coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 4.33. DET curves on AM-FM parametrization as a function of feature space dimensionality . . . . . 136 4.34. DET curves on AM-FM parametrization of BPCs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 4.35. DET curves on AM-FM parametrization of vowel sounds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 4.36. Front-end block diagram for long-term average spectra estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 4.37. Joint histogram on the number voiced frames compared to the total number . . . . . . . . . . . . . . . . . . . . . . 145 4.38. LTAS for control and OSA patients on the four sentences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 4.39. LTAS on the four sentences recorded in two different postures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 4.40. Cylindrical, uniform tube resonances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 4.41. Projection coefficients corresponding to the first principal component . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 4.42. Group LTAS and group-PC first component for Sentence 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 4.43. Generalized LTAS 1st , 2nd and 3rd components, ordered in descending eigenvalue order . 158 4.44. Histograms on the projection coefficients for the 2nd and 3rd PC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 4.45. F1 /F2 plane trajectories from the PCA decomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 4.46. F1 /F2 plane resulting from the linear combination of the largest principal components . . 161 4.47. F1/F2 plane obtained just for Sentence 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 4.48. F1 /F2 plane obtained just for one repetition of sentence 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 4.49. Inter- and intra-group variability assessment based on variance analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 4.50. Kruskal-Wallis statistic ( ) on the log-amplitude of the spectra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 4.51. Kruskal-Wallis statistic and long-term average spectra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 4.52. Alternative warping functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168. XIV.

(21) Chapter 5. Sustained speech analysis 5.1. LTAS estimated for sustained vowel /a/ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 5.2. LTAS for the five vowels in Spanish from the apnea database extension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 5.3. Kruskal-Wallis statistic and long-term average spectra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 5.4. Jitter (Ti ) and shimmer (Ai ) measures from a filtered speech signal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 5.5. Detrended Fluctuation Analysis (DFA) on a sustained vowel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 Chapter 6. Design and testing of an automatic OSA detection system 6.1. Block diagram describing the final classification scheme proposed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 6.2. OSA evolution, DET curves on MFCC parametrization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 6.3. OSA evolution, DET curves on WAIF-based parametrization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211. XV.

(22)

(23) List of Tables Chapter 1. Introduction 1.1. Sources of variability in Speech vs. Speaker recognition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. Chapter 3. Materials and methods 3.1. Analysis of sentence 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.2. Analysis of sentence 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.3. Analysis of sentence 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.4. Analysis of sentence 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.5. Summary on the apnea database speech corpus vowel content. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.6. Relative frequencies of vowels attending to their phonetic context . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.7. Summary on the subjects included in the apnea database . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.8. Pairwise correlations on speakers’ profiles variables included in the apnea database . . . . . . . . 50 3.9. Summary on the subjects included in the apnea database expansion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.10. Outcomes of an OSA detection test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 Chapter 4. Continuous speech analysis 4.1. EER values as a function of the MFCC configuration parameters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 4.2. AUC values as a function of the MFCC configuration parameters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 4.3. Summary on the relative frequencies of BPCs in the apnea speech corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.4. Explained variance from PCA decomposition on all records from one single speaker . . . . . . . . 159 Chapter 5. Sustained speech analysis 5.1. Summary on the datasets used to train a suitable UBM on sustained speech records . . . . . . . . 178 5.2. EER obtained for each UBM configuration on the 0-8 kHz MFCCs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 5.3. EER for the 4th UBM configuration on the 0-6 kHz MFCC parameterization . . . . . . . . . . . . . . . . . . . . . . . . . 180 5.4. EER obtained for the MFCC parameterization including Δ- coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 5.5. EER obtained for the AURORA-MFCC parameterization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 5.6. EER obtained for the LFCC parameterization including Δ- coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 5.7. EER obtained for the a-MFCC parameterization including Δ- coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 5.8. EER obtained for the LPCC parameterization including Δ- coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 5.9. EER obtained for on the 4th UBM configuration on the WAIF-based parameters . . . . . . . . . . . . . . . . . 186 5.10. Jitter and shimmer measures to be calculated on sustained vowels records . . . . . . . . . . . . . . . . . . . . . . . . . . 194 5.11. Brief description of the complexity measures on speech samples: RPDE and DFA . . . . . . . . . . . . . . 195 5.12. Statistical analysis of the measures regarding sustained speech dynamics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 5.13. Classification accuracy for sustained speech classifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199. XVII.

(24) Chapter 6. Design and testing of an automatic OSA detection system 6.1. Classification accuracy for each of the classifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 6.2. Classification accuracy for the combined scheme including clinical data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 6.3. OSA evolution on MFCC parameterization (0 to 6 kHz) including Δ- coefficients of /a/ . 212 6.4. OSA evolution on WAIF-based parameterization of /a/ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212. XVIII.

(25) Glossary A. L. AHI. Apnea-Hypoapnea Index, is an index of sleep ap-. LTAS. Long-term Average Spectra, 142. nea severity that is calculated by dividing the number of events by the number of hours of sleep. Cur-. M. rently, it is the gold standard for OSA detection, 27, 42. AM-FM. MAP Amplitude Modulation - Frequency modu-. Maximum A Posteriori. The MAP adaptation al-. gorithm results from the maximization of the model. lation, referring to individual components which. parameters on the given data, 62, 63, 178. may be modeled in the following form: x(t) = a(t) · cos φ(t), 119. MLE. Maximum Likelihood Estimator, 56, 60. MRI. Magnetic Resonance Imaging. MRI scan is a. B. radiology technique that uses magnetism, radio waves, and a computer to produce images of body. BPC. Broad Phonetic Class, which clusters phonetic. structures. The image and resolution produced by. units into a single class based on some criterion,. MRI is quite detailed and can detect tiny changes of. 64. structures within the body, though for some procedures contrast agents are used, 5. C. mRMR. minimum Redundancy Maximum Relevance. feature selection algorithm. It is based on the se-. CPAP. Continuous Positive Airway Pressure is a treat-. quential selection of features according to mutual. ment for patients suffering from moderate or se-. information, 198, 223. vere OSA. The mild pressure from CPAP prevents. MSA. the airway from collapsing and allows patients to. Mixed Sleep Apnea, 3. rest during the night, 15, 33, 209. CSA. O. Central Sleep Apnea, 3. OSA. G GMM. Obstructive Sleep Apnea, 3, 14, 55, 64, 207. P. Gaussian Mixture Model, is a probabilistic. model for a population built, from multiple, normally distributed sub-populations, 59. pathogenesis disease, 16. I IPA. PCO2 PO2. International Phonetic Association, 44. XIX. Origination and development of a. CO2 in blood plasma, 22 O2 in blood plasma, 22.

(26) polysomnography test. U. Multi-parametric test. used in the study of sleep and as a diagnostic tool in sleep medicine. Biophysiological changes that. UA. occur during sleep are recorded, usually at night, 5. Upper airway. Portion of the tract which extends from the nostrils and mouth, through the larynx, 22, 35, 49. prevalence. The percentage of a population that is. affected with a particular disease or symdrome at a. W. given time, 2. S SA. WAIF. Weighted Average Instantaneous Frequency. representation, derived from the AM-FM multiband. Sleep apnea occurs when breathing is interrupted. analysis, 121, 131, 137, 186. while sleeping. Episodes may last for 10 seconds or. WHO. more and recurrently occur during the night, 2. XX. World Health Organization, 3.

Referencias

Documento similar

Abstract: Transepidermal water-loss (TEWL), stratum-corneum hydration (SCH), erythema, elas- ticity, pH and melanin, are parameters of the epidermal barrier function and

On the other hand at Alalakh Level VII and at Mari, which are the sites in the Semitic world with the closest affinities to Minoan Crete, the language used was Old Babylonian,

1. S., III, 52, 1-3: Examinadas estas cosas por nosotros, sería apropiado a los lugares antes citados tratar lo contado en la historia sobre las Amazonas que había antiguamente

The main goal of this work is to extend the Hamilton-Jacobi theory to different geometric frameworks (reduction, Poisson, almost-Poisson, presymplectic...) and obtain new ways,

The paper is structured as follows: In the next section, we briefly characterize the production technology and present the definition of the ML index as the geometric mean of

50 The goal is to help people to reach an optimum level in the dimensions of psychological well- being: environmental mastery, personal growth, purpose in life,

In the previous sections we have shown how astronomical alignments and solar hierophanies – with a common interest in the solstices − were substantiated in the

teriza por dos factores, que vienen a determinar la especial responsabilidad que incumbe al Tribunal de Justicia en esta materia: de un lado, la inexistencia, en el