VERIFICACIÓN AUTOMÁTICA DEL LOCUTOR

(1)

VERIFICACIÓN AUTOMÁTICA DEL LOCUTOR

ESPECIALIDAD: Comunicaciones y Electrónica

Juan Arturo Nolazco Flores PhD Ingeniería Informática

Fecha de Ingreso: 15 de Noviembre, 2012.

(2)

(3)

CONTENIDO

RESUMEN EJECUTIVO ... 4

1. INTRODUCCIÓN ... 5

2. SISTEMAS CONVENCIONALES [3, 4] ... 7

3. ESTADO DEL ARTE: JFA (Joint Factor Analysis) [5, 6] ... 10

4. ESTIMACIÓN DISCRIMINATIVA: MVE (“Minimum Verification Error”) ... 11

5. MINIMIZANDO EL ÁREA BAJO LA CURVA DET ... 13

6. RESULTADOS ... 16

6.1 Base de Datos ... 16

6.2 Condiciones de señal limpia ... 16

6.3 Condiciones de señal con ruido ... 17

7. CONCLUSIONES ... 18

8. REFERENCIAS ... 19

9. BIBLIOGRAFÍA ... 21

10. AGRADECIMIENTOS ... 23

11. CURRICULUM VITAE ... 24

(4)

RESUMEN EJECUTIVO

En el presente trabajo se presentó un sistema para Verificación de Locutor basado en MVE (Minimum Verification Error), el cual es un método discriminativo que minimiza el área bajo la curva en lugar de optimizar un punto de operación.

Los resultados en señales limpias utilizando la técnica MVE mejoró a la técnica convencional por más del 15.30%, y minimizando el área bajo la curva todavía mejoró otro 2.22% mas. Aplicando la minimización del área bajo la curva sobre JFA mejoró el resultado por 1.16% comparado con JFA puro.

Los resultados de AUC-JFA y AUC-MVE en señales corruptas con ruido aditivo de diferentes tipos mejoran en un 6.05% y 10.49%

respectivamente con respecto al rendimiento de la técnica convencional.

Palabras clave: verificación de personas, biométricas, reconocimiento de patrones, reconocimiento de personas

(5)

1. INTRODUCCIÓN

Los sistemas de reconocimiento biométrico utilizan alguna característica de la persona para reconocerlo. Estas características pueden ser intrusivas como pruebas de sangre; o puede ser no intrusiva como características del rostro, de la palma de la mano, la forma de caminar, la forma de hablar, el iris, etc.

Los sistemas de reconocimiento biométrico de personas se dividen en sistemas de identificación y sistemas de verificación. En los sistemas de identificación se desea obtener la persona que tiene las características más parecidas a las presentadas. Generalmente, el universo de personas que se busca es limitado, por ejemplo a un departamento, a una empresa, a una ciudad, a afiliados, etc. En caso de que se utilice identificación biométrica para una investigación forense, entonces la principal amenaza para estos sistemas es que la persona va a intente hablar diferente para evitar ser identificado.

En un sistema de verificación, el sistema coteja las características biométricas del individuo con un modelo acústico de la persona quien dice ser. El sistema debe de confirmar/negar si la personas es quien dice ser. Los sistemas de verificación biométricas son generalmente utilizados para control de acceso. La principal amenaza para los sistemas de verificación de personas es que el individuo intente imitar a la otra persona.

Los humanos utilizamos como uno de los medios de comunicación el sonido generado por nuestra sistema bucal. La voz generada depende de muchas variables como el tamaño, grosor, elasticidad de nuestras cuerdas bucales, el tamaño de nuestra laringe, boca, etc. Tal es la diferencia entre individuos de estas características que la voz se puede utilizar como biométrica.

En el presente trabajo se presenta un sistema que se han diseñado y desarrollado para realizar la tarea de verificación del locutor.

Con este sistema se ha participado en evaluaciones internacionales y hemos obtenido muy buenos resultados.

En la sección 2 se presenta la arquitectura de un sistema para ASV convencional. En esta arquitectura se presenta la función de cada módulo de la arquitectura.

En la sección 3 se presenta la técnica JFK (Joint Factor Analysis) que se utiliza en un sistemas ASV para separar las características del canal de las características de los usuarios.

En la sección 4 se presenta una técnica discriminativa que aplicamos a un sistema ASV.

(6)

En la sección 5 se presenta una técnica de optimización que se aplica a diferentes técnicas utilizadas en sistemas ASVs.

En la sección 6 se presentan resultados tanto de técnicas tradicionales como las que hemos desarrollado.

En la sección 7 se presentan las Conclusiones.

(7)

2. SISTEMAS CONVENCIONALES [3, 4]

En la figura se muestra la arquitectura de nuestro sistema de Verificación de Locutor.

Esta arquitectura tiene dos partes. La parte de entrenamiento de los modelos acústicos de los Locutores. La parte de evaluación del sistema utilizando los modelos acústicos de los Locutores.

En el primer módulo de la arquitectura el “pre-procesamiento” de la señal de voz de los locutores objetivo, como locutores intrusos. En este módulo se procesa la señal de voz para obtener las características de la voz de los locutores. Lo deseable de estas características es que sean lo más diferenciadoras posibles entre locutores, tal que faciliten la verificación de los mismos. Este módulo es el mismo tanto en la parte de entrenamiento de los modelos acústico, como en la parte de evaluación del sistema.

El procesamiento de la señal de voz se hace por segmentos de tiempo; cada segmento de tiempo con una duración de entre 20ms y 40ms. Esto se debe a que es importante que la señal analizada sea estacionaria; y resulta que la señal de voz generada por las personas es una señal estacionaria en segmentos pequeños (quasi- estacionaria).

Entonces podemos analizar la señal por intervalos pequeños en tiempo. En este intervalo de tiempo podemos obtener características como número de cruces por Cero (al graficar la señal), energía, máxima amplitud, periodo. También podemos obtener su espectro de

(8)

Fourier y obtener otras características en función de la frecuencia como distribución de la energía y frecuencias de resonancia.

En nuestro trabajo hemos encontrado buenos resultados para periodos de tiempo de 40ms y calculando la energía de este segment así como los coeficientes MFCC (“Mel Frequency Cepstral Coefficients”). Los MFCC se calculan primeramente calculando la Transformada Discreta de Fourier para cada segmento de tiempo (“STFT- Short-Time Discrete Fourier Transform”); después se calcula la Transformada Coseno del logaritmo de la magnitud de la energía para cada uno de los componentes de STFT. La transformada Coseno genera los MFCCs. Utilizamos también las características dinámicas de los coeficientes representadas por la primera y segunda derivada.

En nuestro trabajo hemos encontrado buenos resultados para periodos de tiempo de 40ms, y para cada segmente obtenemos un vector de dimensión 58 (1 representando la energía de la señal, 19 coeficientes MFCC, y sus primeras y segundas derivadas).

Con las características de la señal de voz de los locutores objetivos, el siguiente módulo del sección del entrenamiento son los módulos para

“Modelación Locutores Objetivos (Targets)”. Con las características de los locutores intrusos se crea un “Modelo de Locutores Intrusos”, lo que se le conoce como UBM (Universal Background Model).

La modelación acústica de cada locutor es un GMM (“Gaussian Mixture Model”) que es una Cadena Escondida de Markov de un estado. Cada estado de la GMM tiene un vector con las medias de la energía y de los MFCCs, incluyendo su primer y segunda derivada; y el otro vector con las varianzas de la energía y de cada uno de los MFCCs, incluyendo sus primera y segunda derivada. Debido a la cantidad de datos que generalmente se encuentran en una tarea de Verificación de Locutores, la estimación de estos parámetros es utilizando MAP (Maximum A Posteriori).

En la parte de la Evaluación, el locutor se identifica y genera una señal de voz, entonces primero calculamos los MFCCs de la señal de voz; después, calculamos las puntuaciones del locutor tanto para el modelo del locutor objetivo, como para el modelo UBM.

Dados las dos puntuaciones, el problema de clasificación involucra dos hipótesis: que el usuario legítimo (quien dice ser), ℋ_!, o que el usuario sea un impostor, ℋ_!.

Sea 𝑝_! 𝑧|ℋ_! la función de densidad condicional de la puntuación observada 𝑧 generada por el locutor auténtico 𝐴. De la misma manera sea 𝑝_! 𝑧|ℋ_! la función de densidad condicional de la puntuación (score) observada 𝑧 generada por locutores impostores de

(9)

La densidad condicional 𝑝_! 𝑧|ℋ_! se estima con las puntuaciones de del mismo locutor 𝐴 utilizando su modelo acústico. La densidad condicional 𝑝_! 𝑧|ℋ_! se estima con las puntuaciones de todos los impostores posibles utilizando el modelo acústico de A. Cuando todos los impostores comparten el mismo modelo entonces se le conoce como Modelo Universal (UBM- Universal Background Model)

Si conocemos las densidades condicionales de 𝑝_! 𝑧|ℋ_! y 𝑝_! 𝑧|ℋ_! , entonces una prueba de Bayes, con el mismo “costo de error en la clasificación” por locutor, se basa en la taza de verosimilitud (likelihood ratio) para el locutor 𝐴 [2,15] como se muestra a continuación:

𝜆_! = 𝑝_! 𝑧|ℋ_! 𝑝_! 𝑧|ℋ_! o en el dominio logarítmico

𝜆

_!

= 𝑙𝑜𝑔 𝑝

_!

𝑧|ℋ

_!

− 𝑙𝑜𝑔 𝑝

_!

𝑧|ℋ

_!

.

Entonces, el problema de clasificación es el siguiente:

Si 𝑙𝑜𝑔 𝑝_! 𝑧|ℋ_! − 𝑙𝑜𝑔 𝑝_! 𝑧|ℋ_! ≥ 𝜏 𝑠𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑒 ℋ_!

< 𝜏 𝑠𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑒 ℋ_!

Con el propósito de simplificar las figura que se presentan de aquí en adelante, vamos a simplificar la gráfica de la arquitectura como se muestra a continuación:

(10)

3. ESTADO DEL ARTE: JFA (Joint Factor Analysis) [5, 6]

El propósito de JFA es separar la voz del locutor y las características del canal. Esto es porque el canal crea distorsión en la señal, lo cual afecta la precisión para identificar las personas.

En JFA, las medias de todas las Gaussianas en una GMM son concatenadas en un solo vector llamado, supervector 𝑀_!,!! = {𝜇_! ∥ 𝜇_! ∥ 𝜇_! ∥ ⋯ }. El supervector 𝑀 representa el GMM para la distribución de datos sobre cada tipo de canal 𝐶ℎ para el locutor 𝑆.

𝑀_!,!! = 𝑚 + 𝑉𝑦_! + 𝑈𝑥_!,!! + 𝐷𝑧_!

donde 𝑚 es una media global de todos los locutors; 𝑉 es un conjunto de voces características (eigenvoices) representando el subespacio en el que se ubican los componentes específicos de los locutors, 𝑀_!,!!. 𝑈 es un conjunto de canales característicos (eigenchannels) representando el subespacio sobre el cual están los componentes específicos de un canal. 𝐷 es una matriz diagonal. 𝑦_! es un vector con distribución Normal que representa los factores específicos del locutor 𝑆 . 𝑥_!,!! es un vector con distribución Normal que representa los factores específicos del locutor 𝑆 sobre el canal 𝐶ℎ. 𝑧_! es un vector con distribución Normal que representa un error residual;

El entrenamiento de 𝑉, 𝑈 𝑦 𝐷 es utilizando el algoritmo de Baum- Welch; El aprendizaje de 𝑦_!, 𝑧_! 𝑦 𝑥_!,!! es utilizando procedimiento EM (Expectation Maximization) [6, 5].

(11)

4. ESTIMACIÓN DISCRIMINATIVA: MVE (“Minimum Verification Error”)

Mientras que en una estimación convencionales el objetivo es aprender los parámetros de estas distribuciones que mejor se

“ajustan” a los datos de entrenamiento utilizando un criterio de Máxima Verosimilitud (ML) sin explícitamente considerar la minimización de un punto de operación deseado. En un paradigma discriminativo podemos optimizar el rendimiento del sistema utilizando los datos de entrenamiento; esto es de las muestras

“positivas” (del locutor objetivo (target)) y “negativas” (del locutor no objetivo (no target)).

MVE (Minimum Verificaation error) es un método discriminativo que minimizan el Error Empírico (EE) de verificación en los datos de entrenamiento. Este método lo aplicamos a una tarea de Verificación del locutor [15], la arquitectura se presenta en la siguiente figura:

Se puede observar que esta optimización agrega una etapa más de entrenamiento. La entrada a este segunda etapa es GMMMAP; el proceso de actualización de parámetros es iterativo hasta que se cumple con el requisito de minimizar el EE de los datos de entrenamiento. Cuando el EE es mínimo entonces obtenemos como salida el modelo GMMMVE. A continuación se presente este proceso iterativo:

(12)

(13)

5. MINIMIZANDO EL ÁREA BAJO LA CURVA DET

El propósito de ASV es proveer una decisión confiable, ya sea aceptado o rechazado, dado un identidad reclamada y una frase hablada. Los errores posibles que puedes ocurrir son las Aceptaciones Falsas (FA-False Aceptances) y las Rechazos Falsos (FR- False Rejections). En el caso de los FA se acepta a un locutor no es el locutor objetivo; y en el caso del FR se rechaza incorrectamente a un locutor. En la práctica, al reducir el FA aumenta el FR, y viceversa. Si graficamos cada punto en una curva bidimensional con FA y FR obtendremos lo que se conoce como curva DET (“Detection Error Tradeoff”), como se presenta en la siguiente curva:

El verificador es mejor si la curva es más cercana a los ejes. El rendimiento del SV generalmente es caracterizado por el EER (“Equal Error Rate”) y es el punto de operación en el que el FR tiene el mismo valor de FA [1].

Una mejor medida de rendimiento es el área bajo la curva; esto se puede observar al comparar las FR y FA, donde la curva azul es mejor que la curva verde a pesar de que el EER de la curva verde es mejor que el EER de la curva azul.

Mientras que en una estimación convencionales [3, 4, 5, 6, 7]

(secciones 3 y 4) el objetivo es aprender los parámetros de estas distribuciones que mejor se “ajustan” a los datos de entrenamiento utilizando un criterio de Máxima Verosimilitud (ML) sin explícitamente

(14)

considerar la minimización de un punto de operación deseado. Por otro lado, los paradigmas discriminativos (sección 4) para GMM [11, 12, 14] y para JFA [13] estimación de los parámetros para optimizar el rendimiento utilizando un punto de operación específico. Sin embargo, en estos métodos discriminativos el punto de operación que optimizan depende de la proporción de muestras “positivas” (del locutor objetivo (target)) y “negativas” (del locutor no objetivo (no target)) y optimiza un punto en la curva DET, pero que no necesariamente es el punto EER ni un punto de operación específico que deseemos optimizar.

Es un hecho que los paradigmas discriminativos también pueden ser diseñado para optimizar el rendimiento de la clasificación considerando un punto de operación específico; o inclusive tomando toda la curva DET en su totalidad.

Nuestra propuesta es minimizar el área bajo la curva (AUC- Area Under the Curve) optimiza cada punto en la curva.

Con algunas manipulaciones matemáticas llegamos a la siguiente expresión que actualiza los parámetros:

Λ

_!!!

= Λ

_!

− 𝜖∇𝐿 𝕏, Λ

donde

• ∇𝐿 𝕏, Λ =− _{ℳ 𝒲}¹ _𝜒𝜖ℋ _𝜒𝜖𝒲𝛾 1 − 𝑅 𝜃 𝜒 , 𝜃 𝜒 ^{𝜕𝜃 𝜒}_𝜕Λ

−

^{𝜕𝜃 𝜒}_𝜕Λ

• 𝕏 es el conjunto completo de datos de entrenamiento;

• ℳ y 𝒲 son dos conjuntos de datos pertenecientes a las clases 𝐶 y 𝐶; y se cumple que 𝕏 = ℳ ∪ 𝒲.

• 𝜃 𝜒 es un “score” de un clasificador binario que determina si un dato 𝜒 pertenece a 𝐶 o no;

• 𝑅 𝜃 𝜒 , 𝜃 𝜒 =

^!

1+𝑒

−𝛾𝜑 𝜃 𝜒 ,𝜃 𝜒

•

𝛾

es la velocidad de aprendizaje, y

• 𝜑 𝜃 𝜒

,

𝜃 𝜒 es la distancia entre 𝜃 𝜒 y 𝜃 𝜒 .

Esta ecuación que minimiza el AUC se puede incorporar en los algoritmos MVE (Minimum Verification Error) [9]

(15)

y también para JFA (Joint Factor Analysis)[6]

(16)

6. RESULTADOS

6.1 Base de Datos

Para nuestra evaluación utilizamos un subconjunto de la base de datos NIST 2010 utilizados en las evaluaciones bianuales de la NIST (National Institute of Standards and Technology). Este conjunto fue seleccionado aleatoriamente.

Para los experimentos con condiciones con ruido agregamos ruido de diferentes fuentes: fiesta, crucero, automóvil a alta velocidad, avión, fábrica. La taza de ruido que se probó fue de 10dB SNR (Signal to Noise Ratio).

6.2 Condiciones de señal limpia

A continuación se presenta una tabla con los resultados en los que se muestra como mejoran los resultados con MVE comparado con la técnica convencional:

Método EER

(clean) Mejora

Relativa

MAP 15.95 -

MVE 13.51 15.30%

Se puede observar que el método convencional obtiene un EER (“Equal Error Rate”) de 15.95; y con MVE obtenemos 13.51, lo que representa una mejora relativa del 15.30%.

A continuación se presenta una tabla con los resultados en los que se muestra como mejoran los resultados cuando minimizando el área bajo la curva en modelación MVE:

Método EER

(clean) Mejora

Relativa

MVE 13.51 -

AUC MVE 13.21 2.22%

Se puede observar que aplicando la optimización AUC en MVE obtenemos un EER 13.21, lo que representa una mejora relativa del 2.22% sobre MVE puro.

(17)

A continuación se presenta una tabla con los resultados en los que se muestra como mejoran los resultados cuando minimizando el área bajo la curva en modelación JFA:

Método EER

(clean) Mejora

Relativa

JFA 12.07 -

AUC JFA 11.93 1.16%

6.3 Condiciones de señal con ruido

A continuación se presenta una tabla con los resultados obtenidos para una taza de señal a ruido de 10dB en los que se muestra como mejoran los resultados para diferente técnicas:

Método EER

(10dB) Mejora

Relativa

MAP 18.01

JFA 17.23 4.33%

AUC JFA 16.92 6.05%

AUC MVE 16.12 10.49%

En condiciones con ruido de 10dB, el base de 18.01 de EER.

Utilizando JFA se obtiene un EER de 17.23, lo cual corresponde a un mejora relativa del 6% comparado con el método convencional. Si aplicamos la optimización de minimizar bajo la curva al método JFA, es decir AUC JFA obtenemos un EER de 16.92, lo cual corresponde a una mejora relativa del 6.05%. Si aplicamos la optimización de minimizar bajo la curva al método MVE, AUC MVE obtenemos un EER de 16.12, lo cual corresponde a una mejora relativa del 10.49%.

(18)

7. CONCLUSIONES

En el presente trabajo se presentó un sistema para Verificación de Locutor basado en MVE (Minimum Verification Error), el cual es un método discriminativo que minimiza el área bajo la curva en lugar de optimizar un punto de operación.

Los resultados en señales limpias utilizando la técnica MVE mejoró a la técnica convencional por más del 15.30%, y minimizando el área bajo la curva todavía mejoró otro 2.22% mas. Aplicando la minimización del área bajo la curva sobre JFA mejoró el resultado por 1.16% comparado con JFA puro.

Los resultados de AUC-JFA y AUC-MVE en señales corruptas con ruido aditivo de diferentes tipos mejoran en un 6.05% y 10.49%

respectivamente con respecto al rendimiento de la técnica convencional.

Como pudimos observar en los resultados de todos los experimentos, los resultados mejoraron consistentemente.

Nuestra investigación seguirá buscando como mejorar los resultados aplicando AUC en otras técnicas o con variaciones de AUC.

(19)

8. REFERENCIAS

[1] A. Martin, G. Doddington, T. Kamm, M. Ordowski, and M.

Przybocki, “The det curve in assessment of detection task performance,” Tech.Rep., DTIC Document, 1997.

[2] D. A. Reynolds, T. F. Quatieri, and R. B. Dunn, “Speaker verification using adapted gaussian mixture models,” Digital Signal Processing,vol. 10, pp. 19–41, 2000.

[3] F. Bimbot, J. Bonastre, C. Fredouille, G. Gravier, I. Magrin- Chagnolleau, S. Meignier, T. Merlin, J. Ortega-Garcia, andDD Petrovska-Delacretaz, “Reynolds (2004) A tutorial on textindependent speaker verification,” EURASIP Journal on Applied Signal Processing, vol. 4, pp. 430–451.

[4] D. Petrovska-Delacr´etaz, A. El Hannani, and G. Chollet,

“Textindependent speaker verification: state of the art and challenges,” Progress in nonlinear speech processing, pp. 135–169, 2007.

[5] P. Kenny, G. Boulianne, P. Ouellet, and P. Dumouchel, “Joint factor analysis versus eigenchannels in speaker recognition,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, no.

4, pp. 1435–1447, 2007.

[6] P. Kenny, P. Oueleet, N. Dehak, V. Gupta, and P. Dumouchel, “A study of inter-speaker variability in speaker verification,” IEEE Trans.

ASLP, vol. 16, pp. 980–988, 2008.

[7] Najim Dehak, Patrick J. Kenny, Rda Dehak, Pierre Dumouchel, and Pierre Ouellet, “Front end factor analysis for speaker verification,”

IEEE Transactions on Audio, Speech and Language Processing, 2010.

[11] D. Povey, PC Woodland, and MJF Gales, “Discriminative map for acoustic model adaptation,” in IEEE Intl. Conf. on Acoustics, Speech and Sig. Proc. (ICASSP), 2003, vol. 1, pp. I–312.

[12] F. Sha and L.K. Saul, “Large margin gaussian mixture modeling for phonetic classification and recognition,” in IEEE Intl. Conf. on Acoustics, Speech and Sig. Proc. (ICASSP), 2006.

[13] L. Burget, O. Plchot, S. Cumani, O. Glembek, P. Matejka, and N.

Brummer, “Discriminatively trained probabilistic linear discriminant analysis for speaker verification,” 2012, Proceedings of ICASSP.

[14] B.-H. Juang, W. Chou, and C.-H. Lee, “Minimum classification error rate methods for speech recognition,” IEEE Trans. on Speech and Audio Processing, vol. 5, pp. 257–265, May 1997.

(20)

[15] K. Fukunaga, “Introduction to statistical pattern recognition,” in Computer Science and Scientific Computing, 2nd ed., W. Rheinboldt and D. Siewiorek, Eds. San Diego, CA: Academic, 1990.

(21)

9. BIBLIOGRAFÍA

• H. B. Mann and D. R. Whitney, “On a test of whether one of two random variables is stochastically larger than the other,” Annals of Mathematical Statistics, vol. 18:1, pp. 50–60, 1947.

• CH Lee, “A unified statistical hypothesis testing approach to speaker verification and verbal information verification,” in Proc.

COST,Workshop on Speech Technology in the Public Telephone Network: Where are we today?, Greece, September 1997, vol.

250, pp. 63–72.

• J.-L. Gauvain and C.-H. Lee, “Maximum a posteriori estimation for multivariate Gaussian mixture observations of markov chains,”

IEEE Trans. on Speech and Audio Processing, vol. 2, pp. 291–299, Apr. 1994.

• E. Rosenberg, “Speaker verification using minimum verification error training,” 1998, Proceedings of ICASSP.

• “Optimization of the det curve in speaker verification(extended version),”

http://mlsp.cs.cmu.edu/publications/pdfs/slt2012AUCSV.pdf.

• L.K. Saul and M.G. Rahim, “Maximum likelihood and minimum

• classification error factor analysis for automatic speech recognition,”

• Speech and Audio Processing, IEEE Transactions on, vol. 8, no. 2, pp. 115–125, 2000.

• L. Burget, O. Plchot, S. Cumani, O. Glembek, P. Matejka, and N.

Brummer, “Discriminatively trained probabilistic linear discriminant analysis for speaker verification,” in IEEE Intl. Conf.

on Acoustics, Speech and Sig. Proc. (ICASSP), 2011.

• A.F. Martin and C.S. Greenberg, “NIST 2008 Speaker Recognition Evaluation: Performance Across Telephone and Room Microphone Channels,” in Proc. Interspeech, 2009.

• D. A. Reynolds, “Speaker identification and verification using Gaussian mixture speaker models,” Speech Communication, vol.

17, no. 1-2, pp. 91–108, 1995.

• L. Burget, M. Fapso, and V. Hubeika, “BUT system for NIST 2008 speaker recognition evaluation,” in Interspeech, 2009.

• N. Scheffer, L. Ferrer, M. Graciarena, S. Kajarekar, E. Shriberg, and A. Stolcke, “The SRI NIST 2010 speaker recognition evaluation system,” in IEEE Intl. Conf. on Acoustics, Speech and Sig. Proc. (ICASSP), 2011, pp. 5292–5295.

• O. Glembek, L. Burget, N. Dehak, N. Brummer, and P. Kenny,

“Comparison of scoring methods used in speaker recognition with joint factor analysis,” in IEEE Intl. Conf. on Acoustics, Speech and Sig. Proc. (ICASSP), 2009.

• P. Matejka, O. Glembek, F. Castaldo, MJ Alam, O. Plchot, P.

Kenny, L. Burget, and J. Cernocky, “Full-covariance UBM and

(22)

heavy-tailed PLDA in i-vector speaker verification,” in IEEE Intl.

Conf. on Acoustics, Speech and Sig. Proc. (ICASSP), 2011.

• P Kenny, “Bayesian Speaker Verification with Heavy-Tailed Priors,”

keynote presentation, Odyssey Speaker and Language Recognition Workshop Brno, Czech Republic, 2010.

(23)

10. AGRADECIMIENTOS

Agradezco el apoyo del Instituto Tecnológico y de Estudios Superiores de Monterrey por el apoyo financiero para mantener este proyecto desde el año 2002.

Agradezco el apoyo de mis asistentes de Investigación, especialmente a Leibny Paola Garcia Perera y Roberto Aceves.

Agradezco a Richard Stern, Bhiksha Raj, y Rita Singh del Instituto de Tecnología y Lenguaje de la Universidad de Carnegie Mellon, por las excelentes discusiones que hemos tenido en el área de Reconocimiento Automático de Voz y Verificación Automática del Locutor y muy especialmente por su apoyo en el desarrollo de la técnica de optimización que minimiza el área bajo la curva.

Agradezco el apoyo de Chin-Hui Lee de Georgia Tech en la adecuación de la técnica MVE a nuestro sistema ASV.

Agradezco el apoyo de Eduardo Lleida de la Universidad de Zaragoza, España, por las excelentes discusiones que hemos tenido en el área de Reconocimiento Automático de Voz y Verificación Automática del Locutor.

(24)

11. CURRICULUM VITAE

• EDUCACIÓN:

Grado: BSc. Ingeniero en Sistemas Electrónicos (ISE), mención honorífica (1982-1986)

Institución: ITESM, campus Monterrey, Monterrey, N.L., México.

Grado: M.Sc. Ingeniería de Control (1986-1987)

Institución: ITESM (Instituto Tecnológico y de Estudios Superiores de Monterrey), campus Monterrey, Monterrey, N.L.,

México.

Grado: M.Phil. (1990-1991)

Institución: Universidad de Cambridge, Cambridge, Inglaterra.

área: Procesamiento de Voz y de Lenguaje Grado: Ph.D. (1991-1995 junio)

Institución: Universidad de Cambridge, Cambridge, Inglaterra.

área: Reconocimiento Automático de Voz en ambientes altamente

contaminados por ruido.

• DISTINCIONES:

1. Miembro de la Academia Mexicana de Ciencias, 2011.

2. “SNI, nivel I”, período 2006-2012; candidato en el periodo 1996- 1999.

3. Premio a la Labor Docente y de Investigación del Instituto Tecnológico y de Estudios Superiores de Monterrey, campus Monterrey, Mayo 2009.

4. Premio a la Labor Docente y de Investigación del Instituto Tecnológico y de Estudios Superiores de Monterrey, campus Monterrey, Mayo 2005.

5. Invitado por CONACyT a formar parte de “Red Nacional en Tecnologías de Información”, 2008-fecha.

6. Vice-presidente el SIL-IL (“Special Interest Group in Iberoamerican Languages”) de ISCA (Internacional Speech and Communication Association), en el periodo 2008-fecha.

7. Agencia Española de Cooperación Internacional (AECI), para participar en le ”Programa de Cooperación Interuniversitaria AL.E”, estancia corta en la Univ. de Zaragoza, España, en Junio

(25)

8. Reconocimieto como Responsable de la Cátedra de Investigación de “Seguridad de la Información”, lo cual me hace acreedor a un apoyo financiero del ITESM de $1,500,000.00 pesos al año.

9. Reconocimiento como profesor Titular del ITESM, campus Monterrey, 2003.

10. Beca de la Academia Mexicana de Ciencias (AMC-FOMECE) durante el verano del 2001 para realizar investigación sobre reconocimiento automático de Voz en la Universidad de Carnegie Mellon, EUA (4,500.00 USD + pasaje de avión).

11. Apoyo financiero de la DAAD para realizar una estancia en la Universidad de Marburg, Alemania, período Mayo-Julio de 1998 (11,000.00 DM por un período de tres meses).

12. Beca F.C.O ("Foreign and Commonwealth"), administrada por el Consejo Británico, para realizar estudios de postgrado en la Universidad de Cambridge, Inglaterra (1990-91).

13. Premio O.R.S. ("Overseas Research Student Award") para realizar investigación en la Universidad de Cambridge, Inglaterra (1990-93).

14. Beca de CONACYT (Consejo Nacional de Ciencia y Tecnología) para realizar estudios doctorales en la Universidad de Cambridge, Inglaterra (1990-93).

15. Beca BUAC (Becas Universitarias Asociación Civil) para realizar estudios de maestría en el ITESM, campus Monterrey (1986-87) en el programa de Profesores a Futuro.

16. Carta de Reconocimiento de BUAC por estar dentro de los 15 estudiantes becados con las calificaciones promedio más alto en el ITESM, campus Monterrey (Ene. 1983).

17. Beca BUAC para realizar estudios de licenciatura en el ITESM, campus Monterrey (1982-86).

• EXPERIENCIA LABORAL:

Institución: Dpto. de Ciencias Computacionales, ITESM, campus Monterrey, Monterrey, N.L., México.

Responsabilidades:

Profesor de Tiempo completo (Full-time professor): 1988-2003.

Director del Dpto. de Ciencias Computacionales, (2003-fecha)