• No se han encontrado resultados

Procesamiento del Habla

N/A
N/A
Protected

Academic year: 2021

Share "Procesamiento del Habla"

Copied!
23
0
0

Texto completo

(1)

Agustín Gravano

1er Cuatrimestre 2017

Departamento de Computación, FCEyN, UBA

(2)

2

Objetivo: Construir sistemas informáticos capaces

de manipular efectivamente el lenguaje oral.

Disciplina fuertemente interdisciplinaria.

(3)

3

Objetivos de la Materia

Estudiar las bases necesarias para construir sistemas

simples de procesamiento del habla.

 Reconocimiento automático.

 Síntesis del habla.

 Detectores de características del hablante.

Presentar (más superficialmente) temas avanzados

(4)

4 

Habla → Secuencia de palabras

¿Qué es el habla?

Reconocimiento Automático

Onda Espectrograma fr ec ue nc ia

(5)

5

s

a

p o

m a

n

t

a

(6)

6

Reconocimiento Automático

(7)

7 

Pre-procesamiento de la entrada:

 Filtro de ruidos.

 Segmentación en hablantes. 

Post-procesamiento de la salida:

 Puntuación, mayúsculas, formato de números.

setenta y siete 77; siglo dieciséis siglo XVI

Comprensión del lenguaje natural:

“Quiero un pasaje de Rosario a Mendoza para el veinte de noviembre a las seis de la tarde.”

de:Rosario a:Mendoza fecha:20/11/09 hora:18:00

(8)

8

Secuencia de palabras → Habla

Hora oficial: 113

[113.wav]

cero horas

cero minutos

cero segundos

una hora

un minuto

diez segundos

dos horas

dos minutos

veinte segundos

...

...

...

veintitrés horas cincuenta y nueve

minutos

cincuenta

segundos

24 x

60 x

6 = 8640

(9)

9

Difonos

s

a

p

o

sa

ap

po

o--s

(10)

10 

Base de datos de difonos.

 Parámetros acústicos de cada difono.

Ejemplo de síntesis

hola mundo → -o ol la am mu un nd do

o-Secuencia que minimiza penalidades.

-o -o ol ol ol la la la la am mu un un un nd nd nd nd do do do o-am

(11)

11 

Demos

 Nuance: http://www.nuance.com/.../tts-demo/spanish/  Cepstral: http://www.cepstral.com/en/demos

TP1 (de años anteriores)

[tp1-*.wav]

(12)

12

Síntesis articulatoria.

 Simulación del tracto vocal y de los

procesos articulatorios.

Síntesis por formantes.

Síntesis basada en HMMs.

[uba_secyt-hsmm*.wav]

Síntesis del Habla

(13)

13 

Pre-procesamiento de la entrada:

 Normalización

110 → ciento diez / uno uno ceroDGI → de ge i; AFIP → afip

 Palabras fuera de vocabulario; extranjeras.

Monroe, Wilde.

Generación de lenguaje natural:

 Rosario-Mendoza 2014/11/29 18:00, ASIENTOS=[].

“No quedan pasajes de Rosario a Mendoza para el veinte de noviembre a las dieciocho horas.”

(14)

14

Sistemas de Diálogo Hablado

(15)

15 

Mucha información más allá de las palabras.

¿Cómo varía la prosodia?

“hace frío [. ? ! ]”

“no dije Corea del Sur, dije Corea del Norte”“por un lado ... por otro lado…”

“no renuncié por el sueldo”“¿vamos al cine o al teatro?”“no cantes victoria”

(16)

16 

Tono de voz.

 Frecuencia fundamental (f0).

Intensidad.

 Volumen, energía, amplitud de onda.

Velocidad.

 Palabras/seg, sílabas/seg, fonemas/seg.

Calidad de la voz.

 Susurro, voz tensa, voz rasposa, etc.

(17)

17

Procesamiento del Habla

Reconocimiento automático.

Síntesis del habla.

Sistemas de diálogo hablado.

Traducción automática.

Identificación del hablante.

Interfaces de usuario (PC, auto, celular).

Indexación de bases de datos de audio (YouTube).

Detección y generación de emociones.

(18)

18

Procesamiento del Habla

Interfaces para personas con capacidades especiales.

 Stephen Hawking

Manipulación de voces (cambio de identidad).

 vocalid.org - TED Talk de Rupal Patel

Procesamiento automático de la música.

 Hatsune Miku

“Habla” de animales (delfines, ballenas, pájaros).

 Laboratorio de Sistemas Dinámicos (DF)

Adquisición del lenguaje.

(19)

19

Temas del programa

 Acústica y procesamiento digital de señales.  Fonética y prosodia.

 Modelo del lenguaje. Técnicas de PLN.  Sistemas de texto-a-habla (TTS).

 Sistemas de reconocimiento automático del habla (ASR).  Sistemas de diálogo hablado.

 Evaluación de sistemas de procesamiento del habla.  Temas avanzados:

 reconocimiento de información del hablante (id, edad, sexo);  procesamiento del habla afectiva (emociones, mentiras);

 reconocimiento del idioma o dialecto;

 traducción automática y generación automática de resúmenes;  y otros.

(20)

20

Varios

 Horario de cursada: lunes 9:30-13:30h, labo Turing.  Puntaje para Computación: 3 puntos para Lic y Doc.

 Correlativas: Teoría de Lenguajes y Métodos Numéricos.  Modo de evaluación:

 2 parciales y 2 trabajos prácticos grupales.  Promoción:

 La materia se promociona si en todas las instancias (P1, P2, TP1, TP2) se

obtiene nota 75/100 o superior.

 Quienes obtengan al menos una nota inferior a 75/100 deben dar el final.  Para quienes recuperen un parcial o TP, la nota que cuenta es la del

recuperatorio.

 La promoción es opcional: pueden optar por dar final para levantar la nota.  Mails: gravano@dc ; ph-alu@dc

(21)

21

Bibliografía

 Jurafsky & Martin, “Speech and Language Processing”, (2nd

ed.). Prentice Hall. 2009. En Biblioteca Central.

 Johnson, “Acoustic & Auditory Phonetics”,

(2nd ed.). Blackwell. 2003. En Biblioteca Central.

 Benesty, Mohan Sondhi & Huang (Eds.), “Springer Handbook of Speech Processing”. Springer-Verlag, 2008. Versión

electrónica disponible desde de la red de la UBA (ver web de la materia)

(22)

22

Prerrequisitos técnicos

Linux

 manejo de archivos (ls, cd, pwd, cp, mv, rm, mkdir,

rmdir, ...); permisos (chmod, chown, chgrp); procesamiento de archivos de texto (cat, grep, less, sed, awk, cut); man.

 http://www.linux.org/forums/beginner-tutorials.53/

Python 2.7.x

 expresiones, variables, funciones, listas, listas por

comprensión, estructuras de control (if, for, while),

iteradores, lectura/escritura de archivos, cómo importar módulos.

(23)

23

Para hacer ahora...

1)

Buscar el nombre de usuario (“ph-NN”) en la planilla.

 Es para usar en Linux, no en Windows.

2)

Recordar el nombre de usuario!!!

3)

Ingresar y cambiar el password AHORA.

 Ingresar con usuario y contraseña (ver el pizarrón).  Abrir una Terminal.

 Ingresar “passwd”, ENTER. Seguir las instrucciones.

4)

(opcional) Tutorial Linux.

 http://www.linux.org/forums/beginner-tutorials.53/

5)

(opcional) Tutorial Python.

Referencias

Documento similar

Para el segundo remate, se señalan las diez horas y cero minutos del dieciséis de setiembre del dos mil catorce, con la base de diez millones quinientos mil colones exactos

Para el segundo remate se señalan las nueve horas y cero minutos del siete de marzo del año dos mil diecisiete, con la base de treinta y un millones quinientos mil colones

Para el segundo remate se señalan las diez horas y treinta minutos del tres de setiembre del dos mil trece, con la base de diecisiete millones setecientos mil colones

Para el Segundo remate se señalan las trece horas treinta minutos del veinte de octubre del dos mil diecisiete con la base de ciento sesenta y ocho millones ochocientos treinta

Para el segundo remate se señalan las nueve horas y cero minutos del nueve de setiembre del dos mil catorce, con la base de seis millones setecientos cincuenta mil

Para el segundo remate se señalan las ocho horas y cero minutos del ocho de agosto del dos mil dieciocho, con la base de dos millones ochenta y tres mil novecientos sesenta y

Para el segundo remate se señalan las catorce horas y cero minutos del diez de abril de dos mil dieciocho, con la base de tres millones setecientos cincuenta mil colones exactos

Plano: G-1319268-2009.- Para el segundo remate se señalan las ocho horas y cero minutos del veinticinco de mayo del año dos mil quince, con la base de dos millones doscientos seis