principales clases de sonidos del espan˜ol

3.1 Introduccio´n

El valor comunicativo de los gestos articulatorios que hemos descrito en el capítulo previo descansa primariamente en las distintas maneras en que la posición de los articuladores modifica el paso del aire, produciendo ondas sonoras diferentes.1 Estas ondas sonoras, rápidos cambios en la presión del aire propagados como olas en un estanque, impactan los órganos auditivos del oyente, quien los interpretará como portadores de significado si conoce la lengua. En este libro, los sonidos del español se describen sobre todo desde una perspectiva articulatoria. Sin embargo, en este capítulo haremos referencia también a las características acústicas de los principales tipos de sonidos del habla. Mientras que en el pasado el estudio acústico del habla requería aparatos complejos y caros, hoy en día existen programas de software de bajo precio o incluso gratuitos que los lectores de este libro pueden utilizar para analizar su propia pronunciación y otras grabaciones. Estos programas de análisis del habla proporcionan una representación visual de las ondas sonoras y permiten varias operaciones de análisis y filtrado. Todas las figuras de este capítulo y la mayoría del libro han sido producidas con el programa Praat (desarrollado por Paul Boersma y David Weenink, www.praat.org; véase Boersma 2001).

En las siguientes secciones señalaremos las principales características vi- suales que nos permiten identiﬁcar en un espectrograma las distintas clases de segmentos. En otros capítulos se dará algo más de información sobre las características acústicas de sonidos especíﬁcos.2

Primariamente pero no completamente. La información visual que nos da el movimiento de los labios es también muy importante en la percepción, como demuestra el llamado “efecto McGurk” (McGurk y MacDonald 1976).

2 _{Una exposición detallada de fonética acústica está fuera de los límites marcados para este libro.} Algunas referencias excelentes son Laver (1994), Ladefoged (1992, 1996), Johnson (2003) y Hayward (2000). Para el análisis espectrográﬁco de los sonidos del español véase Quilis (1981) y Martínez 44

3.2 Vocales y oclusivas sordas

Dos tipos de sonidos del habla máximamente diferentes entre sí son las vocales y las oclusivas sordas. En la ﬁgura 3.1 podemos observar la onda sonora (el oscilograma) de una producción de la palabra apetito /apetíto/. En esta representación, la dimensión horizontal corresponde al tiempo (en segundos), mientras que la amplitud de la onda (su desplazamiento vertical con respecto a la línea cero, que representa la presión normal del aire) muestra la cantidad de energía o intensidad a cada momento (aumento o disminución de presión, por encima o debajo de la línea cero, respectiva- mente). La amplitud general de la onda dependerá de lo fuerte que hablemos (o lo cerca que tengamos el micrófono), pero los diferentes sonidos también diﬁeren en su amplitud relativa. En general, las vocales producen ondas con mayor amplitud que los segmentos colindantes.

Observemos primero en la figura 3.1 las secciones correspondientes a las tres oclusivas sordas. En la articulación de estas consonantes los órganos articulatorios hacen contacto completo bloqueando totalmente el paso del aire por un instante. En la figura, este momento de silencio se refleja en la ausencia de energía durante la fase de oclusión de las tres oclusivas.

En la producción de las vocales, como en las de otros sonidos sonoros, la corriente de aire que sale de los pulmones causa la vibración de las cuerdas vocales, es decir, que se abran y cierren rápidamente (véase la sección 2.2.3). En la articulación de las vocales la corriente de aire pasa sin obstáculo por la

a p e t i t o

Tiempo (s)

0 0.672925

Fig. 3.1 Onda sonora (oscilograma) de una produccio´n de la palabra apetito

Celdrán (1998). Para el inglés americano, lengua a la que nos referiremos en varias ocasiones, véase Olive et al. (1993).

cavidad oral y es modulada de diversas maneras según el tamaño de las cavidades anterior y posterior creadas por la posición de la lengua.

La vibración compleja de las cuerdas vocales puede compararse con la producida cuando tocamos la cuerda de una guitarra. En la figura 3.1 las secciones correspondientes a las vocales son observables como ondas cuasi-periódicas; esto es, como ondas con un patrón que se repite, en las que cada repetición corresponde a una vibración de las cuerdas. Esto se puede ver mejor en la figura 3.2, que muestra solo el oscilograma de la tercera vocal en la figura 3.1, /i/.

El número de repeticiones o ciclos por unidad de tiempo de una onda periódica se conoce como su frecuencia. La frecuencia se da en ciclos por segundo, hertz o hercios (abreviado Hz). En la figura 3.3, tenemos la onda de otra vocal, /a/. La duración de este segmento aparece en la parte inferior de la figura como 0.100175 segundos, o apenas algo más de una décima de segundo. Si contamos los picos de amplitud en la figura podemos ver que la onda se repite exactamente diez veces en este intervalo de tiempo. En un segundo habría pues 100 ciclos. Decimos entonces que la frecuencia fundamental de esta onda es de unos 100 ciclos por segundo o 100 Hz. Las diferencias de frecuencia fundamental se trasladan en diferencia de tono percibido. Cuanto más alta es la frecuencia fundamental de una onda, más alto es el tono que oímos. La frecuencia fundamental de una onda periódica depende de la velocidad de vibración o apertura y cierre de las cuerdas vocales.

En la ﬁgura 3.2 y la ﬁgura 3.3 podemos ver que sobrepuestos sobre el ciclo de mayor amplitud (la frecuencia fundamental) hay otros componentes periódicos de frecuencias más altas. Estos componentes se conocen como armónicos y son siempre múltiplos íntegros de la frecuencia fundamental. La amplitud de los armónicos por encima de la frecuencia fundamental revela de qué vocal se trata.

0.1847

−0.1845

0 0.0794615

Tiempo (s) 0

Nótese que las vocales /i/ (ﬁgura 3.2) y /a/ (ﬁgura 3.3) tienen diferentes patrones de armónicos, que aparecen como picos y valles en cada ciclo.

Además de la información que obtenemos mediante la inspección visual de ondas sonoras, podemos obtener información adicional sobre los sonidos del habla mediante el análisis de los espectrogramas. Un espectrograma es una representación de la señal acústica que nos da más detalle al permitirnos observar la distribución de la energía a diferentes frecuencias. Esto nos permite, por ejemplo, distinguir más claramente entre una vocal y otra. La figura 3.4 es un espectrograma producido a partir de la onda sonora en la figura 3.1. En un espectrograma, como en una onda sonora, el eje horizontal indica el tiempo. El eje vertical, por otra parte, indica diferentes frecuencias (en la figura 3.4, por ejemplo, desde 0 Hz a 5000 Hz) y un color más oscuro indica mayor intensidad en las frecuencias correspondientes.

En la ﬁgura 3.4 podemos ver que la energía de las vocales se concentra en ciertas bandas de frecuencias (en las zonas más oscuras). Las bandas horizontales más oscuras se conocen como formantes. Cada formante es un haz de armónicos. Como veremos en el capítulo 6, cada vocal tiene una distribución de formantes característica. Por ejemplo, el primer formante es más alto para /a/ que para cualquier otra vocal.

Para las oclusivas de /apetíto/ en la figura 3.4, podemos observar que el espectrograma está completamente en blanco durante la oclusión. El suelte o explosión de la oclusión consonántica queda reflejado en una línea vertical seguida de un corto intervalo de energía aperiódica (sin un patrón reiterado definido) o “ruido”, antes de comenzar los formantes de la vocal siguiente.

Tiempo (s)

0 0.100175

−0.1163 0.1418

Fig. 3.3 Oscilograma de la vocal /a/ producida con una frecuencia fundamental de unos 100 Hz. En la figura hay 100 ciclos en una de´cima de segundo

El centro de energía en la barra vertical, así como la forma de las transiciones de los formantes de las vocales adyacentes, nos dan información sobre el punto de articulación de la consonante.

3.3 Fricativas y africadas

La “ﬁrma visual” de las fricativas es muy diferente tanto de la de las oclusivas como de la de las vocales. En las fricativas sordas, la energía acústica no tiene su fuente en la vibración de las cuerdas vocales, sino en el estrechamiento del paso del aire creado por los articuladores en la cavidad oral, que produce turbulen- cia. Las fricativas tienen una onda sonora no repetitiva o aperiódica, la posición de cuyo centro de energía (de la zona más oscura en el espectrograma) en frecuencias más altas o más bajas depende de su punto de articulación. En la ﬁgura 3.5 tenemos la onda sonora de una producción de la palabra ositos /osítos/. Obsérvese la gran diferencia que hay entre las secciones de la onda sonora de esta palabra que corresponden a los dos casos de la fricativa /s/ y las porciones que corresponden a las vocales y a la oclusiva /t/.

a p e t i t o

Tiempo (s)

0 0.672925

5000

Frecuencia (Hz)

Fig. 3.4 Espectrograma de apetito. Las vocales se caracterizan por la presencia de formantes (barras horizontales ma´s oscuras). Cada oclusiva sorda tiene un perıódo de silencio (en blanco en el espectrograma) seguido de energıá no perio´dica durante la explosioń

En la ﬁgura 3.6 hemos ampliado parte de los dos últimos segmentos, /-os/, de modo que pueda verse de manera aún más clara la diferencia que hay entre la onda periódica de la vocal /o/ y la onda aperiódica (sin patrón deﬁnido) de la fricativa /s/.

La figura 3.7 es un espectrograma de /osítos/ obtenido de la misma señal que la figura 3.5. Nótese que para /s/ la energía se distribuye de manera no organizada, sin formantes, en la parte superior del espectrograma. El oscilograma aparece también en la parte superior de la figura, por encima del espectrograma.

o s i t o s Tiempo (s)

0 0.742177

Fig. 3.5 Oscilograma de una produccio´n de la palabra ositos

Tiempo (s)

0 0.181234

–0.2239 0.2242

Fig. 3.6 Oscilograma de /-os/ de la fig. 3.5 49 3.3 Fricativas y africadas

Las africadas combinan oclusión con suelte fricativo. Las dos fases (el momento de silencio, seguido de fricción similar a la de la fricativa /s/ en la ﬁgura 3.7) pueden verse en el espectrograma de hacha /áʧa/ en laﬁgura 3.8.

3.4 Oclusivas sonoras y alo´fonos aproximantes de /b dɡ/

Los fonemas oclusivos sonoros de /b d ɡ/ en español, como sabemos, se realizan sin oclusión completa en muchas posiciones, incluyendo la intervocálica. Su grado de constricción puede variar considerablemente. Cuanto más abierta sea su articulación, más se parecerá su espectrograma al de las vocales y más difícil será encontrar en el espectrograma las fronteras entre consonante y vocales colindantes. En la ﬁgura 3.9 tenemos un espectrograma de una producción de la frase sabe todo /sábe tódo/ [sáβe tóðo].

Las características espectrográﬁcas de las oclusivas sonoras en posición intervocálica pueden ser ilustradas con un ejemplo del inglés, dado que normal- mente no ocurren en español. En la ﬁgura 3.10 se comparan una producción del español ave /ábe/, que contiene una aproximante sonora [áβe], con una producción de la palabra inglesa abbey ‘abadía’ pronunciada por un anglo- hablante. Nótese que en la /b/ del ejemplo inglés la única energía observable aparece en la parte inferior del espectrograma. Esto es lo que se conoce como banda o barra de sonoridad _{e indica que el segmento es sonoro. Todos los}

Frecuencia (Hz) 0 5000 o s i t o s Tiempo (s) 0.829 0

Frecuencia (Hz) 0 5000 s a β e t o ð o Tiempo (s) 0.745 0

Fig. 3.9 Oscilograma y espectrograma de una produccio´n de sabe todo

Frecuencia (Hz) 0 5000 a t∫ a Tiempo (s) 0.45 0

Fig. 3.8 Oscilograma y espectrograma de una produccio´n de hacha /a´ʧa/. Obse´rvense las dos fases durante la produccio´n de la africada

segmentos sonoros tienen esta banda de energía a bajas frecuencias. En la /b/ del inglés, que ha sido realizada como oclusiva sonora, esta es la única energía visible en el espectrograma. En el ejemplo del español, por otra parte, el fonema /b/ ha sido realizado como la aproximante [β] y esto se reﬂeja en la presencia de formantes como los de las vocales colindantes, si bien algo menos intensos.

Frecuencia (Hz) 0 5000 a β e Tiempo (s) 0.369 0

Fig. 3.10a Oscilograma y espectrograma de una produccio´n de ave /a´be/ [a´βe]

Frecuencia (Hz) 0 5000 Tiempo (s) 0.384218 0 ae b i

En la ﬁgura 3.11 se comparan paso /páso/ y vaso /báso/. En posición inicial absoluta, a principio de enunciado, /b/ es una oclusiva. Nótese que /b/ tiene banda de sonoridad, que indica vibración durante la oclusión (como la /b/ de abbey en la ﬁgura 3.10b), mientras que esta banda de sonoridad no aparece en /p/. Por otra parte, la apertura de /p/ se marca por una breve aspiración (mucho más breve que la de la consonante /p/ del inglés en la misma posición).

3.5 Consonantes resonantes

El breve contacto del ápice en la vibrante simple resulta en un espectrograma similar al de una oclusiva sonora, pero muy breve. La secuencia de breves contactos en la vibrante múltiple produce una serie de espacios en blanco (excepto por la banda de sonoridad) en el espectrograma. Las dos vibrantes, simple y múltiple, se ilustran en la ﬁgura 3.12 con las palabras para /páɾa/ y parra /pár̄a/. En este caso, la vibrante múltiple de parra ha sido producida con tres contactos.

Las nasales y laterales también tienen formantes, aunque menos intensos que los de las vocales adyacentes. En la ﬁgura 3.13 ofrecemos el espectrograma de una producción de la lana /lalána/.

En otros capítulos daremos algún detalle más sobre las características acústicas de cada sonido o clase de sonidos, según los vayamos estudiando.

Frecuencia (Hz) 0 5000 p a s o b a s o Tiempo (s) 1.108 0

Fig. 3.11 Oscilograma y espectrograma de una produccio´n de las palabras paso /pa´so/ y vaso /ba´so/

Frecuencia (Hz) 0 5000 p a a p a r– a Tiempo (s) 0.989 0

Fig. 3.12 Oscilograma y espectrograma de una produccioń de las palabras para /pa´ɾa/ y parra /pa´r¯a/. Obse´rvese la breve oclusioń intervoca´lica en para y las tres oclusiones en esta produccioń de parra Frecuencia (Hz) 0 5000 l a l a n a Tiempo (s) 0.839 0

E J E R C I C I O S

1 Obtenga un programa de ana´lisis del habla por internet (el ma´s utilizado es Praat) y un micro´fono y trate de reproducir las figuras de este capı´tulo grabando su propia habla.

2 ¿Corresponden los espacios en blanco en un espectrograma a los espacios entre palabras en un texto escrito? Obtenga un espectrograma de la frase compre´ un paquete y come´ntelo.

3 En un programa como Praat es posible obtener una representacio´n de la frecuencia fundamental de una onda sonora. Grabe los ejemplos mira la luna y son pocos osos y obtenga la curva de frecuencia fundamental (en Praat con la funcio´n Show pitch). Notara´ que en uno de los ejemplos la curva aparece interrumpida en varios lugares; ¿por que´?

4 Grabe dos o tres ejemplos de palabras que contrasten por la posicio´n del acento, como ha´bito, habito y habito´ en el contexto “digo __ para ti”. Segmente cada vocal y consonante y discuta las diferencias observables en frecuencia fundamental, intensidad y duracio´n.

4.1 Introduccio´n

Las consonantes y las vocales se agrupan fonológicamente en sílabas. El concepto de sílaba es importante en la estructura fónica del español. Muchos procesos fonológicos en esta lengua muestran más claramente su naturaleza cuando consideramos la estructura de la sílaba (véase A. Alonso 1945, J. Harris 1983, Colina 2009).

En términos prácticos, la división correcta de las palabras al final de un renglón requiere poder identificar los límites de sílaba. También es importante saber cómo dividir en sílabas para las reglas de acento ortográfico. La tradición poética del español se basa asimismo en el cómputo de sílabas en el verso. Todo esto requiere acuerdo entre los usuarios de la lengua española acerca de cuántas sílabas hay en un texto o enunciado y dónde se hallan exactamente los límites entre sílabas. La estructura del español hace que este acuerdo sea más sencillo de obtener que en una lengua como el inglés. Como veremos, las únicas dificultades reales se encuentran en la división silábica de secuencias de vocoides (y en este punto las reglas de la Real Academia simplifican adrede la realidad fonológica del idioma). Como hemos dicho ya, emplearemos el término vocoide para referirnos a vocales y deslizantes (semiconsonantes y semivocales) indistintamente.

4.2 Estructura sila´bica

Una sílaba está constituida por segmentos agrupados en torno a un núcleo, que es el elemento de mayor abertura o cumbre de sonoridad (término que deﬁnimos más adelante). En español el núcleo de la sílaba es siempre una vocal. Esto no es así necesariamente en otras lenguas. Así en inglés la segunda sílaba de palabras como bottle ‘botella’ y button ‘botón’ tienen como núcleo una consonante: /ˈbɒtl̩/, /ˈbʌtn̩/.

En español, pues, mínimamente una sílaba consta de una vocal, como en las palabras a, o, y, o en la primera sílaba de palabras como a-re-na, hu-ma-no. La vocal, que constituye el núcleo de la sílaba, puede ir precedida y/o seguida por segmentos menos abiertos. En tú, sí, el núcleo está precedido por una consonante, que forma el ataque o arranque de la sílaba (en inglés, onset). En la primera sílaba de pla-ne-ta hay un grupo consonántico como ataque. Los grupos de ataque silábico pueden tener como máximo dos consonantes en español. Además, la estructura de estos grupos está muy restringida: los grupos de ataque silábico constan siempre de una oclusiva o /f/ seguida de líquida, /ɾ/ o /l/. Una consonante también puede aparecer después del núcleo, como coda, como tenemos en tres y en plan. Muy pocas veces encontramos grupos de coda en español. Algunos ejemplos con estos grupos son pers-pi-caz y bí-ceps. En los grupos de coda en español la segunda consonante es siempre /s/ (salvo que en español peninsular podemos tener /θ/ en algunos apellidos como Sanz). En la pronunciación de palabras extranjeras y tecnicismos con otros grupos de coda la tendencia es a simpliﬁcarlos. Por ejemplo, en Nueva York la última consonante puede omitirse en la pronunciación (cf. también pos(t)velar, etc.).

Núcleo y coda constituyen juntos la rima de la sílaba. La división básica de la sílaba es, pues, entre ataque (opcional) y rima. La rima, por su parte, consta de un núcleo obligatorio y una coda opcional.

El núcleo en español, además de una vocal, puede contener como “satélite” una deslizante, esto es, una semiconsonante precediendo a la vocal, como en prue-ba, o una semivocal después de la vocal, como en vein-te. También, menos frecuen- temente, una sílaba puede contener ambas deslizantes, semiconsonante y semivocal, como en buey y en la segunda sílaba de cam-biáis. Resumimos los hechos en la tabla 4.1, con ejemplos de todas las estructuras silábicas posibles en español. Para entender la estructura de la sílaba y los fenómenos de silabiﬁcación o silabeo es útil acudir a la noción de escala de sonoridad.1Los fonemas de una lengua pueden ser ordenados a lo largo de una escala de sonoridad de más abiertos o vocálicos a más cerrados o consonánticos. Para el español podríamos proponer una escala como la que damos en la tabla 4.2. Escalas semejantes se han propuesto para otras lenguas, con pequeñas diferencias en el número de niveles que es útil distinguir.

En la escala que damos en la tabla 4.2, para ser cumbre de sonoridad un segmento ha de tener un valor de 4 o mayor. Los vocoides altos (sonoridad 4) pueden ser o cumbres silábicas, como en pí-e, o satélites (deslizantes), como en pi̯e. Las vocales medias (sonoridad 5) son siempre cumbres silábicas en

1 _{Este es un concepto con una larga tradición en el campo de la fonología diferente del uso de esta} palabra en la distinción sordo/sonoro. Véase Clements (1990).

pronunciación cuidada, pero pueden hacerse deslizantes en habla menos cuidadosa, como en lí-ne-a → lí-ne̯a (véase la sección 4.5.3). La vocal baja /a/ (sonoridad 6) solo puede aparecer como cumbre silábica.

Una sílaba tiene una única cumbre de sonoridad. Esta es la propiedad que

In document Hualde_2014_Los_sonidos_del_español.pdf (página 67-116)