Recursos y procedimientos de la evaluación del lenguaje espontáneo mediante muestras de habla

(1)

Recursos y procedimientos de la evaluación del lenguaje espontáneo mediante muestras de habla

Proyecto CHILDES de trascripción y análisis de muestras de lenguaje.

Rafael Santana(*), Santiago Torres(**) e Ignacio Moreno-Torres(**)¹

6. Proyecto CHILDES de trascripción y análisis de muestras de lenguaje.

6.1 Introducción.

6.2 Procedimiento de transcripción según norma CHAT.

6.2.1. Codificación del encabezado según norma CHAT.

6.2.2. Codificación de líneas principales según norma CHAT.

6.2.3. Codificación de líneas dependientes según norma CHAT.

6.2.4. Comprobación de errores.

6.3 Procedimiento para obtener los datos a partir de una trascripción CHAT.

6.3.1 Cómo instalar el programa CLAN.

6.3.2. Cómo pasar archivos DOC a clan.

6.3.3 Cómo usar el programa CLAN.

6.3.4 Lista de comandos de CLAN.

6.3.5 Ejemplos de comandos CLAN para obtención de datos de una muestra.

Referencias bibliográficas

1 (*)Universidad de Las Palmas de Gran Canaria (**)Universidad de Málaga

(2)

6. Proyecto CHILDES de trascripción y análisis de muestras de lenguaje.

6.1 Introducción.

En este epígrafe, se ofrece la información relevante respecto al procedimiento de trascripción de muestras más importante a nivel internacional. Se trata del Proyecto CHILDES que significa CHILD LANGUAGE DATA EXCHANGE SYSTEM, creado y desarrollado por el profesor Brian MacWhinney (ver Cuadro 7). Se incluyen materiales de soporte, tales como: información introductoria, software, manual, plantillas, codificación, etc. Todo ello, a partir de la base de datos original en inglés.

En castellano, el Equipo de Investigación MOC (Modelo Oral Complementado) ha realizado la adaptación del sistema de transcripción a las peculiaridades de uso del sistema de La Palabra Complementada, que utilizamos con sujetos sordos. Más información del grupo de investigación y de la referencia de la transcripción adaptada en el Cuadro 8. La adaptación del sistema de codificación CHAT, a las peculiaridades de los sujetos sordos LPC con los que desarrollamos nuestra investigación, puede consultarse en el apéndice de este artículo.

The CHILDES Project: Tools for Analyzing Talk . Electronic Edition The CHAT Transcription Format

Brian MacWhinney, Carnegie Mellon University, August 7, 2007 MacWhinney, B. (2000). The CHILDES Project: Tools for Analyzing Talk. 3rd

Edition. Mahwah, NJ: Lawrence Erlbaum Associates http://childes.psy.cmu.edu/manuals/CHAT.pdf.

Cuadro 7. Referencia Proyecto CHILDES

The CHILDES Project

MOCHAT: Sistema de trascripción CHAT adaptado al MOC (Modelo Oral Complementado)

Autores:

Ignacio Moreno-Torres (Universidad de Málaga), Santiago Torres Monreal (Universidad de Málaga), y

(3)

Rafael Santana (Universidad de Las Palmas de Gran Canaria) http://www.uma.es/moc

Cuadro 8. Referencia Proyecto MOC y MOCHAT

6.2 Procedimiento de transcripción según norma CHAT.

El modelo de trascripción que hemos ejemplificado en el punto 5, puede considerarse un procedimiento “casero”. Nos permite el análisis básico de muestras de habla, pero no nos permite su utilización con herramientas de análisis de muestras standarizadas y en uso en otras lenguas. La necesidad de compartir corpus de hablantes en distintas lenguajes y su codificación según pautas comunes, dio origen al Proyecto CHILDES (MacWhinney, 2000). Diez-Itza, Snow y MacWhinney (1999) ofrecen una buena descripción en castellano de todo el proceso de trascripción y codificación de muestras, según la norma CHAT. Una introducción al mismo se ofrece en este epígrafe, a partir de la descripción de sus líneas de codificación resumidas en el Cuadro 9.

Lo más cómodo para hacer transcripciones es usar un procesador de textos como Word. En un archivo vamos a ir escribiendo las líneas que compondrán la muestra.

6.2.1. Codificación del encabezado según norma CHAT.

Los encabezados son las líneas donde se especifican los datos generales de la trascripción. Siempre deben comenzar con el signo @, como por ejemplo: @Begin,

@Participants:, @Age of XXX:. Después de este signo @ no hay espacio. A excepción de los siguientes encabezados @Begin, @End, @New Episode, todos llevan dos puntos (:), un tabulador, y algún texto.

Estructura de las transcripciones

(i) Las líneas de encabezado y cierre: se inician con el signo @; en ellas se especifican los datos generales de la transcripción

(4)

(ii) Las líneas principales: se inician con el signo *; en ellas se recogen las producciones emitidas por los participantes

(iii) Las líneas dependientes: se inician con el signo %; en ellas se recogen diversas anotaciones e información complementaria

Codificación en las líneas principales (ejemplos) Códigos constantes (en orden sucesivo):

– asterisco

– tres letras que identifican al hablante – dos puntos

– espacio de un tabulador – producciones emitidas – signo de puntuación final

# pausa

## pausa prolongada

xxx material ininteligible tratado como palabra o como secuencia www fragmento de conversación que se ha decidido no transcribir ( ) permite completar las palabras que el informante emite incompletas [>] sigue un solapamiento

[<] precede un solapamiento [/] repetición sin corrección [//] repetición con corrección

[/?] repetición indefinida (superior a tres veces) [?] aproximación o conjetura

[*] marca de uso peculiar codificado como error

@o onomatopeya

@d forma dialectal

@s segunda lengua

+ entre las partes de una onomatopeya +// el emisor se interrumpe

+/ al emisor lo interrumpen

++ una persona completa la frase que ha iniciado otra

+ una persona completa la frase que ha iniciado él mismo en otro turno +”/ el siguiente turno es una cita

+” se inicia una cita

+”. el turno anterior era una cita

Codificación en las líneas dependientes (ejemplos)

%err: usos peculiares

%act: acción del hablante o del interlocutor

%add: receptor de una emisión

%com: comentarios de cualquier tipo

%spa: imitaciones

Cuadro 9. Codificación de muestra según norma CHAT

@Begin

Debe ser siempre la primera línea de la trascripción.

@Participants:

Esta es la segunda línea del fichero. En ella se encuentra el listado de los participantes de la entrevista. La estructura de la línea es la siguiente: @Participants: XXX Name Role, XXX Name Role, ... XXX corresponde a las tres letras mayúsculas elegidas para identificar a cada personaje. En el caso de que las tres letras iniciales de dos de los participantes coincidan, cambiamos una de ellas por las iniciales del rol que desempeñan.

(5)

Ej.:

@Participants: BLA Blanca Target_Child, MOT Blanca Mother

Se utiliza el inglés para identificar el rol. Los roles más comunes son: Target Child, Mother, Father, Brother, Sister, Teacher e Investigator.

@ID:

Ésta línea tiene una forma fijada:

por ejemplo:

@ID: es|MOC|BLA|1;6.5|female|||Target_Child||

Cada participante tiene su propia línea.

@Birth of XXX:

La estructura de este enunciado es: día, guión, mes, guión, año. Los meses van en letras mayúsculas y siguiendo las siguientes abreviaturas: JAN, FEB, MAR, APR, MAY, JUN, JUL, AUG, SEP, OCT, NOV, DEC. Tampoco se pone ningún signo de puntuación al final de la línea.

@Birth of BLA: 12-ABR-2004 @Coder:

Persona o entidad que realiza la trascripción.

@Coder: Santiago Torres, Ignacio Moreno Torres y Rafael Santana

@Date:

En ésta línea se indica la fecha de grabación de la entrevista, siguiendo el mismo criterio que en línea

@Date: ABR-2006

@Location:

@Location: Spain

@Situation:

Esta línea describe la situación general de la interacción, como por ejemplo: jugando en el baño, conversando en la merienda sentado en la trona…

@Situation: jugando con los collares ortofónicos

@New Episode

Se utiliza sin: Se emplea para indicar que ha finalizado un episodio y que comienza uno nuevo. Este encabezado suele ir acompañado de los encabezados: @Situation y @Date.

El cuadro 10 ofrece un ejemplo de codificación de encabezado.

(6)

@Begin

@Languages: es

@Participants: BLA Blanca Target_Child, MOT madre Mother

@Age of BLA: 03;00.07

@Birth of BLA: 12-JUN-2003

@Coder: Santiago Torres

@Coder: Ignacio Moreno-Torres

@Coder: Rafael Santana

@Sex of BLA: Female

@ID: 2007.132 m

@Date: 19-JUN-2006

@Location: Domicilio

@Situation: emparejamiento de objetos y tarjetas

(explicación)

@Begin

@Languages: es (es = español)

(acrónimo de todos los participantes de la muestra: para cada uno de los participantes, elegir tres letras, en mayúsculas, y después de un espacio el Nombre. “Target Child” significa que el nombre que precede es el sujeto a estudio; “Mother”, la madre;

“Father”, el padre; “Uncle”, el tío; “Aunt”, la tía; “Teacher”, el profesor/a; etc…)

@Age of BLA: 03;00.07 (edad del sujeto que se estudia, en formato: aa;mm.dd)

@Birth of BLA: 12-JUN-2003 (fecha de nacimiento: dd-MMM-aaaa)

@Coder: Santiago Torres, Ignacio Moreno-Torres y Rafael Santana (nombre de la persona que realiza la transcripción)

@Sex of BLA: Female (género del niño que se estudia: “Male” – niño- o “Female” –niña-)

@Date: 19-JUN-2006 (fecha en que se realizó la grabación de la muestra)

@Location: Domicilio (lugar en que se realize la grabación:

“domicilio”, “colegio”, “gabinete”…)

@Situation: juego de emparejamiento de objetos y tarjetas (breve descripción del tipo de situación comunicativa o de juego)

Cuadro 10. Ejemplo de encabezado

6.2.2. Codificación de líneas principales según norma CHAT.

En estas líneas se trascribe todo lo que los participantes dicen. Cada línea principal Comienza con un asterisco *. Después siguen las tres letras mayúsculas elegidas para identificar a cada personaje, dos puntos, un tabulador y el contenido de la línea que comenzará siempre en minúscula, a no ser que sea un nombre propio. Ejemplo:

*BLA: [tab]dame pan.

En cada línea principal debe haber sólo una oración. En el caso de que una oración ocupe más de una línea, esta segunda línea debe comenzar con un tabulador (metido automáticamente por CLAN), no con barra espaciadora . Las líneas principales siempre deben terminar con uno de los siguientes signos de puntuación final: . ! ?

(7)

- El punto marca el final de oraciones enunciativas. Ejemplo:

*BLA:[tab]no.

- El punto indica final de oración y tras el no se debe seguir escribiendo. Las abreviaturas y siglas no deben llevar punto. Ejemplo:

*BLA: [tab] la muñeca de W .

- Únicamente se utilizarán las mayúsculas en los nombres propios, las oraciones comenzarán en minúscula.

*BLA: [tab] la pelota de Iván..

- El signo ? se utiliza para marcar las oraciones interrogativas. No se usa el ¿ o el ¡

*BLA: [tab] me das agua?

- El signo ! se utiliza para marcar las oraciones exclamativas e imperativas.

* BLA: [tab] vete!

6.2.3. Codificación de líneas dependientes según norma CHAT.

Las líneas dependientes van siempre después de la línea principal a la que se refieren y contienen códigos, comentarios, acontecimientos o descripciones de interés para el investigador. Todas las líneas dependientes deben empezar con el signo de tanto por ciento %, seguido de tres letras minúsculas que indican un determinado código, dos puntos :, un tabulador y el contenido de la línea. No llevan signo de puntuación final .

*BLA: [tab] tengo cole(gio).

%com: hace dos días que asiste al colegio

El cuadro 11 ofrece un ejemplo de codificación de líneas principales y dependientes.

@Begin

@Languages: es

@Age of BLA: 03;00.07

@Birth of BLA: 12-JUN-2003

@Coder: Santiago Torres

@Coder: Ignacio Moreno-Torres

@Coder: Rafael Santana

@Sex of BLA: Female

@ID: 2007.132 m

@Date: 19-JUN-2006

@Location: Domicilio

@Situation: emparejamiento de objetos y tarjetas

%tim: 0:00

*MOT: perro.

%com: deja la tarjeta del perro sobre la mesa

*BLA: perro.

%pho: pelo

(8)

*MOT: gu@o.

%com: onomatopeya del pez

*MOT: pez.

*BLA: pez.

%pho: pe

*MOT: 0 .

%gpx: pez

%com: onomatopeya sin sonido (explicación)

%tim: 0:00 (tiempo de la grabación: minutos:segundos)

*MOT: toma el perro.(la madre dice la frase “toma el perro”)

%com: deja la tarjeta del perro sobre la mesa(es un comentario)

*BLA: perro.(la niña se refiere a la palabra “perro”)

%pho: pelo (la niña pronuncia “pelo” para referirse a “perro”)

*MOT: gu@p. (la madre dice la onomatopeya del pez: “gugu”: como no es una palabra se pone con @p, es decir, producción ajustada a la lengua pero no es una Palabra)

*MOT: pez.

*MOT: 0 . (la madre interviene, pero no dice nada)

%gpx: pez (la madre hace el gesto de “pez”)

%com: onomatopeya sin sonido (comentario)

Cuadro 11. Ejemplo de transcripción: encabezado + líneas principales y dependientes.

6.2.4. Comprobación de errores.

Una vez realizada la transcripción, debes comprobar sí hay o no errores de codificación. Para ello se utiliza el comando:

check @

Este comando detecta errores de formato (CHAT) en el archivo. Por ejemplo, la falta de un punto al final de un enunciado, la falta de BEGIN o END, etc. También se pueden comprobar errores pulsando ESC-L desde el editor.

Seguimos el siguiente procedimiento:

1) se abre el fichero haciendo doble clic en el fichero elegido (con extensión CHA)

2) se despliega el menú <mode> de la cabecera del fichero y se elige <check oponed file>

3) también se puede corregir pulsando <esc>+<L>, el cursor irá saltando de fallo en fallo y a pie de pantalla hay una leyenda que dice de qué fallo se trata

4) corregir todos los fallos y guardar.

Una vez corregido se graba (conviene grabar muy frecuentemente durante la corrección, pues se suele colgar el programa) y ya se pueden sacar datos de frecuencias, MLU, etc.

(9)

6.3 Procedimiento para obtener los datos a partir de una trascripción CHAT.

En primer lugar debe instalarse en el ordenador el Programa CLAN. ¿Cómo hacerlo?

Veamos:

1) Cómo instalar el programa 2) Cómo usar el programa 3) Lista de comandos de Clan 4) Cómo pasar archivos DOC a clan

6.3.1 Cómo instalar el programa CLAN.

1) Descarga el programa CLAN de la página del proyecto CHILDES (http://childes.psy.cmu.edu/) (ClanU.exe) y lo ejecutas. Es mejor dejar que el programa se instale en el directorio predeterminado:

c:\childes\clan

2) Descarga los tipos de letra UNICODE (arial_unicode_update.exe) y los instalas.

3) Descarga el archivo DEPFILE.CUT y lo colocas en la misma carpeta:

c:\childes\clan\lib

4) Ya puedes usar el programa. Debes tener un acceso directo en el escritorio.

6.3.2. Cómo pasar archivos DOC a clan.

Antes de utilizar el programa CLAN, es preciso tener un archivo con extensión

“.cha”.. Para pasar el archivo con formato Microsoft Office WORD (en el que has escrito la trascripción) al formato de CLAN, debes hacer esto:

1) Al guardar el fichero *.DOC elegir la modalidad <texto sin formato>, 2) Antes de <aceptar> cambiar a mano la extensión <txt> por <cha>

3) Al pulsar <guardar> se abre una ventana. En esa ventana seleccionar <otra codificación> y elegir <unicote (HTF-8)

4) Guardar y cerrar.

6.3.3 Cómo usar el programa CLAN.

Desplegar la ventana <windows> del menú de cabecera del fichero.CHA y pulsar sobre <command>. En la nueva ventana que se despliega, pinchar en el recuadro donde está escrito <file in>, seleccionar el fichero deseado y proceder a extraer los datos que deseas o necesitas (MLU, Freq, etc.)

(10)

6.3.4 Lista de comandos de CLAN.

La mayoría de los comandos y sus parámetros (ver Cuadro 12), tienen la forma siguiente:

COMANDO @ TIERS PARÁMETROS Dónde:

COMANDO puede ser Freq, MLU, Kwal…

TIER indica a qué tier se aplica. Siempre se pone +t Æ para indicar que un TIER se incluye -t Æ para indicar que un TIER no se incluye

Tipo de orden

_ Aparece en primer lugar

_ No va precedido de ningún código _ Hay cinco tipos básicos:

Freq busca datos de las frecuencias de uso de las palabras

Combo busca datos referidos a palabras o a combinaciones de palabras Mlu busca datos referidos al dominio morfológico

Kwal busca datos de las frecuencias de uso de las palabras en el contexto Gem busca pasajes de la transcripción marcados previamente

Transcripciones

_ Non van precedidas de ningún código

_ Se denominan utilizando el nombre del archivo. Por ejemplo: Blanca027.cha _ El asterisco permite sustituir cualquier secuencia. Por ejemplo: /*.cha Informantes

_ Aparecen precedidos de +t

_ Se denominan utilizando el mismo código que en la transcripción: mediante un asterisco y las tres letras identificativas +t*BLA

_ Se pueden incluir varios informantes en la misma orden +t*BLA +t*IVA _ El asterisco permite sustituir cualquier secuencia +t*B* / +t*

_ Se pueden excluir hablantes si se cambia el signo + por el – –t*IVA Secuencia o palabra

_ Aparecen precedidas de +s

_ La secuencia va entrecomillada +s“casa”

_ Si se busca una frase las palabras deben separarse con el signo ^ +s“casa^de”

_ Si se buscan varias palabras puede utilizarse el símbolo + +s“mamá+papá”

_ El asterisco permite sustituir cualquier secuencia +s“cas*”

_ Se pueden excluir palabras si se cambia el signo + por el – –s “casa”

Otros códigos que pueden formar parte de una orden

_ Los informantes y las secuencias no son las únicas especificaciones que pueden introducirse en una orden.

_ Precedidas del signo + y de una letra, es posible orientar la búsqueda de datos de modo muy diverso.

_ Las combinaciones de estos constituyentes con los tipos de órdenes está limitado.

_ Para conocer las compatibilidades existentes, basta con teclear un tipo de orden en Commands y pulsar intro. Inmediatamente se mostrará en CLAN Output toda la información sobre la combinación de códigos.

Cuadro 12. Comandos CLAN

(11)

6.3.5 Ejemplos de comandos CLAN para obtención de datos de una muestra.

6.3.5.1 Cálculo de frecuencias: freq

Comando Descripción Freq @ Obtiene un índice de frecuencia de la producción LPC global del

archivo. Cuenta todos los hablantes (sólo TIER principales). O sea, no cuenta las glosas %gls.

Freq @ +t*MOT Como el anterior, pero sólo de la madre. Lo usaremos para conocer la producción complementada de un hablante en particular.

Freq @ +t*MOT +t%gls Obtiene un índice de frecuencia de la producción oral de la madre.

Para todos los comandos anteriores (y para todos los demás), podemos hacer que los resultados se guarden en un archivo. Basta poner al final:

> nombre_archivo.txt

para que se guarden los resultados en un archivo.

Ejemplo:

freq @ > frecuencias.txt

crea un diccionario de frecuencias con los archivos.

6.3.5.2 Cálculo de MLU: longitud media de enunciados.

Comando Descripción MLU @ Obtiene MLU de la producción LPC desglosado por hablante.

MLU @ +t*MOT Como el anterior, pero sólo de un hablante, en este caso la madre.

MLU @ -t* +t%gls MLU de la producción oral. Lo desglosa por hablante.

6.3.5.2 Comando kwal.

Este comando extrae de un archivo, un conjunto de enunciados. Por ejemplo, podemos usarlo para extraer la producción del padre, o la producción complementada de la madre. Podemos usarlo también para extraer los enunciados con una determinada condición, como que tengan una palabra o grupo de palabras determinado.

Comando Descripción

kwal @ Saca los TIER principales (LPC)

kwal @ +t*MOT Saca el TIER principal de la madre (LPC)

kwal @ +t*MOT +t%gls Como el anterior, pero saca también el TIER gls de la madre.

kwal @ +t*MOT +t%gls +s”ahora” Como el anterior, pero se limita a los enunciados que incluyan la palabra “ahora”.

Referencias bibliográficas

(12)

Diez-Itza, E., Snow, C., y MacWhinney, B., (1999). La metodología RETAMHE y el proyecto CHILDES: breviario para la codificación y análisis del lenguaje infantil.

Psicothema, 11, 3, pp. 517-530

MacWhinney, B. (2000). The CHILDES Project: Tools for Analyzing Talk. 3rd Edition.

Mahwah, NJ: Lawrence Erlbaum Associates