Número total de palabras por grupo y porcentajes

Gráfico 1. Proporción de palabras en el análisis del CEDEL2

El número de participantes es de 601 nativos –lo que equivale a un 35 % del total de los participantes– y de 361 aprendientes de nivel avanzado –lo que se corresponde con un 21 %–. Estos datos indican que los textos de los participantes nativos son de menor extensión. No obstante, aunque es relevante tener una estimación del equilibrio del corpus en cuanto al tamaño del texto y la cantidad de palabras con las que contribuye cada participante, lo verdaderamente importante, como señala Sinclair (2005), es que cada texto esté completo desde una perspectiva informativa, esto es, de acuerdo con su función comunicativa, independientemente de la extensión de cada texto.

Samples of language for a corpus should wherever possible consist of entire documents or transcriptions of complete speech events, or should get to this target as possible. This means that samples will differ substantially in size (Sinclair, 2005: 7).

There is no virtue from a linguistic point of view in selecting samples all of the same size. True, this was the convention in some of the early corpora, and it has been perpetuated in later corpora with a view to simplifying aspects of contrastive research. Apart from this very specialised consideration, it is difficult to justify the continuation of the practice. The integrity and representativeness of complete artifacts is far more important than the difficulty of reconciling texts of different dimensions (Sinclair, 2005: 6).

Prácticamente todos los nativos han recibido educación universitaria; la mayoría procede de España, pero hay también muchos hablantes de variedades de Sudamérica y América Central. Por su parte, la mayoría de los aprendientes viene de universidades e institutos de EE.UU. (77 %); otros son alumnos universitarios del Reino Unido (6 %) y alumnos en España que se encuentran realizando su tercer año universitario en el extranjero (5 %); hay también un pequeño porcentaje de aprendientes de español de otros países, como Australia, Canadá o Nueva Zelanda (2 %). El 10 % restante lo conforman aprendientes que provienen de otros países o que no han sido especificados en la aplicación en línea.

Así, los textos corresponden a aprendientes que han adquirido la LE en un contexto de aprendizaje formal, para cuya producción no ha habido ninguna restricción en el contenido lingüístico ni temático; por eso, el corpus se considera un corpus representativo, como ya se ha señalado al comienzo del apartado 6.1.1. El corpus representa el estado de lengua elegido para este análisis: los aprendientes participaron voluntariamente y pudieron elegir libremente un tema de redacción de entre 12 propuestos, unos descriptivos y otros más argumentativos –por lo que las muestras de lengua son variadas y no reflejan las restricciones léxicas de un solo tipo de texto (Guo [2006: 55] se refiere a que “different genres or text types will involve a different lexis”; véase Lozano y Mendikoetxea [2013: 9] para algunos clichés léxicos propios del ensayo argumentativo)–. Los títulos de los temas propuestos, que han sido seleccionados de los manuales de enseñanza de español, son los siguientes: ¿cómo es la región donde vives?; habla de una persona famosa; resume una película que has visto recientemente; ¿qué hiciste el año pasado durante las vacaciones?; ¿cuáles son tus planes para el futuro?; describe un viaje que has hecho recientemente; cuenta una experiencia que hayas vivido; habla del problema del terrorismo en el mundo; ¿qué opinas de la nueva ley anti-tabaco?; ¿crees que las parejas gay tienen el derecho de casarse y adoptar niños?; ¿crees que la marihuana se debería legalizar?; analiza los principales aspectos de la inmigración.

Estos títulos sugieren temas muy abarcadores; para abordarlos, no es necesario, por tanto, emplear usos lingüísticos restringidos. Asimismo, dado el carácter neutro de los tipos de texto utilizados, es fácil que los problemas encontrados se reproduzcan en otros tipos de texto, tal y como argumenta Nesselhauf (2005: 46) a propósito de su análisis de colocaciones basado en corpus: “as the text type investigated is highly neutral, i.e. not specialised and on

a medium level of formality, the difficulties identified are likely to occur in most other text types as well”143.

El CEDEL2 contiene información precisa y detallada de cada estudiante y de las condiciones en las que es elaborada la redacción, lo que es esencial en una investigación sobre la lengua del aprendiente. Así, cada participante completa, además del test de diagnóstico144, otros dos impresos en línea: el primero, relacionado con las circunstancias de aprendizaje, abarca datos personales (edad, sexo, información sobre la institución en la que se encuentra aprendiendo español y tipo de curso que realiza), lingüísticos (L1, L1 del padre y de la madre, lengua vehicular en casa, edad y duración de la primera inmersión en un país de habla hispana, así como la duración de otras posibles estancias en un país hispanohablante) y, por último, una autoevaluación de su nivel de dominio estimado en cada una de las cuatro destrezas en español y en otras lenguas. El segundo impreso que ha de rellenar el participante incluye la propia redacción en español e información adicional relacionada con las condiciones de producción de dicha redacción (investigación previa sobre el tema, lugar de redacción –en clase o en casa–, herramientas lingüísticas empleadas, como el diccionario, el sistema de autocorrección, ayuda de algún experto o nativo…).

Toda esta información permite filtrar los datos y descartar los textos que no cumplen los criterios del corpus, así como indagar sobre las posibles causas de los resultados “extraños” o “llamativos”. Partiendo de esta información, y teniendo en cuenta que los datos a nuestra disposición en el momento del análisis eran una versión preliminar del subcorpus del español CEDEL2 que no se correspondía en todos los aspectos con los criterios de diseño del corpus, fue necesario fijar los siguientes criterios para determinar la inclusión de redacciones en nuestro análisis: a) el inglés es la única lengua nativa o la lengua nativa dominante del aprendiente (es la lengua vehicular en casa y es la lengua

143_{Además de los aspectos citados relacionados con el tipo de texto y temas tratados, la}

representatividad de un corpus también está vinculada con la existencia de muestras lingüísticas de diferentes estadios de desarrollo de la interlengua; en el diseño del CEDEL2 se optó por un diseño transversal estándar, dada la dificultad logística de tomar un diseño longitudinal, que implica recoger muestras de un mismo grupo de aprendientes durante varios años, a medida que su nivel de dominio se incrementa a lo largo del tiempo (Lozano y Mendikoetxea, 2013: 9). Es nuestro objetivo explorar este aspecto transversal de la estructura del corpus en un futuro trabajo, en el que analizaremos el desarrollo del conocimiento de dar desde un nivel inicial hasta un nivel avanzado.

144 _{Los informantes, en efecto, han sido clasificados en el nivel avanzado, aunque en este}

tipo de pruebas siempre existe cierto margen para que puedan darse pequeñas diferencias de nivel. No obstante, como afirma Nesselhauf al respecto de su análisis de las colocaciones léxicas basado en un corpus, “As suggestions for language teaching have to be made for similarly heterogeneous groups, however, the difference in individual proficiency-levels does not seem particularly problematic for the purposes of the present study”.

considerada como nativa para el aprendiente, presumiblemente porque es la lengua de instrucción escolar); b) el aprendiente cursa bachillerato o la universidad, independientemente de su edad; c) los datos personales están disponibles y no falta ninguna información relevante; y d) no ha recibido ninguna ayuda de un nativo o experto en español para elaborar la redacción.

6.1.2. Antconc

Antconc es el programa desarrollado por Laurence Anthony (2005) que utilizamos en esta investigación para obtener cálculos lexicométricos145. Hay dos funciones principales en Antconc (versión 3.2.3.m): concordancias (o concordance), que es la herramienta más importante disponible para el lingüista de corpus (McEnery y Hardie, 2012: 35), encargada de presentar las concordancias o la forma buscada en su contexto (ya sea palabra, morfema, sintagma, expresión multipalabra, etcétera), y el listado de palabras o Wordlist, que produce listados de palabras de diferente tipo.

Antes de profundizar en las funciones del programa empleadas en el análisis, conviene recordar que esta investigación sigue una metodología mixta, característica de los estudios generativos de adquisición de la L1 y de los estudios de adquisición de la L2 desde los años 80 del siglo pasado (Cruz Piñol, 2012: 33):

En la actualidad, se reconoce que los corpus (…) no se pueden analizar válidamente sin la intuición y la facultad interpretativa del analista, que usa conocimientos de la lengua (como hablante nativo o no nativo competente) y conocimientos acerca del lenguaje (como lingüista) (Villayndre, 2009).

Ciertamente, funciones muy concretas pueden ser facilitadas por el ordenador –como los programas de concordancias o los indexadores automáticos–, pero, como señala Bosque (2001a: 11), “los listados de datos que proporcionan tales programas informáticos distan mucho de constituir en sí mismos una aportación directa a la ciencia del lenguaje”. En esta misma línea, Nesselhauf (2005: 41) añade:

Whereas fully automatic analyses are often not advisable for the investigation of learner language (due to the high number of deviations usually present), automatic

145 _{Véase la página web de Anthony para el uso del software en publicaciones de investigación}

analysis can nevertheless assist the manual work involved in learner language analysis.

Estamos de acuerdo con Nesselhauf en que una de las limitaciones de gran cantidad de estudios de corpus tiene que ver precisamente con el excesivo apoyo en el análisis informatizado, lo que ha llevado a que la mayoría de los rasgos que pueden ser extraídos con facilidad de manera automática ya han sido examinados en los corpus de aprendientes de inglés (no es este el caso en la interlengua de aprendientes de español, dado que los corpus no cuentan todavía con las herramientas de búsqueda y las anotaciones necesarias). Esta limitación desaparece si se parte de una pregunta de investigación específica en lugar de explotar las posibilidades del corpus directamente. Así, una manera de hacer uso de la extracción automática puede ser restringir el análisis a ciertas combinaciones de palabras como las coapariciones con verbos frecuentes (Nesselhauf, 2005: 43), a lo que, precisamente, está dedicado el presente estudio de interlengua de español.

En nuestro trabajo, el análisis automatizado se limita al uso de las concordancias, con las cuales únicamente pretendemos cribar un corpus extenso para obtener un conjunto de datos; a partir de ellos, posteriormente, realizaremos una selección que nos permita alcanzar los objetivos de nuestra investigación. Las concordancias, como explica Sinclair (1991: 32), “is a collection of the occurrences of a word-form, each in its own textual environment”. En el caso de que las formas lingüísticas de un corpus estén anotadas, es posible buscar no solo una forma lingüística, sino también una etiqueta como, por ejemplo, una búsqueda por las palabras marcadas con la etiqueta de la categoría gramatical “verbo”. Scott (1999: 13), al respecto de las concordancias, defiende que

it is through changing the shape of data, reducing it and then re-casting it in different format, that the human capacity for noticing patterns comes to the fore (…) Human beings are good at noticing, and particularly good at noticing visual patterns.

En definitiva, observar la lengua a través de las concordancias es un proceso distinto al de estudiarla a través de textos (Sinclair, 1991; Hunston, 2002).

Cuando el corpus no está lematizado, como es el caso del CEDEL2, para poder localizar en él todas las formas del paradigma verbal es necesario introducir en la búsqueda todas las posibilidades de flexión verbal, y así se hizo

en esta investigación dado que la técnica del asterisco, utilizada para maximizar los resultados en una sola búsqueda, tampoco funciona en el caso del verbo dar por su raíz irregular–; al mismo tiempo, tuvimos que atender a los posibles problemas ortográficos de los aprendientes al escribir el verbo, para introducirlos también en la búsqueda. No está garantizado que algunas formas ortográficas erróneas de dar no hayan sido capturadas146.

Cuando la forma dar y todas las formas flexionadas de este lema (incluidas aquellas formadas con pronombres enclíticos) fueron objeto de búsqueda en Concordance, se convirtieron en the node words, esto es, las palabras seleccionadas que aparecen en el centro de la pantalla, con todas las líneas dispuestas verticalmente en torno al núcleo. Este es el formato de concordancia más común, denominado Key Word in Context (KWIC). En la siguiente imagen (figura 3) puede verse la manera en que aparecen las líneas de concordancia (KWIC) en el Concordance de Antconc:

146_{Hasta que a los corpus de aprendientes no se les apliquen métodos de detección de}

variantes ortográficas que permitan etiquetarlos con esta información, las búsquedas seguirán teniendo estas limitaciones. En Rayson y Baron (2011) –introducido en el apartado 2.2.2 (véase n. 44) – se presenta una nueva aplicación de un enfoque híbrido para detectar los errores ortográficos en los datos de los aprendientes de inglés de ICLE; usan una versión modificada del programa The

variant detector que nace como resultado de aplicar técnicas del ámbito del procesamiento natural del

lenguaje al análisis automático de esos datos, lo que genera una cantidad mayor de datos –que la obtenida por medio del proceso de edición manual– para el análisis, y resultados más precisos que los obtenidos al introducir posibles errores ortográficos en la búsqueda de datos.

Figura 3. Concordancias de dar (del CEDEL2) en Antconc

Para la presente investigación, dado que aún no se encontraba el corpus disponible, recibimos los textos por medio de una copia en formato Excel (véase figura 4), que tuvimos que convertir a TXT para poder analizar los datos con un concordancer. Una vez que se obtuvieron las líneas de concordancias, estas fueron exportadas a una tabla de Excel para proceder al análisis de los datos (véase figura 5).

Figura 4. Tabla de Excel facilitada por Cristóbal Lozano con las redacciones, información adicional sobre sus condiciones de producción, y datos personales y lingüísticos de los participantes

!"!#!$%&'( )*+( ,-( .$/( %0( 1$2( 1*%(

3"!4*/&!#5'( +667,89:;<(=><<8?8(&;79:(%>@7A(397B8CA7:D(&;79:(%>@7A(@97B8CA7:D(&;79:(%>@7A(397B8CA7:D(+E89(397B8CA7:D()>A:>9(397B8CA7:D(

&*F'( G8H;<8( H;<8( H;<8( G8H;<8( G8H;<8( G8H;<8(

.*I$/#0*"#'( *9?<7AJ(%7:8C;:@C8(( &E;97AJ( ( ( (

$K*'( LM LN LO LP OO LM

.*K/**'( *9?<7AJ(%7:Q( 0;A:8CA( 0Q$Q( 0;A:8CA( )$(%;9?@;?8(A:@,78A()$(79(J7A:>CD(

*0$!%'( R>CDS>TDQ8,@( ,>@?-><<;A6JSD;J>>Q8A(,C;9;<<7S<>D><;Q8,@(<8H7<;SJ>:H;7<Q6>H(U899D;J@CA:SD;J>>6>H(

5*$/V+WV=+3/&*'(OC,( OC,( L9,( L9,( L9,( OC,(

"$#!4*V%$"K3$K*'(*9?<7AJ( *9?<7AJ( *9?<7AJ(;9,(!:;<7;9(*9?<7AJ( *9?<7AJ( 89?<7AJ(

&#$5V&I$"!&2V=+3"#/5'(58A( 58A( 58A( 58A( 58A( 58A(

&#$5V&I$"!&2VX2*/*'(&E;79(;9,(08T76>(&E;79( &E;79( &E;79( &E;79( 0;,C7,Y(&E;79(

&#$5V&I$"!&2VX2*"'(&Z(&EC79?(M[(0Z&@HH8C(ML(\]]]Y(LMMOY(LMMPY(LMM^Y(LMM[(LMMLY(LMM^Y(LMM[(W;<<(LMM\Y(&EC79?(LMML(L(D8;CA(;?>( :J7A(D8;C(

&#$5V&I$"!&2V2+X%+"K'(&Z(PH>9:JA(0Z\H>9:J([(_88-AZ[(H>9:JA(P(H>9:JAY([(_88-AY([(_88-A(`(H>9:JA(:>:;<(L(_88-A( A7968(A8E:8HR8C(Z(`(H>9:JA(

W$#2*/&V"$#!4*V%$"K3$K*'(*9?<7AJ( *9?<7AJ( !:;<7;9( *9?<7AJ( *9?<7AJ( 89?<7AJ(

0+#2*/&V"$#!4*V%$"K3$K*'(*9?<7AJ( *9?<7AJ( *9?<7AJ( *9?<7AJ( *9?<7AJ( 89?<7AJ(

%$"K3$K*V&I+a*"V$#V2+0*'(*9?<7AJ( *9?<7AJ( *9?<7AJ(;9,(!:;<7;9(*9?<7AJ( *9?<7AJ( 89?<7AJ(

$K*V&#$/#*.V&I$"!&2'(\L \P \^ \L OM \O 5*$/&V&#3.5!"KV&I$"!&2'(N \P N \L O N $)!%!#5V&I*$a!"KV&I$"!&2'(!9:8CH8,7;:8( $,B;968,( 48CD(;,B;968,( $,B;968,( !9:8CH8,7;:8( $,B;968,( $)!%!#5V3".*/&#$".!"KV&I$"!&2'(!9:8CH8,7;:8( 48CD(;,B;968,( 48CD(;,B;968,( $,B;968,( $,B;968,( 48CD(;,B;968,( $)!%!#5V/*$.!"KV&I$"!&2'($,B;968,( 48CD(;,B;968,( 48CD(;,B;968,( $,B;968,( $,B;968,( 48CD(;,B;968,( $)!%!#5VX/!#!"KV&I$"!&2'($,B;968,( $,B;968,( 48CD(;,B;968,( $,B;968,( !9:8CH8,7;:8( $,B;968,( +#2*/V%$"K3$K*&'(">( ">( 58A( ">( ">( ">( $)!%!#5V%$"K3$K*\'(( ( !:;<7;9( ( ( ( $)!%!#5V&I*$a!"KV%$"K3$K*\'(( ( 48CD(;,B;968,( ( ( $)!%!#5V3".*/&#$".!"KV%$"K3$K*\'( 48CD(;,B;968,( $)!%!#5V/*$.!"KV%$"K3$K*\'( 48CD(;,B;968,( $)!%!#5VX/!#!"KV%$"K3$K*\'( 48CD(;,B;968,( $)!%!#5V%$"K3$K*L'( WC896J( $)!%!#5V&I*$a!"KV%$"K3$K*L'( $,B;968,( $)!%!#5V3".*/&#$".!"KV%$"K3$K*L'( $,B;968,( $)!%!#5V/*$.!"KV%$"K3$K*L'( 48CD(;,B;968,( $)!%!#5VX/!#!"KV%$"K3$K*L'( $,B;968,( I%$=*0*"#V/$X PO PO PO PO PO PL I%$=*0*"#VI*/=*"#\MM \MM \MM \MM \MM ]N

#!#%*V=+0I+&!#!+"'(PQ(bc@d(J767A:8(8<(;e>(E;A;,>(,@C;9:8(<;A(B;6;67>98Af(PQ(bc@d(J767A:8(8<(;e>(E;A;,>(,@C;9:8(<;A(B;6;67>98Af(PQ(bc@d(J767A:8(8<(;e>(E;A;,>(,@C;9:8(<;A(B;6;67>98Af(\MQ(b=C88A(g@8(<;A(E;C8U;A(?;D(:78989(8<(,8C86J>(,8(6;A;CA8(D(;,>E:;C(97e>Af(\\Q(b=C88A(g@8(<;(H;C7J@;9;(A8(,8R8Ch;(<8?;<7i;Cf(OQ(/8A@H8(@9;(E8<h6@<;(g@8(J;A(B7A:>(C86789:8H89:8Q(

/*&*$/=2VW+/V*&&$5'(">( ">( ">( ">( ">( ">(

2+XV%+"KVX/!#*'(MY^ QO( MQ^( \ MY`^

X2*/*VX/!#*V*&&$5'(+@:A7,8(6<;AA( +@:A7,8(6<;AA( +@:A7,8(6<;AA( +@:A7,8(6<;AA( +@:A7,8(6<;AA( +@:A7,8(6<;AA(

%$"K3$K*V#++%&'("+( "+( "+( "+( "+( "+( &I*%%=2*=a*/'( "$#!4*V2*%I'( )!%!"K3$%V.!=#!+"$/5'( #2*&$3/3&'( K/$00$/'( +#2*/V/*&+3/=*&'( ( *&&$5'( *<(;e>(E;A;,>( ,@C;9:8(<;A( B;6;67>98A( ,8<(B8C;9>Y( :C;R;U;R;( *<(;e>(E;A;,>( E;Ad(<;A( B;6;67>98A(,8( B8C;9>(89( *AE;e;Y( *<(;e>( E;A;,>Y(E;Ad( H7A( B;6;67>98A(,8( B8C;9>(89(<;( =C8>(g@8(<;A( E;C8U8A(?;D( ,8R89(:898C( 8<(,8C86J>(,8( 6;A;CA8(D( %;(H;C7J@;9;( 8A(@9;(,C>?;( R<;9,;Y( @:7<7i;,>(E>C( H@6J;(?89:8Y( *A:8(G79(,8( A8H;9;( 8A:C89>(<;( 9@8B;( E8<76@<;(,8(

En la tabla de Excel presentada en la figura que aparece a continuación se observan, en la columna Q, las líneas de concordancias obtenidas en el Concordance de Antconc; cada una de las demás columnas presentan los diferentes criterios que hemos fijado aquí para analizar los datos:

Figura 5. Concordancias importadas en una tabla de Excel una vez iniciado el análisis de los datos

6.2.LOS PROCEDIMIENTOS

Nos centramos ahora en los aspectos metodológicos considerados en el análisis de los datos, y lo hacemos a través de varias secciones: la primera se refiere a algunas cuestiones preliminares que han de ser tenidas en cuenta al llevar a cabo un análisis de un corpus escrito de aprendientes; la segunda se centra en los tipos de construcciones analizados; en la tercera se discuten las fuentes seleccionadas para contrastar los datos; y las dos últimas secciones están dedicadas a los criterios para determinar el grado de aceptabilidad e inaceptabilidad de los datos.

6.2.1. Cuestiones preliminares sobre la metodología del análisis de interlengua basado en corpus Debido a que los datos analizados en esta investigación se obtienen a partir de redacciones de clase –recuérdese que son elaboradas bajo condiciones de producción normales147_{–, los resultados del análisis no informan del} conocimiento receptivo de los aprendientes. Ni siquiera es posible afirmar que se pueda determinar con precisión el conocimiento productivo escrito de dar por parte del grupo de aprendientes en un estadio de la interlengua concreto como el avanzado, pues, por un lado, como también observa Nesselhauf (2005: 42) en su trabajo sobre las colocaciones léxicas, a partir de un análisis de corpus solo se pueden extraer conclusiones sobre los datos que conforman el corpus, por lo que desconocemos si en aquellas construcciones en las que puede participar el verbo dar pero que no han sido empleadas por los aprendientes habrían tenido dificultades; en otras palabras, la ausencia de una determinada estructura en el corpus impide averiguar si el alumno la conoce productivamente. Asimismo, como quiera que la extracción de los datos se ha hecho de manera mecanizada para explotar las posibilidades de análisis proporcionadas por un corpus extenso, no se han buscado en el corpus aquellas construcciones en las que dar debiera aparecer y otro verbo ha sido seleccionado erróneamente en su lugar, lo cual requeriría una extracción manual de los textos. Ya se ha apuntado (en el apartado 1.1) que en esta investigación se pretende demostrar que un enfoque de corpus informatizado aplicado a los estudios de interlengua del español puede ayudar a encontrar las semejanzas y diferencias entre el español escrito (en lo que se refiere al verbo dar) de un grupo de HN y el de un grupo de HNN; y precisamente una de las ventajas de disponer de un corpus informatizado es que permite trabajar con una gran cantidad de textos, por lo que los resultados de los

In document El verbo “dar” en el español escrito de aprendientes de L1 inglés: estudio comparativo entre hablantes no nativos y hablantes nativos basado en corpus (página 164-200)