Corpus digitalizado - El corpus lingüístico informatizado

2.3. Análisis de corpus

2.3.2. El corpus lingüístico informatizado

2.3.2.5. Corpus digitalizado

La tarea de recopilación de datos a mediados del siglo XX, antes de que se iniciara la etapa de Modern Corpus Linguistics, era mucho más costosa que en la actualidad. Múltiples son los trabajos clásicos que han basado sus descripciones en muestras reales de la lengua; según el Instituto Cervantes, este fue el método de trabajo de los estudios de lingüística histórica o de fonética acústica, de las gramáticas clásicas o de algunos trabajos sobre vocabulario, como por ejemplo Gougenheim, Michea y Sauvageot (1956) o el del diccionario de frecuencias en español de 1964 elaborado por A.Juilland y E. Chang-Rodríguez (citado en el Centro Virtual Cervantes). La Lingüística de Corpus no tuvo su auge hasta los años sesenta y setenta del siglo pasado, cuando la informática ofrecía múltiples oportunidades para poder procesar bases de datos cada vez mayores.

En la actualidad, el término corpus casi lleva implícita el concepto de machine-readable, expresión que básicamente significa que está disponible en formato electrónico y que puede ser procesado con software, de modo que podamos obtener información objetiva sobre la lengua; generalmente se pueden extraer datos estadísticos como la frecuencia.

El hecho de disponer de un corpus de textos orales o escritos digitalizado nos permite obtener resultados rápidamente mediante aplicaciones informáticas, aunque el tamaño del corpus sea grande. Por otro lado, estas bases de datos pueden ser actualizadas con información adicional. Se puede etiquetar el corpus; este proceso es conocido como tagging. Aparte del muestreo y la representatividad, el tamaño y el formato digitalizado de un corpus, Torruella y Llisterri (1999:16) se centran en otros aspectos más específicos acerca de los datos que conformarán su corpus:

a. el porcentaje y la distribución de los diferentes textos b. la especificidad del texto

c. la cantidad de texto que se toma de cada documento para formas las muestras d. la codificación y las anotaciones que se harán

En función de la elección del tipo de datos que son seleccionados para la creación de un corpus, obtendremos un corpus único. La variedad de corpus puede ser tan amplia como número de corpus recopilados existan. Bowker & Pearson (2002:11) afirman que:

There are almost as many types of corpora as there are types of investigations. Language is so diverse and dynamic that it would be hard to imagine a single corpus that could be used as a representative sample of language.

En general, existe un gran número de corpus, muy variados en lo que respecta a la extensión, al diseño y a la finalidad. A continuación presentamos la clasificación las categorías genéricas de los corpus que proponen Bowker y Pearson (2002:11-13) según el objetivo que persigan:

1. General reference corpus vs. special purpose corpus. Según Bowker y Pearson (2002:11-12), un corpus general es aquel que “can be taken as representative of a given language as a whole and can therefore be used to make general observations about that particular language”. Un corpus de este tipo contiene normalmente material oral y escrito y engloba una variedad de géneros.

Por otro lado, los corpus especializados incluyen textos que pueden proporcionar datos para describir un tipo concreto de lenguaje. Los dos tipos se pueden usar de forma comparativa para identificar las características lingüísticas que lo distinguen del corpus general.

2. Written vs. spoken corpus. Un corpus escrito contiene textos escritos mientras que un corpus oral incluye transcripciones de material hablado, como pueden ser conversaciones, discursos, etc. Algunos corpus como el BNC contienen la combinación de ambos tipos de textos.

3. Monolingual vs. multilingual corpus. El corpus monolingüe incluye textos en un solo idioma. El corpus multilingüe incluye textos en dos o más idiomas. A su vez, los corpus multilingües se dividen en paralelos y comparables. Un corpus paralelo es una colección de textos traducidos de una lengua A a una lengua o lenguas (B, C o D). Normalmente se usa para demostrar la falta de equivalencia entre rasgos aparentemente similares en lenguas relacionadas (Hunston, 2006:237).

Un corpus comparable contiene textos no traducidos pero similares en más de una lengua con características comunes. Para Torruella & Llisterri (1999:11), la finalidad de los corpus comparables es comparar el comportamiento de distintas lenguas y diferentes variedades de la misma lengua en las mismas circunstancias comunicativas pero evitando la distorsión lingüística inevitable de las traducciones recopiladas en el corpus paralelo.

4. Synchronic vs. diachronic corpus. Un corpus sincrónico representa el uso de la lengua en un momento concreto mientras que un corpus diacrónico incluye textos procedentes de distintas etapas y nos permiten estudiar cómo ha evolucionado la lengua.

5. Open vs. closed corpus. El corpus de control (monitor corpus) se renueva y actualiza constantemente. El conjunto de textos se cambia para incluir nuevos textos y excluir otros. Así el corpus se convierte en algo dinámico que refleja la naturaleza dinámica de la lengua. El corpus cerrado no crece una vez se ha recopilado.

6. Learner corpus. El corpus del aprendiz contiene textos escritos por aprendices de una segunda lengua. Estos corpus son útiles para establecer comparaciones entre textos producidos por hablantes nativos y por estudiantes de esa lengua. De este modo, tanto profesores y estudiantes como investigadores pueden identificar los tipos de errores que cometen los estudiantes de esa lengua. Hunston (2002:16) también incluye en su tipología el corpus pedagógico y lo define como:

a corpus consisting of all the language a learner has been exposed to. […] A pedagogic corpus can be used to collect together for the learner all instances of a word or phrase they have come across in different contexts for the purpose of raising awareness.

7. Otros corpus pretenden recoger variedades geográficas de la misma lengua. Ejemplos de este tipo de corpus son los que contienen textos de variedades dialectales del inglés: Brown Corpus (inglés americano), LOB corpus (inglés británico), Kolhapur Corpus of Indian English (inglés de la India), Macquarie Corpus of Australian English (inglés australiano) y Wellington Corpus (inglés de Nueva Zelanda).

8. En relación al porcentaje y distribución de los diferentes tipos de texto que incluye, un corpus puede considerarse equilibrado si contiene diversas variedades de la lengua en porcentajes similares.

9. Teubert y Cermáková (2004: 120) y Torruella y Llisterri (1999: 11) describen lo que ellos denominan opportunistic corpus. Incluye textos que están disponibles sin seguir unos criterios de selección. Esto ocurre normalmente cuando existe una disponibilidad limitada de textos en formato electrónico (pero cada vez más se pueden encontrar en cantidades mayores) y una necesidad de investigar un mayor número de palabras a pesar de la falta de recursos para obtenerlos.

10. Considerando la codificación y anotación, un corpus puede ser simple (ni codificado ni etiquetado) si se ha guardado en un formato neutro (ASCII, o también llamado plain text o raw text) sin ningún código. En el corpus codificado o etiquetado podemos encontrar textos donde se han añadido de forma manual o

automática etiquetas declarativas de algunos elementos estructurales de los documentos –coding– o etiquetas analíticas –notation–.

In document Análisis lingüístico de un corpus de eslóganes y frases publicitarias de marcas comerciales (página 86-89)