Fundamentos de la comparación histórica y tipológica del lenguaje*

(1)

tipológica del lenguaje*

Parte teórica

Johann-Mattis List

1 Tres aspectos de una ciencia histórica 1.1 Historiografía

Para mejor definir la función de la comparación histórica y tipológica del lenguaje, tenemos que entender en principio que es la historia y cuales son las diferentes funciones de las ciencias históri- cas. Observemos los siguientes ejemplos en los que veremos distintos aspectos que representan en conjunto una función especifica de la historiografía.

(A) “Julio Cesar fue asesinado por Junio Bruto con una considerable cantidad de puñaladas.”

(B) “El asesinato de senadores es un fenómeno frecuente en la historia de Roma.”

(C) “La estructura de las revoluciones científicas de Kuhn ([1962] 1996) trata la evolución de nuevos modelos de la descripción científica.”

Esos tres ejemplos nos muestran tres diferentes aspectos de la historiografía. El primer ejemplo es una descripción de un evento individual. El segundo ejemplo describe las características de unos tipos de eventos específicos en un contexto específico. El tercer ejemplo describe las características de tipos de eventos específicos en un contexto general.

Entonces, podemos concluir que la historiografía se dedica por lo menos a 1. la descripción de eventos individuales,

2. la descripción de tipos de eventos en un contexto específico, y a 3. la descripción de tipos de eventos en un contexto general.

∗Thanks to Cristina Messineo for organizing this workshop, and to Florencia Fogliati and Ezequiel Koile for helping to correct the Spanish on this manuscript (remaining errors are my own fault).

(2)

En ese contexto es interesante notar que el filósofo Georg Wilhelm Friedrich Hegel (1770 — 1831) presentó una distinción parecida, diferenciando tres formas de la historiografía: la historia original (ursprüngliche Geschichte), la historia reflexionada (reflectirte Geschichte), y la historia filosófica (philosophische Geschichte) (Hegel 1837, 3–11). La primera forma de la historia es una pura descripción, la segunda contiene un poco de análisis, y la tercera forma ofrece una general- ización de los hechos individuales.

1.2 Historiografía lingüística

Entonces: ¿qué significa esto con respecto a la historiografía de las lenguas o a la historia del lenguaje? Otra vez podemos contemplar tres ejemplos diferentes:

(A) En la lengua proto-indo-europea, la palabra para padre fue

*

ph₂tēr.

(B) El inglés fue influenciado bastante por el francés durante su historia.

(C) Las consonantes oclusivas labiales se cambian durante la historia del lenguaje frecuentemente en fricativas labiales.

Otra vez podemos hacer un pequeño resumen de esos ejemplos. El primer ejemplo nos presenta un hecho individual sobre una lengua específica. El segundo ejemplo describe las características del desarrollo de una lengua específica. El tercer ejemplo, finalmente, describe procesos y tendencias generales en la evolución del lenguaje.

Estos ejemplos nos muestran tres tareas fundamentales de la lingüística histórica (y también de la lingüística tipológica). La primer tarea es la descripción de eventos y estados de una lengua, incluida la descripción de las etapas históricas de una lengua, ya sea que las etapas estén reflejadas en escritura o que estén solo reconstruidas. La segunda tarea es la descripción de los procesos de la evolución de una lengua o de una familia de lenguas. La tercera tarea es la descripción y el análisis de los aspectos generales de la evolución del lenguaje.

El famoso lingüista Georg von der Gabelentz (1840 — 1893) hizo una distinción entre la historia interna y la historia externa del lenguaje (Gabelentz 1891). Si seguimos su propuesta, tenemos que dividir la segunda tarea en dos partes. Aunque le pueda parecer extraño al lector, que incluya la lingüística tipológica en las tres tareas, junto a la lingüística histórica, me parece justo hacerlo, porque las tres partes son también importantes para la investigación de la tipología de las lenguas del mundo. Aunque para la lingüística tipológica la tercera tarea parezca mas importante que las otras perspectivas, sabemos bien que ninguna investigación puede solamente comenzar con los aspectos generales.

Podemos seguir a Martin Haspelmath y usar el termino lingüística de la diversidad (diversity linguistics) para denotar una disciplina de la lingüística que incluye la lingüística histórica y la lingüística tipológica.

1.3 Cómo trabaja la lingüística de la diversidad

Si nos basamos en las tres tareas de la lingüística de la diversidad podemos diferenciar tres maneras de trabajar. La primer manera es la descripción histórica. Esto es una descripción de lo que “pasó”

(3)

(o de lo que pasa, si hablamos de una lengua aún en uso). La descripción histórica trata tanto los eventos históricos (o los hechos sincrónicos) como los estados históricos de una lengua. Una descripción histórica es siempre individual con respecto a una lengua, y describe lo que pasó o lo que pasa en su singularidad como un hecho histórico en un definitivo lugar y en un definitivo tiempo (Haspelmath 2010 presenta un tratamiento parecido con respecto a la lingüística tipológica).

La segunda manera es la explicación histórica, que intenta explicar algunos procesos o desar- rollos con ayuda de principios generales sin hacer predicciones (comp. Ross and Durie 1996, 15).

La explicación histórica usa las generalizaciones de otras disciplinas para explicar los desarrollos históricos, pero no es obligatorio que la explicación sea causal.

La tercera manera son las generalizaciones en las ciencias históricas. Mientras que la descripción y la explicación en las ciencias históricas son históricas por su naturaleza misma, las generalizaciones no lo son directamente, porque no se refieren a eventos o estados concretos sino a tipos de eventos, que son independientes de un específico lugar o un específico tiempo. Si uno definiera la descripción o explicación de hechos individuales como la característica fundamental de las ciencias históricas, todas las generalizaciones pertenecerían a las ciencias no-históricas.

2 Tres etapas de la investigación en las ciencias históricas

Si investigamos no solo la practica de la lingüística histórica y tipológica pero también la practica en las ciencias históricas en general, podemos constatar tres etapas fundamentales: modelización, inferencia y análisis. Esa tríada fue inspirada por Dehmer (2011, XVII) y continua la idea general que (1) cada investigación científica se basa en el hecho de que tenemos alguna idea sobre el objeto de la investigación (la etapa de la modelización), y que (2) usamos métodos diferentes para inferir mas fenómenos en nuestros datos (la etapa de la inferencia). Los ejemplos inferidos seran usados luego (3) para hacer un análisis (la etapa del análisis) en un modo cuantitativo o cualitativo que usaremos después para corregir nuestro modelo.

2.1 La modelización

La modelización es importante para la descripción de un fenómeno. Sin modelización no po- dríamos decir nada sobre los eventos históricos que constituyen un desarrollo específico en la historia interna de una lengua o en la historia externa de una familia de lenguas. Por ejemplo, si quisiéramos hacer una investigación sobre el contacto de una lengua con otras lenguas, no po- dríamos hacerlo sin ayuda de modelos que nos den una idea de los distintos procesos que constituyen el contacto lingüístico, como el préstamo léxico, el préstamo sintáctico, u otros procesos car- acterísticos para el contacto lingüístico. Tampoco podríamos investigar el cambio de los sonidos en una lengua o una familia de lenguas sin tener una teoría del cambio fonético (o fonológico).

Si tomamos la teoría de la regularidad del cambio fonético como modelo (Verner 1877; Bloom- field [1933] 1973), siempre buscaremos ejemplos que confirmen esa teoría, y trataremos los ejemplos que no lo confirman como excepciones. Por el contrario, si tomamos el modelo de la difusión léxica (Wang 1969; Chen 1972) que admite una cierta cantidad de excepciones, es posible que aceptemos las excepciones sin cuestionarlas en detalle (Hill 2016).

(4)

Es importante recalcar que cada modelización necesita una idea muy clara de los datos que uno quiere usar. Esto puede parecer menos importante si uno trabaja solo en un modo cualitativo, pero si queremos producir investigaciones científicas y reproducibles no podemos negar la importancia de trabajar con modelos formales en los que la estructura de los datos sigue una forma transparente. No es posible trabajar con métodos cuantitativos si no usamos modelos formales con datos transparentes.

2.2 La inferencia

La inferencia nos da los datos para nuestro análisis. Sin datos no podemos entender un problema, tampoco podemos comprobar una hipótesis o un modelo. Si los científicos comienzan trabajar sobre un problema, sus datos son pocos e insuficientes para comprobar un fenómeno o un efecto.

Como los científicos no-históricos, que comienzan con una hipótesis o una conjetura e intentan probarla mientras buscan nuevos datos con experimentos, los científicos históricos quieren probar su modelo mientras intentan inferir nuevos fenómenos que lo confirman.

Para una investigación sobre los préstamos en una familia de lenguas, por ejemplo, necesitamos hacer una búsqueda de ejemplos para préstamos léxicos en todas las lenguas de la familia. Para investigar los cambios de los sonidos en una familia de lenguas o en la historia de una lengua, necesitamos también una búsqueda de ejemplos.

Normalmente, los lingüístas hacen estas búsquedas en un modo manual. Eso significa que usan su colección de fuentes directas y indirectas (artículos, libros, diccionarios, literatura del trabajo de campo, etc.) y lo cachean pagina por pagina, hasta encontrar suficientes ejemplos para hacer su análisis. La búsqueda en un modo manual es la forma de búsqueda mas frecuente, que también se usaba para la preparación de las mas grandes bases de datos, como World Atlas of Language Struc- tures Online (Dryer and Haspelmath 2013), Glottolog (Hammarström, Forkel, and Haspelmath 2018), o UCLA Phonological Segment Inventory Database (Maddieson 1984).

Las ventajas de preparar una base de datos en un modo manual son: la flexibilidad (flexibility, una persona puede extraer informaciones de todos modos de fuentes diferentes) y la precisión (accuracy, porque una persona normalmente comete menos errores que un algoritmo). Pero este sistema cuenta también con grandes desventajas: el tiempo, el esfuerzo, y que a veces no es tan confiable como los científicos lo desearían. A causa de esta problemática, la mejor solución parece ser la búsqueda de datos en un modo no completamente automático pero tampoco completamente manual, sino en un modo asistido por computadora en lugar de un modo basado en computadoras (List 2016).

2.3 El análisis

El análisis es el objetivo fundamental de cualquier investigación que quiera exceder una pura de- scripción. El análisis es importante no solo para las generalizaciones sino también para las explica- ciones en las ciencias históricas. Como lo hacemos con respecto a la inferencia, podemos distinguir dos modos diferentes del análisis, un modo cualitativo y un modo cuantitativo. Ambos modos son importantes para la investigación en la lingüística histórica. Sin embargo parece ser que el modo

(5)

cuantitativo es mejor para las generalizaciones, a causa de su alto nivel de abstracción.

20 x 10 x 5 x ?

Modeling

Inference

Analysis

Figure 1: Figura 1: Modelización, inferencia y análisis como etapas fundamentales en las ciencias históricas.

El análisis no solo sirve para probar una hipótesis, sino también para mejorar el modelo que fue utilizado desde el principio. Un ejemplo clásico para la interacción de las tres etapas de la in- vestigación en la lingüística histórica y tipológica es la reconstrucción lingüística, que tiene como objetivo la inferencia del sistema original de una lengua de que no tenemos rastros directos (como documentos por escrito). Cada reconstrucción comienza con una hipótesis simplificadora que solo constate que un grupo de lenguas están emparentadas. Después, los lingüistas comienzan a buscar rastros del parentesco, mientras que comparan palabras en las lenguas para identificar palabras cognadas. Las palabras cognadas les permiten identificar sonidos que se corresponden con reg- ularidad (sound correspondence patterns, comp. List, Hill, and Forster, n.d.). Estos patrones de correspondencias, finalmente, permiten proponer una primer serie de sonidos reconstruidos en la lengua desconocida. En todas las etapas de la aplicación de este denominado método comparativo (List 2014, 57–59; Weiss 2015), los lingüistas se verán forzados a cambiar su modelo según las conclusiones de sus análisis.

La Figura 1 ilustra el circuito de la investigación histórica, basada sobre las tres etapas de la modelización, de la inferencia, y del análisis.

3 Tratamiento de los datos

Los datos juegan un papel fundamental en la comparación lingüística. Esto debería ser obvio ya que cada conclusión que se hace con respecto a las relaciones históricas entre las lenguas del

(6)

mundo se va a basar en datos, tanto en forma de palabras y sonidos cognadas, como en forma de estructuras gramaticales parecidas. Sorprendentemente, las pocas introducciones a la metodología de la comparación histórica y tipológica del lenguaje se dedican raramente al tratamiento de datos.

Los pocos artículos dedicada a la organización de datos etimológicos, como “A Punchcard System of Cognate Hunting” de Morris Swadesh (1963), o los instrucciones de Gabelentz (1891) a la curación de “Collactaneen zum Sprachvergleiche” (colecciones de extractos de textos o palabras de una o varias lenguas) son una excepción. No encontramos nada sobre el tratamiento de datos en los grandes manuales de la lingüística histórica y tipológica, ni en Lehmann (1967), ni en Fox (1995), ni en Croft (1990), y tampoco en Campbell (2013).

3.1 Tipos de datos en la lingüística histórica y tipológica

Los científicos que practican la lingüísta histórica y tipológica tienen en un cierto sentido bastante mas “sed de datos” que quienes practican la lingüística general. El motivo es que no es posible usar nuestra intuición para resolver problemas que conciernen lenguas del pasado o la mayoría de las lenguas del mundo. Cuando uno trabaja con mas de una lengua y esta lengua no es su lengua materna, la propia intuición no servirá a nada. Como resultado, la lingüística histórica y topológica no solo depende de documentos antiguos, sino también de colecciones extensivas de las lenguas contemporáneas en forma de diccionarios, listas de palabras (wordlists), gramáticas, o noticias que vienen del trabajo de campo (field work notes).

Para elucidar el pasado de una lengua o varias lenguas, los lingüistas registran estos diccionarios, listas de palabras, o gramáticas en busca de palabras cognadas u otras semejanzas entre las lenguas.

Una forma especifica de datos en la lingüística histórica son los diccionarios etimológicos. Un diccionario etimológico presenta los resultados de la investigación (el análisis) y también el último modelo del lingüista. La Figura 2A muestra un ejemplo para una entrada típica en el diccionario etimológico de Pfeifer (1993).

Los diccionarios etimológicos pueden considerarse en cierta forma como una base de datos realizada en papel. Estos diccionarios muestran los últimos resultados de las comparaciónes de un investigador y contienen abundantes referencias de la literatura antigua y reciente. La problématica de estos diccionarios es que en la mayoría de los casos los científicos los crean mientras escriben los datos en forma de prosa en un documento de Microsoft word, lo cual hace dificil el buscar y encontrar la información de manera eficiente.

3.2 Problemas con los datos en la lingüística histórica y tipológica

Existen muchos problemas con los datos en la lingüística general y en la lingüística histórica y tipológica. Estos problemas presentan tres distintos aspectos:

(A) la disponibilidad de los datos (B) la transparencia de los datos (C) la comparabilidad de los datos

La disponibilidad es un problema constante en la lingüística histórica y tipológica, porque muchos científicos todavía piensan que no es importante compartir los datos que usan para escribir

(7)

Language Proto-Germanic Form *ƀrūkan Meaning to use

Language Latin Form fruī Meaning to enjoy

Language Latin Form frūctus Meaning profit, fruit Language Old High German

Form fruht Meaning profit, fruit Language Old High German

Form brūhhan Meaning to use

Language German Form

Meaning Language German

Language Proto-Indo-European Form *bhrūg-

Meaning to use borrowed

inherited

derived

bewesen , übertragen t (9. Jh.), mhd. vruht,

mnl. nl. vrucht beruhen tlehnung von gleichbed.

itet vom Verb lat. fruī nießen, Nutzen ziehen’

rauchen, s. d.). Das hen hat die spezielle nes Kind, Taugenichts’

tlein (16. Jh.); vgl. bereits as ungeborene wie das fruchten Vb. ‘nützen, zu m Ergebnis führen’, mhd.

fruchten [...]

A B

Frucht f. ‘der Fortpflanzung der eigenen Art dienendes Produkt einer Pflanze’, auch

‘ungeborenes Lebewesen’, übertragen

‘Ertrag’, ahd. (9. Jh.), mhd. vruht, asächs.

fruht, mnd. mnl. nl. vrucht beruhen auf einer frühen Entlehnung von gleichbed. lat. frūctus, abgeleitet vom Verb lat. fruī (frūctus sum)

‘genießen, Nutzen ziehen’ (verwandt mit brauchen, s. d.) [...]

brauchen Vb. ‘nötig haben’, ahd. brūhhan, brūhhen ‘genießen, nutzen, ausüben’ (8. Jh.), mhd. brūchen, asächs. brūkan, [...] Verwandt- schaftlich nahe steht wohl lat. fruī ‘genießen, Nutzen ziehen’ und frūx, frūctus (s. Frucht).

Das nur aus dem Germ. und Ital. zu erschließende ie. *bhrūg- ‘Frucht, genießen, gebrauchen’ ist vielleicht Gutturalerweiterung des in Brosame (s. d.) und seinen Verwandten mit s-Erweiterung vorliegenden ie. *bhrē̌u-, *bhrū̌- ‘abschaben, abstreifen, zerschlagen, zerbrechen’ [...]

German Frucht und brauchen in Pfeifer (1993, also online at http://dwds.de)

Form Frucht Meaning fruit brauchen

to need

Figure 2: Ejemplo para un diccionario etimológico: A Entrada original en Pfeifer (1993). B Una visualización de los mismos datos por Hans Geisler.

un articulo. A veces hay incluso artículos que ofrecen una nueva clasificación de una familia de lenguas basada en métodos cuantitativos sin ofrecer los datos y el código que usaban para hacer esta clasificación (Tamburelli and Brasca 2017). También hay una gran cantidad de descripciones gramaticales en la que los autores no citan sus datos correctamente. Parece que la situación de la que habla Hill en un examen de un manual de las lenguas sino-tibetanas no es una excepción, pero antes la regla en la lingüística contemporánea.

It is disappointing that so many among the authors of newly commissioned articles did not cite their data; this failing is particuarly perplexing in the case of those authors who benefited from the generosity of agencies that explicitly require archiving in public repos- itories. The move toward open data is still in its early days. (Hill 2017, 306)

Otro problema en nuestra investigación es la falta de transparencia de los datos, como se ejem- plifica en la Figura3. En esta tabla de Bengtson (2017) el autor intenta probar el parentesco del vasco con las lenguas del norte del cáucaso. No es difícil darse cuenta de que no podemos ver nada en esta representación. ¿Cuales palabras son cognadas? ¿Cuantos cognados son regulares?

¿Cuales son las excepciones?

Por último, la comparabilidad de los datos constituye un problema en sí mismo, porque los científicos frecuentemente ignoran compartir sus datos de forma que sea comparable con los datos usados por otros científicos. Está claro que la comparación de las lenguas es un problema en sí mismo y que la búsqueda de los conceptos de la comparación (comparative concepts), como los llama Haspelmath (2010), es una gran tarea y posiblemente imposible de realizar. Pero tambíen está claro que muchos aspectos de las lenguas del mundo si pueden ser comparados con poco esfuerzo. Por está razón, deberíamos siempre intentar ofrecer nuestros datos en una forma que sea

(8)

(gloss) Basque Chechen Avar Lak / Dargi Lezgi Prot-West-

Caucasian Proto-North- Caucasian

die *hil =al- =al’= L =ič’a D -ibk’- q’i- * ƛ̣ǝ - / *ƛ̣a- *=iwƛ̣Ĕ

dog *hor pħu ‘male

dog’ hoy D χa χor

(Budukh) *ŁIwa *χHwĕy-rV-

ear *be=laṙi ler-g D liħi *ŁA- *ɫĕHi

f re *śu ts’e ts’a L ts’u D ts’a ts’ay *mA=c w ̣ a *c ̣ăyɨ

horn *a=daṙ kur tɬ:ar f ri ‘mane’ PEC *ƛwɨ̆ rV

I *ni L na D nu *q:́IwA ‘to hear;

to be heard’ *=�̆q̇Ē

Figure 3: Ejemplo para el problema de la transparencia de los datos en la lingüística histórica.

comparable al máximo para maximizar el potencial de sinergias no solo en nuestra disciplina sino por encima de los fronteras de nuestra investigación.

Disponibilidad, transparencia, y comparabilidad son el fundamento de la reproducibilidad, y este es un punto escencial de la ciencia. Por eso es importante y debería ser obvio que cada investigación que se basa en datos necesita compartirlos en una forma transparente y comparable.

3.3 Recomendaciones para el tratamiento de los datos

A veces nos topamos con la idea de que es importante usar un software específico para la elab- oración y curación de los datos lingüísticos. Esto es un error, por que no es el software lo que cuenta sino el esquema con el que uno colecciona sus datos. Es obvio que el uso de software puede ayudar en la preparación de los datos, y especialmente en la anotación. Pero mas importante que el software que se usa es el modelo o esquema en el se curan los datos.

La iniciativa “Cross-Linguistic Data Formats” (https://cldf.clld.org) de Forkel et al. (2018) pro- pone recomendaciones y reglas de la organización de los datos para la lingüística histórica y tipológ- ica. La Figura5presenta los dos principios mas simples y mas desestimados de la iniciativa para la preparación y curación de datos. El primer principio dice “Un valor por celda”. La idea es fácil, pero obviamente no obvio para muchos científicos. Para creer datos que sean legible por personas y máquinas en mismo tiempo, es inevitable organizar la información en una forma coher- ente. Para garantizar coherencia necesitamos separar la información. Si ponemos datos de valores distintos en una celda de nuestra tabla, particularmente cuando colaboramos con colegas, está casi garantizado que vamos a perder el orden tarde o temprano.

El segundo principio reclama la anticipación de la necesidad de usar mas de una tabla. Esta idea es un poco menos importante que el primer principio, pero también puede ayudar en la prevención de errores, ya que el uso de mas que una table reduce la redundancia de los datos.

3.4 La anotación de los datos

La anotación es de gran importancia para las investigaciones de lenguas y textos. La idea general de la anotación es enriquecer algún recurso mientras adjuntar información adicional (Milà‐Garcia 2018). Cual valor adjuntamos con una anotación depende de nuestra cuestión científica (research

(9)

(a) One Value per Cell

Many datasets that have been published in the past place multiple values in the same cell of their data. This is most frequently the case with elicitation meanings for which multiple translations could be found. Since scholars are rarely explicit about the separators or the techniques by which they handle these problems, many different ways to address multiple translations per meaning have been used in the past, ranging from additional columns up to secondary characters indicating multiple values in a cell (commas, slashes, pipes), and datasets may even mix the different techniques. To avoid these problems, CLDF specifies to use long tables throughout all applications.

NEITHER:

Meaning English German Dutch bark bark Rinde, Borke bast

NOR:

Meaning English German Dutch

bark bark Rinde bast

bark * Borke ---

BUT:

ID Meaning Language Form 1 bark English bark 2 bark German Rinde 3 bark German Borke 4 bark Dutch bast

(b) Anticipate the Need of Multiple Tables

When a certain complexity of analysis is reached, multiple tables become inevitable in linguistic datasets.

Unfortunately, the need of multiple tables if often not readily anticipated, and datasets do not transparently state how to link across tables. Especially formats for cognate coding show great variation in this regard, ranging from multiple sheets in spreadsheet software that were manually created up to customized formats in which additional information is encoded in form of markup, such as colored cells or text in italic or bold font. All these attempts are very error prone and lead to data-loss, especially if only certain parts of the data are shared. To avoid these problems, CLDF specifies to turn to multiple tables whenever this is needed, but to make it explicit in the metadata, how tables should be linked.

NEITHER:

--SHEET-B Meaning English German Dutch

bark A B, A C

NOR:

--SHEET-A Meaning English German Dutch

bark bark Rinde Borke bast

BUT:

--TABLE-A --TABLE-B

ID Meaning Language Form ID Cognacy 1 bark English bark 1 bark-A 2 bark German Rinde 2 bark-B 3 bark German Borke 3 bark-A

4 bark Dutch bast 4 bark-c

Figure 4: Principios para la preparación de los datos en la lingüística comparativa (Forkel et al. 2018)

(10)

question). La glosa interlinear (inter-linear-glossed text), por ejemplo, ofrece una meta-lengua para distinguir partículas gramaticales de palabras con contenido semántico. La glosa interlinear ayuda al lingüista entender como el sentido de una frase se construye de sus partes individuales. La anotación morfológica de Hill y List (2017) usa la misma idea para analizar palabras con varias morfemas en listas de palabras preparadas para la comparación histórica del lenguaje.

Language ‘mountain’ ‘dog’ ‘thunder’ ‘wolf’ ‘bear (n.)’

Atsi pum⁵¹ kʰui²¹ mau²¹ mjiŋ⁵¹ vam⁵¹ kʰui²¹ mo⁵⁵ vam⁵¹ mountain dog sky + thunder bear + dog + m-suff. bear Bola pam⁵⁵ kʰui³⁵ mau³¹ mjaŋ⁵⁵ mjaŋ⁵⁵ kʰui³⁵ vɛ̃⁵⁵

mountain dog sky + thunder thunder + dog bear Lashi pɔm³¹ kʰui⁵⁵ mou³³ kɔm³³ wɔm³¹ kʰui⁵⁵ wɔm³¹

mountain dog sky + thunderB bear + dog bear Maru pam³¹ lə̆³¹ kʰa³⁵ muk⁵⁵ kum³¹ mjaŋ³¹ kʰa³⁵ vɛ̃³¹ mountain ? + dog sky + thunderB thunder + dog bear Achang pum⁵⁵ xui³¹ mau³¹ ʐau³¹ pum⁵⁵ xui³¹ ɔm⁵⁵ mountain dog sky + thunderC mountain + dog bear Xiandao pum⁵⁵ fui³¹ mau³¹ cau³¹ pum⁵⁵ fui³¹ om⁵⁵ mountain dog sky + thunderC mountain + dog bear Rangoon tɑ̃u²² kʰwe⁵⁵ mo⁵⁵ tɕʰẽ⁵⁵ wũ²²pu⁵³lwe²² wũ²² mountain2 dog sky + thunderD bear + ? + ? bear

Figure 5: Ejemplo para la anotación morfológico de Hill and List (2017).

Podemos distinguir dos maneras de la anotación: la anotación inline y la anotación stand-off (Eckart 2012). La anotación inline cambia los datos originales directamente, mientras, por ejem- plo, adjuntar etiquetas (tags). La anotación stand-off, por otro lado, hace referencias a los datos originales sin cambiarlos. La mayoría de marcos de la anotación usa una mezcla de los dos tipos.

La ventaja de la anotación stand-off es su flexibilidad, especialmente si uno quiere hacer anota- ciones en estratos diferentes al mismo recurso.

4 Un modelo simplificador del lenguaje

Para comparar lenguas necesitamos un modelo del lenguaje. Para las primeras etapas de la com- paración no es importante que el modelo sea muy complejo o muy exacto. Como explico en las secciones anteriores, cada investigación histórica debe comenzar de algún modelo, pero este modelo se puede cambiar rápidamente durante el proceso de la investigación. El modelo que vamos

(11)

a presentar en las siguientes secciones es un modelo simplificador del lenguaje que permite, sin embargo, realizar todas las investigaciones tradicionales (o clásicas) en un modo mas estricto y mas formal.

4.1 Problemas de la definición

No es fácil decir qué es una lengua, o cómo definirla. Lo que cuenta como una lengua depende no solo de criterios lingüísticos sino también de criterios sociales y culturales (Barbour and Stevenson 1998, 8). Por eso decimos que la gente en Shanghai, Beijing y Meixian habla “chino” (o un dialecto de chino), mientras que la gente en Escandinavia habla noruego, sueco y danés. Esto no significa que haya menos diferencias entre los idiomas de China que entre los idiomas de Escandinavia, como muestra la Figura6de List (2014).

Běijīng Chinese . iou²¹ i⁵⁵ xuei³⁵ pei²¹fəŋ⁵⁵ kən⁵⁵ tʰai⁵¹iaŋ¹¹ t͡ʂəŋ⁵⁵ ʦai⁵³ naɚ⁵¹ t͡ʂəŋ⁵⁵luən⁵¹ Měixiàn Chinese . iu³³ it⁵⁵ pai³³a¹¹ pet³³fuŋ³³ tʰuŋ¹¹ ɲit¹¹tʰeu¹¹ hɔk³³ e⁵³ au⁵⁵ Shànghǎi Chinese . ɦi²² tʰɑ̃⁵⁵ ʦɿ²¹ poʔ³foŋ⁴⁴ taʔ⁵ tʰa³³ɦiã⁴⁴ ʦəŋ³³ hɔ⁴⁴ ləʔ¹lə²³ʦa⁵³

Norwegian . nuːɾɑʋinˑn̩ ɔ suːln̩ kɾɑŋlət ɔm

Swedish . nuːɖanvɪndən ɔ suːlən tv̥ɪstadə ən gɔŋ ɔm

Danish . noʌ̯ʌnvenˀn̩ ʌ soːl̩ˀn kʰʌm eŋg̊ɑŋ i sd̥ʁiðˀ ʌmˀ

Figure 6: Comparación de idiomas de China y de Escandinavia.

Para permitirnos entender el complejo carácter de las lenguas, la sociolingüística usa el modelo del diasistema (Bussmann 1996, 312; Coseriu 1973, 53–59). Conforme a este modelo, las lenguas son agregados complejos que se constituyen de distintos sistemas lingüísticos que “coexisten y se influencian mutuamente” (Coseriu 1973, 40). Figura7muestra esta idea en una ilustración de List (2014).

Por suerte, para nuestro modelo simplificador del lenguaje no necesitamos saber cada detalle de las dinámicas que originen del carácter diasistemático del lenguaje. En esto sigue a Arapov y Xerc (1974, 6), que dicen que no sea tan importante, “en que pensamos cuando usamos el término

«lengua», mientras que es un discreto objeto x que podemos distinguir de otros objetos parecidos, y mientras podamos dar una definitiva época t=[t₁, t₂] en la que el objeto existe.”

4.2 El lenguaje como sistema

En la lingüística histórica y tipología usamos un modelo simplificador del lenguaje. Para entender como se cambian las lenguas no necesitamos saber qué es el lenguaje en detalle. En este modelo, una lengua es un sistema. Un sistema es, en términos mas generales, un conjunto de elementos y un conjunto de relaciones que se refieren al conjunto de elementos (Marchal 1975, 462f). Para nuestro modelo del lenguaje en la lingüística histórica, esto significa que un sistema lingüística contiene sonidos (fones, fonemas) y signos (palabras, morfemas) como elementos, y reglas fonotácticas y reglas sintácticas como relaciones.

(12)

Standard Language

Diatopic Varieties

Diastratic Varieties

Diaphasic Varieties

Figure 7: El lenguaje como diasistema.

4.3 El signo lingüístico

Tradicionalmente se usa el modelo del signo lingüístico de Saussure (1916). Como Jakobson ([1976] 1978) dice, el signo lingüístico tiene dos lados: la forma y el contenido:

The sign has two sides: the sound, or the material side on the one hand, and meaning, or the intelligible side on the other. Every word, and more generally every verbal sign, is a combination of sound and meaning, or to put it another way, a combination of signifier and signified […]. (Jakobson [1976] 1978, 3)

Lamentablemente, esa definición olvida el sistema en el que se realiza el signo. Por esto, nuestro modelo del signo lingüístico debe contener no solo la forma y el sentido sino también la lengua a la que el signo pertenece. La Figura8de List (2014) muestra este modelo que incluye la lengua como aspecto importante.

No me sorprendería que este modelo le parezca muy trivial al lector, pero es importante tener en cuenta que es un modelo que podríamos amplificar simplemente (y lo haremos cuando lo necesite- mos). Sorprendentemente, podemos modelizar muchos procesos con este modelo en la lingüística histórica, pero es obvio que debemos tener cuidado en las situaciones en las que este modelo ya no podrá explicar lo que queremos explicar.

Con respecto a las tres partes del signo lingüística es importante constatar que el modelo mas adecuado para la forma es una secuencia, porque la substancia fónica se produce “dans une seule dimension: c’est une ligne” (Saussure 1916, 103). El sentido, en contrario, es mas parecido a la

(13)

[kɔp͡f] “head” [kʌp] “cup”

Kopf cup

German English

FORM MEANING FORM MEANING

LANGUAGE LANGUAGE

Figure 8: Modelo ampliado del signo lingüístico.

estructura de una red (network). En la práctica parte de este taller vamos a ver que este significa para los métodos computacionales.

Conclusión

La lingüística histórica es una disciplina muy honorable con una larga historia de investigación.

Lamentablemente, todavía nos falta una metodológica rigourosa. Para establecer esta metodológica de la comparación histórica del lenguaje, será necesario no tan solo definir los objetos detallados de la disciplina, sino también demarcarla de otras disciplinas históricas, como la bioinformática, la historiografía, o la lingüística general. En esa lección intenté dar un resumen de los aspectos teóricos que me aparecen importantes como fundamentos de la comparación histórica y tipológica del lenguaje. Este resumen no es completo, y espero poder amplificarlo en el futuro.

Literatura .

Arapov, M. V., and M. M. Xerc. 1974. Matematičeskie Metody V Istoričeskoj Lingvistike. Moscow: Nauka.

Barbour, Stephen, and Patrick Stevenson. 1998. Variation Im Deutschen: Soziolinguistische Perspektiven.

Berlin: de Gruyter.

Bengtson, John D. 2017. “The Euskaro-Caucasian Hypothesis. Current Model. A Proposed Genetic Rela- tionship Between Basque (Vasconic) and the North Caucasian Language Family.” Edited by Association for the Study of Language in Prehistory.

Bloomfield, Leonard. (1933) 1973. Language. London: Allen & Unwin.

Bussmann, Hadumod, ed. 1996. Routledge Dictionary of Language and Linguistics. Translated by Gregory Trauth and Kerstin Kazzazi. London; New York: Routledge.

Campbell, Lyle. 2013. Historical Linguistics. 3rd ed. Edinburgh: Edinburgh University Press.

Chen, Matthew. 1972. “The Time Dimension: Contribution Toward a Theory of Sound Change.” Foun- dations of Language 8 (4): 457–98.http://www.jstor.org/stable/25000618.

Coseriu, Eugenio. 1973. Probleme Der Strukturellen Semantik: Vorlesung Gehalten Im Wintersemester

(14)

1965/66 an Der Universität Tübingen. Tübingen: Narr.

Croft, William. 1990. Typology and Universals. Cambridge: Cambridge University Press.

Dehmer, Matthias, Frank Emmert-Streib, Armin Graber, and Armindo Salvador, eds. 2011. Weinheim:

Wiley-Blackwell.

Dryer, Matthew S., and Martin Haspelmath, eds. 2013. WALS Online. Leipzig: Max Planck Institute for Evolutionary Anthropology.http://wals.info/.

Eckart, Kerstin. 2012. “Resource Annotations.” In CLARIN-d User Guide, edited by AP 5 Clarin-D, 30–42.

Berlin: DWDS.

Forkel, Robert, Johann-Mattis List, Simon J. Greenhill, Christoph Rzymski, Sebastian Bank, Michael Cysouw, Harald Hammarström, Martin Haspelmath, Gereon A. Kaiping, and Russell D. Gray. 2018.

“Cross-Linguistic Data Formats, Advancing Data Sharing and Re-Use in Comparative Linguistics.”

Scientific Data 5 (180205): 1–10.

Fox, Anthony. 1995. Linguistic Reconstruction: An Introduction to Theory and Method. Oxford: Oxford University Press.

Gabelentz, Hans Georg C. 1891. Die Sprachwissenschaft: Ihre Aufgaben, Methoden Und Bisherigen Ergeb- nisse. Leipzig: T. O. Weigel.

Hammarström, Harald, Robert Forkel, and Martin Haspelmath. 2018. “Glottolog.” Leipzig: Max Planck Institute for Evolutionary Anthropology. 2018.http://glottolog.org.

Haspelmath, Martin. 2010. “Comparative Concepts and Descriptive Categories.” Language 86 (3): 663–87.

Hegel, Georg Wilhem Friedrich. 1837. Georg Wilhelm Friedrich Hegelś Vorlesungen über Die Philosophie Der Geschichte. Edited by Eduard Gans. Georg Wilhelm Friedrich Hegelś Werke 9. Berlin: Duncker und Humblot.http://books.google.com?id=y_EGAAAAcAAJ.

Hill, Nathan. 2016. “A Refutation of Song’s (2014) Explanation of the ‘Stop Coda Problem’ in Old Chinese.”

International Journal of Chinese Linguistic 2 (2): 270–81.https://doi.org/10.1075/ijchl.3.2.04hil.

Hill, Nathan W. 2017. “The State of Sino-Tibetan. Review of Thurgood and Lapolla (2017) the Sino- Tibetan Languages. Second Edition.” Archiv Orientální 85: 305–15.

Hill, Nathan W., and Johann-Mattis List. 2017. “Challenges of Annotation and Analysis in Computer- Assisted Language Comparison: A Case Study on Burmish Languages.” Yearbook of the Poznań Lin- guistic Meeting 3 (1): 47–76.

Jakobson, Roman. (1976) 1978. Six Lectures on Sound and Meaning. Translated by John Mepham. Cam- bridge; London: MIT Press.

Kuhn, Thomas S. (1962) 1996. The Structure of Scientific Revolutions. 3rd ed. Chicago: University of Chicago Press.

Lehmann, Winfred Philipp, ed. 1967. A Reader in Nineteenth Century Historical Indo-European Linguistics.

Bloomington: Indiana University Press.

List, Johann-Mattis. 2014. Sequence Comparison in Historical Linguistics. Düsseldorf: Düsseldorf Univer- sity Press.

———. 2016. “Computer-Assisted Language Comparison: Reconciling Computational and Classical Ap- proaches in Historical Linguistics.” Jena: Max Planck Institute for the Science of Human History.

List, Johann-Mattis, Nathan W. Hill, and Christopher Forster. n.d. “Towards a Standardized Annotation of Rhyme Judgments in Chinese Historical Phonology (and Beyond).” Journal of Language Relationship

?? (??).

Maddieson, Ian. 1984. Patterns of Sounds. Cambridge Studies in Speech Science and Communication.

(15)

Cambridge [Cambridgeshire] ; New York: Cambridge University Press.

Marchal, J. H. 1975. “On the Concept of a System.” Philosophy of Science 42 (4): 448–68. http://www.js tor.org/stable/187223.

Milà‐Garcia, Alba. 2018. “Pragmatic Annotation for a Multi-Layered Analysis of Speech Acts: A Method- ological Proposal.” Corpus Pragmatics 2 (1): 265–87.

Pfeifer, Wolfgang, ed. 1993. Etymologisches Wörterbuch Des Deutschen. 2nd ed. 2 vols. Berlin: Akademie.

Ross, Malcom, and Mark Durie. 1996. “Introduction.” In The Comparative Method Reviewed. Regularity and Irregularity in Language Change, edited by Mark Durie, 3–38. New York: Oxford University Press.

Saussure, Ferdinand de. 1916. Cours de Linguistique Générale. Edited by Charles Bally. Lausanne: Payot.

Swadesh, Morris. 1963. “A Punchcard System of Cognate Hunting.” International Journal of American Linguistics 29 (3): 283–88.http://www.jstor.org/stable/1263418.

Tamburelli, Marco, and Lissander Brasca. 2017. “Revisiting the Classification of Gallo-Italic: A Dialecto- metric Approach.” Digital Scholarship in the Humanities, no. fqx41.

Verner, Karl A. 1877. “Eine Ausnahme Der Ersten Lautverschiebung.” Zeitschrift Für Vergleichende Sprachforschung Auf Dem Gebiete Der Indogermanischen Sprachen 23 (2): 97–130.

Wang, William Shi-Yuan. 1969. “Competing Changes as a Cause of Residue.” Language 45 (1): 9–25.

http://www.jstor.org/stable/411748.

Weiss, Michael. 2015. “The Comparative Method.” In The Routledge Handbook of Historical Linguistics, edited by Claire Bowern and Nicholas Evans, 1st ed., 127–45. Routledge Handbooks in Linguistics.

New York: Routledge.