Base de datos de Varilex y cartografía automática

(1)

II

Base de datos de Varilex y cartografía automática

Antonio Ruiz Tinoco

0. Introducción

En este apartado del taller del proyecto Varilex mostraremos la situación actual de la base de datos, su estructura y algunos ejemplos de uso. Nos basamos en otras comunicaciones anteriores nuestras puestas al día. Queremos enfatizar las ventajas del uso de las bases de datos relacionales para el procesamiento de datos dialectales en general y muy particularmente en la preparación de la cartografía automática en Internet, como es nuestro caso de Varilex. De esta manera, no solamente tendremos a mano en un tiempo relativamente corto los resultados de las encuestas, sino que también se podrán procesar los datos más fácil y eficazmente. Aunque de manera simple todavía, tanto los resultados de las encuestas como los mapas de distribución de los términos recogidos se pueden obtener directamente en Internet. Estos mapas se generan de forma dinámica. Es decir, no se trata de mapas estáticos almacenados y listos para ser bajados, sino que se generan sobre la marcha utilizando los últimos datos disponibles. De esta manera evitamos también los enormes costos de publicación de tales atlas lingüísticos y sus continuas renovaciones.

En nuestro proyecto usamos el entorno LAMP que explicamos brevemente en el siguiente capítulo. MySQL1 es un sistema de administración de bases de datos relacionales, que en combinación con el lenguaje PHP2, se puede utilizar sin necesidad de un conocimiento técnico demasiado especializado.

1. Entorno LAMP

Desde el punto de vista del usuario, es aconsejable que el sistema sea multiplataforma, es decir, compatible con la mayoría de los sistemas operativos existentes, como son las diferentes versiones de Windows3, Mac OS4, las diferentes versiones de Unix5 y Linux6. El entorno que presentamos más adelante

1_{Cf.: http://www.mysql.com/} 2_{Cf.: http://www.php.net/}

3_{Cf.: http://www.microsoft.com/windows/default.asp} 4_{Cf.: http://www.apple.com}

(2)

es compatible con estos sistemas operativos. El usuario solamente necesita preparar una conexión a Internet con un navegador como Internet Explorer7, Netscape8 o Firefox9.

Como hardware, es suficiente un servidor tipo PC de características normales. El nuestro10 es de tipo PC en Linux, y creemos que es suficiente para nuestros objetivos. Aconsejamos que no se quede demasiado justo de memoria debido al uso continuado de gráficos que se van creando sobre la marcha.

Para el desarrollo del sistema, son necesarias varias herramientas que presentamos a continuación y que se pueden obtener por licencia GNU/GPL11 sin costo alguno para uso académico, con excepción del sistema operativo Windows, que en realidad no es absolutamente necesario.

El entorno que utilizamos se conoce generalmente como LAMP, ya que se basa en Linux, Apache, MySQL y PHP.

1.1 Sistema operativo

Todas las pruebas efectuadas hasta el momento se han venido realizando en versiones diferentes de Linux para el servidor al que accedemos con un ordenador cliente con diferentes versiones de Windows. La conexión al servidor la hacemos mediante telnet12 y FTP13 para enviar los datos y programas preparados generalmente en entorno Windows.

1.2 Servidor web

A nuestro juicio, el servidor web14 más fiable en plataforma Linux es

6_{Sistema operativo similar a Unix, originalmente creado por Linus Torvalds. Para más} información consultar http://www.linux.org/

7_{Cf.: http://www.microsoft.com/windows/products/winfamily/ie/default.mspx} 8_{Cf.: http://browser.netscape.com/ /}

9_{Cf.: http://en.www.mozilla.com/en/}

10_{Las características de nuestro servidor actual son:}

OS: Suse Linux 10, base de datos: MySQL 5, Código: UTF-8 / Latin-1 CPU: Xeon 2.8x2, memoria: 2GB

11_{Cf.: Las características del proyecto GNU de software libre se pueden consultar en:} http://www.gnu.org/

12_{Uno de los principales servicios de Internet. Básicamente se utiliza para establecer} conexión con un ordenador remoto, como si estuviera en una red local.

13_{FTP (File Transfer Protocol), Protocolo de Transferencia de Archivos, sirve para} transmitir archivos de todo tipo a través de la Red. Utilizamos el software libre FFFTP ver. 1.96b, que se puede obtener en http://www2.biglobe.ne.jp/~sota/ffftp-e.html ya que nos permite fácilmente la transmisión de datos en japonés gracias a la función de cambio de códigos, lo cual nos resulta útil para otros proyectos.

(3)

Apache15 y afortunadamente encontramos detallados manuales de administración como los de Charles Aulds (2000). Preferimos utilizar una versión nueva, actualmente es la 2, pero evitamos usar la más nueva para evitar los problemas frecuentes de estas versiones. Existe una gran cantidad de información directamente en la red. También existen versiones para los principales sistemas operativos, incluido Windows. Tiene la ventaja de que los lenguajes de programación que presentamos en el siguiente párrafo se integran perfectamente en forma de módulos, lo que reduce el tiempo de respuesta del servidor.

1.3 Base de datos

Para gestionar la base de datos que presentaremos más adelante es necesario instalar un programa de gestión de base de datos. Creemos que un tipo estándar como SQL16 es el más adecuado para nuestro propósito. Los programas concretos de distribución libre más conocidos son MySQL y PostgreSQL. Preferimos el uso de MySQL por su velocidad y robustez. Hay abundante bibliografía sobre el uso de MySQL, como Judith Bowman et al. (1996), Paul Dubois et al. (1999), Randy J. Yarger et al. (1999) y muchos más aparecidos recientemente.

1.4 Lenguaje de programación

Hay varias posibilidades para escoger un lenguaje de programación, como son PERL17, Ruby18 y otros más. Preferimos PHP, lenguaje de programación del lado del servidor19, porque creemos que, además de ser multiplataforma se integra mejor al servidor web, y los scripts se pueden incluir fácilmente dentro del protocolo HTML, por lo que resulta bastante fácil preparar documentos interactivos. PHP originalmente es un lenguaje diseñado para ser utilizado en documentos hipertexto, fácil de aprender y de revisar (debugging). La comunidad de usuarios cada vez es mayor y siempre está dispuesta a ayudar desinteresadamente en las posibles dudas de uso. También hay que tener en cuenta que la velocidad de respuesta es tal vez la más alta entre los lenguajes de

ayuda del protocolo HTML. Nos da acceso a los documentos hipertexto. 15_{Cf.: http://httpd.apache.org}

16_{Structured Query Language} 17_{Cf.: http://www.perl.com} 18_{Cf.: http://www.ruby-lang.org}

19_{Al ser un lenguaje del lado del servidor, el usuario no tiene que instalar ni descargar} ningún programa en su ordenador.

(4)

programación tipo script. PHP funciona como un módulo de Apache y está muy bien documentado en introducciones como las de Julie C. Meloni (2000), textos más avanzados como Gerken, T. & Rastchiller, T. (2000) y hasta gruesos manuales como Converse T. & Park J. (2000). Otra gran ventaja adicional es la capacidad de conexión con casi todas las bases de datos disponibles.

Este entorno se complementa con una serie de librerías20, ya sea con funciones gráficas o para generar documentos en formato PDF, etc.

2. Proyecto VARILEX

Desde comenzó en el X Congreso de ALFAL en Veracruz el año 1993 ha venido aumentando el número de colaboradores y la abrumadora cantidad de datos obtenidos nos hizo considerar la creación de una base de datos digitalizada en Internet. Nuestro primer servidor, como anunciamos en el XII Congreso de ALFAL en Santiago de Chile, empezó a funcionar experimentalmente en el verano de 1999. A continuación exponemos algunos detalles de la base de datos. Los detalles del proyecto en sí se verán en otros apartados de este taller. Aquí solamente trataremos la parte correspondiente al proceso digital de los datos.

Este proyecto trata de preparar un inventario de geosinónimos de léxico variable. Por ejemplo, en el caso del concepto A001, “JACKET”, usamos la definición “prenda de vestir masculina, que forma con el chaleco y los pantalones el traje completo. No es de paño con botones dorados”. Sin entrar ahora en detalles, por medio de esta definición, en cierto modo ambigua, o mejor dicho, en sentido amplio, queremos incluir objetos que físicamente son diferentes por tamaño, tipo de punto, etc. como son americana, capa, chaleco, chaqueta, gabán,

leva, paletón, saco, saco de terno, saco de traje, traje, vestón, etc. De esta manera,

preparamos las encuestas como se muestra en la Fig. 1.

Los ámbitos conceptuales21 incluidos en la encuesta son los que ofrecen posibilidades de variación. Incluye campos léxicos como las prendas de vestir, instrumentos usados en la cocina, electrodomésticos, muebles, partes del automóvil, material de escritorio, etc.

20_{Una librería es un conjunto de funciones de un lenguaje de programación. Con el uso de} las funciones que se incluyen en las librerías podemos crear algoritmos ya comprobados y no partir de cero en la creación de los programas.

21_{Empleamos el término ámbito conceptual para incluir todo tipo de objeto que responda a} la definición dada en la encuesta en forma verbal acompañada normalmente de un dibujo.

(5)

Fig. 1 Encuesta (parcial)

A continuación mostramos la parte principal de la estructura de la base de datos, tal como se puede ver en la Fig. 2.

La tabla conceptos contiene cuatro campos. El campo código contiene simplemente una referencia para ordenar los conceptos utilizados. Consta de una letra y un número. Así, por ejemplo en el caso de JACKET, A001, la A se refiere a la primera encuesta realizada y 001 es el primer concepto de dicha encuesta. El campo inglés lo utilizamos para referirnos de forma neutra al ámbito conceptual; y concepto contiene la descripción verbal de los ámbitos conceptuales, en este caso “prenda de vestir masculina, que forma con el chaleco y los pantalones el traje completo. No es de paño con botones dorados.”

La tabla respuestas contiene los siguientes campos: id, número de identificación del dato, encuesta, que coincide con código de la tabla conceptos;

informante, que contiene el código del informante, y que a su vez se relaciona con código en la tabla informantes y, finalmente forma, que contiene la respuesta

dada por el informante.

La tabla informantes contiene los campos código, para referencia del informante, que coincide con el campo informante de la tabla de respuestas;

codciu, código de la ciudad; país, ciudad, sexo, sexo del informante -- 1 para

hombre y 2 para mujer--; edad; tipo, tipo de ocupación del informante, y

ocupación. Por ejemplo, en país AR se utiliza para Argentina, BO para Bolivia,

CH para Chile, etc.

La tabla ciudades contiene los campos id, que relaciona esta tabla con la de

(6)

informantes nos resulta más cómodo, y finalmente los campos x e y, que

contienen la posición de la ciudad dentro del mapa blanco que usamos de base para la cartografía automática.

En esta misma base de datos existen otras tablas provisionales para experimentos internos pero no afectan al funcionamiento general. Más adelante, la estructura será ligeramente diferente para reflejar algunos cambios en la forma de llevar a cabo las encuestas.

Fig. 2. Estructura básica de la base de datos de VARILEX

3. PHP-ATLAS

El proyecto PHP-ATLAS22 utiliza los datos de variación léxica del proyecto VARILEX. El objetivo de este proyecto es la generación dinámica de atlas lingüísticos de variación léxica. Aplicando nuestra experiencia de generación dinámica de documentos en formato PDF como en el caso de los datos de judeoespañol23, en este caso también generamos el resultado en formato PDF, A4,

22_{http://lingua.cc.sophia.ac.jp/varilex/php-atlas/lista3.php} 23_{http://lingua.cc.sophia.ac.jp/diksionario-LK/}

(7)

que creemos es bastante cómodo de imprimir, guardar, enviar, ampliar en la pantalla del monitor, etc.

En la actualidad estamos valorando el uso de la generación de mapas con técnicas SIG24. Posiblemente sea un sistema demasiado complejo ya que los puntos de las encuestas están muy separados geográficamente unos de otros. En la Fig. 3 podemos apreciar el interfaz de búsqueda del proyecto y en la Fig. 4 uno de los mapas generados dinámicamente. En este caso, se trata de la distribución del término americana correspondiente a JACKET. En el mapa se puede apreciar claramente que el término americana se usa principalmente en la península pero también hay varios lugares, como Monterrey, Panamá, La Habana, Arequipa, etc. en donde también hay constancia de su uso por medio de las encuestas realizadas in situ. En contraste con la distribución de americana, podemos observar en la Fig. 5 el del término saco, el término más utilizado en el español americano.

La generación dinámica de atlas lingüísticos supone un gran adelanto en el estudio de la variación léxica o la dialectología, ya que los mapas se pueden generar en el mismo momento en que los datos estén incluidos en la base de datos, sin tener que esperar los largos años que normalmente pasan antes de que vean la luz el trabajo tradicional impreso. Otra ventaja adicional es la facilidad de mantenimiento.

Fig. 3 Interfaz del proyecto PHP-ATLAS

(8)

Además, podemos generar fácilmente listados y glosarios de geosinónimos en formato PDF. Así, por ejemplo, podemos generar sobre la marcha un glosario del vocabulario usado con la referencia al término neutro en inglés, la definición utilizada en las encuestas o cualquier otra variedad de cualquiera de los puntos encuestados.

(9)

Fig. 5 mapa de distribución del término saco

4. Interfaz de administración y búsqueda

Los programas usados en nuestro interfaz han sido desarrollados por nosotros mismo, pero usamos software estándar de mantenimiento de la base de datos, como es el conocido phpMyAdmin25. Resulta necesario para crear las estructuras mismas de la base de datos, administrar el sistema de permisos para los usuarios, y todo lo relacionado con el mantenimiento en sí, incluso la edición en línea de algunos errores de transcripción o la aplicación directa del lenguaje SQL a los datos sin necesidad de preparar interfaces nuevos. Este interfaz no está a disposición general ya que por su

(10)

misma naturaleza podría ser la causa de errores involuntarios por los usuarios. Además, su uso requiere un entrenamiento previo. En la Fig. 6 mostramos una parte de la tabla de las ciudades.

Fig. 6 phpMyAdmin (parcial)

A continuación mostraremos algunos ejemplos de uso mediante el interfaz que ya hemos publicado26 con antelación. Ya que esta página experimental se encuentra en fase continua de desarrollo, el aspecto puede variar. En la Fig. 7 mostramos el interfaz actual de búsqueda.

Creemos que este nuevo interfaz, mostrado parcialmente en Fig. 1, es bastante intuitivo y en la actualidad se pueden hacer búsquedas introduciendo uno o varios parámetros en la casilla correspondiente. Así, por ejemplo, para buscar el término “chompa”, se puede introducir la palabra completa en la ventana “Forma”. También se pueden hacer algunas búsquedas más complejas utilizando los comodines “_” (equivalente a una letra) o “*” (equivalente a una secuencia de letras). Por ejemplo, si introducimos “ch_m_a”, obtendremos chompa, chomba, chumpa, así como chamba,

chimba, chamba, enchumbado, pura chamba, chimpancé, etc.

(11)

Fig. Interfaz de búsqueda

Asimismo, se pueden hacer búsquedas añadiendo condiciones como son la serie de la encuesta, el campo semántico, la referencia (en inglés), alguna de las palabras que pueda contener la definición usada del concepto. La casilla de “categoría” es provisional y puede variar de contenido. Se pueden utilizar varios parámetros al mismo tiempo. Por ejemplo, podemos usar “ch_m_a” junto con el campo semántico prenda, para obtener los resultados correspondientes a este campo semántico solamente.

5. Desarrollo futuro

En primer lugar, es absolutamente necesario completar las encuestas con las ciudades importantes del mundo hispano que todavía no están representadas, por lo que agradeceríamos las colaboraciones en este sentido. Además, como se explicará en otra sección de este taller, se está preparando un sistema de encuestas en línea, por medio del cual esperamos obtener datos adicionales.

Obviamente, cuando tengamos oportunidades y fondos suficientes se irá renovando el hardware necesario, pero creemos que lo más importante será el desarrollo de nuevos interfaces que sean fáciles de usar y podamos obtener datos relevantes para nuestras investigaciones en formatos estándar, como es CSV, fácilmente utilizable en hojas de cálculo, por ejemplo.

Además de estos datos cuantitativos esperamos poder mostrar gráficos con estadísticas generadas dinámicamente, así como listados de términos que cumplan determinadas condiciones de búsqueda.

Ni que decir tiene que todos estos planes no podrán realizarse sin la ayuda de todo el equipo de colaboradores de Varilex, sin los que este proyecto no podría haberse desarrollado.