• No se han encontrado resultados

A NOTACIÓN A UTOMÁTICA DE UN CORPUS POR FFLL

In document Alonso Ramos - Diccionarios y Fraseologia (página 169-174)

hacia una aplicación didáctica*

5. A NOTACIÓN A UTOMÁTICA DE UN CORPUS POR FFLL

La disponibilidad de programas para la anotación automática de un corpus en términos de FFLL es una condición previa indispensable para la realización de nues- tra propuesta. Tal programa es, en gran medida, un programa para el reconocimiento automático de instanciaciones de FFLL en el corpus. Se trata de reconocer el estatus colocacional de bigramas de lexemas específicos en el corpus y clasificar estos bigramas en términos de la tipología de FFLL. El desarrollo de tal programa está todavía en curso. Sin embargo, hemos implementado ya un prototipo de programa de aprendiza- je automático para ambas tareas –reconocimiento de bigramas colocacionales en el corpus y su clasificación en términos de FFLL– que ha sido puesto en práctica con datos españoles.10 En esta sección, presentamos brevemente la metodología general

que subyace al reconocimiento y clasificación de colocaciones en un corpus, basados en aprendizaje automático.

El procedimiento general consta de tres fases: (i) la fase de procesamiento de corpus en que se extraen del corpus las combinaciones binarias (bigramas) de térmi-

9 Esta es la solución adoptada por el DiCE cuya interfaz gráfica puede consultarse en la siguiente

dirección: http://dicesp.cesga.es.

nos candidatos; (ii) la fase de aprendizaje en que el programa aprende «qué significa para una combinación binaria de términos ser una instanciación de una FL dada»; y (iii) la fase de clasificación en la que los bigramas extraídos del corpus (y no usados en el material de entrenamiento) son clasificados según la tipología de FFLL o recha- zados como una instanciación de FL. Situamos la fase de procesamiento antes de las otras dos porque es aconsejable recopilar el material de entrenamiento para la fase de aprendizaje de la lista de bigramas extraídos del corpus, en vez de usar el material de entrenamiento de otra fuente. Este procedimiento asegura que el aprendizaje es «sin- tonizado» con el dominio.

La extracción de bigramas candidatos se hace analizando (parcialmente) el corpus. Dado que cada FL tiene una estructura sintáctica estable, basta comparar los rasgos de sólo aquellas FFLL cuya estructura sintáctica coincida con la estructura sintáctica del bigrama candidato obtenido durante el análisis automático (parsing). En otras palabras, el análisis sirve como un tipo de «preselección» de FFLL que son posibles etiquetas de clase para un bigrama candidato dado.

La calidad de las técnicas de aprendizaje automático que reflejan esta metodo- logía ha demostrado que son suficientes para una primera anotación de un corpus con FFLL. Para alcanzar la calidad de un diccionario, los lexicógrafos entrenados en Lexi- cología explicativa y combinatoria deben revisar la anotación en una fase de postedición manual. Sólo entonces se asegura que el corpus resultante pueda servir como una fuente fiable de información colocacional para todo usuario.

6. CONCLUSIONES

En este artículo hemos defendido que un corpus anotado con FFLL y provisto de una interfaz con el usuario es más adecuado como un almacén de información colocacional que un diccionario convencional. Tal corpus tiene varias ventajas. En primer lugar, si ha sido compilado adecuadamente, tiene el potencial de contener un inventario de colocaciones siempre actualizado. En segundo lugar, proporciona la ilustración de uso de cada colocación en contexto, sin las rígidas restricciones de espacio de los diccionarios convencionales. En tercer lugar, permite la realización de un acceso flexible y dirigido a toda información deseada por el usuario.

Aunque no disponemos de tal corpus todavía, los avances en el reconocimien- to semántico y en la clasificación de colocaciones en un corpus en términos de FFLL hacen que nuestro objetivo sea verosímil en un futuro no muy lejano.

REFERENCIAS BIBLIOGRÁFICAS

ALONSO RAMOS, Margarita (2003): «Hacia un Diccionario de Colocaciones del español y su codifi-

cación», en M. A. Martí et al., eds., Lexicografía computacional y semántica, Barcelona, Universitat de Barcelona, pp. 11-34.

— (2005): «Semantic Description of Collocations in a Lexical Database», en F. Kiefer et al., eds., Papers in Computational Lexicography COMPLEX 2005, Budapest, Linguistics Institute and Hungarian Academy of Sciences, pp. 17-27.

— (2006): «Towards a dynamic way of learning collocations in a second language», en Proceedings of EURALEX International Congress, Turín, vol. II, pp. 909-921.

— (este volumen): «Glosas para las colocaciones en el Diccionario de colocaciones del español». — y Begoña SANROMÁN (2000): «Construcción de una base de datos de colocaciones léxicas»,

Revista de la Sociedad Española de Procesamiento del Lenguaje natural, 24, pp. 97-98. BENSON Morton, Evelyn BENSON y Robert ILSON (1986): The BBI Combinatory Dictionary of English:

A Guide to Word Combinations, Amsterdam, John Benjamins [= BBI].

— (1993): Russian-English Dictionary of Verbal Collocations, Amsterdam, John Benjamins. BOSQUE, I., dir. (2004) Redes. Diccionario combinatorio del español contemporáneo, Madrid, SM.

COWIE, Anthony P. (1994): «Phraseology», en R. E. Asher y J. M. Y. Simpson, eds., The Encyclopedia of Languages and Linguistics, 6, Oxford, Pergamon Press, pp. 3168-3171.

CROWTHER, Jonathan, Sheila DIGNEN y Diana LEA, eds. (2002): Oxford Collocations Dictionary for

Students of English, Oxford, Oxford University Press [= OCD].

HALLIDAY, Michael A. K. (1961), «Categories of the Theory of Grammar», Word, 17, pp. 241-292.

HAUSMANN, Franz J. (1984), «Wortschatzlernen ist Kollokationslernen. Zum Lehren und Lernen

französischer Wortwendungen», Praxis des neusprachlichen Unterrichts, 31, 4, pp. 395-406. KAHANE, Silvain y A. POLGUÈRE (2001): «Formal Foundation of Lexical Function», Proceedings of

Collocation: Computational Extraction, Analysis and Exploitation, 39th Annual Meeting and 10th Conference of the European Chapter of the Association for Computational Linguistics, Toulouse, pp. 8-15.

KILGARRIFF, Adam (2005): «Putting the corpus into the dictionary», en Proceedings of the Meaning

Workshop, Trento.

— (2006): «Collocationality and how to measure it», en Proceedings of EURALEX International Congress, Turín, II, pp. 997-1004.

MEL’„UK, Igor (1995): «Phrasemes in Language and Phraseology in Linguistics», en M. Everaert,

E.-J. van der Linden, A. Schenk y R. Schreuder, eds, Idioms. Structural and Psychological Perspectives, Hillsdale, N. J.-Hove, Lawrence Erlbaum Associates, pp. 167-232. — (1996): «Lexical Functions: A Tool for the Description of Lexical Relations in the Lexicon», en

L. Wanner, ed., Lexical Functions in Lexicography and Natural Language Processing, Amsterdam-Philadelphia, John Benjamins, pp. 37-102.

— , André CLAS y Alain POLGUÈRE (1995): Introduction à la lexicologie explicative et combinatoire, Bruxelles, Duculot.

— et al. (1984-1999): Dictionnaire explicatif et combinatoire du français contempo-rain. Recherches lexico-sémantiques, I-IV, Montréal, Les Presses de l’Université de Montréal [= DEC].

— y L. WANNER (1996): «Lexical Functions and Lexical Inheritance for Emotion Lexemes in

German», en L. Wanner, ed., Lexical Functions in Lexicography and Natural Language Processing, Amsterdam-Philadelphia, John Benjamins, pp. 209-278.

— y Alexander ZHOLKOVSKY (1984): Explanatory Combinatorial Dictionary of Modern Russian.

Semantico-syntactic Studies of Russian Vocabulary, Vienna, Wiener Slawistischer Almanach. PETERS, Carrol (2002): «Results of the CLEF 2002 Cross-Language System Evaluation Campaign»,

Working Notes for the CLEF 2002 Workshop, Roma.

POLGUÈRE, Alain (2000): «Towards a Theoretically-Motivated General Public Dictionary of Semantic

Derivations and Collocations for French», en Proceedings of the Ninth EURALEX International Congress, II, Stuttgart, Universität Stuttgart, pp. 517-527.

SINCLAIR, John, ed. (1995): Collins Cobuild English Collocations on CD ROM. A Comprehensive

Database of Common Patterns from the Bank of English, Londres, Harper Collins. WANNER, Leo (2004): «Towards Automatic Fine-Grained Semantic Classification of Verb-Noun

Collocations», Natural Language Engineering Journal, 10, 2, pp. 95-143.

— y M. ALONSO (2006): «Local Document Relevance Clustering in Information Retrieval Using

Collocation Information», en Proceedings of LREC, Génova, 2006.

— , Bernd BOHNET y Mark GIERETH (2006): «Making sense of collocations», Computer, Speech and

Language, 20, 4, pp. 609-624.

— , Bernd BOHNET, Mark GIERETH y Vanesa VIDAL (2005): «The First Steps towards the Automatic

PARTE II

TRATAMIENTO LEXICOGRÁFICO DE REFRANES

In document Alonso Ramos - Diccionarios y Fraseologia (página 169-174)