Desambiguación del sentido de las palabras

Texto completo

(1)UNIVERSIDAD CENTRAL “MARTA ABREU” DE LAS VILLAS FACULTAD DE MATEMÁTICA, FÍSICA Y COMPUTACIÓN. Desambiguación del sentido de las palabras. Trabajo de Diploma para optar por el Título de Licenciado en Ciencia de la Computación. Autores Ariel Nadal Pérez Katherine Santana González. Tutores Lic. Mario Alberto Amores Fernández Dra. Leticia Arco García. Santa Clara, 2014.

(2) Hacemos constar que el presente Trabajo de Diploma ha sido realizado en la facultad de Matemática, Física y Computación de la Universidad Central “Marta Abreu” de Las Villas (UCLV) como parte de la culminación de los estudios de Licenciatura en Ciencia de la Computación, autorizando a que el mismo sea utilizado por la institución para los fines que estime conveniente, tanto de forma total como parcial y que además no podrá ser presentado en eventos ni publicado sin la previa autorización de la UCLV.. ______________________________ Firma del Autor. Los abajo firmantes, certificamos que el presente trabajo ha sido realizado según acuerdo de la dirección de nuestro centro y que el mismo cumple con los requisitos que debe tener un trabajo de esta envergadura referido a la temática señalada.. ______________________________. ______________________________. Firma del Tutor. Firma del Tutor. ________________________ Jefe del Seminario de Inteligencia Artificial.

(3) Pensamiento. "El. futuro tiene muchos nombres. Para los débiles es lo inalcanzable. Para los temerosos, lo desconocido. Para los valientes es la oportunidad." Victor Hugo..

(4) Dedicatoria Katherine. A la memoria de mi papá para que donde quiera que esté se sienta orgulloso de mi. A mi mamá y a mi hermana por estar ahí..

(5) Dedicatoria Ariel. A mis padres..

(6) Agradecimientos Katherine. Agradezco a todas las personas que han contribuido al desarrollo de este trabajo: A mi papá que ya no está pero mientras estuvo fue mi principal guía y ejemplo para todo en la vida. A mi mamá y a mi hermana por todo el apoyo que me han brindado, por los consejos y la preocupación. A mi novio Ariel por soportarme y comprenderme. A mis tutores Leticia y Mario, por su orientación y su paciencia hacia mi persona. A Alejandro Geraldo Gómez Boix por prestarnos su ayuda cuando lo necesitamos. A Damny Magdaleno por su colaboración. A todos mis amigos de la carrera por haber compartido juntos estos 5 años, lo mismo en los momentos gratos que en los difíciles..

(7) Agradecimientos Ariel. A todas las personas que han contribuido con el desarrollo de este trabajo: A mis padres por el sacrificio de toda una vida para yo poder graduarme y por estos años de apoyo incondicional. A mi hermano por apoyarme y servirme de ejemplo como profesional. A mi novia Katherine por quererme y por saber guiarme cuando estaba medio perdido. A mis tutores Leticia y Mario, por su dedicación hacia mi persona. A mis tíos Coralia y Roberto por estar pendiente todo el tiempo de mí y por su apoyo. A mis primas Yaimara y Yanisleydis por su apoyo. A Alejandro Geraldo Gómez Boix por prestarnos su ayuda cuando lo necesitamos. A Damny Magdaleno por toda su ayuda brindada. A todos mis amigos de la carrera por haber compartido juntos estos 5 años, lo mismo en los momentos gratos que en los difíciles. A todos mis viejas amistades por estar ahí cuando lo necesité..

(8) Resumen. Resumen El lenguaje natural es ambiguo, por lo que muchas palabras pueden interpretarse de varias maneras, dependiendo del contexto en que se producen. De ahí que tiene gran desarrollo en la actualidad la identificación computacional del significado de las palabras en su contexto. Los métodos no supervisados para la desambiguación del sentido de las palabras tienen la ventaja que no requieren partir de textos previamente etiquetados; sin embargo, aún presentan deficiencias ya que logran bajos valores de efectividad de la desambiguación y realizan una gran cantidad de iteraciones para desambiguar. Por tal motivo, el objetivo general de la investigación consiste en desarrollar métodos más efectivos y eficientes que permitan desambiguar de manera no supervisada el sentido de las palabras, basados en agrupamientos y en la teoría de los conjuntos aproximados. Los principales resultados obtenidos son: (1) se identificaron los algoritmos existentes ya sean supervisados o no supervisados, que permitan desambiguar el sentido de las palabras, destacándose aquellos no supervisados basados en grafos; (2) se transformó el método propuesto por (Anaya-Sánchez et al., 2007) y se creó el método RST-Disambiguation; (3) se creó la biblioteca UnsupervisedWSD que integra los métodos modificados y el creado; y (4) se validó con el Semcor la exactitud y precisión del algoritmo propuesto evidenciando buenos resultados en la desambiguación de términos.. i.

(9) Abstract. Abstract Natural language is ambiguous. Words can be interpreted in various ways depending on the context. Thus the push today for a computational identification of the meaning of words in their context. Unsupervised meaning-disambiguation methods have the advantage of not requiring prelabeled texts as a starting point. However, they still present deficiencies, as they achieve relatively low values of disambiguation effectiveness and require a large number of iterations to disambiguate. Given the case, the overall objective of this research is to develop more effective and efficient methods to disambiguate the meaning of words, in an unsupervised manner and based in groupings and the rough sets theory. The results obtained were: (1) Identification of the existing algorithms, either supervised or unsupervised, which allow to disambiguate the meaning of the words, making emphasis on unsupervised, graph-based ones (2) Transformation of the method proposed by (Anaya-Sánchez et al., 2007) and creation of the method RSTDisambiguation (3) Creation of the UnsupervisedWSD library that integrates the modified methods and the created one (4) Validation, with Semcor, of the accuracy and precision of the proposed algorithm, with a resulting evidence of good results in the disambiguation of terms. ii.

(10) Tabla de contenidos. Tabla de contenidos Introducción ............................................................................................................................... 1 1.. Aproximaciones y métodos para desambiguar el sentido de las palabras .................... 5 1.1 Selección de los sentidos de las palabras ....................................................................................... 6 1.2 Representación del contexto........................................................................................................... 8 1.3 Fuentes externas de conocimiento y desambiguación basada en el conocimiento....................... 12 1.3.1 Recursos estructurados ...............................................................................................................13 1.3.2 Recursos no estructurados ..........................................................................................................17 1.3.3 Solapamiento de las definiciones de los sentidos ........................................................................19 1.3.4 Enfoques estructurales ................................................................................................................21 1.3.4.1 Enfoques estructurales basado en similitud ................................................................................... 21 1.3.4.2 Enfoques basados en grafos ........................................................................................................... 23. 1.4 Enfoques de desambiguación supervisados ................................................................................. 25 1.5 Enfoques de desambiguación semisupervisados .......................................................................... 28 1.5.1 Bootstrapping ..............................................................................................................................28 1.5.2 Relaciones monosémicas (Monosemous Relatives) ....................................................................29 1.6 Enfoques de desambiguación no supervisados ............................................................................ 30 1.6.1 Agrupamiento por el contexto .....................................................................................................30 1.6.2 Agrupamiento por palabras ........................................................................................................33 1.6.3 Grafos de co-ocurrencias ............................................................................................................34 1.7 Consideraciones finales del capítulo ............................................................................................ 36. 2.. Métodos no supervisados para la desambiguación del sentido de las palabras ......... 37 1.1 Desambiguación del sentido de las palabras basado en el agrupamiento de los sentidos ............ 37 1.2 Modificaciones del método “Desambiguación del sentido de las palabras basado en el agrupamiento del sentido de las palabras” ............................................................................................................ 39 1.2.1 Estrella Generalizado .................................................................................................................39 1.2.2 Estrella Condensado ...................................................................................................................43 2.3 Nuevo método para desambiguar el sentido de las palabras basado en la Teoría de los Conjuntos Aproximados .................................................................................................................................. 52 2.3.1 Elementos principales de la Teoría de los Conjuntos Aproximados ...........................................53 2.3.2 Desambiguación del sentido de las palabras basado en el agrupamiento y los conjuntos aproximados .........................................................................................................................................59 2.4 Conclusiones parciales ................................................................................................................. 60. 3.. Implementación y validación de la efectividad de las propuestas para desambiguar61 3.1 Concepción general de la biblioteca para desambiguar UnsupervisedWSD ................................ 61 3.1.1 Diseño de la biblioteca ................................................................................................................63 3.1.2 Diagrama de clases .....................................................................................................................63 3.2 Ilustrando el funcionamiento los algoritmos de desambiguación ................................................ 66 3.2.1 Ejemplo del funcionamiento de las modificaciones del algoritmo propuesto en (Anaya-Sánchez et al., 2007) ..........................................................................................................................................66 3.2.2 Ejemplo del funcionamiento del algoritmo RST-Disambiguation...............................................67 3.3 Validación de los resultados de los métodos de desambiguación ................................................ 72 3.3.1 Corpus Semcor y biblioteca JSemcor..........................................................................................73 3.3.2 Formato del Semcor ....................................................................................................................74 3.3.3 Validación del algoritmo RST-Disambiguation ..........................................................................75 3.5 Conclusiones parciales ................................................................................................................. 76. iii.

(11) Tabla de contenidos. Conclusiones ............................................................................................................................. 77 Recomendaciones ..................................................................................................................... 79 Referencias bibliográficas ....................................................................................................... 80. iv.

(12) Introducción. Introducción El lenguaje natural es ambiguo, por lo que muchas palabras pueden interpretarse de varias maneras, dependiendo del contexto en que se producen. Por ejemplo, si se analizan las siguientes oraciones: Nosotros encendimos una vela por el día del amor. A ellos les gusta la vela amarilla del barco aquel. Las apariciones de la palabra vela en las dos oraciones denotan claramente diferentes significados: la vela de esperma para iluminarse y la vela de un barco, respectivamente. Desafortunadamente, la identificación del significado específico que asume una palabra en un contexto es sólo aparentemente simple. Mientras que en la mayoría de los casos los seres humanos no pensamos en las ambigüedades del lenguaje, las máquinas deben procesar la información textual estructurada y transformarla en estructuras de datos que deberán ser analizadas con el fin de determinar el significado subyacente. La identificación computacional del significado de las palabras en su contexto se llama Desambiguación del Sentido de las Palabras (Word Sense Desambiguation; WSD) (Navigli, 2009). WSD se ha descrito como un problema de IA-completo (Inteligencia Artificial), siguiendo la analogía con la NP-completitud en teoría de la complejidad, ya que es un problema cuya dificultad es equivalente a resolver los problemas centrales de la Inteligencia Artificial. Su dificultad no se origina a partir de una sola causa, sino más bien de una variedad de factores (Mallery, 1988). La desambiguación del sentido de las palabras se basa en gran medida en el conocimiento. De hecho, el esquema general de cualquier sistema de WSD se puede resumir de la siguiente manera: dado un conjunto de palabras, se aplica una técnica que hace uso de una o más fuentes de conocimiento para asociar los sentidos más adecuados de las palabras en el contexto. Las fuentes de conocimiento pueden variar, se pueden utilizar corpus ya sea marcados o anotados con los sentidos de las palabras, también es posible aplicar recursos estructurados como los diccionarios de lectura mecánica, redes semánticas, etc. Sin el conocimiento, sería imposible para los seres 1.

(13) Introducción. humanos y para las máquinas identificar el significado de palabras ambiguas. No obstante, algunas aproximaciones siguen un enfoque puramente no supervisado. Desafortunadamente, la creación manual de recursos de conocimientos es un esfuerzo costoso y consume tiempo (Ng, 1997) y debe actualizarse cada vez que cambia el escenario de desambiguación; por ejemplo, con la presencia de nuevos dominios y de diferentes idiomas. El crecimiento exponencial de la comunidad de Internet, junto con el desarrollo a un gran ritmo de varias áreas de la tecnología de la información (Information Technology; IT), ha llevado a la producción de una gran cantidad de datos no estructurados, como almacenes de datos, páginas web, colecciones de artículos científicos, etc. Como resultado, existe una necesidad cada vez mayor del tratamiento de esta masa de información a través de métodos automáticos. Las técnicas tradicionales para la minería de textos muestran sus límites cuando se aplican a grandes colecciones de datos; ya que, en su mayoría realizan un análisis léxico-sintáctico del texto y no van más allá de la apariencia superficial de las palabras y, en consecuencia, fallan en la identificación de la información relevante formulada con diferentes redacciones y al descartar los documentos que no son pertinentes a las necesidades de los usuarios. La desambiguación de palabras proporciona un gran avance en el tratamiento de cantidades masivas de datos y contribuye. significativamente. a. la. Web. semántica. (Berners-Lee. et. al.,. 2001).. La WSD también contribuye significativamente a la traducción automática; por ejemplo, la palabra run del Inglés puede ser traducida al Español como correr, discurrir, presentar, funcionar, llorar, usar, ejecutar y echar dependiendo del contexto. Existen muchos casos, como este, en los que la desambiguación puede desempeñar un papel crucial en la traducción automática de textos. Un área de aplicación reciente de la WSD es la Minería de Opinión (Opinion Mining; OM) donde es necesario desambiguar las palabras para detectar la verdadera polaridad de las opiniones (Martín-Wanton and Pons-Porrata, 2007). Generalmente la WSD se aplica como una tarea intermedia del procesamiento del lenguaje natural, la minería de textos y de opinión, ya sea como un módulo independiente o bien integrado a una aplicación. La forma de evaluar la WSD constituye aún un área de investigación abierta, aunque diferentes trabajos y propuestas se han publicado sobre el tema (Tsatsaronis et al., 2007, Brody et al., 2006, Banerjee and Pedersen, 2003, Yarowsky and Florian, 2002).. 2.

(14) Introducción. Los resultados de los últimos análisis comparativos de evaluaciones de los sistemas de WSD, muestran que la mayoría de los métodos de desambiguación tienen limitaciones inherentes en términos, entre otros, de rendimiento y capacidad de generalización cuando se emplean las distinciones de sentido. Por otro lado, el aumento de la disponibilidad de una amplia cobertura, los ricos recursos de conocimientos léxicos, así como la construcción de grandes inventarios de los sentidos, parece abrir nuevas oportunidades para los enfoques de desambiguación, especialmente cuando se pretende semánticamente que permitan aplicaciones en el área de la tecnología del lenguaje humano. La Desambiguación del Sentido de las Palabras es un problema muy complejo, y es por eso que varios investigadores se han dedicado a formalizar métodos que permitan desambiguar de manera supervisada o no supervisada el sentido de las palabras. Los algoritmos supervisados son los que han logrado los mejores resultados. Sin embargo, las grandes cantidades de información requeridas para desambiguar un vocablo superan la capacidad de procesamiento de estos métodos. Por otro lado, la mayoría de los métodos no supervisados solo logran valores bajos de efectividad de la desambiguación de los sentidos correctamente identificados; lo cual justifica el planteamiento del problema de investigación siguiente: Los métodos no supervisados para la desambiguación del sentido de las palabras tienen la ventaja que no requieren partir de textos previamente etiquetados; sin embargo, aún presentan deficiencias ya que logran bajos valores de efectividad de la desambiguación y realizan una gran cantidad de iteraciones para desambiguar. El objetivo general de la investigación consiste en desarrollar métodos más efectivos y eficientes que permitan desambiguar de manera no supervisada el sentido de las palabras, basados en agrupamientos y en la teoría de los conjuntos aproximados. Este se desglosa en los siguientes objetivos específicos: 1. Identificar los algoritmos existentes ya sean supervisados o no supervisados, que permitan desambiguar el sentido de las palabras. 2. Transformar métodos existentes y crear nuevos que permitan desambiguar de manera no supervisada el sentido de las palabras logrando mayor eficiencia y efectividad.. 3.

(15) Introducción. 3. Desarrollar una biblioteca que incorpore los algoritmos de desambiguación transformados y creados. 4. Evaluar los métodos de desambiguación implementados. Las preguntas de investigación planteadas son: . ¿Cuáles son las principales desventajas de los algoritmos existentes para la desambiguación del sentido de las palabras, que hacen que sean poco efectivos y eficientes?. . ¿La Teoría de los Conjuntos Aproximados contribuirá a mejorar la efectividad de métodos de desambiguación no supervisados basados en agrupamientos?. La tesis está estructurada en tres capítulos. En el Capítulo 1 se presentan las principales aproximaciones y métodos para desambiguar el sentido de las palabras, especificando las etapas principales en la desambiguación que son: la selección de los sentidos de las palabras, la representación del contexto, las fuentes externas de conocimiento, desambiguación basada en el conocimiento, y la desambiguación supervisada, semisupervisada y no supervisada. En el segundo capítulo se presentan modificaciones realizadas a métodos no supervisados para la desambiguación del sentido de las palabras así como una nueva propuesta que combina los métodos basados en grafos y la teoría de los conjuntos aproximados. En el Capítulo 3 se presenta la concepción general de la biblioteca para desambiguar UnsupervisedWSD así como la validación e ilustración del funcionamiento de los principales métodos modificados y creados. Este documento culmina con las conclusiones, recomendaciones y referencias bibliográficas.. 4.

(16) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. 1. Aproximaciones y métodos para desambiguar el sentido de las palabras La. desambiguación. del. sentido. de. las. palabras. es. la. capacidad. de. determinar. computacionalmente qué sentido de una palabra es activado por su uso en un contexto particular. La WSD se realiza generalmente en uno o más textos. Si se hace caso omiso a la puntuación, se puede ver un texto. como una secuencia de palabras. , y describir formalmente. WSD como la tarea de asignar el sentido apropiado para todas o algunas de las palabras en , es decir, identificar la correlación de cada una de las palabras a los sentidos, tal que , donde por palabra. ,y. es el conjunto de sentidos codificados en un diccionario es un subconjunto de los sentidos de. que son apropiados en el contexto. . En esta correspondencia entre palabras y sentidos, se puede asignar más de un sentido a cada palabra |. |. , aunque normalmente sólo se selecciona el sentido más apropiado, es decir, (Agirre and Edmonds, 2006).. WSD puede ser vista como una tarea de clasificación, donde los objetos son las palabras a desambiguar y las clases los sentidos posibles de las palabras. La clasificación consiste en asignar uno o más sentidos a cada palabra. Para ello, es necesario tener en cuenta los cuatro elementos principales de la WSD (Navigli, 2009): 1. La selección de los sentidos de la palabra. 2. El uso de fuentes externas de conocimiento. 3. La representación del contexto. 4. La selección de un método de aprendizaje automático. Adicionalmente, se pueden distinguir dos variantes de aplicación de la WSD considerando el conjunto de palabras sobre el cual es aplicada (Agirre and Stevenson, 2006, Fellbaum, 2010). . Muestra léxica o WSD dirigida: se realiza la desambiguación sobre un conjunto limitado de palabras objetivo, generalmente una palabra objetivo por oración. Métodos. 5.

(17) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. supervisados se emplean típicamente en este contexto, ya que pueden ser entrenados utilizando un conjunto de casos etiquetados manualmente. . Todas las palabras: se realiza la desambiguación de todas las palabras en el texto; por ejemplo, sustantivos, verbos, adjetivos y adverbios. Esta variante requiere el empleo de métodos semisupervisados y no supervisados, ya que los supervisados pueden sufrir el problema de la escasez de datos, ya que es poco probable que se disponga de un conjunto de entrenamiento de tamaño adecuado y que abarque el léxico completo de la lengua de interés.. En este capítulo se presentarán y analizarán los principales métodos que permiten la selección de los sentidos de las palabras, las variantes que existen para utilizar las fuentes externas de conocimiento, las principales formas de representación del contexto, así como los métodos de aprendizaje automático más utilizados en los procesos de desambiguación, analizando las técnicas supervisadas, semisupervisadas y no supervisadas. 1.1 Selección de los sentidos de las palabras El sentido de una palabra es comúnmente aceptado como el significado de la palabra. Por ejemplo, si se consideran las dos oraciones siguientes: (1) Se cortaron las verduras con un cuchillo de chef. (2) Un hombre fue golpeado y cortado con un cuchillo. La palabra cuchillo se utilizó en las oraciones anteriores con dos sentidos diferentes: en la primera oración como una herramienta y en la segunda como un arma. Los dos sentidos están claramente relacionados, ya que posiblemente se refieren al mismo objeto; sin embargo, los usos previstos del objeto son diferentes. Este ejemplo evidencia que la determinación del inventario de sentidos de una palabra es un problema clave en la desambiguación: ¿Tenemos la intención de asignar diferentes clases para las apariciones de cuchillo en las oraciones (1) y (2)? Un inventario de sentidos divide el rango de significados de una palabra en sus sentidos (Fellbaum, 2010). Los sentidos de una palabra no se pueden discretizar fácilmente, es decir, reducir a un conjunto discreto de entradas finitas donde cada uno codifica un significado distinto. La razón principal de esta dificultad proviene del hecho de que el lenguaje es inherentemente 6.

(18) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. sujeto a cambios y a la interpretación. Por ejemplo, considerando el inventario de sentidos para el sustantivo knife que retorna WordNet: Knife n. 1. A cutting tool composed of a blande with a sharp point and a handle. 2. An instrument with a handle and blade with a sharp point used as a weapon. Cabe preguntarse: ¿Es necesario añadir un sentido más al inventario que haga referencia a una hoja de corte que forma parte de una máquina, o ya el primer sentido retornado por WordNet lo incluye? Como resultado de estas incertidumbres, diferentes elecciones se harán en diferentes diccionarios. WSD pretende hacer explícito el significado subyacente de las palabras en su contexto de manera computacional. Por lo tanto, generalmente se sigue un enfoque enumerativo, ya que los sentidos se enumeran en el inventario de sentidos. Todos los diccionarios en papel y legibles por máquinas tradicionales adoptan el enfoque enumerativo. No obstante, este no es el único enfoque que existe, ya que para determinar aplicaciones resulta de interés dividir o agrupar elementos de los sentidos, es decir, organizar los sentidos en un diccionario. Para dar respuesta a este interés surgió la aproximación generativa (Pustejovsky, 1991, Pustejovsky, 1995), en la que los sentidos relacionados son generados por las normas de las regularidades de captura en el creación de sentidos. Otra justificación dada para este último enfoque es que no es posible limitar la expresividad siempre cambiante de una palabra dentro de un conjunto predeterminado de sentidos (Kilgarriff, 1997, Kilgarriff, 2006). Otros enfoques que apuntan a distinciones más borrosas de los sentidos incluyen métodos para la inducción de sentidos, que se discuten en la Sección 1.6, y, más por razones lingüísticas, pruebas de ambigüedad sobre la base de criterios lingüísticos (Cruse, 1986). En esta tesis se adopta el enfoque enumerativo, dada su amplia adopción en la comunidad investigativa sobre desambiguación semántica. Se formaliza la asociación de distinciones sensoriales discretas con las palabras codificadas en un diccionario D según la función (1.1): (1.1) donde. es el léxico, es decir, el conjunto de palabras codificadas en el diccionario es el conjunto de las partes de la clase abierta del habla; sustantivos, adjetivos, 7.

(19) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. verbos y adverbios, respectivamente, y diccionario de .. indica el conjunto potencia de sus conceptos.. Denotaremos una palabra tenemos. es el conjunto de etiquetas de conceptos en el. con. donde. es la parte de la oración. . Por lo tanto, dada una palabra etiquetada. abreviamos. como. , es decir,. como parte del discurso,. , que codifica los sentidos de. conjunto de los diferentes significados que se suponen para denotar a diferentes. como un dependiendo. del contexto en el que co-ocurren. Una palabra |. es monosémica cuando se puede transmitir un solo significado, es decir, |. . Por ejemplo, blusan es una palabra monosémica, ya que denota un solo. sentido, una prenda de vestir femenina. Por el contrario,. es polisémica si puede transmitir más. significados; por ejemplo, carreran como una competición, como un concurso de velocidad, conjunto de cursos sobre una especialidad dada, una anotación en el beisbol, etc. Los sentidos que pueden transmitir una palabra homónimos; por ejemplo,. (por lo general Etimológicamente) son significados ajenos como un concurso vs. como una anotación en el. beisbol. Por último, se denota el i-ésimo sentido de una palabra w como parte del discurso p como 1.2 Representación del contexto Como el texto es una fuente no estructurada de la información, para que sea un insumo adecuado para un método automático por lo general se transforma en un formato estructurado. Para este fin, usualmente se realiza un pre-procesamiento del texto de entrada, que por lo general, pero no necesariamente, incluye los siguientes pasos (Bobillo et al., 2008): . Tokenización: es una etapa de normalización, en la que se divide el texto en un conjunto de símbolos, por lo general en palabras.. . Etiquetado como parte del discurso: es la asignación de una categoría gramatical a cada palabra. Por ejemplo: “the/DT bar/NN was/VBD crowded/JJ,” donde DT, NN, VBD y JJ son etiquetas para determinantes, sustantivos, verbos y adjetivos, respectivamente.. 8.

(20) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. . Lematización: es la reducción de variantes morfológicas a su forma raíz. Por ejemplo: was → be, bars → bar.. . Chunking: consiste en dividir un texto en partes sintácticamente correlacionadas. Por ejemplo: [the bar] NP [was crowded] VP, donde NP indica el sintagma nominal y VP el sintagma verbal.. . Análisis: consiste en identificar la estructura sintáctica de una oración, por lo general involucrando la generación de un árbol de análisis de la estructura de la oración.. Figura 1.1 Un ejemplo de pasos para el pre-procesamiento de una oración (Navigli, 2009).. En la Figura 1.1 se presenta un ejemplo del flujo de procesamiento de la oración The bar was crowded. La representación de una palabra en el contexto es el apoyo principal, junto con los recursos adicionales de conocimientos, que permiten a los métodos automáticos elegir el sentido adecuado a partir de un inventario de referencia. 9.

(21) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. Se elige un conjunto de características para representar el contexto. Este incluye la información resultante de los pasos de pre-procesamiento antes mencionados, como parte de etiquetas del discurso, relaciones gramaticales, lemas, etc. Las características para representar el contexto se agrupan de la siguiente manera (Navigli, 2009): . Características locales: Representan el contexto local de un uso de la palabra, es decir, las características de una pequeña cantidad de palabras en torno a la palabra objetivo, incluyendo parte de las etiquetas del discurso, formas de las palabras, las posiciones con respecto a la palabra objetivo, etc.. . Características tópicas: Definen el tema general de un texto o discurso, por lo que representan contextos más generales (por ejemplo, una ventana de palabras, una oración, una frase, un párrafo, etc.), por lo general como bolsas de palabras.. . Características sintácticas: Representan señales sintácticas y la relación entre la palabra objetivo y otras palabras en la misma oración.. . Características semánticas: Representan la información semántica, como sentidos previamente establecidos de palabras en el contexto, los indicadores de dominio, etc.. Cada ocurrencia de una palabra se puede convertir en un vector de características. Por ejemplo, en la Tabla 1.1 se muestran los vectores de características asociados a las oraciones (3) y (4): (3) The bank cashed my check, and (4) we sat along the bank of the Tevere River, donde bank es la palabra objetivo, y los vectores incluyen cuatro características locales de las etiquetas de las dos palabras de la izquierda y de la derecha de la palabra bank y una etiqueta de clasificación de sentido, para la primera oración finance y para la segunda shore. Tabla 1.1 Ejemplo de la función de vectores para dos oraciones dirigidas por el sustantivo bank. Oración. Etiqueta de sentido. (3). -. Artículo. Verbo. Pronombre. FINANCE. (4). Preposición. Artículo. Preposición. Artículo. SHORE. 10.

(22) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. Existen varias formas de seleccionar el contexto de las palabras objetivo que se desean desambiguar. En la Tabla 1.2 se muestran ejemplos de diferentes tamaños de contextos, donde se identificó a bar como la palabra objetivo. Una forma de definir el contexto es trabajando con los n-gramas. Se dice n-grama a una secuencia de n palabras que incluye la palabra objetivo. Al definir el contexto considerando los n-gramas se pueden tener en cuenta varias opciones sobre la base de la posición de las palabras circundantes (a la izquierda o a la derecha de la palabra objetivo), así, una ventana de tamaño ± n es un (. )-grama en torno al etiquetado de la. palabra. También, se toma frecuentemente a una oración o un párrafo como el contexto de una palabra objetivo. Tabla 1.2 Diferentes tamaños para los contextos de las palabras. Tamaño del contexto Unigramas Bigramas. Ejemplos de contextos … bar … … friendly bar … … bar and … … friendly bar and …. Trigramas. … bar and a … … and friendly bar …. Ventana (tamaño ± n) - gramas Oración. … warm and friendly bar and a cheerful … (. ). … area, a warm and friendly bar and a cheerful dining room … (. ). There is a lounge area, a warm and friendly bar and a cheerful dining room. This is a very nice hotel. There is a lounge area, a warm and friendly bar. Párrafo. and a cheerful dining room. A buffet style breakfast is served in the dining room between 7 A.M. and 10 A.M.. Existen otras formas de representar el contexto, las llamadas estructuradas, entre ellas se encuentran las que utilizan árboles o grafos (Véronis, 2004, Mihalcea and Faruque, 2004, Navigli et al., 2005, Purandare and Pedersen, 2004). Estas formas de representación del contexto han sido ampliamente utilizadas en los métodos no supervisados, ya que pueden explotar plenamente las interrelaciones léxicas y semánticas entre los conceptos codificados en redes semánticas y léxicos computacionales. Por otro lado, la literatura refiere que las representaciones planas, tales como vectores de contexto, son más adecuadas para los métodos de desambiguación supervisados 11.

(23) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. (Purandare and Pedersen, 2004). No obstante, en los algoritmos de desambiguación que en esta tesis se proponen se trabajará con una representación plana del contexto, considerando la oración como contexto, y con métodos no supervisados para la clasificación, ya que de esta forma se desambigua más rápido y por tanto se pueden dar soluciones que se integren a aplicaciones que requieran inmediatez en el análisis; además, es más fácil la comunicación con los recursos de conocimiento existentes. La elección del tamaño apropiado del contexto, tanto en representaciones estructuradas como no estructuradas, es un factor importante en el desarrollo de un algoritmo de WSD (Yarowsky and Florian, 2002, Cuadros and Rigau, 2006). La oración es un tamaño adecuado para representar el contexto en representaciones planas, es por eso que utilizamos la oración como tamaño del contexto. Además, los algoritmos que en esta tesis se proponen se aplicarán a la detección de la polaridad de las opiniones, por tanto, la oración se reafirma como el contexto a tener en cuenta en el análisis. 1.3 Fuentes externas de conocimiento y desambiguación basada en el conocimiento Existen métodos de desambiguación que se basan en el conocimiento y su objetivo es precisamente explotar los diccionarios, tesauros u ontologías para inferir los sentidos de las palabras en su contexto. Estos métodos suelen tener un rendimiento inferior al de sus alternativas supervisadas, pero tienen la ventaja de una cobertura más amplia, gracias a la utilización de los recursos de conocimiento a gran escala. Las primeras aproximaciones de WSD basadas en el conocimiento hasta la fecha se remontan a los años 1970 y 1980, cuando se llevaron a cabo experimentos en dominios extremadamente limitados (Kelly and Stone, 1975). El escaso desarrollo de recursos computacionales impidió una adecuada evaluación, comparación y explotación de esos métodos a gran escala. En la actualidad existen excelentes fuentes externas de conocimiento, ya que el conocimiento es un componente fundamental de WSD. Las fuentes de conocimiento proporcionan datos que son esenciales para asociar los sentidos con las palabras. A continuación haremos referencia a las principales fuentes externas de conocimiento, clasificadas en estructuradas y no estructuradas (Ide and Véronis, 1998, Agirre and Edmonds, 2006, Litkowski, 2005).. 12.

(24) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. 1.3.1 Recursos estructurados Entre los recursos estructurados se encuentran los tesauros, los diccionarios accesibles desde computadoras y las ontologías. . Tesauros: Proporcionan información sobre las relaciones entre las palabras, como la sinonimia y antonimia (Kilgarriff and Yallop, 2000). Los tesauros de gran uso en el campo de la WSD son el tesauro internacional de Roget (Roget, 1911), que contiene 250 000 entradas de palabras organizadas en seis clases y cerca de 1 000 categorías y el tesauro de Macquarie (Bernard, 1986), que codifica más de 200 000 sinónimos.. . Diccionarios accesibles automáticamente (Machine Readable Dictionary; MRD): Se han convertido en una fuente popular de conocimiento para el procesamiento del lenguaje natural desde la década de 1980, cuando se pusieron a disposición los primeros diccionarios en formato electrónico, entre ellos el diccionario Oxford (Soanes, 2003), el diccionario Longman (Proctor, 1978). Este último ha sido uno de los diccionarios de lectura mecánica más utilizados dentro de la comunidad de investigadores. de. procesamiento de lenguaje natural (Wilks and Stevenson, 1996), antes de la difusión de WordNet (Miller et al., 1990) que es el recurso más utilizado para la desambiguación del sentido de las palabras en Inglés (Fellbaum, 1998). WordNet es a menudo considerado un paso más allá de los MRD comunes, ya que codifica una rica red semántica de conceptos. . Ontologías: Son especificaciones de conceptualizaciones de dominios de. interés. específicos (Gruber, 1995). Por lo general incluyen una taxonomía y un conjunto de relaciones semánticas. WordNet y sus extensiones pueden ser considerados como ontologías, así como la ontología Omega (Philpot et al., 2005) que es un esfuerzo para reorganizar y conceptualizar WordNet, y la ontología superior SUMO (Pease et al., 2002). A continuación describiremos en detalles uno de los principales recursos estructurados: WordNet. WordNet WordNet (Miller et al., 1990, Fellbaum, 1998) es un léxico computacional del Inglés basado en principios psicolingüísticos. Fue creado en la Universidad de Princeton1. Codifica conceptos en. 1. http://wordnet.princeton.edu.. 13.

(25) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. términos de conjuntos de sinónimos llamados synsets. Su última versión, WordNet 3.0, contiene alrededor de 155 000 palabras organizadas en más de 117 000 synsets. Por ejemplo, el concepto car se expresa con el siguiente synset, donde el superíndice denota el identificador de sentidos de las. palabras. y. el. subíndice. {. denota. la. etiqueta. de. la. parte. del. discurso:. }.. Figura 1.2 Un fragmento de la red semántica WordNet.. Podemos ver un synset como un conjunto de palabras que expresa todos los sentidos (aproximadamente) de un mismo significado. De acuerdo con la notación introducida en la Sección 1.1, la función (1.2) asocia cada palabra etiquetada como parte del discurso. con el. conjunto de sus sentidos en WordNet: (1.2) donde Synsets es todo el conjunto de synsets en WordNet. Por ejemplo:. 14.

(26) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. Cada sentido de la palabra identifica unívocamente un solo synset. Por ejemplo, corresponde al synset. se determina de. manera unívoca. En la Figura 1.2 se presenta un fragmento de la red semántica de WordNet que contiene el synset . . Para cada synset, WordNet proporciona la siguiente información:. Una glosa, es decir, una definición textual del synset posiblemente con un conjunto de ejemplos de uso. Por ejemplo, la glosa asociada a. contiene: a 4-wheeled motor. vehicle; usually propelled by an internal combustion engine; he needs a car to get to work2. . Relaciones léxicas y semánticas, las cuales conectan pares de sentidos de palabras y synsets, respectivamente. Mientras que las relaciones semánticas se aplican a los synsets en su totalidad, las relaciones léxicas conectan sentidos de palabras incluidos en los respectivos synsets. Relaciones léxicas: o Antonimia: X es un antónimo de Y si expresa el concepto opuesto. Por ejemplo,. es el antónimo de. . La antonimia se sostiene para todas las. partes del discurso. o Pertenencia: X es un adjetivo que se puede definir como "de o perteneciente a" un sustantivo (o, rara vez, otro adjetivo) Y. Por ejemplo,. pertenece a. .. o Nominalización: un sustantivo X nominaliza un verbo Y. Por ejemplo, nominaliza el verbo. .. Relaciones semánticas: o Hiperonimia (también llamado tipo-de o es-una): Y es una hiperonimia de X si cada X es un (tipo de) Y. Por ejemplo,. es una hiperonimia de. . La hiperonimia se mantiene entre pares de synsets nominales o verbales. 2. Recientemente, la universidad de Princeton realizó el Princeton WordNet Gloss Corpus, un corpus de glosas con sentidos anotados manual y automáticamente de WordNet 3.0, disponible desde el sitio Web de WordNet.. 15.

(27) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. o Hiponimia y troponimia: son las relaciones inversas de hiperonimia para synsets nominales y verbales, respectivamente. o Meronimia (también llamado parte-de): Y es un merónimo de X si Y es una parte de X. Por ejemplo,. es un merónimo de. . La meronimia tiene sólo. synsets nominales. o Holonimia: Y es un holónimo de X si X es una parte de Y (la inversa de meronimia). o Vinculación: un verbo Y se implica por un verbo X si con X debe estar haciendo Y. Por ejemplo,. implica. .. o Similitud: un adjetivo X es similar a un adjetivo Y. Por ejemplo, similar a. es. .. o Categorías: un sustantivo X es un atributo para el que un adjetivo Y expresa un valor. Por ejemplo,. es un valor de. .. (Magnini and Cavaglia, 2000) desarrollaron un conjunto de etiquetas de dominio de los synsets de WordNet3. Los Synsets de WordNet han sido semiautomáticamente anotados con una o más etiquetas de dominio de un conjunto predefinido de alrededor de 200 etiquetas de la Clasificación Decimal Dewey; además, existe una etiqueta genérica (Factótum) que se utiliza cuando la información de dominio no está disponible. Las etiquetas se organizan en una estructura jerárquica. La Figura 1.3 muestra un fragmento de la taxonomía del dominio. Dada su amplia difusión dentro de la comunidad de investigación, WordNet puede ser considerado un estándar hecho para la WSD en Inglés. Tras su éxito, wordnets de varios idiomas se han desarrollado y vinculado al Princeton WordNet original. El primer esfuerzo en este sentido se hizo en el contexto del proyecto EuroWordNet (Vossen, 1998), que proporciona una alineación interlingüística entre wordnets nacionales. Hoy en día hay varias iniciativas en curso para crear, enriquecer, y mantener wordnets para diferentes idiomas, como MultiWordNet (Pianta. 3. Las etiquetas de dominio IRST están disponibles en http://wndomains.itc.it.. 16.

(28) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. et al., 2002) y BalkaNet (TufiŞ et al., 2004). Se fundó la Asociación Global de WordNet4 para compartir y enlazar wordnets para todos los idiomas del mundo.. Figura 1.3 Un fragmento del dominio de las etiquetas taxonómicas de WordNet.. 1.3.2 Recursos no estructurados Los corpora son colecciones de textos utilizados para modelos del lenguaje de aprendizaje. El sentido de un corpus puede ser anotado o crudo, es decir, sin etiquetas. Los corpora, tanto anotado o no, son considerados recursos para desarrollar WSD. Los primeros son más útiles en los métodos supervisados, mientras que los segundos se utilizan más en los no supervisados. Los principales ejemplos de corpora con sentidos anotados son: Semcor (Miller et al., 1993) que es el más grande y más usado corpus de sentido etiquetado, incluye 352 textos etiquetados con alrededor de 234.000 sentidos anotados; MultiSemCor (Pianta et al., 2002) es un corpus paralelo Inglés-Italiano con sentidos anotados de las versiones en Inglés y en Italiano de WordNet; el corpus Line-hard-serve. (Leacock et al., 1993) que contiene 4 000 ejemplos de sentidos. etiquetados de sustantivos, adjetivos y verbos respectivamente; el corpus DSO (Ng and Lee, 1996) producido por la Organización de Ciencia de Defensa (Defense Science Organisation; DSO) de Singapur, que incluye 192 800 fichas de los sentidos etiquetados de 191 palabras del. 4. http://www.globalwordnet.org. 17.

(29) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. corpus Brown and Wall Street Journal; el corpus Open Mind Word Expert (Chklovski and Mihalcea, 2002) donde se anotaron semánticamente por usuarios de la web en un esfuerzo de colaboración 288 nombres. La mayoría de estos corpora fueron etiquetados utilizando diferentes versiones del inventario de sentidos de WordNet. Algunos corporas como LDOCE y Senseval-1 fueron etiquetados con el inventario de sentidos HECTOR, un léxico y un corpus creados por el proyecto Press/Digital de la Universidad de Oxford (Atkins, 1993). Los principales ejemplos de corpora sin anotación son: el corpus Brown (Ku and Francis, 1967) que tiene millones de palabras en una colección equilibrada de los textos publicados en los Estados Unidos en 1961; el corpus nacional británico (British National Corpus; BNC) (Clear, 1993) es una colección de 100 millones de palabras escritas y ejemplos hablados del idioma Inglés y es a menudo utilizado para recoger frecuencias de palabras e identificar las relaciones gramaticales entre las palabras; el corpus Wall Street Journal (WSJ) (Charniak et al., 2000) es una colección de aproximadamente 30 millones de palabras del WSJ, el Corpus. Nacional. Americano (Ide and Suderman, 2006) que incluye 22 millones de palabras escritas y habladas de Inglés Americano; y el corpus Gigaword que es una colección de 2 mil millones de palabras de texto periodístico (Graff et al., 2003). Los recursos de colocación son otra fuente de recursos no estructurados donde se registra la tendencia de aparición de las palabras en un texto. Algunos ejemplos de estos recursos son: Word Sketch Engine5, JustTheWord6, The British National Corpus collocations7, The Collins Cobuild Corpus Concordance8. Recientemente, se ha publicado un gran conjunto de datos de coocurrencias de textos, las cuales han ganado rápidamente una gran popularidad en la comunidad WSD. Un exponente de este tipo de corpus es Web1T (Brants and Franz, 2006) que contiene las frecuencias para las secuencias de hasta cinco palabras en un corpus de un billón de palabras derivadas de la Web. A continuación describiremos el corpus Semcor que es uno de los recursos no estructurados más utilizados.. 5. http://www.sketchengine.co.uk. http://193.133.140.102/JustTheWord. 7 Disponible a través del sistema SARA desde http://www.natcorp.ox.ac.uk 8 http://www.collins.co.uk/Corpus/CorpusSearch.aspx. 6. 18.

(30) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. Semcor Semcor (Miller et al., 1993) es un subconjunto del Corpus Brown (Ku and Francis, 1967) donde el contenido de las palabras se ha anotado manualmente como parte de las etiquetas del discurso, lemas, y los sentidos de las palabras del inventario de WordNet. Semcor se compone de 352 textos: en 186 textos todas las palabras de clase abierta, es decir, sustantivos, verbos, adjetivos y adverbios, se anotan con esta información, mientras que en los 166 textos restantes sólo los verbos están semánticamente anotados con los sentidos de las palabras. En general, SemCor comprende una muestra de alrededor de 234 000 palabras semánticamente anotadas, lo que constituye el mayor corpus de sentidos etiquetados para entrenar clasificadores de sentidos para desambiguar de manera supervisada. En la Figura 1.4 se muestra un fragmento de este corpus, donde. es anotado en la primera oración con el sentido#2, definido en. WordNet como a brief statement.. Figura 1.4 Un fragmento del corpus semánticamente etiquetado SemCor.. El Semcor original fue anotado de acuerdo con WordNet 1.5; sin embargo, existen anotaciones con versiones superiores de WordNet. 1.3.3 Solapamiento de las definiciones de los sentidos Un enfoque basado en el conocimiento simple e intuitivo es aquel que calcula la superposición de las palabras entre las definiciones del sentido de dos o más palabras objetivo. Este enfoque se denomina superposición de glosa o el algoritmo de Lesk, proveniente del nombre del autor (Lesk, 1986). Dado el contexto de dos palabras. los sentidos de las palabras objetivo cuyas. definiciones tienen el mayor solapamiento, es decir, las palabras en común, se supone que son las correctas. Formalmente, dadas dos palabras. y. , se calcula la puntuación según la expresión. (1.3):. 19.

(31) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. | donde la glosa. (1.3). | es la bolsa de palabras en la definición textual del sentido. de. . Los. sentidos que maximizan la fórmula anterior se asignan a las respectivas palabras. Sin embargo, esto requiere el cálculo de |Senses(. )|•|Senses(. )| de la glosa superpuesta. Si se extiende el. algoritmo para un contexto de n palabras, necesitamos ∏. |. | solapados. Una. variante del algoritmo de Lesk se emplea en la identificación del sentido de una palabra. cuya. definición textual tiene la mayor superposición con las palabras en el contexto de Formalmente, dada una palabra objetivo. , se calcula la puntuación para cada sentido. .. de. según la expresión (1.4): |. |. (1.4). donde context( ) es la bolsa de todas las palabras de contenido en una ventana de contexto alrededor de la palabra objetivo. .. El método original logra entre un 50% y un 70% de precisión, en función de la palabra (Lesk, 1986). Lamentablemente, el enfoque de Lesk es muy sensible a la redacción exacta de definiciones, por lo que la ausencia de una determinada palabra puede cambiar radicalmente los resultados. Además, el algoritmo determina superposiciones sólo entre las glosas de los sentidos que se están considerando. Esta es una limitación significativa ya que en ese diccionario de glosas tienden a ser bastante cortas y no proporcionan suficiente vocabulario para relacionar el sentido de distinciones muy específicas. Barnerjee y Pedersen en (Banerjee and Pedersen, 2003) introdujeron una medida de solapamiento prolongado de las glosas, que amplía las glosas de las palabras que se comparan para incluir glosas de conceptos que se sabe que están relacionados a través de relaciones explícitas en el diccionario; por ejemplo, hiperonimia, meronimia, pertenencia y otras. La gama de relaciones que se utilizan para ampliar las glosas es un parámetro y se puede elegir entre cualquier relación. 20.

(32) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. de combinación de WordNet. Para cada sentido. de una palabra objetivo. se calcula su. puntuación según la expresión (1.5): |. ∑. |. (1.5). donde context( ) es la bolsa del contenido de todas las palabras en una ventana de contexto alrededor de la palabra objetivo un sentido. que es o bien. y gloss. es la bolsa de palabras en la definición textual de. o sentidos relacionados con . El mecanismo de puntuación de. solapamiento también es parametrizado y se puede ajustar para tener en cuenta la longitud de la glosa o la inclusión de palabras funcionales. La desambiguación se beneficia significativamente cuando se utilizan los conceptos relacionados, ya que el algoritmo Lesk original tiene una precisión del 18,3%, mientras que el extendido tiene una del 34,6% (Banerjee and Pedersen, 2002). Sin embargo, este enfoque no compite con los algoritmos que en la actualidad se aplican para desambiguar, ya que los actuales superan estos valores de precisión. 1.3.4 Enfoques estructurales Dada la disponibilidad de los léxicos computacionales como WordNet, una gran cantidad de variantes que siguen un enfoque estructural han sido desarrolladas para analizar y explotar la estructura de la red. Este enfoque consiste en el reconocimiento de patrones tanto en el contexto local como global para clasificar los datos teniendo en cuenta la estructura de las interrelaciones de las características que los describen (Fu, 1982, Bunke and Sanfeliu, 1990). A continuación se presentarán las dos variantes principales de los enfoques estructurales: los basados en similitud y los basados en grafos. 1.3.4.1 Enfoques estructurales basados en similitud Desde que se introdujo WordNet a principios de 1990, se comenzaron a desarrollar varias medidas de similitud semántica para explotar la red de conexiones semánticas entre los sentidos de las palabras. Una medida de similitud semántica se define según la expresión (1.6):. 21.

(33) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. [ donde. ]. (1.6). es el conjunto completo de los sentidos que figuran en un léxico de referencia. A. partir de la expresión (1.6) se ha definido un marco de desambiguación general, de forma tal que se elimina la ambigüedad de una palabra objetivo sentido ̂ de. en un texto. eligiendo el. que maximiza la suma de la contribución del sentido más adecuado de cada. palabra del contexto Estrategias similares especificando umbrales se presentan en (Pedersen et al., 2005). En (Rada et al., 1989) se introdujo una métrica simple basada en el cálculo de la distancia más corta entre pares de sentidos de palabras en WordNet. La hipótesis es que, dado un par de palabras. y. que ocurren en el mismo contexto, la elección de los sentidos que reduzcan al. mínimo la distancia entre ellos se seleccionan como los significados más apropiados. El camino más corto se calcula sobre la taxonomía de WordNet, por lo que se pretende que incluya sólo bordes de hiperonimia. El enfoque que se presenta en (Sussna, 1993) se basa en la observación de que los conceptos de profundidad en una taxonomía; por ejemplo,. parecen. estar relacionados más de cerca a cada uno que a los de la parte superior de la misma taxonomía; por ejemplo,. y. . Una ventaja del sustantivo taxonómico de WordNet es que es. visto como el par de dos aristas dirigidas que representan las relaciones inversas; por ejemplo, tipo-de y tiene-tipo. En (Rada et al., 1989, Leacock and Chodorow, 1998) se presenta una medida de similitud basada en la distancia de dos sentidos, considerando los vínculos de hiperonimia y ampliaron la longitud del camino por la profundidad global. de la taxonomía:. Uno de los problemas de los algoritmos basados en las medidas de distancia o en similitudes es que no toman en cuenta la densidad de los conceptos en la raíz de un subárbol con un ancestro común. Es por ello que en (Agirre and Rigau, 1996) se propuso una medida llamada densidad conceptual, que mide la densidad de los sentidos de una palabra en el contexto de la subjerarquía de un synset específico. La densidad conceptual de un sentido se calcula para todos los hiperónimos de todos los sentidos de los sustantivos en su contexto. La densidad conceptual más alta entre todos los synsets determina un conjunto de opciones de los sentidos. Los sentidos incluidos en su subjerarquía se eligen como interpretaciones de las palabras correspondientes en 22.

(34) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. el contexto. El resto de los sentidos de esas palabras se eliminan de la jerarquía, y el procedimiento se repite entonces para el resto de las palabras ambiguas. En (Resnik, 1995) se introdujo una noción del contenido de la información compartida por las palabras del contexto. La medida propuesta determina la especificidad del concepto que subsume las palabras en la taxonomía de WordNet y se basa en la idea de que, cuanto más específico sea el concepto que subsume dos o más palabras, se sabrá cuanto más semánticamente relacionados se supone que sean. Esta medida, junto con las medidas que se comentarán a continuación, no sólo explota la estructura del diccionario de referencia, sino que también incorpora un tipo adicional de conocimiento a partir del corpus textual. El enfoque que se presenta en (Jiang and Conrath, 1997) también utiliza la noción del contenido de la información. La medida tiene en cuenta el contenido de la información de los dos sentidos, así como la de su antepasado más específico en la taxonomía. Por último, la medida de similitud que se presenta en (Lin, 1998) se basa en su teoría de la similitud entre objetos arbitrarios (Jiang and Conrath, 1997). En (Budanitsky and Hirst, 2006) se presenta un estudio comparativo de estas medidas de similitud y el algoritmo de Lesk. La desambiguación basada en las medidas de similitud tiene una precisión inferior a la obtenida al aplicar el algoritmo de Lesk, que alcanza una precisión de 39.1. La mayor parte de las medidas antes mencionadas se aplican en el paquete WordNet :: Similarity (Pedersen et al., 2004). 1.3.4.2 Enfoques basados en grafos Existen varias propuestas que siguen el enfoque basado en la explotación de los grafos como estructuras para determinar los sentidos más apropiados para las palabras en un contexto. La mayoría de estas propuestas están relacionadas o inspiradas por el concepto de cadenas léxicas. Una cadena léxica (Halliday, 1976, Morris and Hirst, 1991) es una secuencia de palabras relacionadas semánticamente. en un texto, de tal manera que. se relaciona con. por una relación léxico-semántica; por ejemplo, es - un, tiene -partes, etc.. Cadenas léxicas determinan contextos y contribuyen a la continuidad del sentido y la coherencia de un discurso; por. ejemplo,. son. cadenas. léxicas:. Roma→ciudad→habitante,. y. comer→plato→verduras→berenjena. 23.

(35) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. Las cadenas léxicas se han aplicado a varias áreas del procesamiento del lenguaje natural (Morris and Hirst, 1991, Barzilay and Elhadad, 1997, Hirst and St-Onge, 1998). Los algoritmos para el cálculo de las cadenas léxicas a menudo realizan desambiguación antes de inferir que las palabras están semánticamente relacionadas. En la Figura 1.5 se muestran algunas cadenas léxicas en un fragmento de texto.. Figura 1.5 Algunas cadenas léxicas en un fragmento de texto.. Un primer modelo computacional de cadenas léxicas fue introducido por (Hirst and St-Onge, 1998) y consiste en el cálculo de la fuerza de una cadena léxica que conecta dos palabras considerando la distancia más corta entre los dos sentidos en la taxonomía de WordNet y el cálculo de la cantidad de veces que la cadena "cambia de dirección." El cambio de dirección es debido a la utilización de una relación inversa; por ejemplo, pasar de la generalización a la especialización con la alternación de un tipo-de y su inversa tiene-tipo, como se observa en la Figura 1.6.. Tipo-de. Escuela. (a). Escuela Privada. Tipo-de. Manzana. Tipo-de. Tiene-Tipo. Producto. Fruta. Tiene-Tipo. Vegetal. Zanahoria. (b). Figura 1.6 Dos ejemplos de cadenas léxicas. En la cadena (a) no existe cambio de dirección y en la cadena (b) se cambia de Tipo-de por Tiene-Tipo.. 24.

(36) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. Esta forma de desambiguar es inexacta ya que se desambigua de forma ávida la primera vez que se encuentra el término. En (Barzilay and Elhadad, 1997) intentan superar la inexactitud del enfoque original, manteniendo todas las interpretaciones posibles hasta que se hayan considerado todas las palabras que se han encadenado; sin embargo, el cálculo es ineficiente debido al tratamiento de muchas combinaciones posibles de sentidos de palabras en el texto. Esta última desventaja fue superada en la propuesta presentada en (Silber and McCoy, 2000). En (Galley and McKeown, 2003) se presenta un método que consiste en dos etapas. En primer lugar, se construye un grafo representando todas las posibles interpretaciones de las palabras objetivo en cuestión. El texto se procesa de forma secuencial, comparando cada palabra contra todas las palabras leídas previamente. Si existe una relación entre los sentidos de la palabra actual y cualquier posible sentido de una palabra anterior, se establece una conexión entre las palabras y los sentidos apropiados. La intensidad de la conexión está en función del tipo de relación y de la distancia entre las palabras en el texto, en términos de palabras, oraciones y párrafos. Las palabras se representan como nodos en el grafo y las relaciones semánticas como bordes ponderados. En la etapa de desambiguación, todas las apariciones de una palabra dada se recogen juntas. Para cada sentido de una palabra objetivo, la fuerza de todas las conexiones que implican ese sentido se suman, dando a ese sentido una puntuación unificada. El sentido de la más alta puntuación unificada es elegido como el sentido correcto de la palabra objetivo. En etapas posteriores las conexiones reales que comprenden la puntuación unificada ganadora se utilizan como base para el cálculo de las cadenas léxicas. En (Galley and McKeown, 2003) se reportó una exactitud del 62,1% en la desambiguación de nombres de un subconjunto de Semcor. Otros enfoques inspirados en el concepto de cadenas léxicas se presentan en (Harabagiu et al., 1999, Mihalcea and Faruque, 2004, Navigli, 2006a, Navigli, 2006b., Navigli et al., 2005). 1.4 Enfoques de desambiguación supervisados En los últimos años han aumentado las propuestas que aplican técnicas de aprendizaje supervisado al problema de la WSD. Los métodos supervisados realizan la desambiguación de forma automática a partir de modelos o reglas obtenidas a partir de textos anotados previamente. Cuando se habla de textos anotados, nos referimos a textos cuyo contenido ha sido etiquetado de. 25.

(37) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. forma manual. En este caso, la etiquetación se corresponde tanto a la parte de semántica como a la parte sintáctica (Escudero et al., 2000c, Yarowsky, 1995). En líneas generales los pasos a seguir por un método supervisado son los siguientes: 1. Seleccionar un conjunto de ejemplos que muestren las distintas clasificaciones de cada elemento. 2. Identificar patrones asociados a cada elemento. 3. Generalizar los patrones en reglas. 4. Aplicar las reglas para clasificar nuevos elementos. En general, estos enfoques han obtenido mejores resultados que los métodos no supervisados. A continuación se presentan las principales propuestas supervisadas (Manning and Schütze, 1999, Jurafsky and Martin, 2000, Màrquez et al., 2006). Listas de decisión Una lista de decisión es un conjunto ordenado de reglas para la clasificación de los casos de prueba; en el caso de WSD, para asignar el sentido adecuado a una palabra objetivo (Rivest, 1987). Puede verse como una lista de reglas ponderadas “if-then-else”. Un conjunto de entrenamiento se utiliza para inducir un conjunto de características. Como resultado, se crean reglas de la clase (valor característico, el sentido, la puntuación). El orden de estas reglas, en función de su puntuación decreciente, constituye la lista de decisiones. Esta técnica fue la más exitosa en las primeras competiciones de evaluación Senseval (Yarowsky, 2000). En (Agirre and Martinez, 2000) se aplicaron para aliviar el cuello de botella de la adquisición de conocimiento causado por la falta de un corpus etiquetado manualmente. Árboles de decisión Los árboles de decisión no han sido muy utilizados en la WSD, a pesar de estudios muy antiguos como los que se presentan en (Kelly and Stone, 1975, Black, 1988). Los árboles de decisión son superados por otros enfoques supervisados. De hecho, a pesar de que representan el modelo predictivo de una manera compacta y legible, adolecen de varios problemas, como la escasez de datos debido a las características con un gran número de valores y la falta de fiabilidad de las predicciones debido a pequeños conjuntos de formación. 26.

(38) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. Redes Bayesianas Las redes Bayesianas han reportado buenos resultados en la WSD. Esencialmente trabajan con las probabilidades condicionales de la palabra objetivo dado un significado. A pesar de la suposición de independencia, estas redes obtienen buenos resultados al compararlas con los otros métodos supervisados (Mooney, 1996, Bruce and Wiebe, 1999, Leacock and Chodorow, 1998, Ng, 1997, Pedersen, 1998.). Redes neuronales En (Cottrell, 1989.) se emplean las redes neuronales para representar palabras como nodos: las palabras activan los conceptos con los que estén semánticamente relacionados y viceversa. La activación de un nodo provoca la activación de nodos a los que está conectado por enlaces excitadores y la desactivación de aquellos a los que está conectado por enlaces inhibidores. En (Veronis and Ide, 1990) se construyó una red neuronal de las definiciones del Diccionario Inglés Collins. Conectan las palabras a sus sentidos y cada sentido a palabras que aparecen en su definición textual. En (Tsatsaronis et al., 2007) aplicaron con éxito esta idea al incluir todos los sentidos relacionados semánticamente en el recurso de referencia, es decir, WordNet. Varios estudios muestran que las redes neuronales obtienen buenos resultados en la WSD (Leacock et al., 1993, Towell and Voorhees, 1998, Mooney, 1996). Sin embargo, estos experimentos se realizan a menudo en una pequeña cantidad de palabras. Como principales inconvenientes de las redes neuronales están: la dificultad para la interpretación de los resultados, la necesidad de una gran cantidad de datos de entrenamiento, y el ajuste de parámetros. Aprendizaje basado en ejemplos o basado en instancias El aprendizaje basado en ejemplos o en instancias ha sido utilizado para desambiguar palabras, específicamente el algoritmo de los k - vecinos más cercanos (K-NN) ha sido uno de los de mayor rendimiento en WSD (Ng, 1997, Daelemans et al., 1999). El K-NN se basa en los sentidos de los k ejemplos previamente almacenados más similares para desambiguar la palabra objetivo. Se selecciona el conjunto de las k instancias más cercanas y la nueva instancia se prevé que pertenece a la clase, es decir, el sentido, asignado a la mayor cantidad de casos del conjunto de ejemplos similares. En (Daelemans et al., 1999) se plantea que los métodos basados en ejemplos tienden a ser superiores porque no descuidan excepciones y se incluyen nuevos ejemplos que 27.

(39) Capítulo 1. Aproximaciones y métodos para desambiguar el sentido de las palabras. ayudan a la desambiguación (Escudero et al., 2000b, Decadt et al., 2004, Fujii et al., 1998, Hoste et al., 2002, Ng and Lee, 1996). Máquinas de soporte vectorial (Support Vector Machine; SVM) SVM se utiliza para la WSD considerando la clasificación multiclase; es decir, considerando como clases todos los sentidos de una palabra objetivo. Algunas propuestas transforman el problema de clasificación multiclase a un conjunto de clasificaciones binarias asociadas a cada sentido. Como resultado, se selecciona el sentido con la mayor confianza. SVM ha reportado buenos resultados para WSD dentro de las variantes supervisadas (Escudero et al., 2000c, Lee and Ng, 2002, Murata et al., 2001). Métodos combinados Algunas propuestas combinan clasificadores para mejorar la precisión global de la desambiguación, de ahí que utilicen variantes de multiclasificadores y de esta forma superar las debilidades de los enfoques supervisados simples (Klein et al., 2002, Brody et al., 2006, Florian et al., 2002). Con el objetivo de mejorar la calidad de la desambiguación se han combinado los clasificadores individuales siguiendo las estrategias de voto por mayoría (Majority Voting), la mezcla de la probabilidad (Probability Mixture), combinación basada en rankeo (Rank-Based Combination), y AdaBoost. Otros métodos combinados han sido explorados en la literatura, tales como voto ponderado y combinación de máxima entropía (Klein et al., 2002). 1.5 Enfoques de desambiguación semisupervisados El límite entre desambiguación supervisada y no supervisada no siempre es claro, ya que los métodos semisupervisados aprenden de un conjunto de datos parcialmente anotados o anotados con la mínima supervisión humana. Existen dos enfoques semisupervisados para desambiguar: basado en el boostrapping automático de un corpus con una pequeña cantidad de ejemplos etiquetados manualmente y el basado en las relaciones monosémicas(Navigli, 2009). 1.5.1 Bootstrapping El objetivo del bootstrapping es construir un clasificador del sentido con pocos datos de entrenamiento, y así superar los principales problemas de la supervisión: la falta de los datos 28.