• No se han encontrado resultados

Modelo de paráfrasis semántica de similitud de documentos

N/A
N/A
Protected

Academic year: 2020

Share "Modelo de paráfrasis semántica de similitud de documentos"

Copied!
188
0
0

Texto completo

(1)Universidad Politécnica de Madrid Escuela Técnica Superior de Ingenieros Informáticos. Tesis de Fin de Máster. MODELO DE PARÁFRASIS SEMÁNTICA DE SIMILITUD DE DOCUMENTOS MÁSTER UNIVERSITARIO EN INTELIGENCIA ARTIFICIAL Departamento de Inteligencia Artificial Madrid, Julio 2016. Autora. Marı́a Navas Loro Supervisor. Jesús Cardeñosa Lera Grupo de Validación y Aplicaciones Industriales.

(2) What else would be given without explanation? How far could he rely, then, on the knowledge he was gaining? He would have to ask questions constantly, take nothing for granted. There would be so many opportunities to miss the obvious, so many chances to misunderstand, so many ways of taking the wrong path.. The Robots of Dawn, Isaac Asimov. The difficult is what takes a little time; the impossible is what takes a little longer.. Fridtjof Nansen. ii.

(3) Dedicado a .... Ojalá existiese una métrica de agradecimientos que diese a cada uno de los que me aguantan acompañan el peso justo que merece. No obstante, y pese a lo que digan Riemann y Lebesgue, hay cosas que no se pueden medir.. iii.

(4) Abstract Treatment of paraphrasing is an understudied area of Natural Language Processing. Most related efforts have focused on the study of purely semantic similarity, oriented to tasks such as text categorization, leaving aside the study of the content of the text, of what it does really mean. The fact that the main approaches to the treatment of paraphrasing are limited either to related areas such as logic or to purely theoretical linguistic models with difficult and costly practical application make this phenomenon not to be properly covered nowadays, being still impossible to tell whether two texts say exactly the same despite being expressed in different ways. Existing approaches also tend to be oriented to a unique language, so their scope is even more limited, preventing them for instance from certifying if a translation is correct or not. This thesis aims to remove this obstacle by approaching paraphrasing from a multilingual point of view, basing the presented model on an interlingual representation that allows it to study paraphrased texts that can come from any language. This representation will also help to avoid other common obstacles in Natural Language Understanding, such as the ambiguity problem. Therefore we introduce a model based on a novel approach, language independent, along with an extensive State of the Art on the areas involved in the treatment of paraphrasing..

(5) Resumen El tratamiento de la paráfrasis es un área poco estudiada del Procesamiento del Lenguaje Natural. La mayorı́a de esfuerzos relacionados se han centrado en el estudio de la similaridad puramente semántica, orientada a tareas como la categorización de textos, dejando a un lado el estudio del contenido del texto, de qué quiere decir realmente. El hecho además de que los principales enfoques del tratamiento de la paráfrasis se limiten o bien a áreas relacionadas como la lógica o bien a modelos lingüı́sticos puramente teóricos de difı́cil y costosa aplicación práctica hacen que este fenómeno no esté a dı́a de hoy debidamente cubierto, siendo imposible asegurar si dos textos dicen lo mismo pese a estar expresados de diferente manera. Las aproximaciones existentes suelen además estar orientadas a una única lengua, por lo que su alcance es aún más limitado, impidiendo por ejemplo certificar si una traducción es correcta o no. En esta tesis se pretende eliminar esta traba abordando la paráfrasis desde un punto de vista multilingüe, basándose en una representación interlingual que permitirá al modelo presentado estudiar la paráfrasis en textos que pueden proceder de cualquier idioma. Esta representación servirá también para evitar otros obstáculos habituales en la Comprensión del Lenguaje Natural, como es el problema de la ambigüedad. Presentaremos por tanto un modelo basado en un enfoque novedoso, independiente de la lengua, acompañado además de un extenso Estado del Arte sobre las áreas involucradas en el tratamiento de la paráfrasis..

(6) Índice general Dedicatoria. III. Abstract. IV. Resumen. V. 1. Introducción. 1. 1.1. Representación . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2. Similitud entre textos . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 1.3. Paráfrasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.4. Objetivos y utilidad de la propuesta . . . . . . . . . . . . . . . . .. 6. 1.5. Outline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 2. Estado del Arte. 9. 2.1. Representación del conocimiento . . . . . . . . . . . . . . . . . . .. 9. 2.1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. 2.1.2. Teorı́a de la Dependencia Conceptual . . . . . . . . . . . .. 10. 2.1.3. Roles Semánticos . . . . . . . . . . . . . . . . . . . . . . .. 12. 2.1.3.1. Marcos semánticos . . . . . . . . . . . . . . . . .. 14. 2.1.4. Redes Semánticas . . . . . . . . . . . . . . . . . . . . . . .. 15. 2.1.4.1. Tipos de Redes Semánticas . . . . . . . . . . . .. 16. 2.1.4.2. Ejemplos de Redes Semánticas . . . . . . . . . .. 17. ConceptNet . . . . . . . . . . . . . . . . . . . . . .. 17. WordNet . . . . . . . . . . . . . . . . . . . . . . . .. 17. BabelNet . . . . . . . . . . . . . . . . . . . . . . . .. 20. 2.1.5. Ontologı́as . . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. 2.1.5.1. Posibles definiciones . . . . . . . . . . . . . . . .. 20. 2.1.5.2. Tipos de ontologı́as . . . . . . . . . . . . . . . . .. 21 vi.

(7) Índice general. vii. 2.1.5.3. Componentes y ejemplos de Ontologı́as . . . . . .. 22. 2.1.6. Grafos conceptuales . . . . . . . . . . . . . . . . . . . . . .. 23. 2.1.6.1. Estructura. . . . . . . . . . . . . . . . . . . . . .. 24. 2.1.6.2. Roles Semánticos . . . . . . . . . . . . . . . . . .. 24. 2.1.6.3. Evolución y aplicaciones . . . . . . . . . . . . . .. 26. 2.1.7. Teorı́a del Texto-Significado . . . . . . . . . . . . . . . . .. 27. 2.1.8. Interlinguas . . . . . . . . . . . . . . . . . . . . . . . . . .. 29. 2.1.8.1. La Traducción Automática . . . . . . . . . . . .. 29. 2.1.8.2. Caracterı́sticas de una interlingua . . . . . . . . .. 32. 2.1.8.3. Ejemplos de interlinguas . . . . . . . . . . . . . .. 33. PIVOT . . . . . . . . . . . . . . . . . . . . . . . . .. 33. ATLAS II . . . . . . . . . . . . . . . . . . . . . . .. 33. KANT . . . . . . . . . . . . . . . . . . . . . . . . .. 34. UNITRAN . . . . . . . . . . . . . . . . . . . . . . .. 35. DLT . . . . . . . . . . . . . . . . . . . . . . . . . .. 36. Mikrokosmos . . . . . . . . . . . . . . . . . . . . . .. 36. Interlingua IAMTC . . . . . . . . . . . . . . . . . .. 37. Otras interlinguas . . . . . . . . . . . . . . . . . . .. 38. 2.1.9. UNL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 38. 2.1.9.1. Palabras Universales . . . . . . . . . . . . . . . .. 39. 2.1.9.2. Relaciones . . . . . . . . . . . . . . . . . . . . . .. 41. 2.1.9.3. Atributos . . . . . . . . . . . . . . . . . . . . . .. 42. 2.1.9.4. Grafos UNL . . . . . . . . . . . . . . . . . . . . .. 43. 2.1.9.5. Situación actual. . . . . . . . . . . . . . . . . . .. 45. 2.2. Paráfrasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 46. 2.2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . .. 46. 2.2.2. Perspectiva lingüı́stica . . . . . . . . . . . . . . . . . . . .. 47. 2.2.2.1. Conceptos lingüı́sticos relacionados . . . . . . . .. 47. Textual entailment . . . . . . . . . . . . . . . . . .. 47. Polisemia . . . . . . . . . . . . . . . . . . . . . . . .. 48. Anáfora y Correferencia. . . . . . . . . . . . . . . .. 48. Sinonimia . . . . . . . . . . . . . . . . . . . . . . .. 49. Semántica Distribucional . . . . . . . . . . . . . . .. 50. 2.2.2.2. Modelo del Texto-Significado . . . . . . . . . . .. 52. Concepto de paráfrasis . . . . . . . . . . . . . . . .. 52.

(8) Índice general. viii. Tipos de paráfrasis . . . . . . . . . . . . . . . . . .. 53. Funciones léxicas . . . . . . . . . . . . . . . . . . .. 53. 2.2.3. Perspectiva computacional . . . . . . . . . . . . . . . . . .. 54. 2.2.3.1. Tipos de paráfrasis . . . . . . . . . . . . . . . . .. 54. 2.2.3.2. Posibles enfoques . . . . . . . . . . . . . . . . . .. 55. Generación . . . . . . . . . . . . . . . . . . . . . . .. 55. Extracción . . . . . . . . . . . . . . . . . . . . . . .. 55. Reconocimiento . . . . . . . . . . . . . . . . . . . .. 56. 2.2.3.3. Campos de aplicación . . . . . . . . . . . . . . .. 58. Resumidores . . . . . . . . . . . . . . . . . . . . . .. 58. 2.2.3.4. Consultas expandidas, Q/A y EI . . . . . . . . .. 60. 2.2.3.5. Generación de LN y TA . . . . . . . . . . . . . .. 60. Otros usos . . . . . . . . . . . . . . . . . . . . . . .. 61. 2.2.3.6. Recursos . . . . . . . . . . . . . . . . . . . . . . .. 61. 2.2.3.7. Otras consideraciones . . . . . . . . . . . . . . .. 62. 2.3. Similaridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 63. 2.3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . .. 63. 2.3.2. Nivel de palabra. . . . . . . . . . . . . . . . . . . . . . . .. 63. 2.3.2.1. Cadenas de caracteres . . . . . . . . . . . . . . .. 63. Basadas en edición . . . . . . . . . . . . . . . . . .. 63. Basadas en tokens . . . . . . . . . . . . . . . . . . .. 65. Otras medidas . . . . . . . . . . . . . . . . . . . . .. 67. 2.3.2.2. Métodos de evaluación de Traducción Automática. 68. BLEU . . . . . . . . . . . . . . . . . . . . . . . . .. 68. NIST . . . . . . . . . . . . . . . . . . . . . . . . . .. 69. METEOR . . . . . . . . . . . . . . . . . . . . . . .. 69. WER . . . . . . . . . . . . . . . . . . . . . . . . . .. 70. TER . . . . . . . . . . . . . . . . . . . . . . . . . .. 70. PER . . . . . . . . . . . . . . . . . . . . . . . . . .. 70. Otras medidas . . . . . . . . . . . . . . . . . . . . .. 71. 2.3.3. Nivel sintáctico . . . . . . . . . . . . . . . . . . . . . . . .. 71. 2.3.3.1. Árboles . . . . . . . . . . . . . . . . . . . . . . .. 71. 2.3.3.2. Grafos . . . . . . . . . . . . . . . . . . . . . . . .. 72. 2.3.4. Nivel semántico . . . . . . . . . . . . . . . . . . . . . . . .. 73. 2.3.4.1. Co-ocurrencias o medidas basadas en corpus . . .. 74.

(9) Índice general. ix. 2.3.4.2. Medidas taxonómicas para conceptos . . . . . . .. 75. Basadas en el camino entre conceptos . . . . . . . .. 75. Basadas en el Contenido de Información . . . . . .. 78. 2.3.4.3. Medidas de similaridad para oraciones y textos .. 79. Semántica de las palabras . . . . . . . . . . . . . .. 81. Orden de las palabras . . . . . . . . . . . . . . . . .. 81. Diferencias . . . . . . . . . . . . . . . . . . . . . . .. 82. Uso de Roles Semánticos . . . . . . . . . . . . . . .. 82. 2.3.4.4. Similaridad entre grafos . . . . . . . . . . . . . .. 83. Conceptos previos . . . . . . . . . . . . . . . . . . .. 83. Comparación de Grafos Conceptuales . . . . . . . .. 84. 2.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 86. 3. Definición del Trabajo. 88. 3.1. Introducción y motivación . . . . . . . . . . . . . . . . . . . . . .. 88. 3.2. Hipótesis de trabajo . . . . . . . . . . . . . . . . . . . . . . . . .. 89. 3.3. Asunciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 90. 3.4. Restricciones y limitaciones . . . . . . . . . . . . . . . . . . . . .. 90. 3.5. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 91. 3.6. Método de validación . . . . . . . . . . . . . . . . . . . . . . . . .. 91. 4. Modelo propuesto 4.1. Bases teóricas del modelo. 93 . . . . . . . . . . . . . . . . . . . . . .. 93. 4.1.1. Perspectiva sintáctica . . . . . . . . . . . . . . . . . . . . .. 93. 4.1.2. Perspectiva semántica . . . . . . . . . . . . . . . . . . . .. 94. 4.1.3. Comparación de grafos . . . . . . . . . . . . . . . . . . . .. 94. 4.2. Puntos claves de UNL sobre los que se asienta el modelo . . . . .. 94. 4.2.1. Elementos de la oración en UNL . . . . . . . . . . . . . . .. 95. 4.2.1.1. @entry, el núcleo de la frase . . . . . . . . . . . .. 95. 4.2.1.2. Categorı́as gramaticales . . . . . . . . . . . . . .. 95. 4.2.1.3. Atributos . . . . . . . . . . . . . . . . . . . . . .. 98. 4.3. Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 98. 4.3.1. Jerarquı́a de relaciones . . . . . . . . . . . . . . . . . . . .. 98. 4.3.1.1. Relaciones básicas . . . . . . . . . . . . . . . . .. 99. 4.3.1.2. Modificadores . . . . . . . . . . . . . . . . . . . . 100 Modificadores de primer nivel (Mod1 ) . . . . . . . . 100.

(10) Índice general. x. Modificadores de subgrafos de segundo nivel (ModS2 ) 102 Modificadores de subgrafos coordinados (ModSC ) . . 105 Modificadores de subgrafos de tercer nivel (ModS3 ) . 106 4.3.2. Otros tipos de mapeos o correspondencias . . . . . . . . . 106 4.3.2.1. Mapeo de relaciones entre verbos de distinta categorı́a ontológica . . . . . . . . . . . . . . . . . . 106 4.3.2.2. Mapeo de relaciones entre subgrafos con núcleo sustantivo-verbo y sustantivo-sustantivo . . . . . 108 4.3.2.3. Casos especiales: la comparación, los superlativos y la coordinación . . . . . . . . . . . . . . . . . . 108 La comparación . . . . . . . . . . . . . . . . . . . . 108 Los superlativos . . . . . . . . . . . . . . . . . . . . 110 La coordinación . . . . . . . . . . . . . . . . . . . . 110 4.3.3. Selección de atributos. . . . . . . . . . . . . . . . . . . . . 110. 4.3.4. Medida de similaridad . . . . . . . . . . . . . . . . . . . . 112 4.3.4.1. Verbos . . . . . . . . . . . . . . . . . . . . . . . . 112 4.3.4.2. Adjetivos, adverbios y sustantivos . . . . . . . . . 115 4.3.4.3. Similaridad entre palabras de distinta categorı́a . 116 4.3.4.4. Ejemplos de aplicación de la medida . . . . . . . 116 4.3.5. Algoritmo de comparación de grafos . . . . . . . . . . . . . 117 4.3.5.1. Distinción de casos del modelo comparativo . . . 118 4.3.5.2. Casos del modelo comparativo . . . . . . . . . . . 118 Caso 1 . . . . . . . . . . . . . . . . . . . . . . . . . 121 Casos 2, 3 y 4 . . . . . . . . . . . . . . . . . . . . . 122 4.3.5.3. Identificación de subgrafos . . . . . . . . . . . . . 123 4.3.6. Ejemplos de aplicación del modelo . . . . . . . . . . . . . . 124 4.3.6.1. Presencia de entidades . . . . . . . . . . . . . . . 125 Posibles variaciones . . . . . . . . . . . . . . . . . . 126 4.3.6.2. Similaridad semántica con varios verbos . . . . . 128 4.3.6.3. Caso de comparación . . . . . . . . . . . . . . . . 131 Posibles variaciones . . . . . . . . . . . . . . . . . . 133 4.4. Resumen final sobre el modelo . . . . . . . . . . . . . . . . . . . . 133 5. Experimentación y resultados. 135. 5.1. Implementación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 5.2. Validación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136.

(11) Índice general. 5.2.1. Tı́tulo . . . . 5.2.2. Oración 1 . . 5.2.3. Oración 2 . . 5.2.4. Oración 3 . . 5.3. Conclusiones sobre la. xi. . . . . . . . . . . . . . . . . . . . . . . . . validación. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. 137 138 139 139 141. 6. Conclusiones y futuros caminos 142 6.1. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 6.2. Futuras lı́neas a seguir . . . . . . . . . . . . . . . . . . . . . . . . 143 A. Relaciones UNL. 146. B. Atributos UNL. 149. C. Validación del documento. 154. D. Otros ejemplos de validación. 159. Bibliografı́a. 161.

(12) Índice de figuras 2.1. Representación cronológica de Teorı́as y Sistemas de Representación 10 2.2. Relaciones más habituales en ConceptNet. . . . . . . . . . . . . .. 18. 2.3. Recursos principales de BabelNet . . . . . . . . . . . . . . . . . .. 19. 2.4. Tipos de ontologı́as . . . . . . . . . . . . . . . . . . . . . . . . . .. 22. 2.5. Ejemplo de Grafo Conceptual . . . . . . . . . . . . . . . . . . . .. 25. 2.6. Representaciones de MTT . . . . . . . . . . . . . . . . . . . . . .. 29. 2.7. Triángulo de Vauquois . . . . . . . . . . . . . . . . . . . . . . . .. 30. 2.8. Traducción entre pares vs Traducción basada en interlinguas . . .. 31. 2.9. Ejemplo clásico de grafo UNL. . . . . . . . . . . . . . . . . . . . .. 43. 2.10. Ejemplo de representación UNL . . . . . . . . . . . . . . . . . . .. 45. 2.11. Escala de sinonimia . . . . . . . . . . . . . . . . . . . . . . . . . .. 49. 2.12. Arquitectura de paráfrasis según la Distribución Estructural . . .. 51. 2.13. Tipos de paráfrasis . . . . . . . . . . . . . . . . . . . . . . . . . .. 54. 2.14. Medidas de similaridad para caracteres . . . . . . . . . . . . . . .. 64. 2.15. Ejemplo árbol de dependencias . . . . . . . . . . . . . . . . . . .. 72. 2.16. Comparativa medidas de similaridad semántica . . . . . . . . . .. 80. 2.17. Ejemplo de overlap en Grafos Conceptuales . . . . . . . . . . . . .. 84. 4.1. Ejemplo @entry verbo . . . . . . . . . . . . . . . . . . . . . . . .. 95. 4.2. Ejemplo @entry sustantivo . . . . . . . . . . . . . . . . . . . . . .. 96. 4.3. Modelo: Esquema de la jerarquı́a relaciones UNL propuesta . . . .. 99. 4.4. Modelo: Esquema de modificadores tipo Mod1 . . . . . . . . . . . 103 4.5. Modelo: Esquema de modificadores de subgrafos . . . . . . . . . . 104 4.6. Estructura de la comparación . . . . . . . . . . . . . . . . . . . . 109 4.7. Modelo: Casos del modelo de comparación . . . . . . . . . . . . . 119 4.8. Modelo: Caso 1 del modelo de comparación . . . . . . . . . . . . . 120 4.9. Grafo de la frase: “Tom bought a Honda from John.” . . . . . . . 125 xii.

(13) Índice de figuras. xiii. 4.10. Grafo de la frase: “Tom purchased a Honda from John.” . . . . . 4.11. Grafo de la frase: “Me comentó que no pensaba participar en el concurso.” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.12. Grafo de la frase: “Me dijo que pensaba participar en el concurso.” 4.13. Subgrafos en el proceso de comparación entre dos oraciones . . . . 4.14. Grafo de la frase: “Las ciudades del norte son más ricas que las ciudades del sur.” . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.15. Grafo de la frase: “Las ciudades del sur son más pobres que las ciudades del norte.” . . . . . . . . . . . . . . . . . . . . . . . . . .. 125 128 128 130 131 131. 5.1. Verificación: Grafo del tı́tulo del texto original. “Los españoles no confı́an en que los Gobiernos estén usando bien sus datos” . . . . 5.2. Verificación: Grafo del tı́tulo del texto modificado. “Los españoles no confı́an en que los Gobiernos no estén usando bien sus datos” 5.3. Verificación: Grafo de la oración 1 del texto original. “Los ciudadanos afirman que no saben ni quién, ni dónde, está capturando y almacenando sus datos” . . . . . . . . . . . . . . . . . . . . . . . 5.4. Verificación: Grafo de la oración 1 del texto modificado. “Los ciudadanos niegan que no saben ni quién, ni dónde, está capturando y almacenando sus datos” . . . . . . . . . . . . . . . . . . . . . . 5.5. Verificación: Grafo de la oración 3 del texto original. “Además, cuando aumenta la edad y baja el nivel de instrucción disminuye drásticamente las ventajas percibidas sobre el Big Data.” . . . . . 5.6. Verificación: Grafo de la oración 3 del texto modificado. “Además, cuando disminuye la edad y aumenta el nivel de instrucción aumenta drásticamente las ventajas percibidas sobre el Big Data” . .. 140. C.1. C.2. C.3. C.4.. 155 156 157 158. Resultado Resultado Resultado Resultado. de de de de. la la la la. verificación verificación verificación verificación. del tı́tulo del texto . . . . . . . de la primera oración del texto de la segunda oración del texto de la tercera oración del texto. . . . .. . . . .. . . . .. . . . .. 137 137. 138. 138. 140.

(14) Índice de tablas 2.1. 2.2. 2.3. 2.4.. Roles Semánticos estándar . . . . . . . . . . . . . . . . . . . . . . Relaciones gramaticales vs Roles Semánticos . . . . . . . . . . . . Tipos de Participantes en los Grafos Conceptuales . . . . . . . . . Thematic Roles según el tipo de participante en los Grafos Conceptuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 14 14 26 26. 4.1. Modelo: Relaciones básicas UNL . . . . . . . . . . . . . . . . . . . 100 4.2. Correspondencias entre relaciones modificadoras semánticas . . . . 101 4.3. Mapeos entre verbos de distintas categorı́as ontológicas. . . . . . . 107 A.1. Atributos de UNL . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 B.1. Relaciones conceptuales. . . . . . . . . . . . . . . . . . . . . . . . 153. D.1. Ejemplos de validación . . . . . . . . . . . . . . . . . . . . . . . . 160. xiv.

(15) Capı́tulo 1 Introducción El Procesamiento del Lenguaje Natural es un área particularmente difı́cil de la Inteligencia Artificial, pues el Lenguaje Natural, ya de por sı́ complejo en la comunicación entre seres humanos, es un escollo difı́cil de superar a la hora de ser procesado exclusivamente por máquinas. La riqueza y vasta diversidad del mismo conllevan problemas como la ambigüedad y el multilingüismo que, junto con otros aspectos como la separación existente entre la Lingüı́stica Computacional y la Lingüı́stica pura, han dificultado la evolución de esta disciplina. Impulsada recientemente por el auge de Internet y por el éxito de propuestas como la Web Semántica, que hacen que cada dı́a el volumen de información a tratar crezca de manera exponencial, la necesidad de sistemas capaces de analizar, procesar y especialmente interpretar correctamente todo tipo de información de distintas procedencias, idiomas y caracterı́sticas se hace cada vez más acuciante. Los soportes en los que estos datos llegan son cada vez más diversos: vı́deo, audio, documentos, blogs, webs, redes sociales, mensajerı́a... pudiendo además venir formulados por personas de muy distinta procedencia social, cultural y geolingüı́stica, lo que acarrea expresiones muy diferentes para los mismos conceptos. Todos estos formatos y posibles formas de expresión tienen algo en común: necesitan de un correcto procesamiento del lenguaje para poder ser usados en toda su plenitud.. 1.1.. Representación. Uno de los principales problemas a la hora de lidiar con el Lenguaje Natural es su representación. Aunque el inglés ha sido casi unánimemente adoptado como lengua vehicular tanto en internet como en las relaciones internacionales a todos 1.

(16) Capı́tulo 1. Introducción. 2. los niveles, no resulta efectivo como sistema de representación del conocimiento a nivel máquina; además, al no ser capaz de representar fielmente conceptos de otros idiomas, no puede cumplir adecuadamente las expectativas de la globalizada sociedad en la que vivimos, ni tampoco las necesidades impuestas por propuestas como la ya mencionada Web Semántica. Aunque existen tanto en el mercado como en el mundo de la investigación multitud de iniciativas que tratan de paliar el problema del multilingüismo mediante el uso de distintos sistemas de traducción y representación del lenguaje, no es posible encontrar a dı́a de hoy una solución plenamente satisfactoria y completamente operativa. Una parte representativa del Estado del Arte del presente trabajo revisa algunas de las teorı́as y representaciones más comunes propuestas desde la perspectiva de la Lingüı́stica Computacional para lidiar con esta cuestión, haciendo especial hincapié en UNL, el lenguaje universal impulsado por las Naciones Unidas como sistema de representación intermedia entre distintos idiomas. Como veremos más adelante, el interés de esta iniciativa radica en el consenso alcanzado por equipos procedentes de distintos paı́ses, compuestos por expertos del dominio y designados representantes de las distintas lenguas, a la hora de organizar y representar de manera estandarizada tanto los conceptos comunes a las diferentes lenguas como los rasgos caracterı́sticos y distintivos de cada una de ellas, ası́ como de definir y normalizar las distintas relaciones que se pueden dar entre dichos conceptos en el proceso de comunicación. Se alcanza por tanto con UNL el objetivo de una representación independiente de la lengua y basada exclusivamente en el significado tras la formulación en el lenguaje en el que se expresó originalmente, que facilita tanto su procesamiento a nivel máquina como su transformación a otra lengua en el seno de un proceso de traducción automática. No obstante, UNL está aún en desarrollo y constante evolución, por lo que a la hora de comunicarnos con personas de otras lenguas y culturas, la mayorı́a de veces no tenemos más remedio que conformarnos con el uso de traductores automáticos que en ocasiones son de dudosa fiabilidad. Esto puede resultar de utilidad en caso de tener dudas puntuales sobre expresiones concretas a la hora de redactar por ejemplo en idiomas que conocemos parcialmente (como generalmente es el caso del inglés) o que intuitivamente podemos interpretar, ya sea por su similitud lingüı́stica con nuestra lengua materna o porque su origen es similar.

(17) Capı́tulo 1. Introducción. 3. y por tanto la estructura nos resulta familiar y es fácil establecer similitudes con nuestra propia lengua (como por ejemplo ocurre con el italiano y el español); sin embargo, es poco probable que alguien con necesidad de escribir por ejemplo un contrato en una lengua como el japonés confiase ciegamente en la traducción arrojada por uno de estos sistemas. ¿Cómo saber si la traducción es correcta? ¿existe alguna forma de corroborar esto a nivel máquina?. 1.2.. Similitud entre textos. En lo concerniente a la relación de similaridad entre textos (y como veremos más adelante en el Estado del Arte), se ha escrito mucho tanto a nivel monolingüe como multilingüe, ya que por ejemplo es útil a la hora de realizar clasificaciones temáticas de documentos, noticias, correos electrónicos, etc. No obstante, en la mayorı́a de ocasiones esta similaridad se centra casi exclusivamente en la semántica, podrı́amos decir que respondiendo a la pregunta ¿hablan de los mismo?, cuando en el contexto de la comunicación interlingüe y la traducción automática la cuestión clave, la que realmente nos interesa, es ¿dicen lo mismo?, que es igual que decir que ambas representaciones significan lo mismo. Es importante recalcar esta diferencia entre similitud semántica y mismo significado o contenido, por lo que clarificaremos esta distinción con una serie ejemplos. Si tenemos las siguientes oraciones: Me gustan las patatas. No me gustan las patatas. para un ser humano es evidente que estamos hablando de lo mismo, pero que el significado es radicalmente opuesto. Un sistema de similitud semántica darı́a por tanto una relación de similaridad elevada, cuando obviamente no transmiten la misma información. Asimismo, las frases: Los limones son frutas. Los limones son cı́tricos. tienen también un alto grado de similaridad semántica, y aunque el contenido no podemos decir que sea exactamente el mismo, podemos considerar que sı́ que tienen un significado francamente parecido..

(18) Capı́tulo 1. Introducción. 4. Pensemos ahora en documentos legales o jurı́dicos, como por ejemplo decretos o un contrato. La correcta definición y correspondencia entre una cláusula y su traducción puede cambiar por completo las condiciones de un acuerdo, dando lugar a posibles problemas y litigios que probablemente ambas partes quieran evitar. En este caso, la sensibilidad a la hora de homogeneizar el significado deberı́a ser máxima. Vemos por tanto que el concepto de tener el mismo de significado entre oraciones no está tampoco muy claro; aunque lo trataremos más adelante y con mayor rigurosidad en el Estado del Arte, siguiendo la idea de la definición de igualdad o similaridad en el significado pasamos a avanzar brevemente el concepto de paráfrasis.. 1.3.. Paráfrasis. Pese a que, como veremos, no es fácil definir el concepto de paráfrasis y no existe una definición absoluta aceptada, habitualmente la paráfrasis se suele entender como expresiones lingüı́sticas que, usando distintas palabras, tienen el mismo significado, pudiendo abarcar este fenómeno distintas unidades léxicas (desde morfemas a oraciones o textos completos) [126]. No obstante, ¿qué podemos considerar mismo significado? Algunos autores sostienen que la paráfrasis se da cuando hay una correspondencia pura de significado, una sinonimia absoluta, mientras que otros mantienen que la propia naturaleza del lenguaje hace prácticamente imposible que se dé una correspondencia exacta de significado entre formulaciones distintas. Es por ello que comúnmente se aceptan como paráfrasis las expresiones lingüı́sticas que tienen aproximadamente el mismo significado, radicando el principal problema tanto a nivel máquina como para los propios humanos en discernir cuándo se da y cuándo no mediante algún tipo de umbral difuso dependiente del propio contexto de las expresiones. Por su parte, Hirst [46] mantiene que la paráfrasis consiste en hablar de la “misma situación de manera diferente”, matizando que la “misma situación” no tiene por qué implicar las mismas condiciones, detalles o siquiera el mismo mensaje. Esta aproximación a la paráfrasis se relaciona también con otra perspectiva en la que profundizaremos más adelante y que pasa por considerar la paráfrasis como una doble presencia de otro fenómeno lingüı́stico conocido como “textual entailment”.

(19) Capı́tulo 1. Introducción. 5. (o implicación textual). El textual entailment consiste a grandes rasgos en que un primer texto implique el significado contenido en un segundo texto, por lo que en caso de darse de manera bidireccional entre ambos textos se podrı́a considerar que estamos hablando de una paráfrasis, ya que esto significarı́a que vienen a decir lo mismo. Antes hablábamos de cómo la riqueza del lenguaje, una de las caracterı́sticas que define al ser humano como especie superior, puede suponer un problema en sı́ mismo; esto se hace patente al encontrar mil formas diferentes de expresar lo que a priori consideramos el mismo contenido. Para decir que partimos de un lugar, podemos elegir por ejemplo entre expresiones como “me voy”, “me marcho”, “me piro”, “me largo” o incluso “huyo”. No obstante, aunque todas significan irse de un lugar, no debemos dejar de apreciar los distintos matices que aporta cada una de las posibles representaciones: “me piro” o “me largo”, por ejemplo, son expresiones mucho más coloquiales que las demás, dando una connotación de familiaridad e indicios sobre el contexto que no nos aportan las otras opciones, mientras que “huir”, aunque signifique irse, implica urgencia y dejar atrás una situación no deseada. El mismo contenido de información y la forma en la que se expresa puede también buscar influir en la visión del receptor, o simplemente plasmar o reforzar un punto de vista. Es el caso de las siguientes oraciones (extraı́das de [46]): Los Estados Unidos dirigieron la invasión de Iraq. Los Estados Unidos dirigieron la liberación de Iraq. Los Estados Unidos dirigieron la ocupación de Iraq. donde los tres enunciados hacen referencia a la misma situación, y sin embargo la designan de manera diferente, siendo obvio para una persona que hablan de lo mismo y que es una cuestión de perspectiva pero suponiendo un verdadero problema a nivel de procesamiento automático. Igualmente ocurre con el énfasis que queramos darle a los diferentes elementos de una frase, como podemos observar en las siguientes oraciones: Mueren trece personas en un atentado terrorista. Un atentado terrorista provoca trece vı́ctimas mortales. donde la primera enfatiza el número de vı́ctimas y la segunda el propio atentado, pese a contener exactamente la misma información. Por último, muchas veces la.

(20) Capı́tulo 1. Introducción. 6. forma de expresar la información viene impuesta también por el propio contexto del lenguaje, como es el caso de las fórmulas prefijadas de muchos textos jurı́dicos y legales, por lo que cabe resaltar que la paráfrasis en ciertos casos puede implicar pérdida de información o incluso ambigüedad en la interpretación del contenido. Es por ello que a la hora de definir un sistema de gestión de paráfrasis es recomendable restringirse a un dominio concreto. En definitiva, podemos concluir que la paráfrasis es completamente subjetiva y que se mueve entre los lı́mites de la similitud de significado y la importancia de los diferentes matices de los que se compone una misma situación, ası́ como de las distintas formas que nos ofrece la lengua de tratarlos y expresarlos y que forman parte de misma de la riqueza del lenguaje. Multitud de fenómenos lingüı́sticos como la ironı́a y la metáfora lindan con la paráfrasis y pueden entenderse como tal, pero indudablemente aportan al texto una pátina que difı́cilmente se puede reproducir o detectar adecuadamente en un sistema de paráfrasis automático actual; esto nos demuestra lo lejos que estamos aún de un sistema de Procesamiento del Lenguaje Natural perfecto, capaz de entender las sutilezas y distintas dimensiones del lenguaje, y de cómo queda aún mucho trabajo por delante para alcanzar resultados plenamente satisfactorios.. 1.4.. Objetivos y utilidad de la propuesta. Pasamos ahora a enunciar los objetivos a alcanzar en el presente trabajo y la idea tras la propuesta planteada. Los objetivos a conseguir son los siguientes: Por una parte, en esta tesis se planea estudiar el propio fenómeno de la paráfrasis, contestando entre otras a las siguientes cuestiones: ¿qué tipos hay? ¿cómo se da? ¿cómo se gestiona en los sistemas actuales? ¿hay avances en este ámbito? ¿cuáles son las necesidad en este aspecto de los sistemas de Procesamiento del Lenguaje Natural? ¿qué aplicaciones pueden beneficiarse más de un sistema de estas caracterı́sticas? ¿qué factores son importantes en la paráfrasis (estructura, semántica...)? y ¿qué debemos mirar, dónde orientar nuestros esfuerzos? Para ello se ha realizado un extenso trabajo de documentación sobre el estado actual de la cuestión, que ha desembocado en la redacción de un Estado del Arte en el que repasaremos algunas teorı́as lingüı́sticas al respecto y las soluciones que.

(21) Capı́tulo 1. Introducción. 7. plantean, ası́ como posibles representaciones, formalizaciones e interpretaciones de las mismas a nivel práctico. Por otra parte, se busca en el presente trabajo plantear un modelo capaz de lidiar con la paráfrasis a nivel tanto sintáctico como semántico desde la representación de UNL de la que hemos hablado anteriormente. Para ello se tendrán en cuenta tanto las teorı́as lingüı́sticas y los modelos y soluciones ya desarrollados y examinados durante el Estado del Arte como las propias caracterı́sticas del sistema UNL, que se revisarán también en dicho apartado de la tesis. Como veremos más adelante, la variación que origina la paráfrasis puede darse a distintos niveles: sintáctico, léxico, semántico... aunque la mayorı́a de enfoques se han orientado a este último, creemos que la clave radica en combinar todas las perspectivas para alcanzar un sistema lo más completo posible; en definitiva, no podemos limitarnos solo a la semántica, por lo que vamos a abordarlo desde un punto de vista semántico y sintáctico. Respecto a la utilidad del trabajo realizado, las posibles aplicaciones de un sistema funcional de detección de paráfrasis son muchas, como veremos más adelante en el Estado del Arte. Destacamos entre ellas la detección de plagio, la comparación de respuestas en exámenes y la expansión de búsqueda en sistemas de pregunta/respuesta. Otras ideas de mayor complejidad son la comprensión y generación de textos poéticos (principalmente de metáforas), ya que la detección puede además ayudar a enriquecer la generación de Lenguaje Natural, pudiendo dotar de distintos niveles de complejidad a un mismo texto, adaptándolo a cierto tipo de receptor (niños, extranjeros, profesionales de cierto sector...). Un modelo interlingüe como el propuesto en este trabajo añadirı́a a esta lista, además, la posibilidad de verificar traducciones de distintos idiomas.. 1.5.. Outline. En lo concerniente a la organización de la tesis, tras la presente introducción será como sigue. Primero se realizará una revisión de en qué punto se encuentra la cuestión a.

(22) Capı́tulo 1. Introducción. 8. tratar actualmente; este Estado del Arte ha sido planteado en tres partes, como sigue: 1. Se comenzará por examinar las distintas teorı́as lingüı́sticas y los posibles sistemas de representación que podemos encontrar en el Procesamiento del Lenguaje Natural, tanto en lo concerniente al propio texto a interpretar como en los distintos recursos que pueden ayudarnos en dicha tarea. 2. En segundo lugar pasaremos a revisar las distintas aproximaciones realizadas para abordar el problema de la paráfrasis, definiéndola en mayor profundidad y relacionándola con otros fenómenos lingüı́sticos colindantes. Veremos también áreas de aplicación que se benefician de los modelos actuales de gestión de la paráfrasis, otras disciplinas del Procesamiento del Lenguaje Natural que tocan la paráfrasis y algunas de las soluciones planteadas hasta ahora. 3. Por último, hablaremos del concepto de similaridad en los distintos niveles del lenguaje y veremos las posibles maneras de abordar la comparación de grafos, dado que es ésta la representación usada en UNL y con la que trataremos en el modelo propuesto. Tras el Estado del Arte enunciaremos el planteamiento del problema, matizando los principales obstáculos que podemos encontrar (extraı́dos de la revisión realizada en la sección anterior) y definiendo las limitaciones, las asunciones y las hipótesis que consideraremos en el modelo propuesto; estas restricciones vienen impuestas por la propia naturaleza compleja del problema a tratar y por el hecho de tratarse el presente trabajo de una Tesis de Fin de Máster y ser por tanto de una duración y un enfoque forzosamente acotados. Una vez realizado el planteamiento se detallará el modelo propuesto, ası́ como los resultados obtenidos de su implementación y la información que podemos extraer de los mismos. Finalmente, se enunciarán las conclusiones derivadas del problema tratado, del modelo y de los resultados, y se realizará un análisis final que incluirá las contribuciones principales de la tesis y el trabajo futuro a realizar..

(23) Capı́tulo 2 Estado del Arte 2.1. 2.1.1.. Representación del conocimiento Introducción. Como ya se indicó en la sección previa, el Estado del Arte se dividirá en tres partes bien diferenciadas. Por un lado veremos distintas formas de representar conocimiento lingüı́stico, ası́ como las teorı́as y componentes más importantes de dicho campo. Comenzaremos por la Teorı́a de la Dependencia Conceptual, considerada precursora de las interlinguas, y el concepto de Roles Semánticos para pasar a las representaciones propiamente dichas, entre las que veremos las Redes Semánticas, las Ontologı́as y los Grafos Conceptuales de John Sowa, acabando con el Modelo del Texto Significado de Igor Mel’čuk y el concepto de interlingua, analizando las principales propuestas de este tipo. Por último, se expondrán las principales caracterı́sticas del Lenguaje Universal UNL. En la Figura 2.1 encontramos una representación cronológica de los temas que trataremos en esta primera parte del Estado del Arte. A continuación abordaremos directamente el tema de la paráfrasis, examinando estudios al respecto, formas de enfocarla y otras aproximaciones que tocan distintas formas de tratar un texto a nivel de significado y que pueden resultar útiles de cara al tratamiento de este fenómeno lingüı́stico. Por último, en el tercer apartado estudiaremos distintas medidas de similaridad entre los diferentes componentes del lenguaje, ası́ como en algunas de sus posibles representaciones. 9.

(24) Capı́tulo 2. Estado del Arte. 10. ~1980 1965. 1968. ~ 1970. Ontologías (origen filosófico). Roles Semánticos. Redes Semánticas. Introducción de las Ontologías en la IA. C.S. Peirce (1883). 1965. 1969. 1976. Teoría Texto-Significado. Teoría de la Dependencia Conceptual. Grafos Conceptuales. Boom de las Interlinguas. ~1990. Japón PIVOT ATLAS II. Europa 79 - DLT. 2003 IAMTC (EEUU). EEUU 87 - UNITRAN 89 - KANT (KANTOO) 90’s - Mikrokosmos. 1996 UNL (UNU). Figura 2.1: Representación cronológica de las teorı́as y sistemas de representación tratados durante la primera parte del Estado del Arte.. 2.1.2.. Teorı́a de la Dependencia Conceptual. Para conocer el origen de las interlinguas, debemos remontarnos a la Teorı́a de la Dependencia Conceptual, considerada precursora de las mismas y planteada formalmente en 1975. La Teorı́a de la Dependencia Conceptual (o Conceptual Dependency Theory) es un modelo de representación del conocimiento cuyas bases se proponen por primera vez a finales de los años 60, en el marco de la investigación de la tesis doctoral de Roger Schank1 , publicada en 1969. Este modelo entiende la conceptualización de una oración como una red de conceptos lingüı́sticos unidos por una serie de relaciones de dependencia, pudiendo encuadrarse estos conceptos a una o varias categorı́as predefinidas, que podemos subdividir en categorı́as principales o gobernantes (Governing categories) y categorı́as secundarias o de asistencia (Assisting categories). La pertenencia a dichas categorı́as viene determinada por una serie de reglas de dependencia, como por ejemplo si una palabra tiene sentido o no por sı́ misma, sin depender de otra (este es el caso, por ejemplo, de los adjetivos, que deben acompañar necesariamente al concepto al que describen). Según esta teorı́a, el proceso lingüı́stico puede entenderse como un mapeo desde y hasta una representación mental [103], componiéndose dicho mapeo de conceptos unidos mediante relaciones de dependencia.. 1. http://www.rogerschank.com/about#stuff-I-have-done. El último acceso a todas las webs citadas en el presente documento se ha realizado el 20 de junio de 2016..

(25) Capı́tulo 2. Estado del Arte. 11. En este modelo, los significados se representan por medio de una serie de Conceptos Primitivos (CPs), que pueden simbolizar acciones, cambios de estado o instrumentos para otras acciones, entre otros. Estos CPs tienen a su vez un rol conceptual concreto en el global de la frase (tales como agente, objeto...) y están estrechamente relacionados con sus representados en el mundo real, por lo que pueden utilizarse como referencia tanto para una interlingua como para un sistema de representación interno para una base del conocimiento no necesariamente orientado a la lingüı́stica. Dentro de los CPs destacan las Acciones Primitivas, un conjunto de acciones base que han ido evolucionando al tiempo que la propia teorı́a y que pueden representar cualquier suceso, ya sea individualmente o combinándose unas con otras. Entre estas Acciones Primitivas encontramos, por ejemplo, PTRANS (que simboliza la transferencia de un objeto de un lugar a otro) o SPEAK (el acto de producir sonidos, no necesariamente con el fin de comunicarse). Las Acciones Primitivas pueden, además, incluir modificadores para matizar o situar su ratio de acción; algunos de estos modificadores son, por ejemplo, los referentes al tiempo (pasado, futuro, transición...) o la actitud (interrogación, negación, condicionalidad...). Paralelamente, estas acciones se relacionan mediante relaciones de dependencia como instrumento de, objeto de o receptor, dando lugar a un grafo que simboliza el significado de la frase pero no emula necesariamente la estructura sintáctica de la misma. Uno de los puntos claves de esta propuesta es que introduce la idea de una representación canónica del significado, implicando por un lado la independencia con respecto a la lengua y por otro la posibilidad de que distintas palabras y estructuras puedan representar un mismo significado o concepto, contemplando ası́ la paráfrasis. Estas propiedades, como veremos más adelante, son algunos de los rasgos fundamentales que caracterizan a las interlinguas. La representación canónica, además, permite un cierto grado de inferencia que otras representaciones más enfocadas a la lingüı́stica (como por ejemplo las Redes Semánticas, abordadas en la Sección 2.1.4) no admiten. Más allá de su posterior relación con las interlinguas, este modelo ha sido ampliamente utilizado para diversas aplicaciones [62], destacando entre ellas la repre-.

(26) Capı́tulo 2. Estado del Arte. 12. sentación de escenarios y situaciones mediante planes y scripts o guiones (como es el caso de los proyectos PAM, Plan Applier Mechanism, y SAM, Script Applier Mechanism [102]) y el procesamiento del lenguaje natural en general (en proyectos como MARGIE, Meaning Analysis, Response Generation and Inference on English). Cabe mencionar que las bases de la Teorı́a de la Dependencia Conceptual han ido evolucionando y adaptándose dependiendo del uso y el contexto de aplicación hasta desembocar finalmente en ciertos casos en la creación de interlinguas propiamente dichas.. 2.1.3.. Roles Semánticos. Los Roles Semánticos o Thematic Roles (“roles temáticos” en español, también llamados case relations o karakas [28]) son, desde el punto de vista lingüı́stico [50], “generalizaciones entre los argumentos de un predicado para capturar regularidades entre la representación semántica y la expresión sintáctica de dicho predicado”. El origen de los Roles Semánticos se remonta a la aparición del término original Thematic Relation a mediados de la década de los 60 y a su posterior popularización en los años 70; no obstante, la idea ya estaba presente en distintas propuestas lingüı́sticas anteriores (para más información al respecto, ver [29]). Existen además distintos puntos de vista sobre qué perspectiva debe prevalecer al definir los roles, pudiendo verse desde una perspectiva sintáctica, léxica o conceptual (o incluso una mezcla de varias), o si estos deben formar parte de la propia base del lenguaje o definirse en el mapeo entre significado y forma. De un manera más intuitiva, los roles semánticos podrı́an definirse como etiquetas semánticas entre conceptos que describen relaciones conceptuales entre los mismos. Han sido ampliamente utilizados en todo tipo de representación del conocimiento, desde los Grafos Conceptuales hasta las interlinguas (casos que veremos más adelante en este mismo capı́tulo), pasando por las Redes Semánticas. El nombre que se da a estas etiquetas, ası́ como su tipo y la cantidad de ellas, cambiará dependiendo de la implementación, al igual que la forma de organizarlas (pueden estar relacionadas, por ejemplo, de manera taxonómica, como ocurre en el caso de las ontologı́as y los tesauros). Aunque no existe un listado estándar de Roles Semánticos, han sido muchos los lingüistas que se han aventurado a dar su.

(27) Capı́tulo 2. Estado del Arte. 13. propia lista, y son palpables las similitudes entre ciertos elementos en distintas formas de representación (veremos casos concretos más adelante); en la Tabla 2.1 destacamos algunas de los roles más utilizados (recopilados en [28] a partir de los trabajos de distintos autores) y los nombres que reciben en algunas representaciones (según lo expuesto en [26]):. Rol. Descripción. Ejemplo. Notación. Agent. Participante para el cuál el significado del verbo especifica lo que hace o causa, posiblemente de manera intencionada.. sujeto de: matar comer golpear. CGs: agent, accompaniment KANT: agent, accompanier UNL: agent, coagent, partner. Patient. Participante para el cuál el verbo caracteriza qué le ha ocurrido y cómo le afecta lo que le ocurre.. objeto de: matar comer.. CGs: experiencer KANT: experiencer UNL: experiencer. Participante que se caExperiencer racteriza por ser consciente de algo. sujeto de: amar objeto de: molestar. CGs: experiencer KANT: experiencer UNL: experiencer. Theme. Participante que se caracteriza por cambiar su posición o condición, o por estar en un estado o posición. sujeto de: andar morir objeto de: dar. CGs: theme KANT: UNL: object. Source. Objeto del que procede el movimiento. caja en: Quitó el libro de la caja. CGs: matter KANT: source UNL: source. Goal. Objeto al que se dirige el movimiento. caja en: Puso el libro en la caja. CGs: goal KANT: UNL: goal.

(28) Capı́tulo 2. Estado del Arte. 14. Tabla 2.1: Algunos Roles Semánticos estándar (los dos últimos propuestos por Jackendoff) y su notación en distintas representaciones (CGs = Conceptual Graphs, UNL y KANT sendas interlinguas), todas ellas explicadas con mayor detalle más adelante en este mismo capı́tulo. Un error muy común suele ser confundir los roles semánticos con las relaciones gramaticales estándar usuales, tales como sujeto, objeto, complemento... Aunque en algunos casos establecer dicha relación puede resultar útil para ciertas tareas de procesamiento o parsing, la relación entre ambos etiquetados no es necesariamente directa: mientras que los Roles Semánticos son una notación conceptual, las relaciones gramaticales son puramente morfosintácticas 2 . En la Tabla 2.2 encontramos un ejemplo de esta diferencia, en el que tres sujetos desempeñan tres roles semánticos distintos.. Frase de ejemplo. Sujeto. Rol Semántico. Bob abrió la puerta con una llave.. Bob. Agente. La llave abrió la puerta.. La llave. Instrumento. La puerta se abrió.. La puerta. Paciente. Tabla 2.2: Relaciones gramaticales vs Roles Semánticos: tres ejemplos en los que la misma relación gramatical (el sujeto) desempeña distintos roles semánticos.. 2.1.3.1.. Marcos semánticos. Intimamente ligado a los Roles Semánticos, otro concepto lingüı́stico interesante a la hora de representar consideraciones semánticas es el de frame o marco semántico. La idea de los marcos fue establecida en 1974 por Marvin Minsky, considerado el padre de la Inteligencia Artificial, y podrı́an verse en el contexto de su investigación (en ese momento orientada a la percepción y la representación de conocimiento en el seno de la Visión por Computador) como “capturas o fotografı́as de un momento concreto en un contexto o problema determinado”. Como explica el propio Minsky en [78], un frame serı́a “una estructura de datos que almacenamos en nuestra memoria para representar una situación estereotipada”, 2. http://www-01.sil.org/linguistics/GlossaryOfLinguisticTerms/ ComparisonOfSemanticRoleAndGra.htm.

(29) Capı́tulo 2. Estado del Arte. 15. “un framework que recordamos y que debe ser ajustado o adaptado a la realidad introduciendo los cambios necesarios”. Cada frame implica a su vez cierta información adjunta (metainformación, podrı́amos decir), sobre cómo usar el frame en la práctica, qué puede implicar en el futuro, etc. Los frames se podrı́an agrupar en colecciones temáticas, convirtiéndose en sistemas de frames que se relacionan entre sı́ por sus diferentes componentes, coordinando ası́ distintos puntos de vista sobre las situaciones relacionadas que representa cada frame. Siguiendo la idea de Minsky encontramos la Semántica de Frames, una teorı́a lingüı́stica desarrollada por Charles Fillmore, donde el frame es “una estructura conceptual que representa y describe una situación, un objeto o un evento junto con sus participantes y propiedades” [100]. Un frame serı́a como una lista de argumentos (slots) donde introducirı́amos los distintos elementos participantes en la situación que describe el frame [11]. En palabras de Sowa, los slots de los frames son la representación de los roles semánticos en un sistema de frames, equivaliendo3 a las relaciones conceptuales de los Grafos Conceptuales (que trataremos más adelante en la Sección 2.1.6). El repositorio de frames más importante a nivel mundial es FrameNet4 , en inglés e iniciado por el propio Fillmore en la Universidad de Berkeley en 1997, pero existen alternativas en distintos idiomas, como por ejemplo Spanish FrameNet para el español5 . Existen asimismo otras iniciativas similares disponibles online, como es el caso de PropBank6 .. 2.1.4.. Redes Semánticas. Las Redes Semánticas (Semantic Networks) fueron introducidas en el mundo de la Inteligencia Artificial por primera vez en 1968 por Ross Quillian, pensadas como “un mecanismo asociativo general capaz de codificar el significado de las palabras” [12]. Los significados se representarı́an mediante nodos que se unirı́an unos con otros para representar información asociada como propiedades, clases, instancias... Una posible definición formal de las Redes Semánticas podemos encontrarla en [54], donde se las considera “una representación del conocimiento grafal con forma de red”, distinguiéndola explı́citamente de otros tipos de red al considerar que “una red abstracta (...) se convierte en semántica cuando asig3 4 5 6. http://www.jfsowa.com/ontology/thematic.htm https://framenet.icsi.berkeley.edu/fndrupal/ http://spanishfn.org/ https://verbs.colorado.edu/~mpalmer/projects/ace.html.

(30) Capı́tulo 2. Estado del Arte. 16. nas un significado a cada nodo y link”. Se pueden también interpretar las Redes Semánticas como una evolución de las Redes de Herencia, tal y como declaran Branchman y Levesque en [11], al igual que se consideran precursoras de los Grafos Conceptuales (que abordaremos más tarde en la Sección 2.1.6). 2.1.4.1.. Tipos de Redes Semánticas. Por su parte, John Sowa define en [109] las Redes Semánticas de la siguiente manera: “Informalmente, una Red Semántica es un grafo no dirigido y acı́clico en el cuál los nodos representan entidades y los arcos etiquetados representan relaciones binarias entre las entidades.” Según este autor7 , existen diversos tipos de Redes Semánticas: Redes Defininicionales (Definitional networks): donde se hace énfasis en las relaciones is-a y subtipo-de, dando lugar a jerarquı́as con herencia. Redes Asercionales (Assertional networks): contienen aserciones; se diferencian de las primeras porque se asume que lo expresado es cierto. Redes Implicacionales (Implicational networks): la relación primaria es la implicación, pudiendo usarse para expresar patrones de creencia, causalidad o inferencia. Redes Ejecutables (Executable networks): este tipo de Redes Semánticas incluyen mecanismos que se ejecutan, como paso de mensajes, inferencias, búsqueda de asociaciones... Redes de Aprendizaje (Learning networks): construye o extiende las representaciones adquiriendo nuevo conocimiento a partir de ejemplos, pudiendo ajustarse (borrar o crear nuevos nodos) según un sistema de pesos asociado a su estructura (tanto a los arcos como a los nodos). Redes Hı́bridas (Hybrid networks): combinan dos o más de los tipos de redes vistas anteriormente, ya sea mezclándolas o interactuando de alguna manera. 7. http://www.jfsowa.com/pubs/semnet.htm.

(31) Capı́tulo 2. Estado del Arte. 2.1.4.2.. 17. Ejemplos de Redes Semánticas. Algunas Redes Semánticas bien conocidas y ampliamente utilizadas tanto en el campo del Procesamiento del Lenguaje Natural como en otras disciplinas de la Inteligencia Artificial se exponen a continuación: ConceptNet ConceptNet es una gran Red Semántica destinada a la representación de conocimiento orientado a tareas que implican sentido común. Es parte del proyecto OMCS8 (Open Mind Commonsense), desarrollado por el Media Lab del MIT (Instituto Tecnológico de Massachusetts), y se construye a partir de un corpus escrito en lenguaje natural (en inglés) con el que la gente puede interactuar directamente, aportando nueva información de sentido común. ConceptNet (actualmente en su quinta versión9 ) es conceptualmente un hipergrafo cuyos nodos representan palabras o frases cortas (conceptos) y que consta de relaciones etiquetadas entre dichos nodos (que expresan aserciones sobre el mundo) [114]. Algunas de estas relaciones (las más utilizadas) pueden encontrarse en la Figura 2.2, tomada de [114]. Existe asimismo una versión visual online llamada Lexipedia basada en ConceptNet10 , ası́ como diversos sistemas que lo usan para distintas aplicaciones (Sentiment Analysis, Traducción Automática, Bases del Conocimiento...). WordNet WordNet es una Red Semántica (probablemente la más conocida del mundo) que viene desarrollándose en la Universidad de Princeton desde 1985. Considerada uno de los recursos más utilizados en lengua inglesa, es una base de datos léxica cuyo contenido se agrupa en synsets, un término especı́fico para denominar un concepto que puede representarse por medio de distintos términos, a los que agrupa a nivel organizativo como si de un clúster se tratara. Estos synsets (defi8 9 10. https://en.wikipedia.org/wiki/Open_Mind_Common_Sense#ConceptNet http://conceptnet5.media.mit.edu/ https://en.wikipedia.org/wiki/Lexipedia , http://www.lexipedia.com/.

(32) Capı́tulo 2. Estado del Arte. 18. Figura 2.2: Relaciones más habituales en ConceptNet, con su número de apariciones y los patrones asociados (Fuente: [114]). nidos en la web de WordNet11 como “conjuntos de sinónimos cognitivos”) pueden agrupar adjetivos, sustantivos, adverbios o verbos, y están relacionados entre sı́ tanto por relaciones semántico-conceptuales como por relaciones léxicas, dando lugar a una red semántica completamente desambiguada. Aunque a primera vista la estructura de WordNet pueda recordar a la de un tesauro, WordNet es más profundo a nivel semántico, al considerar los propios significados más allá de las palabras. También se puede considerar que la infraestructura de relaciones que sostiene WordNet tiene todas las propiedades necesarias para ser usada como una ontologı́a, llegando a utilizarse en ocasiones como tal. Respecto a las relaciones semánticas que encontramos en WordNet, no todas pueden darse entre todos los tipos de synset; a continuación citamos las principales con sus respectivas restricciones [77]: 11. https://wordnet.princeton.edu/.

(33) Capı́tulo 2. Estado del Arte. 19. Sinonimia: es la relación básica de WordNet, simétrica y equivalente a is-a para todas las categorı́as gramaticales. Antonimia: también simétrica y aplicable a todas las categorı́as gramaticales; es especialmente relevante en caso de darse en synsets adverbiales y adjetivales. Hiponimia/Hiperonimia (también conocidas como subclase de y superclase de): son relaciones transitivas y opuestas entre synsets exclusivamente nominales, creando jerarquı́as entre ellos. Meronimia/Holonimia (parte de/todo de): consta a su vez de distintas subclases (miembro, substantivo o componente). Sólo utilizable entre synsets nominales. Troponimia: equivalente para los synsets verbales a la relación de hiponimia para los synsets nominales, aunque las jerarquı́as resultantes tienden a ser de menor profundidad. La estructura va a depender de las circunstancias semánticas que relacionen a los elementos de la jerarquı́a (pueden organizarse por intensidad, volumen...). Consecuencia lógica (entailment): relaciones lógicas entre synsets de verbos (por ejemplo, las parejas dormir y roncar o comprar y vender están relacionadas en cierta manera aunque no cumplan ninguna de las relaciones previamente descritas). La popularidad de WordNet y su éxito como recurso lingüı́stico llevó a otras lenguas a emular el formato original en inglés (aunque no todas estas nuevas versiones mantuvieron el acceso abierto, siendo algunas de pago); nacieron ası́ iniciativas como EuroWordNet12 para las lenguas europeas, GerFigura 2.3: Recursos principales de BamaNet13 para el alemán, IndoWord- belNet según la web oficial. Net14 para las 18 lenguas habladas en 12 13 14. https://en.wikipedia.org/wiki/EuroWordNet https://en.wikipedia.org/wiki/GermaNet https://en.wikipedia.org/wiki/IndoWordNet.

(34) Capı́tulo 2. Estado del Arte. 20. la India e incluso una versión china (CWN, Chinese Wordnet 15 ). También surgieron distintas versiones para una misma lengua, como es por ejemplo el caso del francés (con WOLF16 y WoNeF17 ). A nivel mundial encontramos Global WordNet, una asociación que conecta la mayor parte de implementaciones de WordNet; en su web se puede encontrar una lista con muchas más versiones18 . BabelNet BabelNet es una red semántica multilingüe desarrollada en la Universidad Sapienza de Roma y generada automáticamente a partir de distintos recursos. En un principio, estos recursos eran Wikipedia (de donde se extraı́a fundamentalmente información sobre las categorı́as y relaciones entre los artı́culos) y el previamente mencionado WordNet (de donde se tomaban los synsets, que pasan a convertirse en babel synsets) [86], pero posteriormente se añadieron otros recursos adicionales. Del mismo modo, el proceso consistı́a originalmente en realizar sucesivos mapeos sobre ambas fuentes, que finalmente daban lugar a la creación de nuevas relaciones y por consiguiente a una nueva red semántica. A dı́a de hoy, BabelNet se encuentra en la versión 3.6 e integra 217 lenguas diferentes en más de 14 millones de Babel synsets construidos automáticamente a partir de recursos como WordNet, Wikipedia o GeoNames; una lista completa de los recursos integrados se puede encontrar en la web oficial de BabelNet19 , destacando los presentes en la Figura 2.3, extraı́da de dicha página.. 2.1.5.. Ontologı́as. 2.1.5.1.. Posibles definiciones. En [40] encontramos distintas definiciones que se han ido dando a las ontologı́as en el campo de las ciencias de la computación (tiene una connotación anterior en la rama metafı́sica de la filosofı́a, que entre otras tareas estudia la 15 16 17 18 19. http://lope.linguistics.ntu.edu.tw/cwn/ http://alpage.inria.fr/~sagot/wolf.html http://wonef.fr/ http://globalwordnet.org/wordnets-in-the-world/ http://babelnet.org/about.

(35) Capı́tulo 2. Estado del Arte. 21. manera en que se relacionan las entidades que existen20 ); a continuación citamos algunas de las definiciones más representativas: “Una ontologı́a define los términos y las relaciones básicos contenidos en el vocabulario de una área temática, ası́ como las reglas para combinar términos y relaciones para definir extensiones del vocabulario”. Aunque esta definición es importante porque fue una de las primeras en enunciarse, la más utilizada y aceptada generalmente apareció años más tarde, expresada además de una forma mucho más clara y concisa: “Una ontologı́a es una especificación formal de una conceptualización consensuada”. Las definiciones de las ontologı́as pueden asimismo depender del punto de vista o del uso que se le vayan a dar; de cara a su utilización como base del conocimiento y focalizando en la estructura más que en el concepto, otra posible definición es la siguiente: “Una ontologı́a es un conjunto de términos estructurado de manera jerárquica que describen un dominio y que puede ser usado como el esqueleto fundamental de una base del conocimiento”. 2.1.5.2.. Tipos de ontologı́as. Dependiendo de su profundidad y de la manera de especificar los términos, en general las ontologı́as se clasifican como lightweight (pudiendo representar tan sólo la estructura taxonómica, sin adentrarse en absoluto el significado de los términos) o heavyweight (caso en el que se formalizan teorı́as lógicas, añadiendo axiomas y restricciones a una ontologı́a lightweight). Además, se considera que una ontologı́a puede ubicarse en una escala de formalidad en cuatro posiciones estándar según lo expuesto en [40]: altamente informal si está expresada en lenguaje natural, semi-informal si este lenguaje natural está restringido y estructurado, semi-formal en caso de estar expresada en un lenguaje artificial definido formalmente o regurosamente formal si está provista de términos dotados de una semántica formal, teoremas, etc. 20. https://es.wikipedia.org/wiki/Ontolog%C3%ADa.

(36) Capı́tulo 2. Estado del Arte. 22. Figura 2.4: Tipos de ontologı́as lightweight según el nivel de especificación, de menor a mayor. (Fuente: [45]) Las definiciones y el sistema de clasificación de ontologı́as expuestos previamente engloban asimismo recursos lingüı́sticos estándar como los tesauros o los glosarios según su nivel de profundidad, como podemos observar en la Figura 2.4, tomada de [45]. 2.1.5.3.. Componentes y ejemplos de Ontologı́as. Dependiendo de qué usemos para modelar la ontologı́a, los componentes pueden variar; a continuación se exponen los elementos más habituales que conforman una ontologı́a: Clases que representan conceptos (que en el caso de las ontologı́as heavyweight pueden ser primitivos o definidos), ya sean abstractos o especı́ficos. Relaciones, habitualmente binarias, que representan algún tipo de asociación entre conceptos o de un concepto con sus atributos (caracterı́sticas de la clase). En el caso de las ontologı́as heavyweight, las relaciones se denominan roles; algunas relaciones habituales son subclase de o parte de, además de las relaciones ad hoc, que se definen dentro del contexto de la ontologı́a. Dentro de las relaciones encontramos el caso concreto de las funciones. Axiomas formales, que modelizan frases que son siempre ciertas y resultan útiles para realizar inferencia; un ejemplo puede ser indicar que ciertas clases son necesariamente disjuntas..

(37) Capı́tulo 2. Estado del Arte. 23. Instancias (o individuos en las ontologı́as heavyweight) que representan elementos o individuos de una ontologı́a. Algunas de las ontologı́as más conocidas y usadas como recurso auxiliar en el ámbito de la Ingenierı́a Lingüı́stica son las siguientes: SUMO21 (Suggested Upper Merged Ontology). SENSUS22 , una extensión de la ya tratada WordNet. OMEGA23 sucesora de la anterior y usada por una interlingua (como veremos más tarde). DOLCE24 (Descriptive Ontology for Linguistic and Cognitive Engineering).. 2.1.6.. Grafos conceptuales. Según el propio John Sowa, considerado por muchos el creador de los grafos conceptuales, este tipo de representación es el resultado de un siglo de trabajo, remontándose sus orı́genes a los avances y creación en 1883 de una notación para la lógica de primer orden por parte de Charles Sanders Peirce [110]. La posterior representación de esta lógica en la forma de grafos existenciales y distintas aportaciones y uso por parte de otros investigadores a lo largo del siglo XX (entre ellos Roger Shank, ya comentado, e Igor A. Mel’čuk, cuyos trabajos trataremos más adelante) desembocan en la aparición de los grafos conceptuales propiamente dichos. De hecho, los autores de [11] consideran que los grafos conceptuales son una combinación de los grafos existenciales y las inheritance networks (“redes de herencia”), en tanto que para Sowa son “forma lógica bidimiensional basada en las redes semánticas de la Inteligencia Artificial y los grafos lógicos de C.S. Peirce, siendo ambas notaciones exactamente equivalentes en sus semánticas” [111]. Eileen Way, una de las discı́pulas de Sowa en el campo de los Grafos Conceptuales, declaró una década después de la aparición de la obra original en la que se propusieron estas estructuras que era “algo más que una sı́ntesis del trabajo actual en Inteligencia Artificial; un intento de reconciliar lo mejor de las aproximaciones “limpias” y “chapuceras” a la Inteligencia Artificial”, llegando a considerarlos 21 22 23 24. http://www.adampease.org/OP/ http://www.isi.edu/natural-language/projects/ONTOLOGIES.html http://www.gabormelli.com/RKB/Omega_Ontology http://www.loa.istc.cnr.it/old/DOLCE.html.

(38) Capı́tulo 2. Estado del Arte. 24. “un puente para salvar la distancia entre el rigor de la lógica y la expresividad de los métodos heurı́sticos o basados en esquemas”. 2.1.6.1.. Estructura. Respecto a la formación original de los Grafos Conceptuales, Sowa explica en [108] que la primitiva básica son los llamados conceptos, que suelen representarse25 con una caja que contiene una etiqueta en inglés (sort label ) que identifica el tipo de dicho concepto. El conjunto de estas etiquetas está subordinado a un orden parcial con el objetivo de permitir representar distintos niveles de generalidad. La conexión entre los conceptos se representa con una serie de relaciones conceptuales (los Roles Semánticos analizados en la sección anterior), representadas generalmente con cı́rculos (podemos ver un ejemplo de Grafo Conceptual tomado de [111] en la Figura 2.5). ¿Pero qué es exactamente un Grafo Conceptual? A partir de los componentes previamente expuestos, Sowa da la siguiente definición: “Un grafo conceptual es un grafo bipartito, finito, conectado y no dirigido con un tipo de nodos llamados conceptos y nodos de otro tipo denominados relaciones conceptuales. Un grafo conceptual puede consistir en un único concepto, pero no puede tener relaciones conceptuales sin enlazar.” También se suele considerar que un Grafo Conceptual es una representación grafal etiquetada de una fórmula Lógica de Primer Orden. 2.1.6.2.. Roles Semánticos. En los Grafos Conceptuales, los roles semánticos explicados en la sección anterior se denominan Thematic Roles o case relations, y equivalen a los predicados diádicos del Cálculo de Predicados y a los slots de los sistemas basados en frames, siendo todas estas notaciones formas equivalentes de representar las relaciones entre un proceso y sus participantes26 . En la Tabla 2.4 encontramos un desglose de 25. Aunque se ha adoptado como canónico, el sistema de representación de cajas y cı́rculos es sólo un medio y no está intrı́nsecamente ligado a la idea de los Grafos Conceptuales, sirviendo cualquier notación que se ajuste a las definiciones de la misma (tal y como declara el propio Sowa en [110]). 26 http://www.jfsowa.com/ontology/thematic.htm.

(39) Capı́tulo 2. Estado del Arte. 25. Figura 2.5: Grafo conceptual de la frase ”You can lead a horse to water, but you can‘t make him drink.”(“Puedes llevar un caballo al agua, pero no puedes obligarle a beber.”) (Fuente: [111]).

(40) Capı́tulo 2. Estado del Arte. 26. los Thematic Roles de Sowa según los tipos de participante, a su vez reflejados en la Tabla 2.3 [111]. Estos Thematic Roles relacionados con los participantes se engloban, a su vez, en una estructura mayor que clasifica todos los posibles roles presentes en la ontologı́a de los Grafos Conceptuales27 .. Source. Product. Determinant. Initiator. Goal. Immanent. Resource. Essence. Tabla 2.3: Tipos de Participantes en los Grafos Conceptuales. Initiator. Resource. Goal. Essence. Action. Agent, Effector. Instrument. Result, Recipient. Patient, Theme. Process. Agent, Origin. Matter. Result, Recipient. Patient, Theme. Transfer. Agent, Origin. Instrument, Medium. Experiencer, Recipient. Theme. Spatial. Origin. Path. Destination. Location. Temporal. Start. Duration. Completion. PointInTime. Ambient. Origin. Instrument, Matter. Result. Theme. Tabla 2.4: Thematic Roles según el tipo de participante en los Grafos Conceptuales. 2.1.6.3.. Evolución y aplicaciones. Los Grafos Conceptuales han evolucionado mucho desde su creación, dando lugar a diversas versiones [112], entre las que destacan las expuestas a continuación: Core Conceptual Graph: la versión original, que de hecho cuenta con su propia notación estándar ISO (Core CGIF, Core Conceptual Graph Iterchange Format). 27. http://www.jfsowa.com/ontology/roles.htm.

(41) Capı́tulo 2. Estado del Arte. 27. Extended Conceptual Graph: una versión extendida del anterior con aportaciones de distintos tipos (como la adición del cuantificador universal, nuevas etiquetas...) con su correspondiente notación en el estándar ISO (Extended CGIF ). Research Conceptual Graphs: extensiones formales o informales para distintas aplicaciones. Entre ellos encontramos los Nested Conceptual Graphs (NCGs), usados para formalizar la semántica de distintos tipos de lógica modal e intencional. Entre las diversas posibles aplicaciones de los Grafos Conceptuales encontramos por ejemplo la construcción de un parser semántico [113]; la investigación en este campo sigue asimismo muy activa, con la publicación de nuevas propuestas de manera periódica y la celebración de distintas conferencias en torno al tema, entre las que sobresale ICCS (International Conference on Conceptual Structures), celebrada cada dos años y fuente de interesantes propuestas de aplicación en distintos ámbitos. Destacamos dentro desde este evento algunas de las aplicaciones sugeridas durante la conferencia 18ésima, celebrada en 2010, como por ejemplo la comprensión del lenguaje natural por medio de NCGs o el procesamiento de queries, direcciones de correo electrónico y sistemas de pregunta/respuesta de sentido común con CGs [21].. 2.1.7.. Teorı́a del Texto-Significado. Pasando a la perspectiva lingüı́stica, la Teorı́a del Texto-Significado (en inglés Meaning-Text Theory, o MTT ) es una teorı́a propuesta por Aleksandr K. Žolkovskij e Igor A. Mel’čuk en 1965 a la que posteriormente contribuyeron también otros investigadores, como Jurij D. Apresjan, formando la llamada Escuela o Cı́rculo Semántico de Moscú [70]. A partir de esta teorı́a surgen los Meaning-Text Models (o MTMs), modelos lingüı́sticos funcionales (es decir, sistemas de expresiones simbólicas creadas con el objetivo de representar el funcionamiento global de las lenguas naturales) basados en la premisa de que el lenguaje es un mapeo entre el contenido o significado (la semántica) de un enunciado y la señal (acústica o gráfica) usada para comunicar dicho contenido (a esta representación la denominaremos fonética). Estas representaciones serı́an los dos extremos de una serie de representaciones intermedias estratificadas expuestas en la Figura 2.628 . Las tres 28. Fuente: http://www.neuvel.net/meaningtext.htm.

Referencias

Documento similar

Fuente de emisión secundaria que afecta a la estación: Combustión en sector residencial y comercial Distancia a la primera vía de tráfico: 3 metros (15 m de ancho)..

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de

dente: algunas decían que doña Leonor, "con muy grand rescelo e miedo que avía del rey don Pedro que nueva- mente regnaba, e de la reyna doña María, su madre del dicho rey,

Y tendiendo ellos la vista vieron cuanto en el mundo había y dieron las gracias al Criador diciendo: Repetidas gracias os damos porque nos habéis criado hombres, nos

Habiendo organizado un movimiento revolucionario en Valencia a principios de 1929 y persistido en las reuniones conspirativo-constitucionalistas desde entonces —cierto que a aquellas

o Si dispone en su establecimiento de alguna silla de ruedas Jazz S50 o 708D cuyo nº de serie figura en el anexo 1 de esta nota informativa, consulte la nota de aviso de la

De hecho, este sometimiento periódico al voto, esta decisión periódica de los electores sobre la gestión ha sido uno de los componentes teóricos más interesantes de la

Ciaurriz quien, durante su primer arlo de estancia en Loyola 40 , catalogó sus fondos siguiendo la división previa a la que nos hemos referido; y si esta labor fue de