Modelo de paráfrasis semántica de similitud de documentos

Texto completo

(1)Universidad Politécnica de Madrid Escuela Técnica Superior de Ingenieros Informáticos. Tesis de Fin de Máster. MODELO DE PARÁFRASIS SEMÁNTICA DE SIMILITUD DE DOCUMENTOS MÁSTER UNIVERSITARIO EN INTELIGENCIA ARTIFICIAL Departamento de Inteligencia Artificial Madrid, Julio 2016. Autora. Marı́a Navas Loro Supervisor. Jesús Cardeñosa Lera Grupo de Validación y Aplicaciones Industriales.

(2) What else would be given without explanation? How far could he rely, then, on the knowledge he was gaining? He would have to ask questions constantly, take nothing for granted. There would be so many opportunities to miss the obvious, so many chances to misunderstand, so many ways of taking the wrong path.. The Robots of Dawn, Isaac Asimov. The difficult is what takes a little time; the impossible is what takes a little longer.. Fridtjof Nansen. ii.

(3) Dedicado a .... Ojalá existiese una métrica de agradecimientos que diese a cada uno de los que me aguantan acompañan el peso justo que merece. No obstante, y pese a lo que digan Riemann y Lebesgue, hay cosas que no se pueden medir.. iii.

(4) Abstract Treatment of paraphrasing is an understudied area of Natural Language Processing. Most related efforts have focused on the study of purely semantic similarity, oriented to tasks such as text categorization, leaving aside the study of the content of the text, of what it does really mean. The fact that the main approaches to the treatment of paraphrasing are limited either to related areas such as logic or to purely theoretical linguistic models with difficult and costly practical application make this phenomenon not to be properly covered nowadays, being still impossible to tell whether two texts say exactly the same despite being expressed in different ways. Existing approaches also tend to be oriented to a unique language, so their scope is even more limited, preventing them for instance from certifying if a translation is correct or not. This thesis aims to remove this obstacle by approaching paraphrasing from a multilingual point of view, basing the presented model on an interlingual representation that allows it to study paraphrased texts that can come from any language. This representation will also help to avoid other common obstacles in Natural Language Understanding, such as the ambiguity problem. Therefore we introduce a model based on a novel approach, language independent, along with an extensive State of the Art on the areas involved in the treatment of paraphrasing..

(5) Resumen El tratamiento de la paráfrasis es un área poco estudiada del Procesamiento del Lenguaje Natural. La mayorı́a de esfuerzos relacionados se han centrado en el estudio de la similaridad puramente semántica, orientada a tareas como la categorización de textos, dejando a un lado el estudio del contenido del texto, de qué quiere decir realmente. El hecho además de que los principales enfoques del tratamiento de la paráfrasis se limiten o bien a áreas relacionadas como la lógica o bien a modelos lingüı́sticos puramente teóricos de difı́cil y costosa aplicación práctica hacen que este fenómeno no esté a dı́a de hoy debidamente cubierto, siendo imposible asegurar si dos textos dicen lo mismo pese a estar expresados de diferente manera. Las aproximaciones existentes suelen además estar orientadas a una única lengua, por lo que su alcance es aún más limitado, impidiendo por ejemplo certificar si una traducción es correcta o no. En esta tesis se pretende eliminar esta traba abordando la paráfrasis desde un punto de vista multilingüe, basándose en una representación interlingual que permitirá al modelo presentado estudiar la paráfrasis en textos que pueden proceder de cualquier idioma. Esta representación servirá también para evitar otros obstáculos habituales en la Comprensión del Lenguaje Natural, como es el problema de la ambigüedad. Presentaremos por tanto un modelo basado en un enfoque novedoso, independiente de la lengua, acompañado además de un extenso Estado del Arte sobre las áreas involucradas en el tratamiento de la paráfrasis..

(6) Índice general Dedicatoria. III. Abstract. IV. Resumen. V. 1. Introducción. 1. 1.1. Representación . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2. Similitud entre textos . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 1.3. Paráfrasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.4. Objetivos y utilidad de la propuesta . . . . . . . . . . . . . . . . .. 6. 1.5. Outline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 2. Estado del Arte. 9. 2.1. Representación del conocimiento . . . . . . . . . . . . . . . . . . .. 9. 2.1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. 2.1.2. Teorı́a de la Dependencia Conceptual . . . . . . . . . . . .. 10. 2.1.3. Roles Semánticos . . . . . . . . . . . . . . . . . . . . . . .. 12. 2.1.3.1. Marcos semánticos . . . . . . . . . . . . . . . . .. 14. 2.1.4. Redes Semánticas . . . . . . . . . . . . . . . . . . . . . . .. 15. 2.1.4.1. Tipos de Redes Semánticas . . . . . . . . . . . .. 16. 2.1.4.2. Ejemplos de Redes Semánticas . . . . . . . . . .. 17. ConceptNet . . . . . . . . . . . . . . . . . . . . . .. 17. WordNet . . . . . . . . . . . . . . . . . . . . . . . .. 17. BabelNet . . . . . . . . . . . . . . . . . . . . . . . .. 20. 2.1.5. Ontologı́as . . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. 2.1.5.1. Posibles definiciones . . . . . . . . . . . . . . . .. 20. 2.1.5.2. Tipos de ontologı́as . . . . . . . . . . . . . . . . .. 21 vi.

(7) Índice general. vii. 2.1.5.3. Componentes y ejemplos de Ontologı́as . . . . . .. 22. 2.1.6. Grafos conceptuales . . . . . . . . . . . . . . . . . . . . . .. 23. 2.1.6.1. Estructura. . . . . . . . . . . . . . . . . . . . . .. 24. 2.1.6.2. Roles Semánticos . . . . . . . . . . . . . . . . . .. 24. 2.1.6.3. Evolución y aplicaciones . . . . . . . . . . . . . .. 26. 2.1.7. Teorı́a del Texto-Significado . . . . . . . . . . . . . . . . .. 27. 2.1.8. Interlinguas . . . . . . . . . . . . . . . . . . . . . . . . . .. 29. 2.1.8.1. La Traducción Automática . . . . . . . . . . . .. 29. 2.1.8.2. Caracterı́sticas de una interlingua . . . . . . . . .. 32. 2.1.8.3. Ejemplos de interlinguas . . . . . . . . . . . . . .. 33. PIVOT . . . . . . . . . . . . . . . . . . . . . . . . .. 33. ATLAS II . . . . . . . . . . . . . . . . . . . . . . .. 33. KANT . . . . . . . . . . . . . . . . . . . . . . . . .. 34. UNITRAN . . . . . . . . . . . . . . . . . . . . . . .. 35. DLT . . . . . . . . . . . . . . . . . . . . . . . . . .. 36. Mikrokosmos . . . . . . . . . . . . . . . . . . . . . .. 36. Interlingua IAMTC . . . . . . . . . . . . . . . . . .. 37. Otras interlinguas . . . . . . . . . . . . . . . . . . .. 38. 2.1.9. UNL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 38. 2.1.9.1. Palabras Universales . . . . . . . . . . . . . . . .. 39. 2.1.9.2. Relaciones . . . . . . . . . . . . . . . . . . . . . .. 41. 2.1.9.3. Atributos . . . . . . . . . . . . . . . . . . . . . .. 42. 2.1.9.4. Grafos UNL . . . . . . . . . . . . . . . . . . . . .. 43. 2.1.9.5. Situación actual. . . . . . . . . . . . . . . . . . .. 45. 2.2. Paráfrasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 46. 2.2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . .. 46. 2.2.2. Perspectiva lingüı́stica . . . . . . . . . . . . . . . . . . . .. 47. 2.2.2.1. Conceptos lingüı́sticos relacionados . . . . . . . .. 47. Textual entailment . . . . . . . . . . . . . . . . . .. 47. Polisemia . . . . . . . . . . . . . . . . . . . . . . . .. 48. Anáfora y Correferencia. . . . . . . . . . . . . . . .. 48. Sinonimia . . . . . . . . . . . . . . . . . . . . . . .. 49. Semántica Distribucional . . . . . . . . . . . . . . .. 50. 2.2.2.2. Modelo del Texto-Significado . . . . . . . . . . .. 52. Concepto de paráfrasis . . . . . . . . . . . . . . . .. 52.

(8) Índice general. viii. Tipos de paráfrasis . . . . . . . . . . . . . . . . . .. 53. Funciones léxicas . . . . . . . . . . . . . . . . . . .. 53. 2.2.3. Perspectiva computacional . . . . . . . . . . . . . . . . . .. 54. 2.2.3.1. Tipos de paráfrasis . . . . . . . . . . . . . . . . .. 54. 2.2.3.2. Posibles enfoques . . . . . . . . . . . . . . . . . .. 55. Generación . . . . . . . . . . . . . . . . . . . . . . .. 55. Extracción . . . . . . . . . . . . . . . . . . . . . . .. 55. Reconocimiento . . . . . . . . . . . . . . . . . . . .. 56. 2.2.3.3. Campos de aplicación . . . . . . . . . . . . . . .. 58. Resumidores . . . . . . . . . . . . . . . . . . . . . .. 58. 2.2.3.4. Consultas expandidas, Q/A y EI . . . . . . . . .. 60. 2.2.3.5. Generación de LN y TA . . . . . . . . . . . . . .. 60. Otros usos . . . . . . . . . . . . . . . . . . . . . . .. 61. 2.2.3.6. Recursos . . . . . . . . . . . . . . . . . . . . . . .. 61. 2.2.3.7. Otras consideraciones . . . . . . . . . . . . . . .. 62. 2.3. Similaridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 63. 2.3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . .. 63. 2.3.2. Nivel de palabra. . . . . . . . . . . . . . . . . . . . . . . .. 63. 2.3.2.1. Cadenas de caracteres . . . . . . . . . . . . . . .. 63. Basadas en edición . . . . . . . . . . . . . . . . . .. 63. Basadas en tokens . . . . . . . . . . . . . . . . . . .. 65. Otras medidas . . . . . . . . . . . . . . . . . . . . .. 67. 2.3.2.2. Métodos de evaluación de Traducción Automática. 68. BLEU . . . . . . . . . . . . . . . . . . . . . . . . .. 68. NIST . . . . . . . . . . . . . . . . . . . . . . . . . .. 69. METEOR . . . . . . . . . . . . . . . . . . . . . . .. 69. WER . . . . . . . . . . . . . . . . . . . . . . . . . .. 70. TER . . . . . . . . . . . . . . . . . . . . . . . . . .. 70. PER . . . . . . . . . . . . . . . . . . . . . . . . . .. 70. Otras medidas . . . . . . . . . . . . . . . . . . . . .. 71. 2.3.3. Nivel sintáctico . . . . . . . . . . . . . . . . . . . . . . . .. 71. 2.3.3.1. Árboles . . . . . . . . . . . . . . . . . . . . . . .. 71. 2.3.3.2. Grafos . . . . . . . . . . . . . . . . . . . . . . . .. 72. 2.3.4. Nivel semántico . . . . . . . . . . . . . . . . . . . . . . . .. 73. 2.3.4.1. Co-ocurrencias o medidas basadas en corpus . . .. 74.

(9) Índice general. ix. 2.3.4.2. Medidas taxonómicas para conceptos . . . . . . .. 75. Basadas en el camino entre conceptos . . . . . . . .. 75. Basadas en el Contenido de Información . . . . . .. 78. 2.3.4.3. Medidas de similaridad para oraciones y textos .. 79. Semántica de las palabras . . . . . . . . . . . . . .. 81. Orden de las palabras . . . . . . . . . . . . . . . . .. 81. Diferencias . . . . . . . . . . . . . . . . . . . . . . .. 82. Uso de Roles Semánticos . . . . . . . . . . . . . . .. 82. 2.3.4.4. Similaridad entre grafos . . . . . . . . . . . . . .. 83. Conceptos previos . . . . . . . . . . . . . . . . . . .. 83. Comparación de Grafos Conceptuales . . . . . . . .. 84. 2.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 86. 3. Definición del Trabajo. 88. 3.1. Introducción y motivación . . . . . . . . . . . . . . . . . . . . . .. 88. 3.2. Hipótesis de trabajo . . . . . . . . . . . . . . . . . . . . . . . . .. 89. 3.3. Asunciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 90. 3.4. Restricciones y limitaciones . . . . . . . . . . . . . . . . . . . . .. 90. 3.5. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 91. 3.6. Método de validación . . . . . . . . . . . . . . . . . . . . . . . . .. 91. 4. Modelo propuesto 4.1. Bases teóricas del modelo. 93 . . . . . . . . . . . . . . . . . . . . . .. 93. 4.1.1. Perspectiva sintáctica . . . . . . . . . . . . . . . . . . . . .. 93. 4.1.2. Perspectiva semántica . . . . . . . . . . . . . . . . . . . .. 94. 4.1.3. Comparación de grafos . . . . . . . . . . . . . . . . . . . .. 94. 4.2. Puntos claves de UNL sobre los que se asienta el modelo . . . . .. 94. 4.2.1. Elementos de la oración en UNL . . . . . . . . . . . . . . .. 95. 4.2.1.1. @entry, el núcleo de la frase . . . . . . . . . . . .. 95. 4.2.1.2. Categorı́as gramaticales . . . . . . . . . . . . . .. 95. 4.2.1.3. Atributos . . . . . . . . . . . . . . . . . . . . . .. 98. 4.3. Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 98. 4.3.1. Jerarquı́a de relaciones . . . . . . . . . . . . . . . . . . . .. 98. 4.3.1.1. Relaciones básicas . . . . . . . . . . . . . . . . .. 99. 4.3.1.2. Modificadores . . . . . . . . . . . . . . . . . . . . 100 Modificadores de primer nivel (Mod1 ) . . . . . . . . 100.

(10) Índice general. x. Modificadores de subgrafos de segundo nivel (ModS2 ) 102 Modificadores de subgrafos coordinados (ModSC ) . . 105 Modificadores de subgrafos de tercer nivel (ModS3 ) . 106 4.3.2. Otros tipos de mapeos o correspondencias . . . . . . . . . 106 4.3.2.1. Mapeo de relaciones entre verbos de distinta categorı́a ontológica . . . . . . . . . . . . . . . . . . 106 4.3.2.2. Mapeo de relaciones entre subgrafos con núcleo sustantivo-verbo y sustantivo-sustantivo . . . . . 108 4.3.2.3. Casos especiales: la comparación, los superlativos y la coordinación . . . . . . . . . . . . . . . . . . 108 La comparación . . . . . . . . . . . . . . . . . . . . 108 Los superlativos . . . . . . . . . . . . . . . . . . . . 110 La coordinación . . . . . . . . . . . . . . . . . . . . 110 4.3.3. Selección de atributos. . . . . . . . . . . . . . . . . . . . . 110. 4.3.4. Medida de similaridad . . . . . . . . . . . . . . . . . . . . 112 4.3.4.1. Verbos . . . . . . . . . . . . . . . . . . . . . . . . 112 4.3.4.2. Adjetivos, adverbios y sustantivos . . . . . . . . . 115 4.3.4.3. Similaridad entre palabras de distinta categorı́a . 116 4.3.4.4. Ejemplos de aplicación de la medida . . . . . . . 116 4.3.5. Algoritmo de comparación de grafos . . . . . . . . . . . . . 117 4.3.5.1. Distinción de casos del modelo comparativo . . . 118 4.3.5.2. Casos del modelo comparativo . . . . . . . . . . . 118 Caso 1 . . . . . . . . . . . . . . . . . . . . . . . . . 121 Casos 2, 3 y 4 . . . . . . . . . . . . . . . . . . . . . 122 4.3.5.3. Identificación de subgrafos . . . . . . . . . . . . . 123 4.3.6. Ejemplos de aplicación del modelo . . . . . . . . . . . . . . 124 4.3.6.1. Presencia de entidades . . . . . . . . . . . . . . . 125 Posibles variaciones . . . . . . . . . . . . . . . . . . 126 4.3.6.2. Similaridad semántica con varios verbos . . . . . 128 4.3.6.3. Caso de comparación . . . . . . . . . . . . . . . . 131 Posibles variaciones . . . . . . . . . . . . . . . . . . 133 4.4. Resumen final sobre el modelo . . . . . . . . . . . . . . . . . . . . 133 5. Experimentación y resultados. 135. 5.1. Implementación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 5.2. Validación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136.

(11) Índice general. 5.2.1. Tı́tulo . . . . 5.2.2. Oración 1 . . 5.2.3. Oración 2 . . 5.2.4. Oración 3 . . 5.3. Conclusiones sobre la. xi. . . . . . . . . . . . . . . . . . . . . . . . . validación. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. 137 138 139 139 141. 6. Conclusiones y futuros caminos 142 6.1. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 6.2. Futuras lı́neas a seguir . . . . . . . . . . . . . . . . . . . . . . . . 143 A. Relaciones UNL. 146. B. Atributos UNL. 149. C. Validación del documento. 154. D. Otros ejemplos de validación. 159. Bibliografı́a. 161.

(12) Índice de figuras 2.1. Representación cronológica de Teorı́as y Sistemas de Representación 10 2.2. Relaciones más habituales en ConceptNet. . . . . . . . . . . . . .. 18. 2.3. Recursos principales de BabelNet . . . . . . . . . . . . . . . . . .. 19. 2.4. Tipos de ontologı́as . . . . . . . . . . . . . . . . . . . . . . . . . .. 22. 2.5. Ejemplo de Grafo Conceptual . . . . . . . . . . . . . . . . . . . .. 25. 2.6. Representaciones de MTT . . . . . . . . . . . . . . . . . . . . . .. 29. 2.7. Triángulo de Vauquois . . . . . . . . . . . . . . . . . . . . . . . .. 30. 2.8. Traducción entre pares vs Traducción basada en interlinguas . . .. 31. 2.9. Ejemplo clásico de grafo UNL. . . . . . . . . . . . . . . . . . . . .. 43. 2.10. Ejemplo de representación UNL . . . . . . . . . . . . . . . . . . .. 45. 2.11. Escala de sinonimia . . . . . . . . . . . . . . . . . . . . . . . . . .. 49. 2.12. Arquitectura de paráfrasis según la Distribución Estructural . . .. 51. 2.13. Tipos de paráfrasis . . . . . . . . . . . . . . . . . . . . . . . . . .. 54. 2.14. Medidas de similaridad para caracteres . . . . . . . . . . . . . . .. 64. 2.15. Ejemplo árbol de dependencias . . . . . . . . . . . . . . . . . . .. 72. 2.16. Comparativa medidas de similaridad semántica . . . . . . . . . .. 80. 2.17. Ejemplo de overlap en Grafos Conceptuales . . . . . . . . . . . . .. 84. 4.1. Ejemplo @entry verbo . . . . . . . . . . . . . . . . . . . . . . . .. 95. 4.2. Ejemplo @entry sustantivo . . . . . . . . . . . . . . . . . . . . . .. 96. 4.3. Modelo: Esquema de la jerarquı́a relaciones UNL propuesta . . . .. 99. 4.4. Modelo: Esquema de modificadores tipo Mod1 . . . . . . . . . . . 103 4.5. Modelo: Esquema de modificadores de subgrafos . . . . . . . . . . 104 4.6. Estructura de la comparación . . . . . . . . . . . . . . . . . . . . 109 4.7. Modelo: Casos del modelo de comparación . . . . . . . . . . . . . 119 4.8. Modelo: Caso 1 del modelo de comparación . . . . . . . . . . . . . 120 4.9. Grafo de la frase: “Tom bought a Honda from John.” . . . . . . . 125 xii.

(13) Índice de figuras. xiii. 4.10. Grafo de la frase: “Tom purchased a Honda from John.” . . . . . 4.11. Grafo de la frase: “Me comentó que no pensaba participar en el concurso.” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.12. Grafo de la frase: “Me dijo que pensaba participar en el concurso.” 4.13. Subgrafos en el proceso de comparación entre dos oraciones . . . . 4.14. Grafo de la frase: “Las ciudades del norte son más ricas que las ciudades del sur.” . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.15. Grafo de la frase: “Las ciudades del sur son más pobres que las ciudades del norte.” . . . . . . . . . . . . . . . . . . . . . . . . . .. 125 128 128 130 131 131. 5.1. Verificación: Grafo del tı́tulo del texto original. “Los españoles no confı́an en que los Gobiernos estén usando bien sus datos” . . . . 5.2. Verificación: Grafo del tı́tulo del texto modificado. “Los españoles no confı́an en que los Gobiernos no estén usando bien sus datos” 5.3. Verificación: Grafo de la oración 1 del texto original. “Los ciudadanos afirman que no saben ni quién, ni dónde, está capturando y almacenando sus datos” . . . . . . . . . . . . . . . . . . . . . . . 5.4. Verificación: Grafo de la oración 1 del texto modificado. “Los ciudadanos niegan que no saben ni quién, ni dónde, está capturando y almacenando sus datos” . . . . . . . . . . . . . . . . . . . . . . 5.5. Verificación: Grafo de la oración 3 del texto original. “Además, cuando aumenta la edad y baja el nivel de instrucción disminuye drásticamente las ventajas percibidas sobre el Big Data.” . . . . . 5.6. Verificación: Grafo de la oración 3 del texto modificado. “Además, cuando disminuye la edad y aumenta el nivel de instrucción aumenta drásticamente las ventajas percibidas sobre el Big Data” . .. 140. C.1. C.2. C.3. C.4.. 155 156 157 158. Resultado Resultado Resultado Resultado. de de de de. la la la la. verificación verificación verificación verificación. del tı́tulo del texto . . . . . . . de la primera oración del texto de la segunda oración del texto de la tercera oración del texto. . . . .. . . . .. . . . .. . . . .. 137 137. 138. 138. 140.

(14) Índice de tablas 2.1. 2.2. 2.3. 2.4.. Roles Semánticos estándar . . . . . . . . . . . . . . . . . . . . . . Relaciones gramaticales vs Roles Semánticos . . . . . . . . . . . . Tipos de Participantes en los Grafos Conceptuales . . . . . . . . . Thematic Roles según el tipo de participante en los Grafos Conceptuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 14 14 26 26. 4.1. Modelo: Relaciones básicas UNL . . . . . . . . . . . . . . . . . . . 100 4.2. Correspondencias entre relaciones modificadoras semánticas . . . . 101 4.3. Mapeos entre verbos de distintas categorı́as ontológicas. . . . . . . 107 A.1. Atributos de UNL . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 B.1. Relaciones conceptuales. . . . . . . . . . . . . . . . . . . . . . . . 153. D.1. Ejemplos de validación . . . . . . . . . . . . . . . . . . . . . . . . 160. xiv.

(15) Capı́tulo 1 Introducción El Procesamiento del Lenguaje Natural es un área particularmente difı́cil de la Inteligencia Artificial, pues el Lenguaje Natural, ya de por sı́ complejo en la comunicación entre seres humanos, es un escollo difı́cil de superar a la hora de ser procesado exclusivamente por máquinas. La riqueza y vasta diversidad del mismo conllevan problemas como la ambigüedad y el multilingüismo que, junto con otros aspectos como la separación existente entre la Lingüı́stica Computacional y la Lingüı́stica pura, han dificultado la evolución de esta disciplina. Impulsada recientemente por el auge de Internet y por el éxito de propuestas como la Web Semántica, que hacen que cada dı́a el volumen de información a tratar crezca de manera exponencial, la necesidad de sistemas capaces de analizar, procesar y especialmente interpretar correctamente todo tipo de información de distintas procedencias, idiomas y caracterı́sticas se hace cada vez más acuciante. Los soportes en los que estos datos llegan son cada vez más diversos: vı́deo, audio, documentos, blogs, webs, redes sociales, mensajerı́a... pudiendo además venir formulados por personas de muy distinta procedencia social, cultural y geolingüı́stica, lo que acarrea expresiones muy diferentes para los mismos conceptos. Todos estos formatos y posibles formas de expresión tienen algo en común: necesitan de un correcto procesamiento del lenguaje para poder ser usados en toda su plenitud.. 1.1.. Representación. Uno de los principales problemas a la hora de lidiar con el Lenguaje Natural es su representación. Aunque el inglés ha sido casi unánimemente adoptado como lengua vehicular tanto en internet como en las relaciones internacionales a todos 1.

(16) Capı́tulo 1. Introducción. 2. los niveles, no resulta efectivo como sistema de representación del conocimiento a nivel máquina; además, al no ser capaz de representar fielmente conceptos de otros idiomas, no puede cumplir adecuadamente las expectativas de la globalizada sociedad en la que vivimos, ni tampoco las necesidades impuestas por propuestas como la ya mencionada Web Semántica. Aunque existen tanto en el mercado como en el mundo de la investigación multitud de iniciativas que tratan de paliar el problema del multilingüismo mediante el uso de distintos sistemas de traducción y representación del lenguaje, no es posible encontrar a dı́a de hoy una solución plenamente satisfactoria y completamente operativa. Una parte representativa del Estado del Arte del presente trabajo revisa algunas de las teorı́as y representaciones más comunes propuestas desde la perspectiva de la Lingüı́stica Computacional para lidiar con esta cuestión, haciendo especial hincapié en UNL, el lenguaje universal impulsado por las Naciones Unidas como sistema de representación intermedia entre distintos idiomas. Como veremos más adelante, el interés de esta iniciativa radica en el consenso alcanzado por equipos procedentes de distintos paı́ses, compuestos por expertos del dominio y designados representantes de las distintas lenguas, a la hora de organizar y representar de manera estandarizada tanto los conceptos comunes a las diferentes lenguas como los rasgos caracterı́sticos y distintivos de cada una de ellas, ası́ como de definir y normalizar las distintas relaciones que se pueden dar entre dichos conceptos en el proceso de comunicación. Se alcanza por tanto con UNL el objetivo de una representación independiente de la lengua y basada exclusivamente en el significado tras la formulación en el lenguaje en el que se expresó originalmente, que facilita tanto su procesamiento a nivel máquina como su transformación a otra lengua en el seno de un proceso de traducción automática. No obstante, UNL está aún en desarrollo y constante evolución, por lo que a la hora de comunicarnos con personas de otras lenguas y culturas, la mayorı́a de veces no tenemos más remedio que conformarnos con el uso de traductores automáticos que en ocasiones son de dudosa fiabilidad. Esto puede resultar de utilidad en caso de tener dudas puntuales sobre expresiones concretas a la hora de redactar por ejemplo en idiomas que conocemos parcialmente (como generalmente es el caso del inglés) o que intuitivamente podemos interpretar, ya sea por su similitud lingüı́stica con nuestra lengua materna o porque su origen es similar.

(17) Capı́tulo 1. Introducción. 3. y por tanto la estructura nos resulta familiar y es fácil establecer similitudes con nuestra propia lengua (como por ejemplo ocurre con el italiano y el español); sin embargo, es poco probable que alguien con necesidad de escribir por ejemplo un contrato en una lengua como el japonés confiase ciegamente en la traducción arrojada por uno de estos sistemas. ¿Cómo saber si la traducción es correcta? ¿existe alguna forma de corroborar esto a nivel máquina?. 1.2.. Similitud entre textos. En lo concerniente a la relación de similaridad entre textos (y como veremos más adelante en el Estado del Arte), se ha escrito mucho tanto a nivel monolingüe como multilingüe, ya que por ejemplo es útil a la hora de realizar clasificaciones temáticas de documentos, noticias, correos electrónicos, etc. No obstante, en la mayorı́a de ocasiones esta similaridad se centra casi exclusivamente en la semántica, podrı́amos decir que respondiendo a la pregunta ¿hablan de los mismo?, cuando en el contexto de la comunicación interlingüe y la traducción automática la cuestión clave, la que realmente nos interesa, es ¿dicen lo mismo?, que es igual que decir que ambas representaciones significan lo mismo. Es importante recalcar esta diferencia entre similitud semántica y mismo significado o contenido, por lo que clarificaremos esta distinción con una serie ejemplos. Si tenemos las siguientes oraciones: Me gustan las patatas. No me gustan las patatas. para un ser humano es evidente que estamos hablando de lo mismo, pero que el significado es radicalmente opuesto. Un sistema de similitud semántica darı́a por tanto una relación de similaridad elevada, cuando obviamente no transmiten la misma información. Asimismo, las frases: Los limones son frutas. Los limones son cı́tricos. tienen también un alto grado de similaridad semántica, y aunque el contenido no podemos decir que sea exactamente el mismo, podemos considerar que sı́ que tienen un significado francamente parecido..

(18) Capı́tulo 1. Introducción. 4. Pensemos ahora en documentos legales o jurı́dicos, como por ejemplo decretos o un contrato. La correcta definición y correspondencia entre una cláusula y su traducción puede cambiar por completo las condiciones de un acuerdo, dando lugar a posibles problemas y litigios que probablemente ambas partes quieran evitar. En este caso, la sensibilidad a la hora de homogeneizar el significado deberı́a ser máxima. Vemos por tanto que el concepto de tener el mismo de significado entre oraciones no está tampoco muy claro; aunque lo trataremos más adelante y con mayor rigurosidad en el Estado del Arte, siguiendo la idea de la definición de igualdad o similaridad en el significado pasamos a avanzar brevemente el concepto de paráfrasis.. 1.3.. Paráfrasis. Pese a que, como veremos, no es fácil definir el concepto de paráfrasis y no existe una definición absoluta aceptada, habitualmente la paráfrasis se suele entender como expresiones lingüı́sticas que, usando distintas palabras, tienen el mismo significado, pudiendo abarcar este fenómeno distintas unidades léxicas (desde morfemas a oraciones o textos completos) [126]. No obstante, ¿qué podemos considerar mismo significado? Algunos autores sostienen que la paráfrasis se da cuando hay una correspondencia pura de significado, una sinonimia absoluta, mientras que otros mantienen que la propia naturaleza del lenguaje hace prácticamente imposible que se dé una correspondencia exacta de significado entre formulaciones distintas. Es por ello que comúnmente se aceptan como paráfrasis las expresiones lingüı́sticas que tienen aproximadamente el mismo significado, radicando el principal problema tanto a nivel máquina como para los propios humanos en discernir cuándo se da y cuándo no mediante algún tipo de umbral difuso dependiente del propio contexto de las expresiones. Por su parte, Hirst [46] mantiene que la paráfrasis consiste en hablar de la “misma situación de manera diferente”, matizando que la “misma situación” no tiene por qué implicar las mismas condiciones, detalles o siquiera el mismo mensaje. Esta aproximación a la paráfrasis se relaciona también con otra perspectiva en la que profundizaremos más adelante y que pasa por considerar la paráfrasis como una doble presencia de otro fenómeno lingüı́stico conocido como “textual entailment”.

(19) Capı́tulo 1. Introducción. 5. (o implicación textual). El textual entailment consiste a grandes rasgos en que un primer texto implique el significado contenido en un segundo texto, por lo que en caso de darse de manera bidireccional entre ambos textos se podrı́a considerar que estamos hablando de una paráfrasis, ya que esto significarı́a que vienen a decir lo mismo. Antes hablábamos de cómo la riqueza del lenguaje, una de las caracterı́sticas que define al ser humano como especie superior, puede suponer un problema en sı́ mismo; esto se hace patente al encontrar mil formas diferentes de expresar lo que a priori consideramos el mismo contenido. Para decir que partimos de un lugar, podemos elegir por ejemplo entre expresiones como “me voy”, “me marcho”, “me piro”, “me largo” o incluso “huyo”. No obstante, aunque todas significan irse de un lugar, no debemos dejar de apreciar los distintos matices que aporta cada una de las posibles representaciones: “me piro” o “me largo”, por ejemplo, son expresiones mucho más coloquiales que las demás, dando una connotación de familiaridad e indicios sobre el contexto que no nos aportan las otras opciones, mientras que “huir”, aunque signifique irse, implica urgencia y dejar atrás una situación no deseada. El mismo contenido de información y la forma en la que se expresa puede también buscar influir en la visión del receptor, o simplemente plasmar o reforzar un punto de vista. Es el caso de las siguientes oraciones (extraı́das de [46]): Los Estados Unidos dirigieron la invasión de Iraq. Los Estados Unidos dirigieron la liberación de Iraq. Los Estados Unidos dirigieron la ocupación de Iraq. donde los tres enunciados hacen referencia a la misma situación, y sin embargo la designan de manera diferente, siendo obvio para una persona que hablan de lo mismo y que es una cuestión de perspectiva pero suponiendo un verdadero problema a nivel de procesamiento automático. Igualmente ocurre con el énfasis que queramos darle a los diferentes elementos de una frase, como podemos observar en las siguientes oraciones: Mueren trece personas en un atentado terrorista. Un atentado terrorista provoca trece vı́ctimas mortales. donde la primera enfatiza el número de vı́ctimas y la segunda el propio atentado, pese a contener exactamente la misma información. Por último, muchas veces la.

(20) Capı́tulo 1. Introducción. 6. forma de expresar la información viene impuesta también por el propio contexto del lenguaje, como es el caso de las fórmulas prefijadas de muchos textos jurı́dicos y legales, por lo que cabe resaltar que la paráfrasis en ciertos casos puede implicar pérdida de información o incluso ambigüedad en la interpretación del contenido. Es por ello que a la hora de definir un sistema de gestión de paráfrasis es recomendable restringirse a un dominio concreto. En definitiva, podemos concluir que la paráfrasis es completamente subjetiva y que se mueve entre los lı́mites de la similitud de significado y la importancia de los diferentes matices de los que se compone una misma situación, ası́ como de las distintas formas que nos ofrece la lengua de tratarlos y expresarlos y que forman parte de misma de la riqueza del lenguaje. Multitud de fenómenos lingüı́sticos como la ironı́a y la metáfora lindan con la paráfrasis y pueden entenderse como tal, pero indudablemente aportan al texto una pátina que difı́cilmente se puede reproducir o detectar adecuadamente en un sistema de paráfrasis automático actual; esto nos demuestra lo lejos que estamos aún de un sistema de Procesamiento del Lenguaje Natural perfecto, capaz de entender las sutilezas y distintas dimensiones del lenguaje, y de cómo queda aún mucho trabajo por delante para alcanzar resultados plenamente satisfactorios.. 1.4.. Objetivos y utilidad de la propuesta. Pasamos ahora a enunciar los objetivos a alcanzar en el presente trabajo y la idea tras la propuesta planteada. Los objetivos a conseguir son los siguientes: Por una parte, en esta tesis se planea estudiar el propio fenómeno de la paráfrasis, contestando entre otras a las siguientes cuestiones: ¿qué tipos hay? ¿cómo se da? ¿cómo se gestiona en los sistemas actuales? ¿hay avances en este ámbito? ¿cuáles son las necesidad en este aspecto de los sistemas de Procesamiento del Lenguaje Natural? ¿qué aplicaciones pueden beneficiarse más de un sistema de estas caracterı́sticas? ¿qué factores son importantes en la paráfrasis (estructura, semántica...)? y ¿qué debemos mirar, dónde orientar nuestros esfuerzos? Para ello se ha realizado un extenso trabajo de documentación sobre el estado actual de la cuestión, que ha desembocado en la redacción de un Estado del Arte en el que repasaremos algunas teorı́as lingüı́sticas al respecto y las soluciones que.

(21) Capı́tulo 1. Introducción. 7. plantean, ası́ como posibles representaciones, formalizaciones e interpretaciones de las mismas a nivel práctico. Por otra parte, se busca en el presente trabajo plantear un modelo capaz de lidiar con la paráfrasis a nivel tanto sintáctico como semántico desde la representación de UNL de la que hemos hablado anteriormente. Para ello se tendrán en cuenta tanto las teorı́as lingüı́sticas y los modelos y soluciones ya desarrollados y examinados durante el Estado del Arte como las propias caracterı́sticas del sistema UNL, que se revisarán también en dicho apartado de la tesis. Como veremos más adelante, la variación que origina la paráfrasis puede darse a distintos niveles: sintáctico, léxico, semántico... aunque la mayorı́a de enfoques se han orientado a este último, creemos que la clave radica en combinar todas las perspectivas para alcanzar un sistema lo más completo posible; en definitiva, no podemos limitarnos solo a la semántica, por lo que vamos a abordarlo desde un punto de vista semántico y sintáctico. Respecto a la utilidad del trabajo realizado, las posibles aplicaciones de un sistema funcional de detección de paráfrasis son muchas, como veremos más adelante en el Estado del Arte. Destacamos entre ellas la detección de plagio, la comparación de respuestas en exámenes y la expansión de búsqueda en sistemas de pregunta/respuesta. Otras ideas de mayor complejidad son la comprensión y generación de textos poéticos (principalmente de metáforas), ya que la detección puede además ayudar a enriquecer la generación de Lenguaje Natural, pudiendo dotar de distintos niveles de complejidad a un mismo texto, adaptándolo a cierto tipo de receptor (niños, extranjeros, profesionales de cierto sector...). Un modelo interlingüe como el propuesto en este trabajo añadirı́a a esta lista, además, la posibilidad de verificar traducciones de distintos idiomas.. 1.5.. Outline. En lo concerniente a la organización de la tesis, tras la presente introducción será como sigue. Primero se realizará una revisión de en qué punto se encuentra la cuestión a.

(22) Capı́tulo 1. Introducción. 8. tratar actualmente; este Estado del Arte ha sido planteado en tres partes, como sigue: 1. Se comenzará por examinar las distintas teorı́as lingüı́sticas y los posibles sistemas de representación que podemos encontrar en el Procesamiento del Lenguaje Natural, tanto en lo concerniente al propio texto a interpretar como en los distintos recursos que pueden ayudarnos en dicha tarea. 2. En segundo lugar pasaremos a revisar las distintas aproximaciones realizadas para abordar el problema de la paráfrasis, definiéndola en mayor profundidad y relacionándola con otros fenómenos lingüı́sticos colindantes. Veremos también áreas de aplicación que se benefician de los modelos actuales de gestión de la paráfrasis, otras disciplinas del Procesamiento del Lenguaje Natural que tocan la paráfrasis y algunas de las soluciones planteadas hasta ahora. 3. Por último, hablaremos del concepto de similaridad en los distintos niveles del lenguaje y veremos las posibles maneras de abordar la comparación de grafos, dado que es ésta la representación usada en UNL y con la que trataremos en el modelo propuesto. Tras el Estado del Arte enunciaremos el planteamiento del problema, matizando los principales obstáculos que podemos encontrar (extraı́dos de la revisión realizada en la sección anterior) y definiendo las limitaciones, las asunciones y las hipótesis que consideraremos en el modelo propuesto; estas restricciones vienen impuestas por la propia naturaleza compleja del problema a tratar y por el hecho de tratarse el presente trabajo de una Tesis de Fin de Máster y ser por tanto de una duración y un enfoque forzosamente acotados. Una vez realizado el planteamiento se detallará el modelo propuesto, ası́ como los resultados obtenidos de su implementación y la información que podemos extraer de los mismos. Finalmente, se enunciarán las conclusiones derivadas del problema tratado, del modelo y de los resultados, y se realizará un análisis final que incluirá las contribuciones principales de la tesis y el trabajo futuro a realizar..

(23) Capı́tulo 2 Estado del Arte 2.1. 2.1.1.. Representación del conocimiento Introducción. Como ya se indicó en la sección previa, el Estado del Arte se dividirá en tres partes bien diferenciadas. Por un lado veremos distintas formas de representar conocimiento lingüı́stico, ası́ como las teorı́as y componentes más importantes de dicho campo. Comenzaremos por la Teorı́a de la Dependencia Conceptual, considerada precursora de las interlinguas, y el concepto de Roles Semánticos para pasar a las representaciones propiamente dichas, entre las que veremos las Redes Semánticas, las Ontologı́as y los Grafos Conceptuales de John Sowa, acabando con el Modelo del Texto Significado de Igor Mel’čuk y el concepto de interlingua, analizando las principales propuestas de este tipo. Por último, se expondrán las principales caracterı́sticas del Lenguaje Universal UNL. En la Figura 2.1 encontramos una representación cronológica de los temas que trataremos en esta primera parte del Estado del Arte. A continuación abordaremos directamente el tema de la paráfrasis, examinando estudios al respecto, formas de enfocarla y otras aproximaciones que tocan distintas formas de tratar un texto a nivel de significado y que pueden resultar útiles de cara al tratamiento de este fenómeno lingüı́stico. Por último, en el tercer apartado estudiaremos distintas medidas de similaridad entre los diferentes componentes del lenguaje, ası́ como en algunas de sus posibles representaciones. 9.

(24) Capı́tulo 2. Estado del Arte. 10. ~1980 1965. 1968. ~ 1970. Ontologías (origen filosófico). Roles Semánticos. Redes Semánticas. Introducción de las Ontologías en la IA. C.S. Peirce (1883). 1965. 1969. 1976. Teoría Texto-Significado. Teoría de la Dependencia Conceptual. Grafos Conceptuales. Boom de las Interlinguas. ~1990. Japón PIVOT ATLAS II. Europa 79 - DLT. 2003 IAMTC (EEUU). EEUU 87 - UNITRAN 89 - KANT (KANTOO) 90’s - Mikrokosmos. 1996 UNL (UNU). Figura 2.1: Representación cronológica de las teorı́as y sistemas de representación tratados durante la primera parte del Estado del Arte.. 2.1.2.. Teorı́a de la Dependencia Conceptual. Para conocer el origen de las interlinguas, debemos remontarnos a la Teorı́a de la Dependencia Conceptual, considerada precursora de las mismas y planteada formalmente en 1975. La Teorı́a de la Dependencia Conceptual (o Conceptual Dependency Theory) es un modelo de representación del conocimiento cuyas bases se proponen por primera vez a finales de los años 60, en el marco de la investigación de la tesis doctoral de Roger Schank1 , publicada en 1969. Este modelo entiende la conceptualización de una oración como una red de conceptos lingüı́sticos unidos por una serie de relaciones de dependencia, pudiendo encuadrarse estos conceptos a una o varias categorı́as predefinidas, que podemos subdividir en categorı́as principales o gobernantes (Governing categories) y categorı́as secundarias o de asistencia (Assisting categories). La pertenencia a dichas categorı́as viene determinada por una serie de reglas de dependencia, como por ejemplo si una palabra tiene sentido o no por sı́ misma, sin depender de otra (este es el caso, por ejemplo, de los adjetivos, que deben acompañar necesariamente al concepto al que describen). Según esta teorı́a, el proceso lingüı́stico puede entenderse como un mapeo desde y hasta una representación mental [103], componiéndose dicho mapeo de conceptos unidos mediante relaciones de dependencia.. 1. http://www.rogerschank.com/about#stuff-I-have-done. El último acceso a todas las webs citadas en el presente documento se ha realizado el 20 de junio de 2016..

(25) Capı́tulo 2. Estado del Arte. 11. En este modelo, los significados se representan por medio de una serie de Conceptos Primitivos (CPs), que pueden simbolizar acciones, cambios de estado o instrumentos para otras acciones, entre otros. Estos CPs tienen a su vez un rol conceptual concreto en el global de la frase (tales como agente, objeto...) y están estrechamente relacionados con sus representados en el mundo real, por lo que pueden utilizarse como referencia tanto para una interlingua como para un sistema de representación interno para una base del conocimiento no necesariamente orientado a la lingüı́stica. Dentro de los CPs destacan las Acciones Primitivas, un conjunto de acciones base que han ido evolucionando al tiempo que la propia teorı́a y que pueden representar cualquier suceso, ya sea individualmente o combinándose unas con otras. Entre estas Acciones Primitivas encontramos, por ejemplo, PTRANS (que simboliza la transferencia de un objeto de un lugar a otro) o SPEAK (el acto de producir sonidos, no necesariamente con el fin de comunicarse). Las Acciones Primitivas pueden, además, incluir modificadores para matizar o situar su ratio de acción; algunos de estos modificadores son, por ejemplo, los referentes al tiempo (pasado, futuro, transición...) o la actitud (interrogación, negación, condicionalidad...). Paralelamente, estas acciones se relacionan mediante relaciones de dependencia como instrumento de, objeto de o receptor, dando lugar a un grafo que simboliza el significado de la frase pero no emula necesariamente la estructura sintáctica de la misma. Uno de los puntos claves de esta propuesta es que introduce la idea de una representación canónica del significado, implicando por un lado la independencia con respecto a la lengua y por otro la posibilidad de que distintas palabras y estructuras puedan representar un mismo significado o concepto, contemplando ası́ la paráfrasis. Estas propiedades, como veremos más adelante, son algunos de los rasgos fundamentales que caracterizan a las interlinguas. La representación canónica, además, permite un cierto grado de inferencia que otras representaciones más enfocadas a la lingüı́stica (como por ejemplo las Redes Semánticas, abordadas en la Sección 2.1.4) no admiten. Más allá de su posterior relación con las interlinguas, este modelo ha sido ampliamente utilizado para diversas aplicaciones [62], destacando entre ellas la repre-.

(26) Capı́tulo 2. Estado del Arte. 12. sentación de escenarios y situaciones mediante planes y scripts o guiones (como es el caso de los proyectos PAM, Plan Applier Mechanism, y SAM, Script Applier Mechanism [102]) y el procesamiento del lenguaje natural en general (en proyectos como MARGIE, Meaning Analysis, Response Generation and Inference on English). Cabe mencionar que las bases de la Teorı́a de la Dependencia Conceptual han ido evolucionando y adaptándose dependiendo del uso y el contexto de aplicación hasta desembocar finalmente en ciertos casos en la creación de interlinguas propiamente dichas.. 2.1.3.. Roles Semánticos. Los Roles Semánticos o Thematic Roles (“roles temáticos” en español, también llamados case relations o karakas [28]) son, desde el punto de vista lingüı́stico [50], “generalizaciones entre los argumentos de un predicado para capturar regularidades entre la representación semántica y la expresión sintáctica de dicho predicado”. El origen de los Roles Semánticos se remonta a la aparición del término original Thematic Relation a mediados de la década de los 60 y a su posterior popularización en los años 70; no obstante, la idea ya estaba presente en distintas propuestas lingüı́sticas anteriores (para más información al respecto, ver [29]). Existen además distintos puntos de vista sobre qué perspectiva debe prevalecer al definir los roles, pudiendo verse desde una perspectiva sintáctica, léxica o conceptual (o incluso una mezcla de varias), o si estos deben formar parte de la propia base del lenguaje o definirse en el mapeo entre significado y forma. De un manera más intuitiva, los roles semánticos podrı́an definirse como etiquetas semánticas entre conceptos que describen relaciones conceptuales entre los mismos. Han sido ampliamente utilizados en todo tipo de representación del conocimiento, desde los Grafos Conceptuales hasta las interlinguas (casos que veremos más adelante en este mismo capı́tulo), pasando por las Redes Semánticas. El nombre que se da a estas etiquetas, ası́ como su tipo y la cantidad de ellas, cambiará dependiendo de la implementación, al igual que la forma de organizarlas (pueden estar relacionadas, por ejemplo, de manera taxonómica, como ocurre en el caso de las ontologı́as y los tesauros). Aunque no existe un listado estándar de Roles Semánticos, han sido muchos los lingüistas que se han aventurado a dar su.

(27) Capı́tulo 2. Estado del Arte. 13. propia lista, y son palpables las similitudes entre ciertos elementos en distintas formas de representación (veremos casos concretos más adelante); en la Tabla 2.1 destacamos algunas de los roles más utilizados (recopilados en [28] a partir de los trabajos de distintos autores) y los nombres que reciben en algunas representaciones (según lo expuesto en [26]):. Rol. Descripción. Ejemplo. Notación. Agent. Participante para el cuál el significado del verbo especifica lo que hace o causa, posiblemente de manera intencionada.. sujeto de: matar comer golpear. CGs: agent, accompaniment KANT: agent, accompanier UNL: agent, coagent, partner. Patient. Participante para el cuál el verbo caracteriza qué le ha ocurrido y cómo le afecta lo que le ocurre.. objeto de: matar comer.. CGs: experiencer KANT: experiencer UNL: experiencer. Participante que se caExperiencer racteriza por ser consciente de algo. sujeto de: amar objeto de: molestar. CGs: experiencer KANT: experiencer UNL: experiencer. Theme. Participante que se caracteriza por cambiar su posición o condición, o por estar en un estado o posición. sujeto de: andar morir objeto de: dar. CGs: theme KANT: UNL: object. Source. Objeto del que procede el movimiento. caja en: Quitó el libro de la caja. CGs: matter KANT: source UNL: source. Goal. Objeto al que se dirige el movimiento. caja en: Puso el libro en la caja. CGs: goal KANT: UNL: goal.

(28) Capı́tulo 2. Estado del Arte. 14. Tabla 2.1: Algunos Roles Semánticos estándar (los dos últimos propuestos por Jackendoff) y su notación en distintas representaciones (CGs = Conceptual Graphs, UNL y KANT sendas interlinguas), todas ellas explicadas con mayor detalle más adelante en este mismo capı́tulo. Un error muy común suele ser confundir los roles semánticos con las relaciones gramaticales estándar usuales, tales como sujeto, objeto, complemento... Aunque en algunos casos establecer dicha relación puede resultar útil para ciertas tareas de procesamiento o parsing, la relación entre ambos etiquetados no es necesariamente directa: mientras que los Roles Semánticos son una notación conceptual, las relaciones gramaticales son puramente morfosintácticas 2 . En la Tabla 2.2 encontramos un ejemplo de esta diferencia, en el que tres sujetos desempeñan tres roles semánticos distintos.. Frase de ejemplo. Sujeto. Rol Semántico. Bob abrió la puerta con una llave.. Bob. Agente. La llave abrió la puerta.. La llave. Instrumento. La puerta se abrió.. La puerta. Paciente. Tabla 2.2: Relaciones gramaticales vs Roles Semánticos: tres ejemplos en los que la misma relación gramatical (el sujeto) desempeña distintos roles semánticos.. 2.1.3.1.. Marcos semánticos. Intimamente ligado a los Roles Semánticos, otro concepto lingüı́stico interesante a la hora de representar consideraciones semánticas es el de frame o marco semántico. La idea de los marcos fue establecida en 1974 por Marvin Minsky, considerado el padre de la Inteligencia Artificial, y podrı́an verse en el contexto de su investigación (en ese momento orientada a la percepción y la representación de conocimiento en el seno de la Visión por Computador) como “capturas o fotografı́as de un momento concreto en un contexto o problema determinado”. Como explica el propio Minsky en [78], un frame serı́a “una estructura de datos que almacenamos en nuestra memoria para representar una situación estereotipada”, 2. http://www-01.sil.org/linguistics/GlossaryOfLinguisticTerms/ ComparisonOfSemanticRoleAndGra.htm.

(29) Capı́tulo 2. Estado del Arte. 15. “un framework que recordamos y que debe ser ajustado o adaptado a la realidad introduciendo los cambios necesarios”. Cada frame implica a su vez cierta información adjunta (metainformación, podrı́amos decir), sobre cómo usar el frame en la práctica, qué puede implicar en el futuro, etc. Los frames se podrı́an agrupar en colecciones temáticas, convirtiéndose en sistemas de frames que se relacionan entre sı́ por sus diferentes componentes, coordinando ası́ distintos puntos de vista sobre las situaciones relacionadas que representa cada frame. Siguiendo la idea de Minsky encontramos la Semántica de Frames, una teorı́a lingüı́stica desarrollada por Charles Fillmore, donde el frame es “una estructura conceptual que representa y describe una situación, un objeto o un evento junto con sus participantes y propiedades” [100]. Un frame serı́a como una lista de argumentos (slots) donde introducirı́amos los distintos elementos participantes en la situación que describe el frame [11]. En palabras de Sowa, los slots de los frames son la representación de los roles semánticos en un sistema de frames, equivaliendo3 a las relaciones conceptuales de los Grafos Conceptuales (que trataremos más adelante en la Sección 2.1.6). El repositorio de frames más importante a nivel mundial es FrameNet4 , en inglés e iniciado por el propio Fillmore en la Universidad de Berkeley en 1997, pero existen alternativas en distintos idiomas, como por ejemplo Spanish FrameNet para el español5 . Existen asimismo otras iniciativas similares disponibles online, como es el caso de PropBank6 .. 2.1.4.. Redes Semánticas. Las Redes Semánticas (Semantic Networks) fueron introducidas en el mundo de la Inteligencia Artificial por primera vez en 1968 por Ross Quillian, pensadas como “un mecanismo asociativo general capaz de codificar el significado de las palabras” [12]. Los significados se representarı́an mediante nodos que se unirı́an unos con otros para representar información asociada como propiedades, clases, instancias... Una posible definición formal de las Redes Semánticas podemos encontrarla en [54], donde se las considera “una representación del conocimiento grafal con forma de red”, distinguiéndola explı́citamente de otros tipos de red al considerar que “una red abstracta (...) se convierte en semántica cuando asig3 4 5 6. http://www.jfsowa.com/ontology/thematic.htm https://framenet.icsi.berkeley.edu/fndrupal/ http://spanishfn.org/ https://verbs.colorado.edu/~mpalmer/projects/ace.html.

(30) Capı́tulo 2. Estado del Arte. 16. nas un significado a cada nodo y link”. Se pueden también interpretar las Redes Semánticas como una evolución de las Redes de Herencia, tal y como declaran Branchman y Levesque en [11], al igual que se consideran precursoras de los Grafos Conceptuales (que abordaremos más tarde en la Sección 2.1.6). 2.1.4.1.. Tipos de Redes Semánticas. Por su parte, John Sowa define en [109] las Redes Semánticas de la siguiente manera: “Informalmente, una Red Semántica es un grafo no dirigido y acı́clico en el cuál los nodos representan entidades y los arcos etiquetados representan relaciones binarias entre las entidades.” Según este autor7 , existen diversos tipos de Redes Semánticas: Redes Defininicionales (Definitional networks): donde se hace énfasis en las relaciones is-a y subtipo-de, dando lugar a jerarquı́as con herencia. Redes Asercionales (Assertional networks): contienen aserciones; se diferencian de las primeras porque se asume que lo expresado es cierto. Redes Implicacionales (Implicational networks): la relación primaria es la implicación, pudiendo usarse para expresar patrones de creencia, causalidad o inferencia. Redes Ejecutables (Executable networks): este tipo de Redes Semánticas incluyen mecanismos que se ejecutan, como paso de mensajes, inferencias, búsqueda de asociaciones... Redes de Aprendizaje (Learning networks): construye o extiende las representaciones adquiriendo nuevo conocimiento a partir de ejemplos, pudiendo ajustarse (borrar o crear nuevos nodos) según un sistema de pesos asociado a su estructura (tanto a los arcos como a los nodos). Redes Hı́bridas (Hybrid networks): combinan dos o más de los tipos de redes vistas anteriormente, ya sea mezclándolas o interactuando de alguna manera. 7. http://www.jfsowa.com/pubs/semnet.htm.

(31) Capı́tulo 2. Estado del Arte. 2.1.4.2.. 17. Ejemplos de Redes Semánticas. Algunas Redes Semánticas bien conocidas y ampliamente utilizadas tanto en el campo del Procesamiento del Lenguaje Natural como en otras disciplinas de la Inteligencia Artificial se exponen a continuación: ConceptNet ConceptNet es una gran Red Semántica destinada a la representación de conocimiento orientado a tareas que implican sentido común. Es parte del proyecto OMCS8 (Open Mind Commonsense), desarrollado por el Media Lab del MIT (Instituto Tecnológico de Massachusetts), y se construye a partir de un corpus escrito en lenguaje natural (en inglés) con el que la gente puede interactuar directamente, aportando nueva información de sentido común. ConceptNet (actualmente en su quinta versión9 ) es conceptualmente un hipergrafo cuyos nodos representan palabras o frases cortas (conceptos) y que consta de relaciones etiquetadas entre dichos nodos (que expresan aserciones sobre el mundo) [114]. Algunas de estas relaciones (las más utilizadas) pueden encontrarse en la Figura 2.2, tomada de [114]. Existe asimismo una versión visual online llamada Lexipedia basada en ConceptNet10 , ası́ como diversos sistemas que lo usan para distintas aplicaciones (Sentiment Analysis, Traducción Automática, Bases del Conocimiento...). WordNet WordNet es una Red Semántica (probablemente la más conocida del mundo) que viene desarrollándose en la Universidad de Princeton desde 1985. Considerada uno de los recursos más utilizados en lengua inglesa, es una base de datos léxica cuyo contenido se agrupa en synsets, un término especı́fico para denominar un concepto que puede representarse por medio de distintos términos, a los que agrupa a nivel organizativo como si de un clúster se tratara. Estos synsets (defi8 9 10. https://en.wikipedia.org/wiki/Open_Mind_Common_Sense#ConceptNet http://conceptnet5.media.mit.edu/ https://en.wikipedia.org/wiki/Lexipedia , http://www.lexipedia.com/.

(32) Capı́tulo 2. Estado del Arte. 18. Figura 2.2: Relaciones más habituales en ConceptNet, con su número de apariciones y los patrones asociados (Fuente: [114]). nidos en la web de WordNet11 como “conjuntos de sinónimos cognitivos”) pueden agrupar adjetivos, sustantivos, adverbios o verbos, y están relacionados entre sı́ tanto por relaciones semántico-conceptuales como por relaciones léxicas, dando lugar a una red semántica completamente desambiguada. Aunque a primera vista la estructura de WordNet pueda recordar a la de un tesauro, WordNet es más profundo a nivel semántico, al considerar los propios significados más allá de las palabras. También se puede considerar que la infraestructura de relaciones que sostiene WordNet tiene todas las propiedades necesarias para ser usada como una ontologı́a, llegando a utilizarse en ocasiones como tal. Respecto a las relaciones semánticas que encontramos en WordNet, no todas pueden darse entre todos los tipos de synset; a continuación citamos las principales con sus respectivas restricciones [77]: 11. https://wordnet.princeton.edu/.

(33) Capı́tulo 2. Estado del Arte. 19. Sinonimia: es la relación básica de WordNet, simétrica y equivalente a is-a para todas las categorı́as gramaticales. Antonimia: también simétrica y aplicable a todas las categorı́as gramaticales; es especialmente relevante en caso de darse en synsets adverbiales y adjetivales. Hiponimia/Hiperonimia (también conocidas como subclase de y superclase de): son relaciones transitivas y opuestas entre synsets exclusivamente nominales, creando jerarquı́as entre ellos. Meronimia/Holonimia (parte de/todo de): consta a su vez de distintas subclases (miembro, substantivo o componente). Sólo utilizable entre synsets nominales. Troponimia: equivalente para los synsets verbales a la relación de hiponimia para los synsets nominales, aunque las jerarquı́as resultantes tienden a ser de menor profundidad. La estructura va a depender de las circunstancias semánticas que relacionen a los elementos de la jerarquı́a (pueden organizarse por intensidad, volumen...). Consecuencia lógica (entailment): relaciones lógicas entre synsets de verbos (por ejemplo, las parejas dormir y roncar o comprar y vender están relacionadas en cierta manera aunque no cumplan ninguna de las relaciones previamente descritas). La popularidad de WordNet y su éxito como recurso lingüı́stico llevó a otras lenguas a emular el formato original en inglés (aunque no todas estas nuevas versiones mantuvieron el acceso abierto, siendo algunas de pago); nacieron ası́ iniciativas como EuroWordNet12 para las lenguas europeas, GerFigura 2.3: Recursos principales de BamaNet13 para el alemán, IndoWord- belNet según la web oficial. Net14 para las 18 lenguas habladas en 12 13 14. https://en.wikipedia.org/wiki/EuroWordNet https://en.wikipedia.org/wiki/GermaNet https://en.wikipedia.org/wiki/IndoWordNet.

(34) Capı́tulo 2. Estado del Arte. 20. la India e incluso una versión china (CWN, Chinese Wordnet 15 ). También surgieron distintas versiones para una misma lengua, como es por ejemplo el caso del francés (con WOLF16 y WoNeF17 ). A nivel mundial encontramos Global WordNet, una asociación que conecta la mayor parte de implementaciones de WordNet; en su web se puede encontrar una lista con muchas más versiones18 . BabelNet BabelNet es una red semántica multilingüe desarrollada en la Universidad Sapienza de Roma y generada automáticamente a partir de distintos recursos. En un principio, estos recursos eran Wikipedia (de donde se extraı́a fundamentalmente información sobre las categorı́as y relaciones entre los artı́culos) y el previamente mencionado WordNet (de donde se tomaban los synsets, que pasan a convertirse en babel synsets) [86], pero posteriormente se añadieron otros recursos adicionales. Del mismo modo, el proceso consistı́a originalmente en realizar sucesivos mapeos sobre ambas fuentes, que finalmente daban lugar a la creación de nuevas relaciones y por consiguiente a una nueva red semántica. A dı́a de hoy, BabelNet se encuentra en la versión 3.6 e integra 217 lenguas diferentes en más de 14 millones de Babel synsets construidos automáticamente a partir de recursos como WordNet, Wikipedia o GeoNames; una lista completa de los recursos integrados se puede encontrar en la web oficial de BabelNet19 , destacando los presentes en la Figura 2.3, extraı́da de dicha página.. 2.1.5.. Ontologı́as. 2.1.5.1.. Posibles definiciones. En [40] encontramos distintas definiciones que se han ido dando a las ontologı́as en el campo de las ciencias de la computación (tiene una connotación anterior en la rama metafı́sica de la filosofı́a, que entre otras tareas estudia la 15 16 17 18 19. http://lope.linguistics.ntu.edu.tw/cwn/ http://alpage.inria.fr/~sagot/wolf.html http://wonef.fr/ http://globalwordnet.org/wordnets-in-the-world/ http://babelnet.org/about.

(35) Capı́tulo 2. Estado del Arte. 21. manera en que se relacionan las entidades que existen20 ); a continuación citamos algunas de las definiciones más representativas: “Una ontologı́a define los términos y las relaciones básicos contenidos en el vocabulario de una área temática, ası́ como las reglas para combinar términos y relaciones para definir extensiones del vocabulario”. Aunque esta definición es importante porque fue una de las primeras en enunciarse, la más utilizada y aceptada generalmente apareció años más tarde, expresada además de una forma mucho más clara y concisa: “Una ontologı́a es una especificación formal de una conceptualización consensuada”. Las definiciones de las ontologı́as pueden asimismo depender del punto de vista o del uso que se le vayan a dar; de cara a su utilización como base del conocimiento y focalizando en la estructura más que en el concepto, otra posible definición es la siguiente: “Una ontologı́a es un conjunto de términos estructurado de manera jerárquica que describen un dominio y que puede ser usado como el esqueleto fundamental de una base del conocimiento”. 2.1.5.2.. Tipos de ontologı́as. Dependiendo de su profundidad y de la manera de especificar los términos, en general las ontologı́as se clasifican como lightweight (pudiendo representar tan sólo la estructura taxonómica, sin adentrarse en absoluto el significado de los términos) o heavyweight (caso en el que se formalizan teorı́as lógicas, añadiendo axiomas y restricciones a una ontologı́a lightweight). Además, se considera que una ontologı́a puede ubicarse en una escala de formalidad en cuatro posiciones estándar según lo expuesto en [40]: altamente informal si está expresada en lenguaje natural, semi-informal si este lenguaje natural está restringido y estructurado, semi-formal en caso de estar expresada en un lenguaje artificial definido formalmente o regurosamente formal si está provista de términos dotados de una semántica formal, teoremas, etc. 20. https://es.wikipedia.org/wiki/Ontolog%C3%ADa.

(36) Capı́tulo 2. Estado del Arte. 22. Figura 2.4: Tipos de ontologı́as lightweight según el nivel de especificación, de menor a mayor. (Fuente: [45]) Las definiciones y el sistema de clasificación de ontologı́as expuestos previamente engloban asimismo recursos lingüı́sticos estándar como los tesauros o los glosarios según su nivel de profundidad, como podemos observar en la Figura 2.4, tomada de [45]. 2.1.5.3.. Componentes y ejemplos de Ontologı́as. Dependiendo de qué usemos para modelar la ontologı́a, los componentes pueden variar; a continuación se exponen los elementos más habituales que conforman una ontologı́a: Clases que representan conceptos (que en el caso de las ontologı́as heavyweight pueden ser primitivos o definidos), ya sean abstractos o especı́ficos. Relaciones, habitualmente binarias, que representan algún tipo de asociación entre conceptos o de un concepto con sus atributos (caracterı́sticas de la clase). En el caso de las ontologı́as heavyweight, las relaciones se denominan roles; algunas relaciones habituales son subclase de o parte de, además de las relaciones ad hoc, que se definen dentro del contexto de la ontologı́a. Dentro de las relaciones encontramos el caso concreto de las funciones. Axiomas formales, que modelizan frases que son siempre ciertas y resultan útiles para realizar inferencia; un ejemplo puede ser indicar que ciertas clases son necesariamente disjuntas..

(37) Capı́tulo 2. Estado del Arte. 23. Instancias (o individuos en las ontologı́as heavyweight) que representan elementos o individuos de una ontologı́a. Algunas de las ontologı́as más conocidas y usadas como recurso auxiliar en el ámbito de la Ingenierı́a Lingüı́stica son las siguientes: SUMO21 (Suggested Upper Merged Ontology). SENSUS22 , una extensión de la ya tratada WordNet. OMEGA23 sucesora de la anterior y usada por una interlingua (como veremos más tarde). DOLCE24 (Descriptive Ontology for Linguistic and Cognitive Engineering).. 2.1.6.. Grafos conceptuales. Según el propio John Sowa, considerado por muchos el creador de los grafos conceptuales, este tipo de representación es el resultado de un siglo de trabajo, remontándose sus orı́genes a los avances y creación en 1883 de una notación para la lógica de primer orden por parte de Charles Sanders Peirce [110]. La posterior representación de esta lógica en la forma de grafos existenciales y distintas aportaciones y uso por parte de otros investigadores a lo largo del siglo XX (entre ellos Roger Shank, ya comentado, e Igor A. Mel’čuk, cuyos trabajos trataremos más adelante) desembocan en la aparición de los grafos conceptuales propiamente dichos. De hecho, los autores de [11] consideran que los grafos conceptuales son una combinación de los grafos existenciales y las inheritance networks (“redes de herencia”), en tanto que para Sowa son “forma lógica bidimiensional basada en las redes semánticas de la Inteligencia Artificial y los grafos lógicos de C.S. Peirce, siendo ambas notaciones exactamente equivalentes en sus semánticas” [111]. Eileen Way, una de las discı́pulas de Sowa en el campo de los Grafos Conceptuales, declaró una década después de la aparición de la obra original en la que se propusieron estas estructuras que era “algo más que una sı́ntesis del trabajo actual en Inteligencia Artificial; un intento de reconciliar lo mejor de las aproximaciones “limpias” y “chapuceras” a la Inteligencia Artificial”, llegando a considerarlos 21 22 23 24. http://www.adampease.org/OP/ http://www.isi.edu/natural-language/projects/ONTOLOGIES.html http://www.gabormelli.com/RKB/Omega_Ontology http://www.loa.istc.cnr.it/old/DOLCE.html.

(38) Capı́tulo 2. Estado del Arte. 24. “un puente para salvar la distancia entre el rigor de la lógica y la expresividad de los métodos heurı́sticos o basados en esquemas”. 2.1.6.1.. Estructura. Respecto a la formación original de los Grafos Conceptuales, Sowa explica en [108] que la primitiva básica son los llamados conceptos, que suelen representarse25 con una caja que contiene una etiqueta en inglés (sort label ) que identifica el tipo de dicho concepto. El conjunto de estas etiquetas está subordinado a un orden parcial con el objetivo de permitir representar distintos niveles de generalidad. La conexión entre los conceptos se representa con una serie de relaciones conceptuales (los Roles Semánticos analizados en la sección anterior), representadas generalmente con cı́rculos (podemos ver un ejemplo de Grafo Conceptual tomado de [111] en la Figura 2.5). ¿Pero qué es exactamente un Grafo Conceptual? A partir de los componentes previamente expuestos, Sowa da la siguiente definición: “Un grafo conceptual es un grafo bipartito, finito, conectado y no dirigido con un tipo de nodos llamados conceptos y nodos de otro tipo denominados relaciones conceptuales. Un grafo conceptual puede consistir en un único concepto, pero no puede tener relaciones conceptuales sin enlazar.” También se suele considerar que un Grafo Conceptual es una representación grafal etiquetada de una fórmula Lógica de Primer Orden. 2.1.6.2.. Roles Semánticos. En los Grafos Conceptuales, los roles semánticos explicados en la sección anterior se denominan Thematic Roles o case relations, y equivalen a los predicados diádicos del Cálculo de Predicados y a los slots de los sistemas basados en frames, siendo todas estas notaciones formas equivalentes de representar las relaciones entre un proceso y sus participantes26 . En la Tabla 2.4 encontramos un desglose de 25. Aunque se ha adoptado como canónico, el sistema de representación de cajas y cı́rculos es sólo un medio y no está intrı́nsecamente ligado a la idea de los Grafos Conceptuales, sirviendo cualquier notación que se ajuste a las definiciones de la misma (tal y como declara el propio Sowa en [110]). 26 http://www.jfsowa.com/ontology/thematic.htm.

(39) Capı́tulo 2. Estado del Arte. 25. Figura 2.5: Grafo conceptual de la frase ”You can lead a horse to water, but you can‘t make him drink.”(“Puedes llevar un caballo al agua, pero no puedes obligarle a beber.”) (Fuente: [111]).

(40) Capı́tulo 2. Estado del Arte. 26. los Thematic Roles de Sowa según los tipos de participante, a su vez reflejados en la Tabla 2.3 [111]. Estos Thematic Roles relacionados con los participantes se engloban, a su vez, en una estructura mayor que clasifica todos los posibles roles presentes en la ontologı́a de los Grafos Conceptuales27 .. Source. Product. Determinant. Initiator. Goal. Immanent. Resource. Essence. Tabla 2.3: Tipos de Participantes en los Grafos Conceptuales. Initiator. Resource. Goal. Essence. Action. Agent, Effector. Instrument. Result, Recipient. Patient, Theme. Process. Agent, Origin. Matter. Result, Recipient. Patient, Theme. Transfer. Agent, Origin. Instrument, Medium. Experiencer, Recipient. Theme. Spatial. Origin. Path. Destination. Location. Temporal. Start. Duration. Completion. PointInTime. Ambient. Origin. Instrument, Matter. Result. Theme. Tabla 2.4: Thematic Roles según el tipo de participante en los Grafos Conceptuales. 2.1.6.3.. Evolución y aplicaciones. Los Grafos Conceptuales han evolucionado mucho desde su creación, dando lugar a diversas versiones [112], entre las que destacan las expuestas a continuación: Core Conceptual Graph: la versión original, que de hecho cuenta con su propia notación estándar ISO (Core CGIF, Core Conceptual Graph Iterchange Format). 27. http://www.jfsowa.com/ontology/roles.htm.

(41) Capı́tulo 2. Estado del Arte. 27. Extended Conceptual Graph: una versión extendida del anterior con aportaciones de distintos tipos (como la adición del cuantificador universal, nuevas etiquetas...) con su correspondiente notación en el estándar ISO (Extended CGIF ). Research Conceptual Graphs: extensiones formales o informales para distintas aplicaciones. Entre ellos encontramos los Nested Conceptual Graphs (NCGs), usados para formalizar la semántica de distintos tipos de lógica modal e intencional. Entre las diversas posibles aplicaciones de los Grafos Conceptuales encontramos por ejemplo la construcción de un parser semántico [113]; la investigación en este campo sigue asimismo muy activa, con la publicación de nuevas propuestas de manera periódica y la celebración de distintas conferencias en torno al tema, entre las que sobresale ICCS (International Conference on Conceptual Structures), celebrada cada dos años y fuente de interesantes propuestas de aplicación en distintos ámbitos. Destacamos dentro desde este evento algunas de las aplicaciones sugeridas durante la conferencia 18ésima, celebrada en 2010, como por ejemplo la comprensión del lenguaje natural por medio de NCGs o el procesamiento de queries, direcciones de correo electrónico y sistemas de pregunta/respuesta de sentido común con CGs [21].. 2.1.7.. Teorı́a del Texto-Significado. Pasando a la perspectiva lingüı́stica, la Teorı́a del Texto-Significado (en inglés Meaning-Text Theory, o MTT ) es una teorı́a propuesta por Aleksandr K. Žolkovskij e Igor A. Mel’čuk en 1965 a la que posteriormente contribuyeron también otros investigadores, como Jurij D. Apresjan, formando la llamada Escuela o Cı́rculo Semántico de Moscú [70]. A partir de esta teorı́a surgen los Meaning-Text Models (o MTMs), modelos lingüı́sticos funcionales (es decir, sistemas de expresiones simbólicas creadas con el objetivo de representar el funcionamiento global de las lenguas naturales) basados en la premisa de que el lenguaje es un mapeo entre el contenido o significado (la semántica) de un enunciado y la señal (acústica o gráfica) usada para comunicar dicho contenido (a esta representación la denominaremos fonética). Estas representaciones serı́an los dos extremos de una serie de representaciones intermedias estratificadas expuestas en la Figura 2.628 . Las tres 28. Fuente: http://www.neuvel.net/meaningtext.htm.