4. Modelo propuesto
4.2. Puntos claves de UNL sobre los que se asienta el modelo
4.2.1. Elementos de la oraci´ on en UNL
4.2.1.2. Categor´ıas gramaticales
Para determinar la similaridad sem´antica entre palabras universales, debemos fijarnos en sus dos componentes: la headword y el contenido de sus restriccio- nes, que depender´an del tipo de palabra. Dentro de UNL encontr´abamos cuatro posibles categor´ıas, con distintas restricciones:
1. Verbos: que pod´ıan ser de tres tipos (do o de acci´on, occcur o de proce- so y be o de estado) y partiremos de la hip´otesis de que verbos sin´onimos van a ser del mismo tipo de verbo. Adem´as de esta tipolog´ıa, las palabras universales (o UWs) incluyen en su descripci´on las relaciones argumentales
Figura 4.2: Un ejemplo de@entry sustantivo (se˜nalado en rojo). La frase original es “Una galer´ıa de arte rica en pinturas de los artistas holandeses”. Podemos adem´as observar los distintos subgrafos que se van creando.
que le acompa˜nan y de qu´e tipo deben ser las mismas; opcionalmente tam- bi´en puede tener otras restricciones. En definitiva, los indicios que pueden ayudar a determinar la similaridad sem´antica entre dos verbos UNL son:
Headword: nos va a permitir identificar la palabra universal y, en caso de que la jerarqu´ıa UNL resulte insuficiente para la determinaci´on de la similaridad, buscar la palabra en otros recursos (como tesauros o redes sem´anticas).
Hiper´onimos e hip´onimos (expresados comoicl, y que llegan a uno de los tres tipos de verbos, pasando por otros), como es el caso del ejemplo de la UWbuy(icl>get>do, agt>thing), de donde extraemos queget es un hiper´onimo de buy.
Sinonimia (relaci´on equ) y antonimia (ant) con otros verbos (como en sell(icl>transact>do, equ>deal, agt>thing, obj>thing)).
Las restricciones de dominio, meronimia y contexto (fld, pof y com) no nos ayudar a determinar la sinonimia, pero pueden aportar pistas sobre la palabra de cara a su ubicaci´on en un mapa sem´antico.
Las restricciones argumentales sobre qu´e roles intervienen en la acci´on del verbo. Si dos verbos son sin´onimos en una misma situaci´on, deben estar tambi´en relacionados con los mismos agentes de dicha relaci´on.
Encontramos un ejemplo de esto en los dos siguientes verbos:
demonstrate(icl>show>do,equ>exhibit,agt>thing,obj>uw,rec>thing) expose(icl>show>do,equ>exhibit,agt>thing,obj>thing,rec>thing)
donde vemos que comparten el mismo sin´onimo exhibit, la misma posici´on en la ontolog´ıa (ambos son del tipo do e hip´onimos de show), adem´as de tener las mismas relaciones; aunque en el caso de demonstrate el obj no tiene por qu´e ser de tipo thing, y puede ser cualquier palabra universal, la sinonimia se conservar´a siempre que en las oraciones a comparar se cumplan las restricciones de ambos (es decir, que el objeto sea thing). Podemos por tanto concluir que en el caso de que elobj seathing, los verbos pueden ser sin´onimos (es decir, cuando se cumpla que la intersecci´on de los requisitos de los dos verbos no es vac´ıa).
2. Sustantivos: Adem´as de los criterios anteriores (tambi´en aplicables a los sustantivos), en los sustantivos UNL encontramos otra posible restricci´on ontol´ogica:iof, o ’instancia de’. Esto se aplicar´a s´olo a las entidades, y ser´a completamente discriminante (en nuestro modelo, una entidad s´olo puede corresponderse consigo misma).
3. Adjetivos y adverbios: los adjetivos y los adverbios son muy parecidos en UNL. Ambos comparten una jerarqu´ıa muy similar:
Adjetivos: cualitativos, cardinales, ordinales, temporales y de lugar.
Adverbios: de tiempo, lugar, causa, cantidad, manera y modo.
Si pertenecen a otras subclases, simplemente se marca la clase gramatical (adjoadv), como es por ejemplo el caso del adjetivoabsent(icl>adj). Los adjetivos y adverbios sin´onimos deber´an ser de la misma subclase, y pueden tener tambi´en relaciones de tipo equ y ant que ayuden en la detecci´on de la similaridad.
4.2.1.3. Atributos
Por ´ultimo, otro punto relevante en los grafos UNL ser´a la presencia de los atributos. Como ya mencionamos, los atributos son libres (hay una lista de ellos, adjunta como Anexo B) pero cualquiera de los investigadores involucrados en el proyecto puede crear uno y usarlo sin necesidad de consulta o consenso), por lo que no es trivial analizarlos todos. No obstante, algunos han llegado a convertir- se en est´andar: el de negaci´on, el que determina el n´umero, el tiempo verbal... aprovecharemos su presencia para descartar la par´afrasis en algunos casos.
4.3.
Modelo
Pasamos ahora a ver el modelo y los distintos elementos que lo componen. Pri- mero, siguiendo con las caracter´ısticas de UNL explicadas en la secci´on anterior, veremos unajerarqu´ıa con las equivalencias entre relaciones UNLdesarro- llada exclusivamente para el tratamiento de la par´afrasis. Despu´es se expondr´an una serie de correspondencias entre grafos con distintos tipos de verbos o correspondencias especiales y una selecci´on de atributos que pueden llevar a descartar la par´afrasis en ciertos casos. Finalmente se explicar´a la medida de similaridad, creada tambi´en exclusivamente para la par´afrasis.
4.3.1.
Jerarqu´ıa de relaciones
Como ya hemos comentado con anterioridad, un punto clave en el proceso de corroborar la par´afrasis entre dos oraciones se da a nivel sint´actico. UNL re- sulta de gran utilidad en este punto, ya que transforma y expresa las relaciones sint´acticas cl´asicas en una serie de relaciones clave limitadas (expuestas en detalle en el Anexo A). No obstante, estas relaciones pueden corresponderse entre s´ı en las distintas maneras de expresar la misma informaci´on. La pregunta, por tanto, ser´a d´onde debemos buscar la informaci´on de cada parte de la frase. En el caso por ejemplo de tener informaci´on de lugar, como “Ir´e de vacaciones a Roma” y “Pasar´e mis vacaciones en Roma”, las dos frases expresan lo mismo, pero en la primera Roma aparecer´ıa en UNL como la relaci´on PLT (place to), mientras que en la segunda lo har´ıa como PLC (place), donde ocurre la acci´on. Debemos por tanto establecer una organizaci´on de las relaciones UNL, un sistema de co- rrespondencia que nos indique qu´e relaciones debemos mirar en un grafo B para
Relaciones UNL
Básicas
Argumentales Modificadores
Grupo 1 Grupo 2 Grupo 2bis Grupo 3 Otros Mod1 ModS2 ModSC ModS3 A nivel de subgrafo
Figura 4.3: La jerarqu´ıa propuesta para el modelo de gesti´on de par´afrasis se divide en relaciones b´asicas argumentales y relaciones modificadoras, conteniendo cada uno de estos tipos a su vez una serie de distintas clases de relaciones.
contrastar la informaci´on de una determinada relaci´on del grafo A.
Es por ello que de cara a la constituci´on del modelo se ha realizado una ta- rea de jerarquizaci´on de las relaciones UNL, que se expone detalladamente a continuaci´on. Las relaciones se dividir´an en dos grandes grupos: modificadores y relaciones b´asicas argumentales, como podemos ver en la Figura4.3.
4.3.1.1. Relaciones b´asicas
Por un lado tenemos las relaciones b´asicas de cada verbo, sus argumentos, que describen las circunstancias y las partes que intervienen en el evento, propiedad o acci´on que expresan. La informaci´on que representan estas relaciones aparecer´a, por tanto, en cualquier otra expresi´on de la misma situaci´on; de otra manera, en- tenderemos que no puede darse la par´afrasis. Seg´un las guidelines de UNL, para cada uno de los tipos de verbo en UNL existe una relaci´on b´asica obligatoria y una serie de relaciones argumentales accesorias que pueden darse o no (pero en caso de darse, deben tener correspondencia en un segundo grafo con par´afrasis). Las relaciones b´asicas y su nivel de importancia podemos encontrarlas en la Tabla4.1.
Estas relaciones, por tanto, deben corresponderse exactamente entre una frase y otra en caso de tener el mismo tipo de@entry. Imaginemos en este contexto las frases “Luis (AGT) compra pan (OBJ) con Laura (PTN)” y “Luis (AGT) com- pra pan (OBJ)”. El hecho de que en la segunda oraci´on no est´e la relaci´on PTN
Tipo Grupo 1 Grupo 2 Grupo 2bis Grupo 3 Otras
icl>do AGT OBJ SRC
GOL COB REC PTN icl>occur OBJ SRC GOL COB REC
icl>be AOJ OBJ SRC
GOL
COB REC
Tabla 4.1: Relaciones b´asicas UNL para el modelo. En la primera columna encon- tramos el tipo de verbo seg´un las restricciones ontol´ogicas de dicha categor´ıa. La segunda columna (Grupo 1) es la relaci´on argumental b´asica obligatoria para el correspondiente tipo de verbo. Las siguientes columnas son relaciones argumenta- les que pueden aparecer o no en la frase, por orden de importancia y de menci´on en la forma tabular del grafo.
.
indica que es imposible que ambas puedan decir lo mismo, ya que es una relaci´on argumental.
4.3.1.2. Modificadores
Dentro de los modificadores encontramos cuatro subgrupos o niveles, diferen- ciados por el nivel de profundidad dentro del grafo en el cu´al los encontraremos y por el tipo de nodo al que modifican (dentro de las categor´ıas gramaticales). Co- mo veremos a continuaci´on, el primer grupo se distingue por ser un modificador verbal, que act´ua normalmente a nivel oracional (a no ser que nos encontremos ante una frase con varios verbos), mientras que los otros tres grupos modifican dentro de un subgrafo, habitualmente con n´ucleo sustantivo.
Modificadores de primer nivel (Mod1)
Son los modificadores del verbo, act´uan normalmente a nivel de la frase (o en compuestas subordinadas o coordinadas). Intuitivamente podr´ıamos relacionarlos con los complementos circunstanciales. Encontramos en este tipo de modificador las siguientes subclases, indicando al lado de cada relaci´on sus posibles equivalen- cias o mapeos en otro grafo:
Modificadores Sem´anticos: influyen sem´anticamente en la frase. Son los siguientes.
Relaci´on Posibles
equivalencias Ejemplos
BEN PUR, RSN Lo compr´e para ti (BEN, beneficiario).
PUR BEN, RSN Lo compr´e para regal´artelo a ti (PUR, prop´osito). RSN PUR, BEN Lo compr´e por ti (RSN, raz´on).
CON
Tabla 4.2: Correspondencias entre relaciones modificadoras sem´anticas, junto con algunos ejemplos.
.
Modificadores de Lugar: indican informaci´on sobre el emplazamiento de la acci´on. Cada relaci´on incluye un peque˜no matiz en la informaci´on, y la relaci´on suele depender del verbo que se use (como ve´ıamos en el ejemplo expuesto previamente con “pasar las vacaciones en” e “ir de vacaciones a”).
• PLC: relaci´on gen´erica de lugar. Puede implicar los siguientes matices:
◦ PLT: lugar final o destino de la acci´on.
◦ PLF: lugar inicial o del que surge la acci´on (puede equivaler tam- bi´en con SRC, fuente, en algunos contextos).
◦ VIA: lugar o estado intermedio. Tambi´en puede indicar modo, como veremos m´as adelante.
• FRT: de-a (from-to), indica un recorrido o un transcurso.
Modificadores de Tiempo: indican la situaci´on temporal de la acci´on.
• TIM: el equivalente temporal aPLC, como en“Abre temprano”se puede relacionar con:
◦ TMF: momento inicial (“Abre desde las 8”).
◦ TMT: momento final (“Abre hasta las 5”).
◦ DUR: duraci´on (“Abre durante 7 horas”).
TIM tambi´en puede mapearse en algunas ocasiones con las siguientes relaciones:
• COO: coocurrencia de dos sucesos. La frase “Ver la tele mientras desa- yuno” implica dos acciones simult´aneas, pero tambi´en da informaci´on
temporal del suceso ver la tele, y podr´ıa considerarse equivalente a “Ver la tele a la hora del desayuno” (que se representar´ıa como TIM). El de COO es un caso controvertido, pues adem´as de tiempo puede expresar tambi´en modo (como en “Cruzar corriendo”).
• FMT (relacionado adem´as con DUR y TMF y TMT): rango, no necesaria- mente temporal (aunque suele serlo) (“Abre de 5 a 8”).
Modificadores de Modo: indican c´omo se realiza la acci´on.
• MAN: la manera de hacer algo, se relaciona con elementos de otros gru- pos, comoPTN(compa˜n´ıa),OBJ(objeto, m´as adelante veremos un caso concreto de esta equivalencia), QUA (cantidad) o VAL (valor); esto se debe a c´omo se realice la traducci´on a UNL, pues depende mucho de la percepci´on de quien codifique el proceso). Otras relaciones que tambi´en pueden contener la misma informaci´on son las siguientes:
◦ MET: m´etodo (relacionado con INS): “Lo hizo a mano (MET)”.
◦ INS: instrumento (relacionado con MET):“Lo hizo con sus propias manos (INS)”.
◦ VIA: tambi´en pertenec´ıa a los modificadores de lugar. “Lleg´o pa- sando por la cocina”.
◦ COO: coocurrencia; como mencionamos anteriormente, tambi´en pue- de considerarse un modificador temporal.
• BAS: comparaci´on. La par´afrasis m´as evidente en este caso se da con la doble negaci´on (“Es m´as grande”, “Es menos peque˜no” o “No es m´as peque˜no”). La comprarci´on es un caso con una estructura espec´ıfica en UNL, y se trata con mayor detalle en la Secci´on 4.3.2.3.
En la Figura 4.4 podemos ver estos grupos y sus relaciones de manera m´as esquem´atica; podemos tambi´en apreciar c´omo se relacionan dichas relaciones: como ya hemos mencionado, algunas aparecen en m´as de un grupo y otras incluso pueden contener la misma informaci´on que relaciones de otros tipos.
Modificadores de subgrafos de segundo nivel (ModS2)
Dentro de los modificadores de subgrafos con n´ucleo sustantivo encontramos en primer lugar los modificadores de sustantivos, que pueden ser de cantidad o
Mod
1Semántico
Lugar
Tiempo
Modo
BEN
PUR
RSN
CON
FRT
PLC
PLT
PLF
VIA
TIM
TMF
TMT
DUR
COO
FMT
BAS
MAN
MET
INS
VIA
COO
SRC
PTN, OBJ, QUA, VAL
Figura 4.4: Esquema de modificadores tipo Mod1.
- Unidas en azul, las relaciones que pueden corresponderse entre s´ı dentro de un grupo (tambi´en pueden corresponderse las que se desglosan de otra relaci´on con la misma).
- En verde, correspondencias con relaciones de otro tipo en la jerarqu´ıa.
- Subrayadas, las relaciones que aparecen en dos clases distintas dentro de los modificadores.
A la hora de comparar, si por ejemplo en el grafo 1 nos encontr´asemos con una relaci´on PLC y en el grafo 2 no existiese, seguiendo el esquema tendr´ıamos que mirar tambi´en si existe alguna relaci´on tipo PLT, PLF, SRC o VIA. Para PLF, buscar´ıamos en SRC y PLC, paraBEN enPUR y RSN, etc.
Mod
SMod
SCMod
S3PER
QUA
VAL
MOD
CNT
NAM
POS
OBJ, AGT, AOJ
POF
Mod
S2Cantidad
MAN
Otros
AND
OR
APN
Figura 4.5: Tipos de modificadores de subgrafos y sus respectivas relaciones y correspondencias. En rojo encontramos las relaciones b´asicas que aparecen como modificadores de un sustantivo en caso de norminalizar un verbo (si el verbo es icl>do, AGT, paraicl>occur, OBJ, y paraicl>be, AOJ).
de otro tipo, y que pueden englobar distintas descripciones del sustantivo al que acompa˜nan. Estas relaciones suelen venir desempe˜nadas por adjetivos; algunos casos podr´ıan ser por ejemplo “dos (QUA) patatas” o “r´ıo largo (MOD)”. En la Figura 4.5 encontramos un esquema de los tres tipos de modificadores en este nivel y las relaciones que pertenecen a cada uno de estos grupos.
Modificadores de cantidad. Pueden expresar lo mismo en distintos ti- pos de medidas (“un (QUA) euro (VAL)” por ejemplo puede ser lo mismo que“diez (QUA) coronas (VAL)”; aunque en esta tesis no entremos en ese tipo de equivalencias, puede ser ´util en cierto tipo de documentos, como contratos internacionales).
• PER: proporci´on (Pag´o dos euros el kilo (PER)).
• QUA: cantidad (Pag´o dos (QUA) euros el kilo).
• VAL: valor (Pag´o dos euros (VAL) el kilo).
Otros modificadores(describen diversas caracter´ısticas del sustantivo al que acompa˜nan):
• MOD: modifica distintas caracter´ısticas (colores, altura...): “El ni˜no alto (MOD)”
◦ CNT: aposici´on, introduce un grupo nominal, habitualmente entre comas. Se relaciona con NAM: (“Rajoy, el presidente (CNT)” y “El presidente Rajoy (NAM)”).
◦ NAM: el nombre de algo, relacionado con CNT en caso de aparecer una entidad (como vemos en el ejemplo anterior).
◦ POS: posesivo (Mi (POS) casa).
• POF: parte de, puede aparecer rara vez como relaci´on en un grafo en expresiones del tipo “tres de ellos”.
• OBJ, AOJ, AGT: son modificadores que aparecen al nominalizar un ver- bo, como veremos m´as adelante.
Modificadores de subgrafos coordinados (ModSC)
Tambi´en podemos tener dentro de un subgrafo relaciones que unan otros sub- grafos a un mismo nivel; analizaremos las posibles par´afrasis a las que dan lugar en la Secci´on4.3.2.3. Las relaciones que pertenecen a este grupo ser´an:
AND: representa la conjunci´on “y”. Puede ser par´afrasis reordenando la re- laci´on siempre y cuando no estemos enumerando algo (donde el orden es relevante) o incluyamos restricciones de tiempo (“Me gustan el rojo y el azul” es igual que “Me gustan el azul y el rojo”, pero“Fui a tu casa y me gust´o” implica cierto orden, no es lo mismo que“Me gust´o y fui a tu casa”).
OR: representa “o”; el orden en este caso no es relevante, y s´ı se cumple la par´afrasis en la mayor´ıa de casos.
APN: es una concatenaci´on, representar´ıa comas y ser´ıa equivalente a varios AND seguidos.
Modificadores de subgrafos de tercer nivel (ModS3)
Por ´ultimo, tambi´en podemos encontrar modificadores de adverbios y de ad- jetivos dentro de un subgrafo; ´esta funci´on la desempe˜nar´a siempre un adverbio y vendr´a dada por una relaci´on que ya hab´ıamos englobado dentro del grupo Mod1,
MAN. Podremos distinguir su categor´ıa dentro del modelo por el elemento al que modifica en la oraci´on (ser´a Mod1 si es a un verbo y ModS3 si es otro tipo de
palabra). Un ejemplo de aparici´on del modificador MAN como miembro de esta categor´ıa se da en las comparaciones, con el adverbio m´as (“Es m´as (MAN) alto”) .
4.3.2.
Otros tipos de mapeos o correspondencias
Adem´as de las posibles equivalencias entre relaciones expuestas anteriormen- te, pueden existir otros posibles mapeos entre relaciones en ciertas situaciones concretas que se exponen a continuaci´on.
4.3.2.1. Mapeo de relaciones entre verbos de distinta categor´ıa on-