Campos semánticos del PCIC - Análisis semántico

6. Análisis semántico

6.1.3. Campos semánticos del PCIC

Un vez más, el Índice de nociones generales y nociones especícas del PCIC es útil porque organiza el vocabulario en campos semánticos catalogando el léxico según pertenezca a una noción general o a una noción especíca. Mediante un índice numérico que acompaña a cada vocablo, se ubica el léxico en un campo semántico determinado. Estos campos semánticos son de utilidad como referencia semántico-contextual para identicar qué tipo de nociones se expresan en un texto. Un listado somero de los campos, subcampos y subsubcampos semánticos que especica el PCIC se exponen en el apéndice, apartado A.5.

Para procesar el Índice de nociones generales y nociones especícas del PCIC, se ha creado un módulo computable que recoge las siglas NG (Nociones Generales) y NE (Nociones Especícas), siglas que acompañan a los vocablos y van seguidas de las cifras numéricas que identican los campos semánticos. Además, este módulo de identicación de los campos semánticos implementa una aplicación más de la herramienta Semantor. De esta manera, si el módulo del LSA y el del área temática de la Dra. Fuensanta López en Semantor nos informa de que un texto está o no fuera de tema, el módulo del campo semántico nos informará de qué trata el texto.

A continuación, en las guras 6.4, 6.5, 6.6, 6.7 y 6.8, se muestran grácamente los campos semánticos en los que se distribuyen los lemas extraídos de los textos analiza- dos, según la clasicación del Índice de nociones generales y nociones especícas del PCIC. La gura 6.4 recoge 8.662 lemas del Índice del PCIC distribuidos en aquellos campos semánticos que han especicado los expertos del Instituto Cervantes. En la gura

162 CAPÍTULO 6. ANÁLISIS SEMÁNTICO

Figura 6.2: Número de relaciones genealógicas en el discurso de 1979.

6.4 se muestran incluso lemas repetidos cuando tienen o pertenecen a más de un campo semántico. Es decir, existen lemas que se repiten bien por tener niveles diferentes o bien por pertenecer a campos semánticos diferentes. Sirva de ejemplo el lema bajo. Bajo, desambiguado, tiene dos categorías gramaticales: preposición y nombre, y pertenece a tres campos semánticos distintos: NG A1 2.6.3; NG C1 3.3 y NE C2 18.2, es decir, al campo semántico de nociones cuantitativas, espaciales y artístico-musicales, respectivamente. Con nuestro método de procesamiento, al tener el vocablo tres campos semánticos, lo computamos como tres lemas distintos. Matizamos que, a pesar de que hemos etiquetado morfológicamente los vocablos del Índice de nociones generales y nociones especícas del PCIC para desambiguar, el procesamiento mejoraría si se sometiese el Índice electrónico del PCIC a una revisión manual detallada.

Un ejemplo de procesamiento de texto con este módulo del Índice de nociones generales y nociones especícas del PCIC es el discurso del Rey en la Navidad de 1992 que muestra la gura 6.5.

Además, para obtener una buena representación de algunos campos semánticos en un texto utilizando el Índice de nociones generales y nociones especícas del PCIC, hemos creado una stoplist. Con esta stoplist, obtendremos unas frecuencias más reales y evitaremos el ruido que producen las repeticiones de estos lemas en distintos campos cuando procesemos los textos. Esta stoplist la conforman todas las preposiciones simples (a, ante, bajo, etc.), el determinante el y los verbos auxiliares ser, estar y haber. Las guras que se presentan a continuación muestran un estudio de los campos semánticos en el discurso del Rey de la Navidad de 1992 donde se aplican sucesivamente los siguientes cambios: eliminación de los lemas repetidos, aplicación de la stoplist y la ponderación de un lema que pertenezca a uno u otro campo semántico.

Podemos observar que en la gura 6.5 se computan los 558 lemas que tiene el texto, sin aplicar la stoplist y con la repetición de lemas. A continuación, de los valores de cada campo, expresamos entre paréntesis el promedio de repetición de los lemas después de aplicar la stoplist.

6.1. EVALUACIÓN SEMÁNTICA 163

Figura 6.3: Relación genealógica o de coherencia de un fragmento del discurso de navidad de 1979.

En la gura 6.6 aparece representado el mismo discurso con todos los lemas sin incluir los repetidos.

Continuando con un proceso de renamiento, en la gura 6.7, se han eliminado los lemas de la stoplist y, una vez más, se han eliminado las repeticiones para obtener unos resultados semánticos distintivos, ya que lo que buscamos es saber de qué trata el texto. Siguiendo con este proceso de mejora, otro de los aspectos que se ha considerado en el análisis semántico es la repetición de un lema cuando pertenece a diferentes campos semánticos, tal y como hemos visto más arriba con el ejemplo del vocablo bajo. Tal repetición representa la ubicación de un mismo lema, desambiguado o no, en distintos campos semánticos. Esto supone que los lemas repetidos se distribuyen en los campos sin anar el campo semántico al que se reere el texto. Para ello, hemos aplicado el criterio de ponderación semántica al módulo que asigna el campo semántico a un vocablo. Esto es, la asignación de los lemas a un campo semántico se aplica utilizando un factor de ponderación que es directamente proporcional a la distribución de otros lemas a campos semánticos en una unidad lingüística (frase) e inversamente proporcional al número de campos semánticos asignables a un determinado lema.

Este criterio se va a aplicar únicamente dentro de una frase de manera que, a aquel lema etiquetado con varios campos semánticos en el Índice del PCIC, se le asignará aquel campo al que se reera otro lema incluido en un campo semántico coincidente con el de otro lema incluido en dicha frase. Es decir, con este criterio anamos la asignación semántica de los lemas en el co-texto de la frase. La gura 6.8 muestra el resultado de aplicar a este texto el criterio de ponderación semántica, lo cual nos permite congurar un parámetro que marque el grado de proximidad a la temática deseada y, por tanto, la contextualización y coherencia del texto analizado. Como se observa en la gura 6.8, los campos que aumentan en el discurso del Rey, tras la ponderación del léxico, son los esperados: gobierno, política y sociedad. Efectivamente, los discursos del Rey tratan de cuestiones de gobierno, política y sociedad (marrón) en el territorio español y fuera de él

164 CAPÍTULO 6. ANÁLISIS SEMÁNTICO

Figura 6.4: Campos semánticos del Índice del PCIC.

(morado). Muchos de los discursos navideños del Rey tienen una parte afectiva, personal y de interés humano (azul turquesa y verde oscuro). También destacan su preocupación e interés por el empleo (malva) y el ocio (fucsia), la vivienda (granate), los servicios a los ciudados (gris oscuro) y la educación (rosa claro).

Cuando leemos el discurso de Navidad de 1992, comprobamos que es el año de la Exposición Universal de Sevilla y los Juegos Olímpicos de Barcelona, la II cumbre Hispa- noamericana y la necesidad de una Europa que apoye a Sudamérica, la Conmemoración del V Centenario del descubrimiento de América y la capitalidad europea de la cultura de Madrid. También se recuerda la Conferencia de Paz para Oriente Medio, la guerra en Europa (de Bosnia) y las víctimas y temores del terrorismo. Aún más, el Rey alude a la xenofobia e insta a ser solidarios con los extranjeros que han decido vivir con nosotros y a ser conscientes de nuestro patrimonio natural después del desastre [del Prestige] en Galicia.

En resumen y en relación a los datos extraídos automáticamente y una vez leído el discurso, anticipábamos que el discurso trataba de asuntos de gobierno, política y sociedad (marrón), nuestra actividad cultural y actitud con el resto de países y con la naturaleza (morado). Como la mayoría de españoles sabe, los discursos navideños del Rey tratan sobre varios temas que el Rey repasa dotándolos de cierta sensibilidad, compromiso personal, solidaridad, incluso espiritualidad (azul turquesa) y humanidad (verde).

6.1. EVALUACIÓN SEMÁNTICA 165

Figura 6.5: Distribución de campos semánticos del discurso navideño del Rey de 1992 con todos los lemas, incluidos los repetidos.

In document Definición y análisis de parámetros lingüísticos cuantitativos para herramientas automáticas de evaluación aplicables al español como lengua extranjera (página 179-183)