• No se han encontrado resultados

En el capítulo anterior se ha establecido un marco conceptual a partir de las hipótesis propuestas al principio del mismo Por un lado, se ha elegido un

4.2 Prototipo de SKC sobre KC

4.2.2 Módulo de Análisis de Conocimiento

4.2.2.2 Vinculación por contenido

En nuestra aproximación hemos considerado, inicialmente, cuatro clases de ítems de conocimiento: nodos que son instancias del sistema dedicadas a la gestión del conocimiento sobre un área con la ayuda de una comunidad de usuarios; temas estructurados en forma de árbol de conocimiento que desarrollan los distintos aspectos del tema principal del nodo; usuarios que constituyen la comunidad que participa en el nodo; y los documentos que describen los distintos temas y son aportados por los usuarios, consultados por ellos y objeto de su consideración.

A todos los ítems de conocimiento que se consideran en el sistema es posible asociarles documentos de texto que los describen. Estas asignaciones pueden tener diversos orígenes. En primer lugar, las asociaciones de textos a los ítems de conocimiento pueden provenir de la naturaleza de tales ítems; por ejemplo los documentos empleados en los experimentos son de tipo textual. En segundo lugar, tales asociaciones pueden derivarse de las relaciones explícitas de los ítems de conocimiento con otros ítems que tienen ya textos asociados. Esto ocurre con los temas que organizan los documentos, los usuarios que aportan documentos al sistema o el nodo que contiene unos y otros. En tercer lugar, las asociaciones de textos descriptivos a los ítems pueden desprenderse de relaciones más dinámicas, como la que se establece entre los usuarios y los documentos que visitan con mayor frecuencia o sobre los que manifiestan su opinión, o como las que se ponen de manifiesto entre documentos referenciados entre sí. Por último, siempre es posible asociar textos descriptivos a los ítems que incidan sobre algún aspecto de utilidad, como son los currículos de los usuarios, sus temas de interés, las palabras claves asociadas a los documentos o las descripciones de los temas. Este caso es completamente general y puede aplicarse a documentos de naturaleza no textual como podrían ser imágenes, sonido, etc.

Una vez que se ha asociado un texto descriptivo a uno de los ítems considerados, es necesario ponerlo de manera que pueda utilizarse como instrumento de comparación. Esto se consigue convirtiendo el texto en un descriptor, que estará ligado al aspecto al que se refiera. Por ejemplo, si el texto asociado a un usuario describe los temas que le interesan, el correspondiente descriptor se referirá a las preferencias del usuario; pero si el texto describe los documentos que él mismo ha elaborado, el correspondiente descriptor se referirá a su labor creativa. De este modo, los ítems podrán tener tantos descriptores como aspectos de ellos se tengan en consideración.

Como ya se ha dicho, en nuestra aproximación los descriptores son vectores de peso de palabras, que pueden utilizarse para determinar similitudes con otros vectores del mismo tipo y así relacionar los ítems de conocimiento correspondientes [Baeza 1999][Chang 2001]. El proceso de obtención de tales vectores se ilustra en la Figura 4-8 y parte de los textos asociados a los ítems. Como los textos pueden estar en distintos formatos, es preciso tratarlos para obtener sus contenidos desnudos en forma de texto plano. En nuestra aproximación inicial se han considerado ficheros de texto en formato PDF -convertidos previamente a HTML- y HTML, aunque ambos se transforman en ficheros de texto plano, antes de iniciar el proceso.

Después de que se ha eliminado el formato de los textos -generando ficheros de texto plano (HTX representados en la Figura 4-8)- es preciso identificar los lemas a los que se refieren las palabras (obviando las formas gramaticales en las que se presentan) y determinar las categorías

gramaticales a las que pertenecen. Con ello se unifican las referencias a conceptos, se reduce el número de palabras distintas consideradas y se identifican los términos que no tienen utilidad.

htm2htx freeling ftg2dwf dwfs2cwf cdwf2dww HTML HTX DWF CWF DWW FTG

Figura 4-8. Proceso obtención vectores peso palabras para ítems conocimiento desde HTML

En nuestra aproximación hemos utilizado la herramienta de análisis de lenguaje FreeLing [Carreras 2004], que facilita la obtención de toda la información necesaria para alcanzar los anteriores objetivos. FreeLing permite analizar un texto para identificar las categorías gramaticales a las que pertenecen las palabras que lo forman y determinar los lemas a los que corresponden dichas palabras en un diccionario de referencia. Cuando FreeLing no encuentra en el diccionario un lema adecuado para alguna palabra, la considera como un nuevo lema. Con todo ello, la herramienta consigue establecer la interpretación morfológica más probable de cada una de las palabras que integran el texto, que servirá para determinar una aproximación semántica del mismo. Como resultado del análisis, FreeLing proporciona una versión etiquetada del texto (ficheros FTG a los que se refiere la Figura 4-8), indicando para cada aparición de palabra su forma original junto con el lema y la correspondiente interpretación morfológica que se consideran más factibles.

El texto etiquetado obtenido con FreeLing se procesa atendiendo a sus categorías gramaticales, para descartar completamente las entradas de palabras que se consideran poco relevantes para la comparación de textos, como son los determinantes, las conjunciones o las preposiciones. También se eliminan las etiquetas y las formas originales de las demás entradas. De este modo el texto original queda convertido en una secuencia de lemas, que existen en el diccionario de referencia utilizado, o que se han acuñado a partir de términos singulares que no aparecen en él. En esta secuencia las ocurrencias de distintas formas de las mismas palabras en el texto original aparecen como repeticiones de los mismos lemas. A todos los lemas incluidos en dicha secuencia se les puede atribuir un interés semántico para contribuir a la creación del descriptor, que es el objetivo del proceso.

Contando las apariciones de cada término en la secuencia de lemas se puede establecer la frecuencia de cada uno de ellos. De esta forma se generan los ficheros de frecuencia de palabras para cada texto asociado a un ítem de conocimiento (ficheros DWF en la Figura 4-8). En los ficheros DWF hay sólo una entrada por cada lema, que contiene el correspondiente identificador

y su frecuencia, normalizada respecto al máximo de apariciones de las demás palabras consideradas en el documento.

Siguiendo un proceso parecido al descrito -pero trabajando sobre una colección de textos representativos del uso general del idioma en el que se está trabajando- se genera un fichero de referencia con las frecuencias de palabras en dicha colección (fichero CWF referenciados en la Figura 4-8), que representa las frecuencias de las palabras en el uso común del idioma [Baeza 1999]. La colección de documentos se procesa como si se tratara del texto asociado a un ítem de conocimiento. Para que las palabras encontradas y su frecuencia sean representativas del uso general del idioma, la colección debe ser suficientemente amplia y abarcar una temática de tipo general. En nuestra aproximación se han utilizado los 748 artículos incluidos en los anuarios del periódico El País de cuatro años distintos, que tratan de los acontecimientos más destacados acaecidos en esos períodos en los principales ámbitos informativos, tales como sociedad, cultura, deportes, etc.

Los ficheros CWF son parecidos a los DWF, hay una entrada por cada lema, con el identificador en cuestión y su coeficiente de frecuencia de documento inverso. Esta frecuencia es el logaritmo en base diez del cociente del total de documentos en la colección N, entre el número nk de

documentos donde aparece el término (ver Fórmula 4-1). Dicho coeficiente es un indicador de la frecuencia de empleo del término en el uso general del idioma que representa la colección y denota la rareza de aquel.

k i k k i k i k n N f fdi f p, = , × = , ×log

Fórmula 4-1. Peso palabra en documento y frecuencia término documento inverso en colección

Partiendo de los ficheros de frecuencia de palabras de cada ítem de conocimiento (DWF), y utilizando el fichero de frecuencia de palabras en la colección de referencia (CWF), se establece un peso para cada palabra en el texto asociado al ítem. El peso de una palabra en un texto representa la relevancia de la palabra en él. Una palabra es más característica de un texto cuanto más frecuente sea en el correspondiente texto y menos en el uso general del idioma en que está escrito. En concreto, el peso pk,i de una palabra k en un documento i es el producto de la

frecuencia normalizada fk,i de la palabra k en el texto i, por la frecuencia de documento inverso

del término en la colección utilizada de referencia fdik (ver Fórmula 4-1).

El vector formado por las palabras que aparecen en el texto asociado a un ítem de conocimiento y sus respectivos pesos constituye el descriptor resultante del proceso, que se guarda en forma de un fichero (ficheros DWW resultado del proceso ilustrado en la Figura 4-8). Los ficheros DWW incluyen una entrada por cada lema que aparece en el texto, con el identificador de éste y el peso que se le atribuye. Los DWW se utilizarán para comparar los ítems entre sí, calculando

el grado de similitud entre los vectores de peso de palabras que representan. La similitud entre dos vectores se puede establecer de varias formas, a partir de alguna distancia como la euclídea o del coseno del ángulo que forman, que es el procedimiento empleado en esta aproximación.

= = = × × = × • = t k t k t k ki kj j i j i j i j k i k p p p p v v v v v v sim 1 2 1 2 1 , , , , ) , ( r r r r

Fórmula 4-2. Similitud entre vectores en función del coseno del ángulo que forman

Por lo tanto, la similitud entre dos vectores vi y vj es el producto escalar de los dos vectores,

partido por el producto de los respectivos módulos. El producto escalar de los vectores se calcula como el sumatorio de los productos de sus componentes pk en cada una de sus t

dimensiones. El módulo de un vector se computa como el sumatorio de los cuadrados de las componentes del vector (ver Fórmula 4-2).

El grado de similitud entre dos vectores es un coeficiente entre cero y uno. Cuanto más cercano esté el valor a la unidad, más parecidos resultarán los vectores, y cuanto más próximo a cero, menos semejantes serán. Las relaciones de similitud establecidas entre ítems de conocimiento están calificadas con dicho coeficiente. En nuestra aproximación se consideran vinculados los ítems de conocimiento que superan un determinado umbral del coeficiente de similitud de la relación entre ambos. Desafortunadamente, este umbral no puede establecerse de forma fija ni general para todos los casos, puesto que dependiendo de circunstancias tales como la temática de los nodos o la naturaleza de los documentos considerados, puede variar mucho la elección de su valor.