Problemas abiertos - Conclusiones y trabajos futuros

Capítulo 8: Conclusiones y trabajos futuros

8.2. Problemas abiertos

En esta sección se presentan posibles mejoras y extensiones a realizar en el refinamiento semántico para la preparación de la estrategia de búsqueda.

• Preparación para contingencias.

El refinador semántico resuelve muchos problemas presentados en la preparación de la estrategia de búsqueda: la desambiguación de términos ambiguos o

no específicos, el correcto uso de la disyunción y de la conjunción, el uso correcto de paréntesis, la inclusión de sinónimos y palabras con distintas formas de escritura, la utilización de términos específicos, el uso correcto de la negación y los errores de tecleo. Sin embargo, otras contingencias que se pueden encontrar en la búsqueda son: cómo aumentar la cantidad si no se recupera información suficiente, y cómo reducir la cantidad si se recuperan demasiados documentos.

Queda abierto el problema de que en caso de obtener como resultado pocos o ningún documento porque se ingresaron demasiados conceptos, definir qué concepto quitar de la estrategia de búsqueda a fin de aumentar la cantidad de documentos recuperados. Con respecto al tema de que el usuario utilice términos demasiado específicos, debería detectarse cuál es el término demasiado específico y definirse una forma de moverse en la jerarquía conceptual para realizar un nivel menos de especificación. Otro problema abierto es analizar la incorporación de operadores de proximidad en la estrategia de búsqueda generada por el refinador semántico. Es decir, operadores que permitan recuperar conceptos que estén en un mismo párrafo, o que estén separados por una cierta cantidad de palabras uno de otro.

• Selección automática del recurso lingüístico adecuado

La utilización de un perfil de usuario permitiría la selección automática de los recursos lingüísticos más adecuados para la generación de la estrategia de búsqueda. Por ejemplo, si se detecta que el usuario es un médico, es más adecuado utilizar recursos específicos del área salud, como ser el tesauro Mesh, en lugar de un recurso general, como lo es WordNet. El perfil de usuario se puede armar a partir de una plantilla de datos personales y preferencias que complete el usuario y a partir de logs de estrategias anteriores que satisfacieron la necesidad de información de este usuario. Otra posibilidad es armar perfiles de usuario genéricos a partir solamente de estos logs. Por ejemplo, detectando que todo usuario que pidió “cáncer” y “terapia” se refería al área medicina. En este caso, se podría evitar el paso de desambiguación aprendiendo de estrategias anteriores que, si coexisten estas palabras en una consulta, se refieren al área medicina.

• Extracción automática de conceptos para la estrategia de búsqueda

En la propuesta presentada en esta tesis, los conceptos que representan el interés de búsqueda, son ingresados uno a uno por el usuario en la forma de palabras claves. Otra forma es que el usuario ingrese su consulta en la forma de una frase escrita en lenguaje natural y se extraigan automáticamente los conceptos iniciales para el refinamiento semántico.

Para esto, se debe segmentar y etiquetar el texto mediante un analizador morfológico. Un término puede ser etiquetado con más de una etiqueta morfosintáctica, por ejemplo trabajo puede ser un sustantivo o un verbo conjugado. En estos casos, la desambiguación con respecto a la etiqueta se efectúa con información lingüística y se complementa con técnicas estadísticas. Esto permite descartar aquellos términos de la frase ingresada por el usuario que no sean sustantivos, ya que éstos son los que generalmente se utilizan como palabras claves de búsqueda. Además, el análisis morfosintáctico del texto permite detectar términos irrelevantes para la búsqueda, como ser artículos, así como detectar construcciones que tienen significado como unidad y no por separado, como ser el caso de sustantivos compuestos. Una propuesta de diseño de una base de datos para el análisis morfosintáctico de texto se presenta en [Deco et al., 2008] [Deco et al., 2008c].

• Utilización de ontologías con axiomas.

En el presente trabajo se utilizaron ontologías sin axiomas, también llamadas ontologías livianas. Otra posibilidad es utilizar ontologías con axiomas, y por lo tanto poder realizar inferencias. Es decir, además de los conceptos jerárquicamente relacionados o sinónimos, incorporar a la estrategia de búsqueda nuevos conceptos obtenidos a través de la inferencia.

• Utilización de Feedback de Relevancia.

Una de las tareas que podría incorporase al refinador es realizar un feedback de relevancia en base a documentos identificados por el usuario como relevantes. De esta forma se pueden encontrar palabras en dichos documentos e incorporarlas a la

estrategia de búsqueda. El problema aquí es determinar cómo y qué términos extraer de los documentos señalados como relevantes. Una posibilidad es que el usuario los elija y otra es que esto se haga automáticamente a partir de estadísticas y agrupación de las palabras que aparecen en estos documentos.

• Enfoque de agentes.

Como se propuso en el Capítulo 8, el refinador semántico puede estar inmerso dentro de un sistema recomendador. Este tipo de sistemas generalmente se modelan como sistemas multiagentes. Por lo tanto el refinador semántico podría modelarse utilizando el enfoque de agentes.

Los agentes surgen dentro del campo de la Inteligencia Artificial y representan una nueva forma de analizar, diseñar e implementar sistemas de software complejos [Jennings et al. 1998]. Se puede definir un agente como una aplicación informática con capacidad para decidir cómo actuar para alcanzar sus objetivos. Un agente inteligente puede funcionar fiablemente en un entorno rápidamente cambiante e impredecible, como es la web. Pueden configurarse con diferentes perfiles para tomar decisiones de acuerdo a las necesidades del usuario y hacer tareas más específicas y personalizadas.

In document Mejora de la recuperación de información en bases de datos de texto utilizando recursos lingüísticos (página 142-145)