Conclusiones finales - Conclusiones y líneas futuras

Fase VI: Acceso

Capítulo 6 Conclusiones y líneas futuras

6.1 Conclusiones finales

Como objetivo principal de esta tesis doctoral se planteaba la demostración de la hipótesis planteada al principio de la misma. Esta hipótesis enunciaba la siguiente afirmación:

“Es posible anotar semánticamente recursos software mediante la extracción (semi)automática de la información necesaria para tal efecto a partir de descripciones textuales (e.g. publicaciones científicas) de dichos recursos, mediante la utilización y combinación de técnicas de Inteligencia Artificial y Procesamiento de Lenguaje Natural”

Para la verificación empírica de esta hipótesis, se ha definido un modelo genérico independiente del dominio que modeliza los procesos y pasos necesarios para la creación automatizada de índices de recursos informáticos a partir de la literatura científica en el área en cuestión. El modelo propuesto consiste en un proceso secuencial estructurado en seis etapas principales. Estas etapas modelizan desde el proceso de selección de las fuentes, a partir de las cuales se extraerá la información y el preprocesamiento previo de las mismas, hasta las etapas de extracción, clasificación, curación y desarrollo del interfaz de acceso al índice generado. Dentro del trabajo a realizar en cada una de las etapas, se han diferenciado, a su vez, dos fases: Una, un trabajo preliminar para la puesta a punto de todos los componentes y procesos que forman parte de la etapa en cuestión. Dos, la ejecución propiamente dicha de los procesos definidos.

Conclusiones y líneas futuras El modelo propuesto ha sido evaluado en dos dominios diferentes—la Bioinformática y la Informática Medica—dando lugar a la creación de dos índices de recursos informáticos denominados BIRI y e-MIR2 respectivamente. Ambos índices han sido presentados a lo largo de esta tesis doctoral, junto con los resultados obtenidos y la evaluación realizada en cada caso. Esa misma información ha dado lugar a la publicación de dos artículos en revistas JCR, lo cual acredita su originalidad y validez [DEL09][DEL12]. En el caso del BIRI se consiguió extraer y clasificar automáticamente información acerca de más de 300 recursos informáticos a partir de un conjunto de artículos bioinformáticos seleccionados. Comparado con otros índices de recursos bioinformáticos, la principal novedad aportada por el BIRI es la generación y actualización automática de los contenidos del índice a partir de la literatura científica, lo que supone una ventaja sustancial en cuanto al coste de desarrollo y mantenimiento del mismo [DEL09]. En cuanto al e-MIR2_{se consiguieron identificar más de 600}

recursos informáticos. Para ello se analizaron casi 38000 artículos, que son la totalidad de los artículos publicados en las revistas de Medical Informatics según el ISI Web of Knowledge [DEL12]. En este caso, la novedad proporcionada es el propio índice en sí mismo, debido a que, en el momento del desarrollo del mismo, no existía ningún índice de recursos informáticos comparable en el área de la Informática Médica.

El desarrollo exitoso de los dos índices presentados demuestra que la hipótesis planteada es correcta y que, efectivamente, pueden construirse índices de recursos automáticamente a partir de la literatura científica en un dominio en cuestión. La originalidad y oportunidad de las tesis doctorales son quizás dos de los factores claves en la valoración de las mismas. Una forma objetiva que permite cuantificar dichos factores viene refrendada por las publicaciones científicas realizadas en foros relevantes, como revistas y congresos internacionales de alto impacto, así como la repercusión de dichas publicaciones en otros medios.

Las dos publicaciones más relevantes originadas por la presente tesis doctoral han sido las publicadas en las revistas BMC Bioinformatics [DEL09] y BMC

Conclusiones finales

Medical Informatics and Decision Making [DEL12]61. Ambas revistas son JCR con un impacto de 3,428 (Q1) y 1,603 (Q3) respectivamente. En ambos casos, los artículos fueron revisados por expertos en el área pasando un proceso de revisión por pares, lo cual garantiza la calidad y originalidad del trabajo presentado. En los artículos se describen tanto el método utilizado como la implementación de los sistemas presentados. En el momento de escribir esta tesis doctoral, el artículo describiendo el BIRI contaba con 25 citas62. Como apunte adicional, al realizar una consulta en el ISI Web of Knowledge utilizando como término de búsqueda bioinformatics resources, dicho artículo aparece el sexto entre más de 5300 resultados, al ordenar éstos por relevancia. Si esa misma consulta se realiza con el mismo término de búsqueda entrecomillado, el artículo aparece el tercero entre más de 300.

Aparte de las cifras objetivas mencionadas anteriormente, otra forma de valorar el impacto de un trabajo es la repercusión del mismo en otros medios. Un ejemplo de esto con respecto al BIRI es la referencia aparecida en el blog de la prestigiosa revista Science (Science Careers Blog) en Julio de 2010 [PAI10]. En esta entrada la autora comentaba la novedad del sistema presentado y la utilidad potencial que podría tener para la comunidad bioinformática.

Aparte de las novedades mencionadas que cada índice como tal aporta en su propia disciplina, la presente tesis presenta los siguientes avances y novedades originales:

• Desarrollo de un modelo genérico independiente del dominio que modeliza todas las etapas necesarias para la creación de un índice de recursos informáticos, basada en técnicas de procesamiento del lenguaje natural. En la evaluación realizada se han utilizados artículos pertenecientes a la literatura científica en cada área, pero el modelo propuesto permite considerar cualquier tipo de fuente de información digital—por ejemplo, páginas web, blogs, foros, etc. En el momento del desarrollo de la tesis doctoral, no existía ningún modelo similar, lo cual

61_{La lista completa de publicaciones puede consultarse en el}_{Anexo A – Publicaciones} 62_Fuente:_{Google Scholar}_{con fecha de 14 de febrero de 2014}

134

Conclusiones y líneas futuras permite reafirmar su novedad y originalidad. En realidad, el enfoque planteado en el modelo es tan abierto que no se restringe únicamente a los recursos informáticos, sino que podría ser aplicado con facilidad a cualquier otro tipo de información que necesitase ser clasificada automáticamente.

• El método de clasificación propuesto, basado en el etiquetado semántico de la información, permite reutilizar los mismos algoritmos y métodos utilizados para la extracción de características, para clasificar la información. En ambos casos, el proceso consiste en identificar una serie de términos o conceptos en el texto de entrada y, posteriormente, utilizarlos para almacenarlos como características del recurso (por ejemplo, el nombre) o para anotar el recurso con dicho término o concepto perteneciente a un esquema de clasificación previamente establecido, respectivamente.

• Para el establecimiento del esquema de clasificación mencionado anteriormente, en esta tesis doctoral se ha propuesto un nuevo método sistemático y objetivo basado en la idea de las folksonomías. Las folksonomías son un sistema de clasificación basado en etiquetas creadas colaborativamente por una comunidad de usuarios, normalmente en Internet. En esta tesis se propone utilizar un sistema similar pero utilizando los textos de los artículos científicos como fuente de datos para establecer las etiquetas que permitan anotar los recursos. Los esquemas de clasificación—bien sean listas de conceptos, taxonomías, ontologías o cualquier otro tipo de sistema jerárquico—suelen ser definidas por expertos en el área en función de su conocimiento y experiencia. Al desarrollar un nuevo esquema de clasificación, puede resultar difícil encontrar o tener acceso a expertos en el área que estén dispuestos a participar activamente en la definición del mismo. El método propuesto no permite sustituir completamente la participación de los expertos, pero sí permite reducir la carga de trabajo de los mismos. De esta forma, contar con su colaboración puede resultar una tarea más sencilla.

Líneas futuras de investigación

In document Modelo basado en técnicas de procesamiento de lenguaje natural para extraer y anotar información de publicaciones científicas (página 156-160)