CONCLUSIONES - CONCLUSIONES Y TRABAJOS FUTUROS

6. CONCLUSIONES Y TRABAJOS FUTUROS

6.1. CONCLUSIONES

En este proyecto se ha desarrollado un sistema de EI con el objetivo de extraer una serie de relaciones entre artículos de Wikipedia. Para llevar a cabo esta tarea, se ha necesitado el apoyo de herramientas de análisis morfológico, sintáctico y semántico.

La inmensa mayoría de sistemas de EI se desarrollan para funcionar razonablemente bien dentro de áreas muy restringidas. En el caso de este proyecto, se ha decido trabajar únicamente con artículos de personajes (tanto históricos como contemporáneos), ya que de ese modo resulta más sencillo acotar los diferentes tipos de relaciones de interés que pueden aparecer en los mismos.

Sin embargo, a pesar de haber llevado a cabo el diseño centrándose en artículos de personajes, el sistema no es en absoluto cerrado, sino que podría adaptarse fácilmente a cualquier otro tipo de artículo. Simplemente sería necesario rediseñar adecuadamente los patrones de búsqueda implementados adaptándolos a las relaciones que se necesiten extraer en cada caso. Además, como ya se comentó anteriormente, el sistema será compatible con cualquier artículo fuente en lenguaje natural, no únicamente con aquellos contenidos en Wikipedia.

Al desarrollar el sistema se ha supuesto que los artículos a analizar no contienen en ningún caso errores gramaticales ni ortográficos. Esta premisa podría resultar inadecuada en ciertos entornos, sin embargo se ha observado que este tipo de errores son muy infrecuentes dentro de artículos de Wikipedia. Además el sistema funciona correctamente para artículos de cualquier longitud, aunque en artículos más extensos será capaz de extraer un mayor número de relaciones de interés.

Una de las principales conclusiones a la que puede llegarse tras la implementación de este sistema es la inmensa utilidad que pueden tener las herramientas de procesamiento de lenguaje natural en aplicaciones de EI. La posibilidad

de contar con herramientas de análisis sintáctico, morfológico y semántico ha resultado de gran ayuda en diversos ámbitos del diseño.

Una de las funcionalidades de mayor utilidad es la segmentación del texto, que permite dividir las oraciones en unidades individuales de análisis. Esta división sería mucho más compleja de realizar sin contar con una herramienta de apoyo, ya que en muchos casos el espacio en blanco no determina la separación entre dos unidades lingüísticas.

Además de lo anterior, la información sintáctica, semántica y morfológica proporcionada también resulta de gran utilidad. El aprovechamiento adecuado de esta información y su combinación con el uso expresiones regulares, ha hecho posible que la búsqueda de patrones no se limite exclusivamente al texto en lenguaje natural, sino también a sus características léxicas, semánticas y sintácticas. Esto ha permitido poder trabajar a nivel de sintagma en lugar de a nivel de palabra, desarrollando unos patrones de búsqueda menos complejos y más eficientes. Además, se ha podido comprobar la gran versatilidad de las expresiones regulares tipo Perl para tareas de este tipo.

Cuando se va a desarrollar un sistema de estas características, siempre hay que tener en cuenta que se está trabajando con textos en lenguaje natural, en los que únicamente existe información no estructurada y una misma idea puede ser expresada de una infinidad de formas. Con estas premisas, es comprensible que nunca se conseguirá desarrollar un sistema que dé resultados correctos en el 100% de los casos. En cualquier caso, siempre se deben intentar obtener unos resultados con la mayor precisión y cobertura posibles. De no ser así, deberán sacarse las oportunas conclusiones para tratar de mejorar el sistema.

En el caso del sistema diseñado, se han obtenido valores diferentes de precisión y cobertura según el tipo de relación extraída en cada caso. En la mayoría de casos de ha obtenido un mejor valor de precisión, de lo que se deduce que generalmente es más complejo localizar todos los registros válidos que dar sólo respuestas correctas.

Para las relaciones en las que se han obtenido menores valores de precisión y cobertura, estos resultados son debidos a circunstancias diversas. Una de las posibles

dificultad la falta de verbos u otras palabras de apoyo. Generalmente es difícil cubrir todos los casos posibles en los que la información deba ser extraída. No obstante, siempre se pueden analizar los resultados y posteriormente adaptar y mejorar estas expresiones para que el sistema se comporte mejor en un mayor número de situaciones.

Como se ha visto a lo largo del proceso de evaluación, los análisis realizados por el módulo de PLN también pueden ser en algún caso una fuente de error. Como en cualquier herramienta encargada de procesar lenguaje natural, habrá muchos casos en los que se presenten situaciones de ambigüedad y se opte por la opción errónea. En la evaluación realizada se ha podido ver que en ocasiones ciertos errores en los análisis morfológicos, sintácticos y semánticos provocan una disminución de la precisión y la cobertura.

En resumen, puede concluirse que es posible desarrollar sistemas muy útiles de EI si se combinan correctamente las herramientas adecuadas de análisis y procesamiento. Siempre será recomendable tratar de centrarse en campos muy específicos para lograr extraer una información de mayor fiabilidad.

In document Diseño de un sistema de extracción de información de artículos de Wikipedia (página 118-120)