Capítulo 2 Estado de la cuestión
2.3 Minería de textos
Se denomina minería de textos al proceso de descubrimiento de conocimientos no explícitos y no triviales en corpus textuales escritos en lenguaje natural [FEL06][HEA99]. A diferencia de la minería de datos, que se encarga de extraer información de fuentes estructuradas, normalmente bases de datos, la minería de textos utiliza fuentes textuales cuyo contenido puede estar semi-estructurado en el mejor de los casos o carecer de cualquier tipo de estructura. Esta diferencia añade un grado de dificultad extra a la minería de textos frente a la minería de datos, ya que implica la utilización de técnicas y métodos que permitan estructurar la información textual antes de realizar cualquier proceso de minería de datos.
Técnicas de minería de textos han sido empleadas con éxito en numerosas disciplinas científicas como la biología o la medicina, dando lugar a numerosas herramientas y aplicaciones [COH05][ANA06]. En la figura 2.13, se muestran algunas de estas herramientas que hacen uso de técnicas de procesamiento de lenguaje natural y minería de textos en el dominio de la biología [KRA05], clasificadas de acuerdo a su campo de aplicación.
Existe una parte especializada dentro de la minería de textos dedicada a la exploración de información en la Web; la minería web o web mining. Internet se ha convertido en una fuente casi inagotable y repleta de información interesante para todo tipo de usuarios e investigadores provenientes de campos tan diversos como la biología, la medicina, la banca, los negocios o el marketing. El éxito de la Web 2.0 (redes sociales, blogs, noticias, etc.) ha dinamizado la generación de contenidos en Internet haciéndolos crecer diariamente gracias a las aportaciones realizadas por usuarios de todo el mundo.
Minería de textos
La explotación de dichos contenidos ha abierto nuevas líneas de investigación [PAN08] e incluso oportunidades de negocio, proporcionando información relevante tanto para una persona corriente como para grandes organismos, empresas, instituciones o gobiernos. Por ejemplo, existen empresas y marcas mundialmente conocidas que destinan numerosos recursos para averiguar la percepción que los usuarios tienen de sus productos y definir sus estrategias comerciales. Hoy en día, toda esa información está latente en Internet esperando ser descubierta y por ello cada vez son más necesarias metodologías, técnicas y herramientas automáticas que faciliten su descubrimiento. El principal desafío que tienen que afrontar los métodos de minería de textos reside en la ambigüedad del lenguaje natural. Una misma sentencia puede tener múltiples significados en función, por ejemplo, del contexto donde se enmarque. En un contexto determinado, un concepto puede representar algo positivo mientras que en otro contexto puede resultar todo lo contrario.
Figura 2.13 – Clasificación de herramientas de procesamiento de lenguaje natural y minería de textos en biología. Fuente [KRA05]
Estado de la cuestión Dependiendo de la información que es considerada en las tareas de descubrimiento de información, en la minería web se distinguen tres tipos diferentes [KOS00]:
1) Minería de estructura. Este tipo de minería utiliza la teoría de grafos para analizar los componentes y enlaces de una página web. El objetivo es analizar la estructura definida por dichos componentes e hipervínculos, tratando de extraer patrones que permitan la optimización de los sitios web.
2) Minería de uso.Este tipo de minería utiliza la información contenida en
los logs de los servidores con el fin de determinar patrones de comportamiento en los usuarios del sitio web, como, por ejemplo, tipo de información más buscada, contenidos de mayor interés o enlaces más visitados.
3) Minería de contenido. La minería de contenido se centra en el análisis de la información contenida en un sitio web. De los tres tipos mencionados, es la más investigada ya que permite descubrir mayor cantidad de conocimiento e información relevante, en parte debido a su mayor abundancia y disponibilidad.
2.3.1
Tipos de enfoques en minería de textos
En minería de textos, se definen principalmente tres enfoques o métodos en función de las técnicas utilizadas para analizar los textos [ANA06][COH08]:
1) Basados en Co-ocurrencia. Es el enfoque más sencillo ya que, para
establecer una relación entre dos conceptos, únicamente considera la aparición de dichos conceptos dentro de la misma unidad textual (sentencia, párrafo, sección, etc.).
2) Basados en Reglas. Estos sistemas hacen uso de un conocimiento previo,
bien sea conocimiento lingüístico o derivado del dominio de aplicación del sistema. En un enfoque sencillo, estos sistemas están compuestos de
Minería de textos
conjuntos de reglas o patrones del tipo “<concepto1> forma parte de <concepto2>” o “<concepto1> tiene un efecto positivo en <concepto2>”, y tratan de encontrar apariciones explícitas en los textos que satisfagan los patrones. Los sistemas más sofisticados no sólo consideran el conjunto de reglas, sino que incorporan análisis lingüísticos y semánticos complejos que permiten una detección más precisa. La principal desventaja de estos sistemas es que requieren una gran cantidad de tiempo para la definición de la base de reglas o patrones.
3) Estadísticos o basados en Aprendizaje Automático. El funcionamiento
de estos métodos está basado en la construcción de clasificadores que puedan operar a distintos niveles, desde el etiquetado morfológico de una unidad textual (sentencia, sección o documento completo) hasta el análisis sintáctico o semántico de la misma, con el fin de clasificarla dentro de una categoría. El principal inconveniente de estos métodos es que necesitan un periodo de entrenamiento y unos conjuntos de entrenamiento adecuados que generalmente son costosos de conseguir. En la práctica, los sistemas de minería de textos utilizan una combinación de los tres métodos presentados.
2.3.2
Fases en minería de textos
Independientemente de la metodología utilizada, en minería de textos pueden distinguirse tres etapas fundamentales [MON02] [ANA06]:
1) Recuperación de Información. Todo proceso de minería de texto trabaja
sobre un corpus textual. Por lo tanto, la primera tarea fundamental consiste en determinar, definir o construir el conjunto de textos que son relevantes para el proceso de minería de textos en cuestión. Esta tarea puede ser realizada de manera manual o con ayuda de índices y motores de búsqueda, como, por ejemplo, Google o PubMed. Normalmente, los corpus suelen estar compuestos de grandes cantidades de documentos cuyo procesamiento manual resulta inviable. La detección de documentos irrelevantes y de documentos que, a pesar de ser relevantes, no han sido
Estado de la cuestión incluidos en la colección, son dos de los principales problemas que surgen durante esta etapa. El éxito en esta etapa depende en gran medida de la correcta caracterización previamente realizada sobre los documentos recuperados.
2) Extracción de Información. Esta etapa, también denominada etapa de
preprocesamiento, tiene como objetivo la detección y extracción de información relevante a partir de textos escritos en lenguaje natural. Es decir, se trata de crear una representación estructurada intermedia útil para la siguiente etapa, a partir de los textos (datos no estructurados) contenidos en los documentos del corpus. Dichas representaciones intermedias pueden establecerse a nivel de documento o a nivel de concepto [TAN99].
3) Data Mining. En esta etapa, también denominada etapa de
descubrimiento, el objetivo es descubrir el conocimiento oculto en el corpus original. Para ello, los diferentes métodos tratan de establecer relaciones y encontrar patrones entre los diferentes elementos extraídos en la etapa de preprocesamiento. Los métodos de data mining o minería de datos están diseñados parar trabajar con información estructurada. Por esta razón, la etapa de preprocesamiento, descrita anteriormente, resulta imprescindible.