Clasicación Automática de Documentos
Carlos G. Figuerola, José Luis Alonso Berrocal, Angel F. Zazo
Universidad de Salamanca Grupo REINA http://reina.usal.es
Clasicación Automática de Documentos
Dos cosas diferentes:
Clasicación Supervisada
también conocida como categorización
parte de la existencia de un conjunto de clases pre-establecidas el objetivo es colocar cada documento en la clase que le corresponda
Clasicacion no supervisada
también llamada clustering no hay clases preestablecidas
el propio sistema establece las clases o clusters de forma totalmente automática
Clasicación Supervisada
se parte de un conjunto de clases diseñadas por personas previamente el sistema debe asignar cada documento a la clase que le corresponda
Aplicaciones:
ltrado de documentos routing o DSI
Clasicación Supervisada
La mayoría de los algoritmos parten la elaboración de un modelo o patrón para cada clase
Esta fase se conoce como entrenamiento
Necesita una colección de documentos ya clasicada manualmente (colección de entrenamiento)
Requiere intervención humana para la clasicación de la colección de entrenamiento y para la revisión y renamiento de resultado
Clasicación Supervisada. Entrenamiento
Clasicación Supervisada
El proceso de clasicación consiste en estimar la similitud entre el documento a clasicar y cada uno de los centroides
Sistemas que asignan cada documento a una sola clase Sistemas que asignan un documento a varias clases
En sistemas con asignación de clase única el centroide más similar indica a qué clase hay que asignar el documento
En sistemas con asignación de clases múltiples un umbral de similitud indica a qué clases hay que asignar el documento
Clasicación Supervisada. Algoritmos
Naive Bayes Rocchio
Vecino más próximo Knn
Clasicación Supervisada. Naive Bayes
Naive Bayes
tiene una base probabilística
calcula la probabilidad de que un documento encaje en una clase a partir de la probabilidad de que documentos que contengan determinados términos pertenezcan a esa clase
estas probabilidades de los términos se estiman mediante los términos que aparecen en los documentos de entrenamiento
en la práctica considera solamente pesos binarios de esos términos es rápido y fácil de implementar
Clasicación Supervisada. Rocchio
Algoritmo de Rocchio
se basa en las mismas ideas utilizadas en la realimentación por relevancia
se contruyen vectores que tratan de representar cada clase a partir de los documentos de entrenamiento
para el vector de cada clase:
los documentos de entrenamiento de esa clase se usan como ejemplos positivos
los documentos de entrenamiento de las demás clases se usan como ejemplos negativos
Clasicación Supervisada. Rocchio
Algoritmo de Rocchio
el vector representativo de una clase se construye sumando los pesos de los términos de los ejemplos positivos
de él se restan los pesos de los términos de los ejemplos negativos aplicando coecientes multiplicadores, es posible dar más o menos importancia a los ejemplos positivos o a los negativos
el resultado es un vector de términos con pesos como el utilizado en el modelo vectorial
para clasicar un nuevo documento, no hay más que estimar la similitud entre el vector de ese documento y los vectores de cada una de las clases
Clasicación Supervisada. Vecino Más Próximo y KNN
Vecino más próximo y Knn
la colección de entrenamiento se indiza mediante cualquier motor de recuperación
cuando se desea clasicar un nuevo documento, éste se utiliza como una consulta en ese motor de recuperación
la consulta se ejecuta contra la colección de entrenamiento. El documento considerado como más relevante nos indica la clase a la que debe pertenecer el documento a clasicar
la variante K-nn consiste en considerar los K primeros documentos más relevantes en lugar del primero sólo
Clasicación Supervisada. Vecino Más Próximo y KNN
Clasicación No Supervisada. Clustering
aunque la teoría se formula en años 70, las aplicaciones reales datan de la segunda mitad de los 90
Usos del clustering:
visualización de colecciones documentales recuperación de documentos anes navegación por colecciones documentales
Clustering
agrupación de documentos en clusters sin intervención humana los grupos o clusters deben maximizar cohesión externa
Clustering
Tipos de clustering
Según diversos criterios:
clusters planos vs. jerárquicos clusters duros vs. fuzzy
clustering incremental vs. no incremental basados en redes neuronales
Clustering
Proceso general
Varias fases:
representación de documentos construcción de matriz de similitud diversos algoritmos de clustering
Clustering
Representación de documentos y métricas
requiere algún sistema que permita estimar entre documentos
la distancia (euclidiana, Manhatan)
Clustering
Representación de documentos y métricas
requiere algún sistema que permita estimar entre
un documento y un cluster
single link:
la similitud máxima entre el documento y cada uno de los integrantes del cluster
full link:
la similitud mínima entre el documento y cada uno de los integrantes del cluster
average link:
la media de las similitudes entre documento y cada uno del cluster
dos clusters
single link:
la similitud máxima entre todos los pares posibles de documentos full link:
Clustering
Clusters Planos: algoritmo de paso único
tomar el primer documento e iniciar con él un cluster
añadir a ese cluster todos los demás documentos similares al primero tomar el siguiente documento de los restantes y añadirlo al cluster si es similar a él
en caso contrario, inciar un nuevo cluster con él; añadir a ese cluster los documentos restantes similares