• No se han encontrado resultados

Clasicación Automática de Documentos

N/A
N/A
Protected

Academic year: 2021

Share "Clasicación Automática de Documentos"

Copied!
23
0
0

Texto completo

(1)

Clasicación Automática de Documentos

Carlos G. Figuerola, José Luis Alonso Berrocal, Angel F. Zazo

Universidad de Salamanca Grupo REINA http://reina.usal.es

(2)

Clasicación Automática de Documentos

Dos cosas diferentes:

Clasicación Supervisada

también conocida como categorización

parte de la existencia de un conjunto de clases pre-establecidas el objetivo es colocar cada documento en la clase que le corresponda

Clasicacion no supervisada

también llamada clustering no hay clases preestablecidas

el propio sistema establece las clases o clusters de forma totalmente automática

(3)

Clasicación Supervisada

se parte de un conjunto de clases diseñadas por personas previamente el sistema debe asignar cada documento a la clase que le corresponda

Aplicaciones:

ltrado de documentos routing o DSI

(4)

Clasicación Supervisada

La mayoría de los algoritmos parten la elaboración de un modelo o patrón para cada clase

Esta fase se conoce como entrenamiento

Necesita una colección de documentos ya clasicada manualmente (colección de entrenamiento)

Requiere intervención humana para la clasicación de la colección de entrenamiento y para la revisión y renamiento de resultado

(5)

Clasicación Supervisada. Entrenamiento

(6)

Clasicación Supervisada

El proceso de clasicación consiste en estimar la similitud entre el documento a clasicar y cada uno de los centroides

Sistemas que asignan cada documento a una sola clase Sistemas que asignan un documento a varias clases

En sistemas con asignación de clase única el centroide más similar indica a qué clase hay que asignar el documento

En sistemas con asignación de clases múltiples un umbral de similitud indica a qué clases hay que asignar el documento

(7)
(8)

Clasicación Supervisada. Algoritmos

Naive Bayes Rocchio

Vecino más próximo Knn

(9)

Clasicación Supervisada. Naive Bayes

Naive Bayes

tiene una base probabilística

calcula la probabilidad de que un documento encaje en una clase a partir de la probabilidad de que documentos que contengan determinados términos pertenezcan a esa clase

estas probabilidades de los términos se estiman mediante los términos que aparecen en los documentos de entrenamiento

en la práctica considera solamente pesos binarios de esos términos es rápido y fácil de implementar

(10)

Clasicación Supervisada. Rocchio

Algoritmo de Rocchio

se basa en las mismas ideas utilizadas en la realimentación por relevancia

se contruyen vectores que tratan de representar cada clase a partir de los documentos de entrenamiento

para el vector de cada clase:

los documentos de entrenamiento de esa clase se usan como ejemplos positivos

los documentos de entrenamiento de las demás clases se usan como ejemplos negativos

(11)

Clasicación Supervisada. Rocchio

Algoritmo de Rocchio

el vector representativo de una clase se construye sumando los pesos de los términos de los ejemplos positivos

de él se restan los pesos de los términos de los ejemplos negativos aplicando coecientes multiplicadores, es posible dar más o menos importancia a los ejemplos positivos o a los negativos

el resultado es un vector de términos con pesos como el utilizado en el modelo vectorial

para clasicar un nuevo documento, no hay más que estimar la similitud entre el vector de ese documento y los vectores de cada una de las clases

(12)
(13)

Clasicación Supervisada. Vecino Más Próximo y KNN

Vecino más próximo y Knn

la colección de entrenamiento se indiza mediante cualquier motor de recuperación

cuando se desea clasicar un nuevo documento, éste se utiliza como una consulta en ese motor de recuperación

la consulta se ejecuta contra la colección de entrenamiento. El documento considerado como más relevante nos indica la clase a la que debe pertenecer el documento a clasicar

la variante K-nn consiste en considerar los K primeros documentos más relevantes en lugar del primero sólo

(14)

Clasicación Supervisada. Vecino Más Próximo y KNN

(15)
(16)

Clasicación No Supervisada. Clustering

aunque la teoría se formula en años 70, las aplicaciones reales datan de la segunda mitad de los 90

Usos del clustering:

visualización de colecciones documentales recuperación de documentos anes navegación por colecciones documentales

(17)

Clustering

agrupación de documentos en clusters sin intervención humana los grupos o clusters deben maximizar cohesión externa

(18)

Clustering

Tipos de clustering

Según diversos criterios:

clusters planos vs. jerárquicos clusters duros vs. fuzzy

clustering incremental vs. no incremental basados en redes neuronales

(19)

Clustering

Proceso general

Varias fases:

representación de documentos construcción de matriz de similitud diversos algoritmos de clustering

(20)

Clustering

Representación de documentos y métricas

requiere algún sistema que permita estimar entre documentos

la distancia (euclidiana, Manhatan)

(21)

Clustering

Representación de documentos y métricas

requiere algún sistema que permita estimar entre

un documento y un cluster

single link:

la similitud máxima entre el documento y cada uno de los integrantes del cluster

full link:

la similitud mínima entre el documento y cada uno de los integrantes del cluster

average link:

la media de las similitudes entre documento y cada uno del cluster

dos clusters

single link:

la similitud máxima entre todos los pares posibles de documentos full link:

(22)

Clustering

Clusters Planos: algoritmo de paso único

tomar el primer documento e iniciar con él un cluster

añadir a ese cluster todos los demás documentos similares al primero tomar el siguiente documento de los restantes y añadirlo al cluster si es similar a él

en caso contrario, inciar un nuevo cluster con él; añadir a ese cluster los documentos restantes similares

(23)

Clustering

Referencias

Documento similar

In medicinal products containing more than one manufactured item (e.g., contraceptive having different strengths and fixed dose combination as part of the same medicinal

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

Package Item (Container) Type : Vial (100000073563) Quantity Operator: equal to (100000000049) Package Item (Container) Quantity : 1 Material : Glass type I (200000003204)

b) El Tribunal Constitucional se encuadra dentro de una organiza- ción jurídico constitucional que asume la supremacía de los dere- chos fundamentales y que reconoce la separación

Habiendo organizado un movimiento revolucionario en Valencia a principios de 1929 y persistido en las reuniones conspirativo-constitucionalistas desde entonces —cierto que a aquellas

diabetes, chronic respiratory disease and cancer) targeted in the Global Action Plan on NCDs as well as other noncommunicable conditions of particular concern in the European