PDF superior Algunas Técnicas de Clasificación Automática de Documentos

Algunas Técnicas de Clasificación Automática de Documentos

Algunas Técnicas de Clasificación Automática de Documentos

La idea de clasificación es bien conocida por quienes se dedican a la documentación. Sin entrar en disquisiciones formales, se trata de organizar los documentos en alguna forma que permita después su mejor recuperación. En torno a ello se han elaborado diversas técnicas, que se han aplicado con mejor o peor fortuna. Con la creciente disponibilidad de documentos en formato electrónico, susceptibles, por consiguiente, de ser procesados de manera automática, surge la posibilidad de abordar la clasificación de documentos de manera automática. Este trabajo describe algunas de las técnicas y algoritmos aplicables en clasificación automática, los conceptos básicos en que se basan tales algoritmos, así como los instrumentos necesarios para aplicarlos. Del mismo modo, en la medida en que tales técnicas y algoritmos hayan sido aplicados, se ofrece una estimación del alcance y posibilidades de cada uno de ellos.
Mostrar más

10 Lee mas

Clasificación Automática de Documentos utilizando Wikinoticias.

Clasificación Automática de Documentos utilizando Wikinoticias.

De forma paralela, la accesibilidad a Internet y su continuo desarrollo permitirían la creación de portales Web cada vez más sofisticados. La actividad en la Web ha dado lugar al incremento del volumen de Internet, provocando, a su vez, la dificultad de la gestión de los datos generados por los internautas. Por contrapartida, este crecimiento también ha posibilitado la creación de una red de comunicación vía Internet, viabilizando el desarrollo de comunidades como Wikimedia, capaces de desarrollar proyectos a gran escala. Como paradigma existe la Wikipedia, siendo esta objeto de análisis en diversos campos por su condición open source. Uno de los usos que se le ha dado a Wikipedia ha sido el aprovechamiento de su extenso corpus textual para realizar labores de Clasificación Automática de Documentos, entre otros varios. (Overell, Sigurbjörnsson y van Zwol, 2007, p. 65)
Mostrar más

62 Lee mas

Aplicación de Sistemas Inteligentes para la Clasificación Automática de Documentos

Aplicación de Sistemas Inteligentes para la Clasificación Automática de Documentos

Actualmente la importancia que le dan las empresas e instituciones a la cla- sificación de sus documentos, se vuelve uno de los principales temas debido a la laboriosidad y el tiempo demás para dicha ejecución, pues el gran aumento de información digital y la necesidad de buscar y ubicar la información en el menor tiempo, lo convierte en un tema esencial del cual deben preocuparse las empre- sas y centros administrativos. La presente tesis busca resolver el problema, mos- trando una forma de clasificación automática de documentos. Existen distintas formas de clasificar y diversos conocimientos que ayudarían a mejorar la clasifi- cación de estos, lo cual es necesario investigar sobre los sistemas inteligentes. Se diseñó un sistema de clasificación usando como herramienta principal las redes neuronales. Implementamos una aplicación para nuestro problema, optimizan- do el tiempo de búsqueda de documentos en más de 760 segundos, logramos mostrar una sensibilidad de 94.6 %, una precisión del 100 % y una exactitud de 94.7 % para el criterio de subir con éxito y una sensibilidad de 92.42 %, una pre- cisión de 99.18 % y una exactitud de 91.7 % para el criterio documento sin error ortográfico. Finalmente analizando los resultados obtenidos de nuestra aplica- ción se contrastó la hipótesis planteada, y se logró los objetivos propuestos de sensibilidad, precisión, exactitud y tiempo.
Mostrar más

95 Lee mas

Una revisión de las técnicas de clasificación supervisada en la clasificación automática de textos

Una revisión de las técnicas de clasificación supervisada en la clasificación automática de textos

En Beltrán 2013 se realizó un análisis exploratorio en el cual se evidencian las características que discriminan los corpus de textos en estudio. En dicho estudio se evidenció que existen diferencias significativas entre los corpus respecto al tamaño de los textos (número de palabras por texto). Esta situación llevó a realizar las sucesivas comparaciones sobre los porcentajes o proporciones de las categorías gramaticales, hallando diferencias significativas (p<0.05) para todas las categorías gramáticas excepto la proporción de clíticos y de verbos en los documentos analizados. Asimismo, en un análisis de componentes principales, se dispusieron los textos en el plano de proyección demostrando que los textos procedentes del corpus No Científico presentan un mayor número de adverbios, respecto a las restantes categorías, que los textos Científicos.
Mostrar más

12 Lee mas

Un modelo para el aprendizaje y la clasificación automática basado en técnicas de softcomputing

Un modelo para el aprendizaje y la clasificación automática basado en técnicas de softcomputing

En la construcción automática de hipnogramas del sueño a partir de registros electrofisiológicos donde se pretende ayudar a los médicos en el análisis del sueño de pacientes se presenta la dificultad de que no existen estándares para la construcción de hipnogramas o los que existen presentan reconocidas dificultades [45, 46]. Esta situación propicia la aparición de múltiples criterios basados muchas veces en la subjetividad y la experiencia de los expertos. Por otra parte la lectura de los registros electrofisiológicos se produce a partir de equipos donde los procedimientos de acoplamiento, de lectura y la propia calibración de los equipos constituyen fuentes de error en las mediciones. En la resolución de este problema el empleo de técnicas de aprendizaje automático y clasificación que posibiliten descubrir conocimiento y explotar el conocimiento aún cuando se presenten imprecisiones, incompletitud de los datos y vaguedad en los límites de los conceptos, pueden resultar de notable ayuda para la toma de decisiones.
Mostrar más

154 Lee mas

Diseño de una metodología de clasificación automática de unidades geomorfológicas en la geografía colombiana utilizando técnicas de reconocimiento de patrones

Diseño de una metodología de clasificación automática de unidades geomorfológicas en la geografía colombiana utilizando técnicas de reconocimiento de patrones

Estas unidades conforman el conjunto de clases objetivo del problema de clasificaci´ on planteado; de esta manera los experimentos de clasificaci´ on tendr´ an el objetivo de separar la [r]

70 Lee mas

Un enfoque híbrido para la clasificación automática de obras literarias

Un enfoque híbrido para la clasificación automática de obras literarias

Figura 4. Representación de la Ley de Zipf realizada con los datos del caso de studio. A su vez, dentro del entrenamiento de nuestro modelo encontramos que varios de nuestros documentos están fuertemente relacionados con este tópico. Todo el texto va a estar en minúscula, sin formato o signos de puntuación. Ya que trabajamos con libros y su contenido, eliminamos las stop word, o palabras que tienen principalmente utilidad gramatical en el idioma inglés (I, me, we, the, then, a, an,...) las preposiciones (about, above, across, but…), abreviaturas (por ejemplo, etc.) y valores numéricos (one, two, three, four,…).
Mostrar más

14 Lee mas

Clasificación automática de las vocales en el lenguaje de señas colombiano

Clasificación automática de las vocales en el lenguaje de señas colombiano

Como se observa en la Fig. 3., la meto- dología abarca cuatro etapas principales. Se parte de la extracción de características (A), teniendo el Conjunto 1 como resultado. Posteriormente se realiza una etapa de selección de características (B), de la cual se generan tres nuevos conjuntos de datos, ya sea mediante técnicas de selección o extracción de características. El Conjunto 2 consta de 𝑑 𝑝𝑐𝑎 nuevas características, ob- tenidas al aplicar el algoritmo de reducción de dimensión del análisis de componentes principales (PCA) sobre el Conjunto 1. Para generar el Conjunto 3, se selecciona un total de 𝑑 𝑖 ℎ características al tomar el Conjunto 1 y aplicar Selección secuencial hacia adelante (SFS) basado en la medida de FISHER [24]. Y, por último, para gene- rar el Conjunto 4 se seleccionan un total de 𝑑 𝑘𝑛𝑛 características aplicando SFS basado en el desempeño del clasificador KNN al
Mostrar más

12 Lee mas

Clasificación Automática de Formas Patológicas de Eritrocitos Humanos

Clasificación Automática de Formas Patológicas de Eritrocitos Humanos

En este trabajo proponemos el análisis de imágenes microscópicas de frotis de sangre perifé- rica humana para identificar características morfológicas de los eritrocitos contenidos en la ima- gen, de manera que se puedan clasificar dentro de alguna de las anormalidades más comunes. Dado que dichas anormalidades están relacionadas con la presencia de diversas enfermedades, obtuvimos una herramienta de clasificación que ofrece al médico elementos de juicio y criterios objetivos para reducir la naturaleza subjetiva del diagnóstico. Como plataforma de computa- ción científica para el desarrollo de la herramienta, usamos Matlab® [11]. De acuerdo con la justificación y la motivación que se mencionaron antes, la importancia de este trabajo radica precisamente en la combinación de herramientas de procesamiento de imágenes y técnicas de inteligencia computacional, para determinar métricas discriminantes y usarlas en la clasifica- ción de algunos tipos de células que pueden ser indicadoras de diferentes enfermedades.
Mostrar más

18 Lee mas

Construcción de modelos de clasificación automática para la detección del acoso

Construcción de modelos de clasificación automática para la detección del acoso

Este Trabajo Fin de Grado tiene como objetivo principal desarrollar un clasificador supervisado que sea capaz de decidir si un texto sería calificado como bullying o no por un experto en este ámbito. Para conseguir esta meta, se ha trabajado con un conjunto de documentos obtenidos de Twitter, que han sido marcados por un etiquetador. Después, se ha aplicado un proceso de limpieza y tratado de estos tuits, en el que se han eliminado emoticonos, nombres de usuarios y retuits. También se han agrupado conjuntos de términos con el mismo significado en otras expresiones, para hacer un estudio más genérico. Más tarde, se han aplicado procedimientos para convertir estos textos ya tratados a vectores numéricos, de forma que sirvan como argumentos de entrada para los clasificadores que se han probado.
Mostrar más

63 Lee mas

Clasificación automática de objetos utilizando sistemas inteligentes

Clasificación automática de objetos utilizando sistemas inteligentes

Por otra parte, se estima una metodología de trabajo que combina los métodos, las técnicas y las herramientas básicas utilizadas en ingeniería de software con aquellas que proveen los diferentes tipos de sistemas inteligentes. En este sentido la articulación de las soluciones se orientará hacia la búsqueda de algoritmos más eficientes en un ambiente que permita efectuar estudios comparativos y evaluaciones de las diferentes soluciones. Básicamente se busca la generalización de los resulta- dos a casos de clasificación en diferentes ámbitos (físicos, biológicos, agronómicos, astronómicos, etc.) centrados en la misma problemática de agrupamientos con límites difusos.
Mostrar más

5 Lee mas

Minería de texto en la clasificación de documentos digitales

Minería de texto en la clasificación de documentos digitales

Para Zhang y Gu (2011), el 90% de la información disponible se encuentra de forma no estructurada y semi estructurada, almacenada en computadoras o sistemas de almacenamiento, dificultando su búsqueda y consulta a través de los sistemas de recuperación de información, por lo que es necesario el uso de la tecnología para facilitar su análisis, con la finalidad de agilizar su organización en beneficio de los usuarios de información. Diversas investigaciones tienen como meta aportar soluciones a los problemas del procesamiento y organización de información digital, desarrollando métodos enfocados a facilitar y agilizar actividades tales como la indización de documentos, creación automatizada de tesauros, identificación de semejanza entre documentos, categorización, clasificación, generación de resúmenes automáticos, búsqueda de información en texto completo, extracción de información, identificación de relaciones y términos, por mencionar algunas. Las investigaciones proponen métodos y técnicas basados en; reconocimiento de patrones, aprendizaje de máquina, métodos estadísticos, técnicas de procesamiento de Lenguaje Natural, y métodos de redes neuronales artificiales.
Mostrar más

11 Lee mas

Modelamiento de espacio de palabras en la clasificación de documentos

Modelamiento de espacio de palabras en la clasificación de documentos

Al término de esta etapa, se tendrá un catálogo de documentos pre clasificados, comparados a la par con la clasificación automática que haya efectuado la mecánica de la propuesta, que en términos totales nos darán un grado de certeza sobre la precisión del método. De forma tangible se debe presentar una matriz de doble entrada (matriz de confusión) que además de presentar la cantidad de documentos clasificados, debe presentar la cantidad de documentos por tipo que fueron clasificados como los diferentes tipos definidos, esta matriz puede elaborarse como se muestra en la tabla siguiente:
Mostrar más

14 Lee mas

– Clasificación Automática de Textos Periodísticos Usando SVM

– Clasificación Automática de Textos Periodísticos Usando SVM

das manualmente por expertos, denomina- das “Sistemas Basados en Conocimiento”. Una solución sencilla pero que requería un gran esfuerzo humano a la hora de la genera- ción de las reglas. Durante los 90´s con otro tipo de perspectiva, se introducen soluciones que conducen a la CAT como un problema de clasificación supervisada, es decir, a partir de una muestra de documentos previamente etiquetados como pertenecientes a una clase o categoría, se procede a la extracción del conocimiento necesario para la clasificación automática de nuevos documentos. Los mé- todos computacionales desarrollados para tal fin forman parte de lo que se conoce como Aprendizaje Automatizado (AA). Con esta metodología se reduce considerablemente la intervención humana, la cual solo queda de- legada a etapas de diseño. A partir de esta etapa diversos algoritmos de AA, fueron utili- zados para dar solución a la problemática de CAT. Se pueden destacar aquellos con muy buenos resultados como Redes Neuronales Artificiales [2], Árboles de Decisión [3], Naive Bayes [4] y K-vecinos más cercanos [5]. Un método que alcanzó gran interés en los últi- mos años dentro del área de AA son las Má- quinas de Vectores Soporte (SVM. por sus siglas en inglés Support Vector Machine) y es posible encontrar diversos trabajos que evi- dencian que constituyen una buena solución a una amplia gama de problemas de clasifi- cación, demostrándose sobre todo buen des- empeño [6] [7]. En este trabajo se propone utilizar el método SVM para la clasificación automática de textos periodísticos extraídos de webs del noroeste argentino.Para textos en español, en la literatura existen algunas propuestas que aplican SVM a CAT, entre ellas pueden mencionarse el trabajo de Var- guez Moo y colaboradores [8] que destaca la robustez del método SVM en la clasificación de documentos, el trabajo de Villasana y co- laboradores [9] que demuestra el excelente desempeño de SVM y el uso de un kernel de cadenas aplicado a la CAT y el trabajo de Hidalgo y colaboradores [10] que realiza una evaluación comparativa de distintos algorit-
Mostrar más

9 Lee mas

Clasificación automática de cubiertas terrestres en imágenes satelitales

Clasificación automática de cubiertas terrestres en imágenes satelitales

Abstract. Las imágenes satelitales pueden ser utilizadas para identificar las cubiertas presentes en la superficie terrestre, buscando clasificar agua, suelo desnudo, áreas edificadas, bosques, etc. El proceso de clasificación de imágenes permite la extracción de información contenida en ellas, complementando el análisis visual con la aplicación de técnicas cuantitativas para automatizar la identificación de los objetos contenidos en una escena. Por esta razón, resulta de gran importancia la utilización de la informática como herramienta para facilitar la incorporación de esta tecnología. En este contexto, se desarrolla una herramienta que permite clasificar cubiertas de manera automática a través de la aplicación de algoritmos de clasificación que no han sido evaluados exhaustivamente en imágenes satelitales. A partir de los resultados obtenidos se realiza un análisis detallado de los algoritmos bajo diferentes configuraciones iniciales.
Mostrar más

10 Lee mas

Clasificación automática de evoluciones médicas multiclases en español

Clasificación automática de evoluciones médicas multiclases en español

Es por eso que en este trabajo utilizamos técnicas que tomen en cuenta el contexto de las narrativas más que palabras específicas, es decir métodos de aprendizaje automático como Redes Neuronales Artificiales (ANN) y Máquinas de Soporte Vectorial (SVM). El objetivo del estudio es la comparación de metodologías de clasificación para el análisis multiclase de evoluciones médicas. Para esto aplicamos las metodologías a evoluciones en las cuales identificamos si corresponden a Diabetes Tipo 1, Diabetes Tipo 2 o no se relacionan con esta afección.
Mostrar más

10 Lee mas

Clasificación automática de movimientos con señales HD FMG

Clasificación automática de movimientos con señales HD FMG

Desde hace varios años se ha venido desarrollando una serie de técnicas para el desarrollo de métodos para el control de miembros prostéticos y equipos de rehabilitación, uno de los primeros enfoques que se tomó para esto fue la utilización de la electromiografía (EMG). Estas técnicas consisten en el reconocimiento de movimientos mediante el análisis y clasificación de las señales que son recolectadas. Aunque el uso de la electromiografía de superficie (sEMG) está ya bastante difundida y es utilizada como el estándar para las investigaciones en este campo, en los últimos años se ha estado investigando sobre una posible alternativa mediante el uso de force-miography (FMG). Recientemente, los avances en los sistemas de adquisición han llevado la investigación al uso de HD-FMG que es menos costosa y más eficiente.
Mostrar más

87 Lee mas

Técnicas evolutivas para la extracción automática de conocimiento

Técnicas evolutivas para la extracción automática de conocimiento

Esta línea de investigacion propone el diseüo, desarrollo y evaluacion de tecnicas automaticas para extraccion de conocimiento, de tal forma que sean capaces de sobrellevar la busqueda dentro de grandes espacios de informacion. Para ello se propone, en primera instancia, la resolucioín de un problema de interes general: el de reformu- lacion automatica de consultas. Una resolucion automatica para este problema podría ser utili­ zada en diversas aplicaciones, tales como moni- torear un topico de interes, especificar trackers tematicos sobre redes sociales, identificar entida­ des y relaciones entre entidades en grandes corpus de documentos o recolectar material para porta­ les tematicos. Por sus características (alta dimen- sionalidad del espacio de busqueda, carencia de subestructura optima, posibilidad de aprovecha­ miento de muíltiples soluciones) el uso de compu- tacion evolutiva parece adecuado para abordar su resolucion. Un primer aporte de esta línea den­ tro del area radica en la consideracion de la in- corporacion de operadores booleanos y otro tipo de modificadores a las consultas reformuladas y el control de la diversidad, ambos pensados co­ mo un mecanismo para lograr mayor expresioín en las consultas y, por lo tanto, mayor poder pa­ ra expresar los conceptos de interas involucrados. El segundo aporte consiste en proponer un mar­ co de evaluacion adecuado para la metodología desarrollada y el estudio y comparacion con otras tecnicas. Por utimo, el aporte final aborda la apli- cacion de los metodos desarrollados en dominios específicos tales como bioinformatica (e.g. pa­ ra identificacion de interacciones entre entidades
Mostrar más

5 Lee mas

Clasificación automática de pacientes con Infarto de Miocardio

Clasificación automática de pacientes con Infarto de Miocardio

Durante estos últimos años varios investi- gadores han propuesto diferentes técnicas de clasificación para identificar pacientes con IM, basadas en el ECG de superficie. Entre ellas podemos citar a Bakul et al.[14] quienes propusieron un conjunto de características denominadas Relative Frequency Band Co- efficient para la identificación automática del riesgo de infarto de cardíaco, alcanzando una Sen=85,57%, Esp=83,97% y una Ef=85,23%. Asimismo, Keshtkar et al. [9] propusieron la evaluación de un conjunto de coeficientes Wavelet calculados sobre el ECG de señal promediada, a través de Redes neuronales como índices para detectar el IM logrando una Sen= 93%, una Esp= 86% y una Ef=89,5. Por su parte, Maharaj and Alonso [15] utiliza- ron un clasificador discriminante multivariable basado en la descomposición multiescala wavelet de la señal ECG obteniendo una Sen entre el 80% al 90% y una Esp de 90%. No obstante, aunque todas estas técnicas tienen sus ventajas y desventajas, ninguna hace re- ferencia a los datos de los pacientes utiliza- dos (edad, sexo, tiempo transcurrido desde
Mostrar más

8 Lee mas

Uso de componentes conexas para restauración automática de documentos digitalizados

Uso de componentes conexas para restauración automática de documentos digitalizados

eliminación de bordes negros debe realizarse en secuencia, avanzando de afuera hacia adentro. Pero una vez que se ha detectado el último borde negro (el más cercano al centro de la imagen), este puede considerarse como el mínimo “bounding box”. Esto significa que todos los puntos que estén fuera de la imagen serán ignorados, lo cual ahorrará mucho tiempo de CPU ya que no se requerirá la eliminación ni de los bordes negros ni de los puntos aleatorios fuera de esta área. Adicionalmente, se optimiza el tamaño de la imagen con el que se esta trabajando pero sin perder calidad, ya que solamente se considera el espacio útil de la página. Esto trae como ventajas no solo la reducción del archivo resultante, sino que permitirá obtener imágenes con información relevante, lo cual es especialmente útil si se implementará algún tipo de reconocimiento de patrones o procesamiento posterior utilizando algoritmos evolutivos, ya que estas técnicas tienden a confundirse ante la presencia de ruido en las imágenes.
Mostrar más

8 Lee mas

Show all 10000 documents...