Valoracion de tecnicas de mineria de texto para la deteccion de topicos.

(1)

Título : Valoración de técnicas de minería de texto para la detección de tópicos.

Trabajo de Diploma para optar por el título de Ingeniero en ciencias Informáticas

Autor(es): Geidy Medina Rodríguez Nereyda M. Rojas Rodríguez

Tutor: Dr. Ing. Ernesto González Díaz Consultante: Ing. Ernesto Guevara Martínez

Ciudad Habana, Junio 2007

(2)

que utiliza sus equivocaciones para reexaminar los problemas y volver intentar resolverlos, cada vez por nuevos caminos”

Ruy Pérez Tamayo

(3)

Declaro que soy el único autor de este trabajo y autorizo al <nombre área> de la Universidad de las Ciencias Informáticas a hacer uso del mismo en su beneficio.

Para que así conste firmo la presente a los ____ días del mes de ________ del año ________.

"[Insertar nombre(s) de autor(es)]" "[Insertar nombre(s) de tutor(es)]"

_____________________________ ____________________________

(4)

FACULTAD DE INGENIERÍA INDUSTRIAL

DEPARTAMENTO O CENTRO

CEIS

TELEFONO CORREO ELECTRONICO

NOMBRES Y APELLIDOS

Ernesto González Díaz

DIRECCIÓN PARTICULAR Lagueruela 125, Sevillano La Habana, Cuba

TELEFONOS 41-7121 266-3905

CORREO ELECTRONICO

[email protected] du.cu

No CARNE DE IDENTIDAD 72052913724

SEXO

M CENTRO DE

TRABAJO CEIS CUJAE

OCUPACIÓN ACTUAL Profesor

RAMADE LA CIENCIA, ESPECIALIDAD Informática

GRADO CIENTÍFICO Y FECHA EN QUE LO OBTUVO

Master Ciencias 2001

OTROS TITULOS

ACADEMICOS CATEGORÍA

DOCENTE Asistente

CATEGORÍA CIENTIFICA

EXPERIENCIA PROFESIONAL EN LA EDUCACIÓN SUPERIOR____11__años____

EN LA INVESTIGACIÓN CIENTÍFICA___11_años____

ENLA PRODUCCIÓN Y LOS SERVICIOS___2__años____

CONDECORACIONES Y DISTINCIONES RECIBIDAS

(5)

Científicas Estudiantiles

Participación como profesor en el curso de Formación de Profesores de Computación Básica para la Enseñanza Primaria.

Profesor y Jefe de Carrera de Ingeniería Informática en la Universalización de la Enseñanza Superior en el Municipio Arroyo Naranjo. Cursos 2002-2003 y 2003- 2004.

En los cursos 2001-2002 y 2002-2003 recibió la calificación de Excelente en la evaluación profesional.

Profesor Principal de Inteligencia Artificial en la Universidad de las Ciencias Informáticas en el curso 2004-2005

En la actualidad se desempeña como coordinador de la Maestría Nuevas Tecnologías de la informática y las comunicaciones para la Educación

PREMIOS RECIBIDOS

Mención en el XII Fórum de Ciencia y Técnica Municipio Arroyo Naranjo

Mención Especial en el XIII Fórum de Ciencia y Técnica Municipio Arroyo Naranjo.

24 Concurso Científico Técnico Juvenil de las BTJ.

PARTICIPACIÓN ACTUAL Y EN LOS ULTIMOS CINCO AÑOS EN PROYECTOS DE INVESTIGACIÓN

Proyecto de Informática Educativa en las Carreras de la Educación Técnica y Profesional.

Específicamente la Carrera de Construcción Civil.

Red Temática Internacional para la Enseñanza de la Informática Gráfica y el Diseño Asistido por Computadora en la Arquitectura.

Informatización de la Carrera Ingeniería Informática para la Universalización.

Aplicación de la Inteligencia Artificial en el software educativo. (Actual)

(6)

Construcción del ISPETP

Software para la enseñanza de la asignatura Geotecnia en la Carrera Ingeniería Civil.

Sistema de Mapas Conceptuales digitalizados para la enseñanza del medio ambiente.

Modelación de los sistemas de evaluación de los sorteares educativos mediante redes bayesianas.

Experiencia profesional

Ha impartido las asignaturas de Computación I, II, III y IV en la carrera de Arquitectura, en la carrera Ingeniería informática CUJAE ha impartido las siguientes asignaturas:

Introducción a la Informática Lógica y Algoritmos

Programación I, II y IV Inteligencia Artificial I, III Sistemas Operativos

Sistemas Informáticos Inteligentes II Máquinas Computadoras I

En la Universidad de las Ciencias Informáticas impartió las siguientes asignaturas:

Inteligencia Artificial Programación IV, I, III

Y los cursos optativos:

Programación Descriptiva Lógica Matemática

Sistemas Basados en el Conocimiento Sistemas Adaptativos

(7)

Programación Orientada a Objetos (CUJAE) Inteligencia Artificial (UCI)

Temas Avanzados de Inteligencia Artificial (UCI)

Informática Educativa (Instituto Superior Pedagógico para la Educación Técnica Profesional ISPETP, Universidad de la Habana)

Gestión del conocimiento y de la información (ISPETP)

En la maestría en Nuevas Tecnologías de la Informática y las Comunicaciones Aplicadas a la Educación ha impartido las asignaturas:

Ingeniería de Sistemas Educativos, Tecnología de la Programación,

Arquitectura de Sistemas Computacionales, Servicios Telemáticos para la Educación, Multimedia Educativa

Sistemas de enseñanza en línea.

Temas de Inteligencia Artificial

Estas asignaturas las impartió en la CUJAE y el Centro Universitario de La Isla de la Juventud

Impartió el módulo titulado Modelación y presentación de proyectos usando AutoCAD 2D-3D en la pasantía Internacional “Rehabilitación del Barrio de Colón en La Habana”, con alumnos de la Universidad de Cuenca en Ecuador. Facultad de Arquitectura CUJAE

En la Especialidad Informática Operativa impartió en curso Fundamentos de la Investigación Científica (CUJAE).

En la Maestría Informática Aplicada que se desarrolla en la UCI, impartió la asignatura “Programación Avanzada en .NET”.

(8)

Empleo de la computación en el desarrollo de habilidades y conocimientos en la asignatura hidráulica agrícola.

Evento Nacional AGROMEC 1999.

Empleo de la computación en el desarrollo de habilidades y conocimientos en la asignatura hidráulica agrícola.

Convención Internacional de la Industrias Mecánicas y Electrónica METANICA 99.

Las Tecnologías Informáticas en el desarrollo de habilidades en la carrera Construcción Civil del ISPETP.

XI Reunión Científica de Profesores ISPETP 1999.

Propuesta de Software Educativo para la enseñanza de la asignatura Topografía de la Carrera Construcción Civil

IV Taller Nacional de Pedagogía Profesional.

Análisis Estadístico de la información climática en la región de Santiago de las Vegas La Habana Cuba.

Evento Nacional AGROMEC 2000

Sistema de tareas docentes para la inserción de la computación en la enseñanza de la Topografía, carrera Construcción Civil.

XII Fórum de Ciencia y Técnica Municipio Arroyo Naranjo. 2000

Caracterización de las variables climáticas en la región de Santiago de Las Vegas.

II Fórum Tecnológico Especial “Suelos y manejo del agua”. 2000.

Convención Internacional de la Industrias Mecánicas y Electrónica METANICA 2000.

La informática como medio de enseñanza y herramienta de trabajo en la Carrera Construcción del ISPETP.

II Taller Nacional sobre Didáctica Universitaria Universidad de la Habana 2000.

La Tecnología Educativa en el desarrollo de la asignatura Hidráulica Agrícola (Riego y drenaje).

Evento Nacional AGROMEC 2001.

La dimensión ambiental de la carrera Construcción Civil

III Convención Internacional sobre Medio Ambiente y Desarrollo. 2001.

Proyecto de Informática Educativa para la disciplina Obras de Ingeniería Civil en la Carrera Construcción

(9)

del ISPETP.

IV Simposio Iberoamericano de Pedagogía Profesional. 2002

La enseñanza de la Informática Gráfica a través de la modelación espacial en la carrera Arquitectura.

III Taller Nacional sobre Didáctica Universitaria Universidad de la Habana 2002.

Aplicación de los Mapas Conceptuales en la Gestión del conocimiento. Presentación del mapa conceptual de Medio Ambiente.

Congreso Internacional CUBA-RIEGO 2003.

Sistema de Mapas Conceptuales para el aprendizaje de los conceptos fundamentales del medio ambiente.

Concurso Científico Técnico Juvenil de las BTJ 2003

Sistema de Mapas Conceptuales para la enseñanza de los conceptos fundamentales del medio ambiente.

Fórum Tecnológico Nacional de Informática Educativa La Habana 2004.

Los mapas conceptuales en el desarrollo de los procesos docentes en la educación superior. IV Taller Nacional de Didáctica de la Educación Superior Universidad de la Habana 2004

Los mapas conceptuales en el desarrollo de los procesos docentes en la educación superior. Taller Científico Metodológico para la Universalización Universidad de La Habana 2004.

Las redes bayesianas en la modelación de los módulos de evaluación de los softwares educativos. Taller Inteligencia Artificial UCICIENCIA 2005, UCI La Habana 2005

Tendencias y Tecnologías actuales en la Programación web, Proyecto web Universidad de La Habana 2005.

IV Congreso Iberoamericano de Reconocimiento de Patrones IRCAP 2005, La Habana Noviembre 2005

Modelación del Estudiante en Software Educativo con Técnicas de Inteligencia Artificial, Taller de Inteligencia Artificial, UCIENCIA 2006,

Seminario Nacional para el Perfeccionamiento de las Sedes Municipales Universitarias del MES.

Septiembre 2006

III Congreso Nacional de Reconocimiento de Patrones RECAP 2006, Sociedad Cubana de Matemática Computación. UCI Octubre 2006

(10)

grafica y el diseño asistido por computadora. En esta red participaban tres Universidades españolas, una de Uruguay una de Chile y la CUJAE.

Ha cursado estudios de nivel medio de Ingles, Francés, portugués y alemán, y postgrados de Pedagogía Profesional, Evaluación Escolar, Metodología de la Investigación Científica, Estadística Matemática, Diseño de Experimentos, Educación y Sociedad, Informática Educativa, Tecnología Educativa, Problemas Sociales de la Ciencia y la Tecnología, Computación e Infotecnología.

En el curso 2002-2003 fungió como profesor principal de la disciplina computación en la carrera de Arquitectura.

Ha impartido conferencias especializadas sobre Informática Educativa e Inteligencia Artificial, en La Universidad de las Ciencias Informáticas, el Instituto Superior Pedagógico para la Educación Técnica y Profesional y el Instituto de Investigaciones de Riego y Drenaje.

Ha sido tribunal, tutor y oponente de mas de 35 tesis de pregrado de las carreras Ingeniería informática, Licenciatura en Educación, especialidad Construcción Civil, e Ingeniería Civil. Ha sido tribunal, tutor y oponente de mas de 10 tesis de la maestría Informática Aplicada que se desarrolla en el CEIS. Ha sido tutor y tribunal de varias tesinas de los diplomados de Informática Aplica y de la maestría en Nuevas Tecnologías de la Informática y las Comunicaciones en la Educación en la CUJAE y en el Centro Universitario de la Isla de la Juventud.

PUBLICACIONES EN LOS ULTIMOS CINCO AÑOS (ARTICULOS, MONOGRAFÍAS Y LIBROS) (Título, revista, fecha; si es libro editorial, ISBN))

Empleo de la computación en el desarrollo de habilidades y conocimientos en la asignatura hidráulica agrícola. Memorias de la Convención Internacional METANICA 99.

Memorias de la Convención Internacional de la Industrias Mecánicas y Electrónica METANICA 2000.

Esquema Metodológico para la elaboración de proyectos de informática educativa.

Publicado en el sitio web monografías.com/educación.

(11)

Publicado en el sitio web monografías.com/educación.

Aplicación de los Mapas Conceptuales en la Gestión del conocimiento. Presentación del mapa conceptual de Medio Ambiente.

CD del Congreso Internacional CUBA-RIEGO 2003.

Los mapas conceptuales en los procesos docentes de la educación superior CD del evento IV Taller Nacional de Didáctica de la Educación Superior Universidad de la Habana 2004.

Modelación de los módulos de evaluación de los software educativos empleando redes bayesianas. CD Evento del Taller de Inteligencia Artificial del evento UCIENCIA 2005

Definiciones Fundamentales de Multimedia. Articulo publicado en el CD Reporte de Investigaciones del CEIS 2007.

Validación de la Metodología OMMMA-L para el análisis y diseño de multimedia a través de un caso de estudio. . Articulo publicado en el CD Reporte de Investigaciones del CEIS 2007.

Validación de la Metodología RMM para el análisis y diseño de multimedia a través de un caso de estudio.

. Articulo publicado en el CD Reporte de Investigaciones del CEIS 2007.

Ha participado en el análisis, diseño e implementación de sistemas para las siguientes entidades.

Intranet de la empresa ECASOL- 2003

Sistema para el control de las ventas a bordo ECASA -2004

Sistema para el diagnostico arquitectónico urbano en el centro histórico de la ciudad de Camagüey- Plan Maestro de la Oficina del Historiador de la Ciudad de Camagüey – 2005

Multimedia para la enseñanza del Acondicionamiento Ambiental en la Carrera Arquitectura CUJAE- 2005 Sistema de control y aseguramiento de la calidad de ensayos reactivos Inmunoensayo 2006

Diseño e implementación de un software para la declaración, facturación y recepción de mercancías, Empresa Energoimport 2006

(12)

A Fidel y a la Revolución cubana por perm A Fidel y a la Revolución cubana por perm A Fidel y a la Revolución cubana por perm

A Fidel y a la Revolución cubana por permitirme estudiar en la mejor escuela del país. itirme estudiar en la mejor escuela del país. itirme estudiar en la mejor escuela del país. itirme estudiar en la mejor escuela del país.

A Ernesto González por ser un gran tutor y ayudarme en todo lo que necesité.

A Ernesto Guevara por dedicar parte de su tiempo a mis inquietudes.

A mis abuelos María Ana y Ernesto por confiar en mí y apoyarme e A mis abuelos María Ana y Ernesto por confiar en mí y apoyarme e A mis abuelos María Ana y Ernesto por confiar en mí y apoyarme e

A mis abuelos María Ana y Ernesto por confiar en mí y apoyarme en todos los momentos. n todos los momentos. n todos los momentos. n todos los momentos.

A mis padres Elsa y Gerónimo por darme la vida.

A mi hermana, eres un tesoro para mí. Te quiero mucho, mucho.

A toda mi familia por estar siempre orgullosos de mí.

A Francesco por apoyarme siempre en los momentos buenos y malos.

A Ped A Ped A Ped

A Pedro por ayudarme cuando más lo necesité. ro por ayudarme cuando más lo necesité. ro por ayudarme cuando más lo necesité. ro por ayudarme cuando más lo necesité.

A Alberto Manso Blanco por darme tantos momentos de felicidad.

A Yasser Abdel Cruzata por quererme tanto y tener tanta paciencia conmigo.

A Denia (Mimi) y a Yanisleidy (Baúl) por ser mis amigas siempre y darme sus ma A Denia (Mimi) y a Yanisleidy (Baúl) por ser mis amigas siempre y darme sus ma A Denia (Mimi) y a Yanisleidy (Baúl) por ser mis amigas siempre y darme sus ma

A Denia (Mimi) y a Yanisleidy (Baúl) por ser mis amigas siempre y darme sus manos en los nos en los nos en los nos en los momentos más difíciles.

momentos más difíciles.

A María y a María Elena por tenerme como hija y hermana respectivamente.

A los mejores amigos (Yelenis, Yudaika, Alexander, Lisneidy, Mildrey, Annelis, Yusmaidy, A los mejores amigos (Yelenis, Yudaika, Alexander, Lisneidy, Mildrey, Annelis, Yusmaidy, A los mejores amigos (Yelenis, Yudaika, Alexander, Lisneidy, Mildrey, Annelis, Yusmaidy, A los mejores amigos (Yelenis, Yudaika, Alexander, Lisneidy, Mildrey, Annelis, Yusmaidy, Lisbet).

Lisbet).

A Nery A Nery A Nery A Nery por ser tan buena y ayudarme en todo lo por ser tan buena y ayudarme en todo lo por ser tan buena y ayudarme en todo lo que necesité. por ser tan buena y ayudarme en todo lo que necesité. que necesité. que necesité.

Geidy

(13)

A Ernesto González por ser un gran tutor y ayudarme en todo lo que necesité.

A mis padres, A mis padres, A mis padres,

A mis padres, gracias por apoyarme en los caminos que he emprendido, p gracias por apoyarme en los caminos que he emprendido, p gracias por apoyarme en los caminos que he emprendido, por darme la fuerza gracias por apoyarme en los caminos que he emprendido, p or darme la fuerza or darme la fuerza or darme la fuerza necesaria para seguir adelante, por creer en mi ,por darme la vida y tantas cosas…

necesaria para seguir adelante, por creer en mi ,por darme la vida y tantas cosas…

Están dentro de mi corazón. Están dentro de mi corazón. Están dentro de mi corazón. Están dentro de mi corazón.

A mis hermanos A mis hermanos A mis hermanos

A mis hermanos por ser la luz que me i por ser la luz que me i por ser la luz que me i por ser la luz que me ilumina cada día por muy nublado que esté. lumina cada día por muy nublado que esté. lumina cada día por muy nublado que esté. lumina cada día por muy nublado que esté.

A Michel A Michel A Michel

A Michel por amarme tanto y ayudarme en todo lo que necesité. por amarme tanto y ayudarme en todo lo que necesité. por amarme tanto y ayudarme en todo lo que necesité. por amarme tanto y ayudarme en todo lo que necesité.

A Maikel por estar siempre a mi lado compartiendo mis tristezas y alegrías apoyándome en A Maikel por estar siempre a mi lado compartiendo mis tristezas y alegrías apoyándome en A Maikel por estar siempre a mi lado compartiendo mis tristezas y alegrías apoyándome en A Maikel por estar siempre a mi lado compartiendo mis tristezas y alegrías apoyándome en todo momento, por ser amigo incondicional.

todo momento, por ser amigo incondicional.

A A A

A Enrique Enrique Enrique por escu Enrique por escu por escu por escuchar mis char mis char mis char mis problemas problemas problemas y darme energía para vencer todos los obstáculos de la problemas y darme energía para vencer todos los obstáculos de la y darme energía para vencer todos los obstáculos de la y darme energía para vencer todos los obstáculos de la vida e iluminarme para llevar a cabo mis objetivos y metas.

vida e iluminarme para llevar a cabo mis objetivos y metas.

A tía A tía A tía

A tía María María María María, , , , a tío Miguel, a mi familia entera por preocuparse tanto por mí a tío Miguel, a mi familia entera por preocuparse tanto por mí a tío Miguel, a mi familia entera por preocuparse tanto por mí a tío Miguel, a mi familia entera por preocuparse tanto por mí; por quererme, ; por quererme, ; por quererme, ; por quererme, por tenderme la mano en los mom

por tenderme la mano en los mom por tenderme la mano en los mom

por tenderme la mano en los momentos difíciles y aconsejarme tanto. entos difíciles y aconsejarme tanto. entos difíciles y aconsejarme tanto. entos difíciles y aconsejarme tanto.

A A A

A Beatriz Fuentes y Pascual Verdecia Beatriz Fuentes y Pascual Verdecia Beatriz Fuentes y Pascual Verdecia, por su ayuda, por enseñarme tantas cosas, porque de Beatriz Fuentes y Pascual Verdecia , por su ayuda, por enseñarme tantas cosas, porque de , por su ayuda, por enseñarme tantas cosas, porque de , por su ayuda, por enseñarme tantas cosas, porque de una u otra forma depositaron muchos granitos de arena en mi vida.

una u otra forma depositaron muchos granitos de arena en mi vida.

A todos mis profes A todos mis profes A todos mis profes

A todos mis profes dddde la Universidad de Moa, e la Universidad de Moa, e la Universidad de Moa, Mirelis, Rafael e la Universidad de Moa, Mirelis, Rafael Mirelis, Rafael y Lores Mirelis, Rafael y Lores y Lores por el camino y Lores por el camino por el camino por el camino recorrido, que sin ellos no habría llegado hasta aquí.

recorrido, que sin ellos no habría llegado hasta aquí.

A mis amigos (Katy, Yoyi, Mary, Yamilka, Yudaika, Susana, Jean).

A Geidy por ser mi rayito de luz.

Nereyda

(14)

A mi gran tesoro: Mi abuela porque siempre confió en mi, A mi gran tesoro: Mi abuela porque siempre confió en mi, A mi gran tesoro: Mi abuela porque siempre confió en mi,

A mi gran tesoro: Mi abuela porque siempre confió en mi, por su amor y apoyo en cada por su amor y apoyo en cada por su amor y apoyo en cada por su amor y apoyo en cada instante de mi vida.

instante de mi vida.

Geidy Geidy Geidy Geidy A mi madre: Georgina que siempre esta a mi lado brindándome su apoyo y su fe en mí.

A mi madre: Georgina que siempre esta a mi lado brindándome su apoyo y su fe en mí.

Y en especial a mi padre Rubén, todo mi éxito se lo dedico a él.

Nereyda

(15)

para la determinación de su eficiencia y aplicabilidad en problemas de detección y seguimiento de tópicos a partir de varios corpus de texto preparados a tal efecto. El presente trabajo permite conocer cuál de los algoritmos anteriormente mencionados es el más eficiente a partir de resultados obtenidos con la herramienta WEKA para la detección y seguimiento de tópicos, además se expone cómo se realizó la preparación del corpus de texto. Este trabajo puede ser muy útil debido a que no se cuenta hoy con un estudio similar y cada día aumentan más los volúmenes de texto que abordan una misma temática y es necesario procesar con vista a obtener la mejor información posible de los mismos.

PALABRAS CLAVES:

Procesamiento del lenguaje natural, minería de texto, minería de datos, algoritmos de agrupamiento y algoritmos de clasificación.

(16)

AGRADECIMIENTOS ... I DEDICATORIA ... III RESUMEN ... IV

INTRODUCCIÓN ... 1

CAPITULO I ... 5

Introducción ... 5

Conceptos Preliminares. ... 6

1.1 Inteligencia Artificial. ... 6

1.2 Lingüística computacional y procesamiento de textos. ... 7

1.3 Procesamiento del lenguaje natural: ... 8

1.3.1 Lenguaje: ... 9

1.3.2 Lenguaje Natural: ... 9

1.3.3 Lenguaje Formal: ... 9

1.4 Minería de Datos. ... 9

1.4.1 Estado del arte de la Minería de Datos. ... 10

1.4.2 Herramientas de la Minería de Datos. ... 11

1.4.3 Actividades dentro de un proyecto de Minería de Datos. ... 12

1.4.4 Aplicaciones de la Minería de Datos. ... 15

1.4.5 Tendencias de la Minería de Datos. ... 16

1.5 Minería de texto... 17

1.5 .1 Técnicas de minería de texto. ... 19

1.5 .1 Técnicas clásicas: ... 19

1.5 .2 Herramientas para Minería de Texto. ... 20

1.5 .3 Herramienta de Minería de texto (WEKA). ... 20

1.5 .4 Ventajas de la herramienta Weka. ... 24

1.6 Corpus de Texto. ... 24

1.7 Definiciones de suceso y tópico. ... 24

1.7.1 Principales tareas ... 25

1.8 Algoritmos para la Detección y Seguimiento de tópicos. ... 30

1.8.1 Algoritmos de Agrupamiento... 30

1.8.2 Algoritmos de Clasificación. ... 30

1.8 Conclusión: ... 31

CAPÍTULO II ... 32

Introducción ... 32

(17)

2.3.1 Modelos de representación ... 42

2.3.2 Esquemas de pesado de términos ... 43

2.3.3 Procesamiento de los documentos ... 47

2.3.4 Medidas de semejanza. ... 49

2.3.5 Tratamiento de las propiedades temporales. ... 50

2.3.6 Algoritmo de agrupamiento ... 51

2.4 Principales aproximaciones en la detección de tópicos ... 53

2.4.1 El sistema CMU ... 54

2.4.2 El sistema UMASS ... 57

2.4.3 El sistema de Papka ... 57

2.4.4 El sistema UPENN ... 60

2.4.5 El sistema IBM ... 60

2.4.6 El sistema Iowa ... 62

2.4.7 El sistema de Kurt ... 63

2.4.8 El sistema de Brants ... 65

2.4.9 El sistema Dragón ... 67

2.4.10 El sistema BBN ... 69

2.4.11 El sistema TNO ... 70

2.5 Algoritmos de Clasificación. ... 71

2.5.1 Técnicas de clustering ... 72

2.5.2 Métodos utilizados para realizar clustering ... 73

2.6 Valoración final. ... 75

2.6.1 Análisis valorativo de los diferentes algoritmos de agrupamiento y clasificación de textos. ... 79

2.6.2 Resultados de los algoritmos de agrupamiento. ... 79

2.6.3 Resultados de los algoritmos de clasificación... 81

CONCLUSIONES ... 83

RECOMENDACIONES ... 84

REFERENCIAS BIBLIOGRÁFICAS ... 85

BIBLIOGRAFÍA ... 91

(18)

INTRODUCCIÓN

En aplicaciones donde existe un flujo continuo de documentos se requiere de mecanismos automáticos que operando a la misma velocidad que el flujo, organicen y filtren la información para su posterior estudio por parte de los usuarios. Una de estas aplicaciones consiste en la Detección y el Seguimiento automático de sucesos en flujos de noticias digitales, también conocida como TDT (Topic Detection and Tracking).

El principal problema planteado consiste en determinar si un documento entrante informa sobre un nuevo tópico o suceso o forma parte de otros sucesos recogidos por el sistema. La tarea de detección es una abstracción experimental del agrupamiento de noticias¹. El objetivo de un sistema de detección es agrupar y clasificar las noticias que abordan un mismo suceso o tópico. Es preciso tener muy en cuenta que el conjunto de noticias cambia en el tiempo, pues es necesario modificar el agrupamiento y clasificación de estas a medida que se van publicando nuevas noticias para mantenerlo actualizado.

Para los problemas de Detección y Seguimiento de tópicos se emplean técnicas de la Minería de Texto, como son los algoritmos de agrupamiento y clasificación. Las medidas de calidad para estos algoritmos fueron definidas por DARPA (Defense Advanced Research Projects Agency) para investigar las aproximaciones desarrolladas en la Detección y Seguimiento de tópicos. Se encuentran dentro de estas medidas, la medida F1 y Coste de detección. Dentro de las principales tareas de la Detección y Seguimiento de tópicos se pueden mencionar la Segmentación de noticas, la Detección de tópicos, la Detección de la primera noticia y la Detección de enlaces.

1http://www.deli.deusto.es/wiki/index.php/TA/NIST_MT

(19)

La situación problemática del presente trabajo se puede resumir en:

• Existen varios algoritmos para la minería de textos, pero no se cuenta con un estudio comparativo de los mismos a partir de su eficiencia y aplicabilidad a problemas de detección de tópicos.

El problema que genera dicha situación es:

Necesidad de realizar una valoración de las diferentes técnicas de minería de texto a problemas de detección de tópicos.

El objeto de estudio en este trabajo es:

Las diferentes técnicas de la inteligencia artificial para la Minería de textos.

El campo de acción presente en este trabajo es:

Los algoritmos para clasificación y agrupamiento de textos.

El objetivo general de este trabajo es:

• Valorar diferentes técnicas de minería de textos para la detección de tópicos a partir del análisis de dichas técnicas con un corpus de texto.

Para cumplir con el objetivo de este trabajo se trazaron las siguientes tareas:

• Realizar una revisión del estado del arte de los trabajos enmarcados en la Minería de Texto.

• Realizar una búsqueda bibliográfica de las diferentes técnicas de la I.A para la Minería de Texto.

• Seleccionar las técnicas a valorar.

• Estudiar dichas técnicas.

(20)

En el desarrollo del trabajo se emplearon los siguientes Métodos Científicos:

Métodos Teóricos:

• Dialéctico para la obtención del conocimiento: Es el método fundamental que guía la investigación, lo que permite que la investigación se oriente por vías científicas de demostración del problema y de obtención de las conclusiones a partir de los resultados de los experimentos.

• Análisis-síntesis: Permite inicialmente descomponer el problema en sus partes componentes y posteriormente volver a integrarlas, en el trabajo este método se emplea en el análisis de los diferentes algoritmos con vistas a seleccionar los que se van a evaluar, y de las diferentes herramientas que se pudieran emplear, así como en la obtención de conclusiones a partir de los resultados de los experimentos.

• Inductivo-deductivo: Para ir de lo general a lo particular y viceversa evidenciándose en el trabajo en el momento de realizar las valoraciones de los diferentes algoritmos seleccionados y en la aplicación de los conceptos fundamentales a el problema particular del trabajo.

• Analógico: Para hacer comparaciones entre problemas similares de manera tal que permita encontrar soluciones a partir de estas similitudes, en la realización de este trabajo se hicieron valoraciones de varios algoritmos para la detección y seguimiento de tópicos a partir de los mismo corpus de textos, lo que permite obtener conclusiones sobre la eficiencia y el coste de detección de estos algoritmos a partir de analogías.

• Sistémico: Enfoca el problema como un todo, este método permite enfocar los distintos componentes del problema y las diferentes tareas a realizar de manera integrada e interrelacionadas unas con otras.

(21)

Métodos Empíricos:

Recolección de información y análisis documental: Para lo cual se desarrolló una búsqueda bibliográfica y se consultaron varios especialistas y expertos en la temática. , además de la búsqueda y preparación de conjuntos de noticias de diferentes tópicos y agencias de noticias.

Método experimental: Análisis, diseño y desarrollo de los experimentos que permitieron llegar a las conclusiones finales del trabajo.

Este documento de tesis se divide en dos capítulos:

• Fundamentación Teórica: Se presentará el fundamento teórico: Marco teórico y modelo teórico.

Consiste en un análisis crítico de investigaciones anteriores y de fuentes con enfoques, teorías y modelos relacionados con el estudio del estado del arte de la Inteligencia Artificial, la Minería de Texto y de los algoritmos de Clasificación y Agrupamiento. Se describen los métodos, procedimientos y técnicas utilizadas.

• Modelo, propuesta concreta de la tesis: En este capítulo se detallan los algoritmos de Clasificación y Agrupamiento. Se presentan también los métodos utilizados por los diferentes algoritmos. Se proponen en esta sección los modelos, metodologías y procedimientos. Se realiza un análisis de los resultados concluido el trabajo de diploma y teniendo en cuenta la caracterización y análisis crítico de la investigación se sugiere aplicar encuestas u otras herramientas para la validación de las propuestas de este capítulo.

(22)

CAPITULO I

Capítulo 1: Fundamentación Teórica

Introducción

Las noticias representan un dominio de información ideal para el estudio de la detección y seguimiento de nuevos sucesos. Un sistema de Detección y Seguimiento de Tópicos (TDT, siglas en inglés de Topic Detection and Tracking) investiga métodos para la organización de las noticias en tópicos y clasifica y organiza nuevas noticias para un usuario interesado en realizar un seguimiento de los sucesos de actualidad que se obtienen de diversas fuentes en línea.

En la actualidad existen muchas aplicaciones prácticas donde se necesita la detección y seguimiento de noticias, especialmente para comerciantes, financieros, analistas de los medios de comunicación y editores de periódicos digitales en línea, los cuales coleccionan, interpretan y muestran las noticias procedentes de varias fuentes. Basta pensar, por ejemplo, en un analista político que tiene que leer diariamente un gran número de cables para identificar cuáles de ellos se refieren al tópico que desea abordar en su comentario. Hoy en día, el volumen de noticias en línea en Internet es enorme (de hecho, la mayoría de las agencias de noticias y periódicos del mundo proveen sus noticias no sólo en papel sino también en Internet) y, por tanto, se hace necesario el desarrollo de herramientas eficientes y eficaces que sean capaces de procesarlas. Un sistema que organice los sucesos y detecte los nuevos sucesos que ocurran sería útil para aquellas aplicaciones cuyos datos de entrada sean noticias y donde la decisión a tomar sea detectar si ha ocurrido un nuevo suceso o identificar las noticias que conforman un suceso al que hay que darle seguimiento.

TDT es una nueva línea de investigación compuesta, en sus inicios, por tres subproblemas principales: la segmentación y reconocimiento del habla a partir del flujo de noticias procedentes de la radio y la TV; la detección de nuevos sucesos en el flujo de noticias segmentadas o no, y el seguimiento del desarrollo de un suceso a partir de una muestra de noticias sobre el mismo suceso identificada por el usuario.

Las investigaciones en TDT comenzaron en 1996 [Alla, 98]. El proyecto TDT es una iniciativa patrocinada por DARPA (Defense Advanced Research Projects Agency) dentro del programa TIDES (Translingual Information Detection, Extraction and Summarization) para investigar las aproximaciones desarrolladas en la detección y seguimiento de nuevos sucesos en un flujo de noticias (habladas o escritas). Las tareas

(23)

TDT y las aproximaciones para su evaluación fueron desarrolladas en un esfuerzo conjunto entre DARPA, la Universidad de Massachusetts, el Instituto Tecnológico para el Lenguaje de la Universidad de Carnegie Mellon y los Sistemas Dragón. Durante un año se hizo un estudio piloto para definir el problema claramente, desarrollar las bases de la investigación y evaluar la habilidad de las tecnologías actuales para solucionar el problema. Los resultados finales del estudio se expusieron en un taller en 1997, elaborándose un informe final llamado TDT1 [Alla, 98]. El propósito de ese estudio fue desarrollar aún más las tecnologías requeridas para segmentar, detectar y seguir información en una cadena continua de noticias; así, las noticias viejas pueden ser seguidas y las nuevas, detectadas, aunque provengan de distintas fuentes.

Las investigaciones en TDT han continuado desarrollándose y en este período se han realizado seis evaluaciones: en 1998, 1999, 2000, 2001, 2002 y 2003¹. Estos esfuerzos han dado lugar a algoritmos para el descubrimiento y seguimiento de sucesos y tópicos en un flujo de noticias para los idiomas inglés, chino mandarín y árabe.

Conceptos Preliminares.

1.1 Inteligencia Artificial.

Algunas definiciones de inteligencia artificial plantean:

• Estudio de los mecanismos de la inteligencia y las tecnologías que lo sustentan. [Newell, 91].

• Intento de reproducir (modelar) la manera en que las personas identifican, estructuran y resuelven problemas difíciles [Pople, 84].

Son ciertas herramientas de programación, entendiendo por Herramientas:

Lenguajes: LISP, PROLOG Entornos de desarrollo: shells

Arquitecturas de alto nivel: nodo y arco, sistemas de producciones

• La interesante tarea de lograr que las computadoras piensen […] máquinas con mente, en su amplio sentido natural.”[Haugeland, 1985].

• “La automatización de actividades que vinculamos con procesos de pensamiento humano, actividades tales como toma de decisiones, resolución de problemas, aprendizaje…” [Bellman, 1978].

1 http://www.nist.gov/speech/tests/tdt.html

(24)

• “El estudio de las facultades mentales mediante el uso de modelos computacionales.” [Charniak y MacDermott, 1985].

• “El estudio de los cálculos que permiten percibir, razonar y actuar.” [Winston, 1992].

• “El arte de crear máquinas con capacidad de realizar funciones que cuando son hechas por personas requieren de inteligencia.” [Kurzweil, 1990].

• “El estudio de cómo lograr que las computadoras realicen tareas que, por el momento, los humanos hacen mejor.” [Rich y Knight, 1991].

• “Un campo de estudio que se enfoca a la explicación y emulación de la conducta inteligente en función de procesos computacionales.” [Schalkoff, 1990].

• “La rama de la ciencia de la computación que se ocupa de la automatización de la conducta inteligente.” [Luger y Stubblefield, 1993].

Las autoras de este trabajo, a partir del análisis realizado, consideran que la Inteligencia Artificial es el estudio de las técnicas computacionales que permitan dar solución a problemas para los cuales no existen algoritmos o los que existen son de complejidad no polinomial.

1.2 Lingüística computacional y procesamiento de textos.

La lingüística computacional es la ciencia que trata de la aplicación de los métodos computacionales en el estudio del lenguaje natural [Gelbukh y Bolshakov, 1999]. Esta ciencia es una combinación de dos ciencias más grandes; la lingüística, que estudia las leyes del lenguaje humano, y la inteligencia artificial (ver figura 1.1).El problema u objetivo más importante de la lingüística computacional es la comprensión del lenguaje, es decir, la transformación del lenguaje hablado o escrito a una representación formal del conocimiento, como por ejemplo una red semántica. La solución tradicional de este problema consiste en construir un procesador lingüístico constituido por diferentes módulos independientes (ver figura 1.2):

• El módulo morfológico se encarga de reconocer las palabras. Básicamente, convierte las cadenas de letras a una entrada de un diccionario, y pone las marcas de tiempo, género y número.

• El módulo sintáctico reconoce oraciones. Este módulo convierte las cadenas de palabras marcadas a una estructura gráfica, en donde se hacen explícitas algunas relaciones entre las palabras de la oración.

• El módulo semántico reconoce la estructura completa del texto y lo convierte a una “red semántica”.

(25)

La lingüística computacional se encarga de otras cosas, adicionalmente a la comprensión del lenguaje.

Algunas de estas otras áreas de investigación de la lingüística computacional se muestran en la (figura 1.2). La más grande de estas áreas, y tal vez la más importante, es el procesamiento automático de textos. El procesamiento automático de textos considera una gran diversidad de tareas (ver figura 1.3), desde muy simples, como la separación de palabras, hasta muy complejas como algunas tareas de minería de texto.

Sin lugar a dudas, la lingüística computacional en su conjunto enfrenta uno de los más grandes retos de la ciencia computacional: lograr que las computadoras sean nuestros verdaderos ayudantes en la ocupación principal de la raza humana, pensar y comunicar. Además, las tareas de la lingüística computacional tienen una gran utilidad práctica inmediata, ya que se relacionan con: la toma de decisiones, la búsqueda e intercambio de conocimiento, y toda clase de operaciones relacionadas con la publicación y uso de los documentos. Así pues, sin temor a equivocarnos, podemos decir que los países que disponen de buenas herramientas para el análisis y generación de textos tienen, en nuestro mundo competitivo, una gran ventaja económica, tecnológica y hasta militar sobre los demás países.

1.3 Procesamiento del lenguaje natural:

Un objetivo principal de la Inteligencia Artificial lo constituye sin lugar a dudas el Procesamiento del Lenguaje Natural por computadora. El Procesamiento del Lenguaje Natural (PLN) es una parte esencial de la Inteligencia Artificial que investiga y formula mecanismos automáticos efectivos que faciliten la interrelación hombre-máquina y permitan una comunicación mucho más fluida y menos rígida que los lenguajes formales y sistemas de menús utilizados tradicionalmente. Todo el sistema de Procesamiento del Lenguaje Natural intenta simular un comportamiento lingüístico humano; para ello debe tomar conciencia tanto de las estructuras propias del lenguaje, como de un conocimiento general acerca del universo de discurso. De esta forma, una persona que participe en un diálogo sabe cómo pueden combinar las palabras para formar una oración, conoce los significados de las mismas, sabe cómo éstas afectan el significado global de la oración y tienen un conocimiento del mundo en general que permite participar de la conversación.

(26)

1.3.1 Lenguaje:

Lenguaje es el empleo de la palabra para expresar ideas, comunicarse, establecer relaciones entre los seres humanos. Un lenguaje es un conjunto de palabras, su pronunciación y los métodos para combinarlas en frases y oraciones, generalmente infinito y que se forma mediante combinaciones de palabras definidas en un diccionario terminológico previamente establecido. Las combinaciones posibles deben respetar un conjunto de reglas sintácticas establecidas, a ello se le conoce con el nombre de Sintaxis. Además, las palabras deben tener determinado sentido, deben ser comprendidas por un grupo humano en un contexto dado, a ello se le denomina Semántica. El ser humano en el transcurso de su desarrollo histórico ha utilizado los lenguajes para expresar sus pensamientos, emociones, sentimientos y para establecer comunicación entre grupos, etnias, naciones y sociedades humanas en su conjunto. Esta función del lenguaje se realiza mediante señales: gráficas, sonoras, lumínicas, y la escritura.

1.3.2 Lenguaje Natural:

Se le denomina al lenguaje escrito o hablado usado por una comunidad que es precisamente lo contrario a un lenguaje para establecer comunicación con una computadora, mediante la entrada de datos, o la programación de su funcionamiento.

1.3.3 Lenguaje Formal:

Se le denomina lenguaje Formal a un lenguaje artificial o sea creado por el hombre que esta formado por símbolos y fórmulas y que tiene como objetivo fundamental formalizar la programación de computadoras.

1.4 Minería de Datos.

Bajo el nombre de minería de datos se engloban un conjunto de técnicas encaminadas a la extracción de

"conocimiento" procesable implícito en las bases de datos de determinadas entidades entre ellas: las empresas. Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación. Un proceso típico de minería de datos parte de la selección del conjunto de datos, tanto en lo que se refiere a las variables dependientes, como a las

(27)

Los modelos obtenidos por técnicas de minería de datos se aplican incorporándolos en los sistemas de análisis de información de las empresas, e incluso, en los sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Data Mining Group, que está estandarizando el lenguaje PMML (Predictive Modelling Markup Language), de manera que los modelos de minería de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de análisis de la información hacen uso de este estándar.

Las técnicas de minería de datos se aplicaban sobre información contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseñadas para proyectos de minería de datos en las que centralizan información potencialmente útil de todas sus áreas de negocio, etc. [1]

1.4.1 Estado del arte de la Minería de Datos.

El concepto de Minería de Datos surgió hace más de 10 años. La aplicación y desarrollo de la minería en múltiples ramas como los negocios, finanzas, ingeniería, banca, salud, sistemas de energía y meteorología; así como el entorno altamente competitivo de las empresas, que requieren mantener y ganar nuevos clientes; ha llevado a que el interés por este campo se haya incrementado.

Las técnicas de Minería de Datos han madurado con el paso de los años y algunos de los factores que han contribuido a su desarrollo han sido el surgimiento de grandes cantidades de datos en las entidades, el desarrollo de las técnicas de aprendizaje automático, la posible presencia de incertidumbre en los datos y el rápido crecimiento del manejo de sistemas de bases de datos.

Los algoritmos son más o menos eficientes y pueden manipular datos complicados. Las herramientas son cada vez más potentes, permitiendo desarrollar aplicaciones de minería más completas.

[1] http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos

(28)

1.4.2 Herramientas de la Minería de Datos.

IBM

IBM tiene un producto de minería de datos llamado Intelligent Miner, desarrollado por una subsidiaria alemana de IBM. Intelligent Miner contiene un conjunto de algoritmos y permite exportar modelos de minería en Predictive Modeling Markup Language (PMML). [TangM, 2005]. PMML es un lenguaje estándar basado en XML el cual es desarrollado por Data Mining Group (DMG), un grupo líder en desarrollo y venta de estándares para minería de datos. Los archivos PMML pueden ser cargados por la base de datos con propósitos de predicción.

Oracle

ORACLE 10g incorpora el paquete ODM (Oracle Data Mining), lo que simplifica el proceso de extracción de conocimiento ya que los datos no tienen que ser movidos para realizar el análisis. De esta forma todas las operaciones de preparación, limpieza, creación de modelos e implementación permanecen en la base de datos lo que resulta de gran importancia para mejorar la productividad, automatización e integración de los proyectos de Minería.

SQL Server 2000 de Microsoft

La primera versión del paquete Analysis Services que se utiliza para realizar proyectos de Minería en SQL Server, se incorpora en el SQL Server 2000. De esta forma SQL Server se introduce en el mercado de las compañías que se dedican al proceso de descubrir y extraer conocimiento en grandes volúmenes de información, a través de su especificación OLE DB para Minería de Datos. OLE DB para Minería de Datos es un estándar de la industria que define un lenguaje de minería de datos con el estilo de SQL y hace factible el manejo de componentes, especialmente características de predicción. SQL Server 2000 contiene además dos algoritmos de minería de datos: Microsoft Clustering y Árboles de Decisión de Microsoft.

(29)

SQL Server 2005

Microsoft SQL Server 2005 Analysis Server establece nuevas facilidades para realizar Minería de Datos:

• Explorar y manipular datos, así como diseñar y editar modelos.

• El procesamiento de los modelos de una misma estructura de minería ocurre en paralelo, en una sola lectura de los datos.

• Proporciona más de 12 visores de resultados para los algoritmos que ayudarán a comprender mejor los patrones encontrados en el proceso de minería.

• Proporciona gráficos de elevación, de beneficios y una matriz de clasificación que permite establecer una comparación de lo real con lo previsto; para contrastar y comparar la calidad de los modelos.

• Posee un lenguaje para la creación de consultas de minería (DMX) similar al SQL que facilita la tarea de creación de aplicaciones de minería de datos.

• Cuenta con los algoritmos de minería: Naive Bayes, Clustering, Clústeres de Secuencia, Árboles de Decisión, Redes Neuronales, Series Temporales, Reglas de Asociación, Regresión Logística, y Regresión Lineal y minería de textos.

• Marco de desarrollo para agregar nuevos algoritmos y también para construir visores propios para los modelos generados. [Crivat, 2005] [Iyer, 05] [MacLennan, 2004] [Netz, 2005] [Tang, 2005]

[TangM, 2005].

1.4.3 Actividades dentro de un proyecto de Minería de Datos.

Dentro de la Minería de Datos se incluyen actividades en las que se tiene claro el objetivo desde un inicio, pertenecientes a la Minería de Datos directa (MDD) y otro grupo en el que no se sabe a ciencia cierta qué resultado se quiere obtener, conocido como Minería de datos indirecta (MDI) [Berry, 2000].

Tabla 1.1 Actividades de la Minería de Datos Directa y de la Minería de Datos Indirecta Minería de Datos Directa Minería de Datos Indirecta

1. Clasificación 2. Determinar grupos afines o reglas de asociación

3. Estimación 4. Clustering

5. Predicción 6. Descripción y visualización

(30)

A continuación se describen las actividades de cada grupo y a la vez se presenta un enfoque práctico de los resultados que pueden obtenerse con las técnicas de cada tipo de actividad. [Rosete, 2004].

Clasificación (MDD)

La clasificación consiste en examinar características de un objeto (registro) y asignarle una clase predefinida. En este caso las salidas son clases que son valores discretos. Esta tarea se realiza de muchas maneras, el punto en común en cada caso es la construcción de un modelo para hacer la clasificación. Ejemplos:

• Asignar palabras claves a documentos.

• Clasificar los préstamos que brinda un banco por riesgo (alto, medio, bajo).

• Clasificar transacciones fraudulentas o no.

Estimación (MDD)

La estimación es similar a la clasificación, pero sus salidas son valores continuos. En algunos casos puede hacerse previo a la clasificación. Ejemplo:

• Determinar la probabilidad de que una transacción sea fraudulenta. En este caso, luego se puede clasificar usando umbrales.

• Asignar un valor entre 0 y 100 a los préstamos que sean más aptos según sea el riesgo que asume el banco al hacerlo.

• Determinar el número de minutos que juega un determinado jugador de baloncesto antes que se agote.

• Determinar el valor con que cerrarán determinadas acciones en la bolsa de valores.

Predicción (MDD)

La predicción es similar a cualquiera de los anteriores, pero la salida (sea esta discreta o continua) no ha ocurrido. Su peculiaridad es que la variable que se estima o la clase que se asigna se corresponden con un fenómeno que ocurrirá en el futuro. Ejemplos:

• Determinar si un usuario pedirá de nuevo determinado servicio.

• Determinar si un usuario comprará un producto que se le está haciendo marketing.

(31)

• Determinar si un usuario solicitará servicios telefónicos agregados a partir de analizar sus gastos infiriendo si estos son por uso de Internet.

Determinar grupos afines o reglas de asociación (MDI)

Esta actividad de Minería de Datos (MDI) tiene como objetivo encontrar fenómenos que ocurren de conjunto sin que quede claro el tipo de relación causal que ocurre entre ellos. Ejemplo:

• Identificar y agrupar productos que se compran juntos. Este análisis permite a los dueños o a los que administran la política comercial, presentar los productos juntos y/o establecer políticas de marketing combinadas.

Clustering (MDI)

Clustering significa agrupamiento, consiste en segmentar un grupo diverso en subgrupos. Para esto se toman los valores de diferentes variables para un determinado fenómeno y se crean grupos según el grado de semejanza entre ellos. Esta búsqueda de semejanza se realiza calculando distancia por métodos muy parecidos a los usados en el razonamiento basado en casos [Rich, 1994] [Shapiro, 1990].

El Agrupamiento se considera una técnica de la MDI porque los grupos que se obtienen no tienen un significado a priori. No se conoce la cantidad ni el significado de los grupos que se obtienen antes de correr el algoritmo. A los grupos se le da un significado después de obtenido con la ayuda de los expertos del dominio del negocio. Ejemplos:

• Agrupar los usuarios según los productos que compran.

• Agrupar al personal de una empresa según su edad, nivel profesional, coeficiente de inteligencia, indicadores de salud.

Descripción y visualización (MDI)

Una última técnica de MDI que es muy importante es la de descripción y visualización. Esta ayuda a entender mejor los problemas. Siendo así, su aplicación permite enfocar las demás actividades de MD.

(32)

También permite encontrar explicaciones a fenómenos o al menos elaborar hipótesis iníciales para el trabajo. "una imagen vale más que 100 palabras".

1.4.4 Aplicaciones de la Minería de Datos.

La integración de las técnicas de minería de datos en las actividades del día a día se está convirtiendo en algo habitual. Los negocios de la distribución y la publicidad dirigida han sido tradicionalmente las áreas en las que más se han empleado los métodos de minería, ya que han permitido reducir costes o aumentar la receptividad de ofertas. Pero éstas no son las únicas áreas a las que se pueden aplicar. De hecho, podemos encontrar ejemplos en todo tipo de aplicaciones: financieras, seguros, científicas (medicina, farmacia, astronomía, informática psicología, etc.), políticas económicas, sanitarias o demográficas, educación, policiales, procesos industriales y un largo etcétera.

Aplicaciones financieras y banca:

• Obtención de patrones de uso fraudulento de tarjetas de crédito.

• Determinación del gasto en tarjeta de crédito por grupos.

• Identificación de reglas de mercado de valores a partir de históricos.

Análisis de mercado, distribución y, en general, comercio:

• Análisis de la cesta de la compra (compras conjuntas, secuenciales, ventas cruzadas, señuelos, etc.).

• Análisis de la fidelidad de los clientes.

• Estimación de stocks, de costes, de ventas, etc.

Seguros y salud privada:

• Determinación de los clientes que podrían ser potencialmente caros.

• Predicción de qué clientes contratan nuevas pólizas.

• Identificación de patrones de comportamiento para clientes con riesgo.

• Identificación de comportamiento fraudulento.

Educación:

• Selección o captación de estudiantes.

• Detección de abandonos y de fracaso.

(33)

• Estimación del tiempo de estancia en la institución.

Procesos industriales:

• Predicción de fallos y accidentes.

• Extracción de modelos de coste.

• Extracción de modelos de producción.

Medicina:

• Identificación de patologías. Diagnóstico de enfermedades.

• Detección de pacientes con riesgo de sufrir una patología concreta.

• Recomendación priorizada de fármacos para una misma patología.

Telecomunicaciones:

• Establecimiento de patrones de llamadas.

• Modelos de carga en redes.

• Detección de fraude.

Informática:

• Inteligencia Artificial: Mediante un sistema informático que simula un sistema inteligente, se procede al análisis de los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadrarían los Sistemas Expertos y las Redes Neuronales.

• Sistemas Expertos: Son sistemas que han sido creados a partir de reglas prácticas extraídas del conocimiento de expertos. Principalmente a base de inferencias o de causa-efecto.

• Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor ventaja ante nuevas situaciones desconocidas para el experto.

• Redes neuronales: Genéricamente, son métodos de proceso numérico en paralelo, en el que las variables interactúan mediante transformaciones lineales o no lineales, hasta obtener unas salidas.

Estas salidas se contrastan con los que tenían que haber salido, basándose en unos datos de prueba, dando lugar a un proceso de retroalimentación mediante el cual la red se reconfigura, hasta obtener un modelo adecuado.

1.4.5 Tendencias de la Minería de Datos.

En la breve historia de la minería de datos, se han cumplido algunas expectativas y se han dejado abiertas otras muchas. En particular, se espera una minería de datos más automática, más sencilla, con más

(34)

fiabilidad, con patrones más novedosos y más eficiente. De hecho, según autores, se pueden destacar todavía más retos. Por ejemplo, Han y Kamber [Han y Kamber, 2001] afirman que para que la minería de datos sea completamente aceptada como una tecnología, se deben resolver algunos problemas principalmente relacionados con la eficiencia y la escalabilidad, la interacción con el usuario, la incorporación de conocimiento de base, las técnicas de visualización, la evolución de lenguajes de consultas de minería de datos estandarizados y mejorar el tratamiento de datos complejos, entre otros.

Uno de los principios de la minería de datos es que tiene que trabajar de forma eficiente y efectiva con grandes bases de datos.

La Minería de Datos ha sufrido transformaciones en los últimos años de acuerdo con cambios tecnológicos, de estrategias de marketing, la extensión de los modelos de compra en línea, etc. Los más importantes de ellos son:

• La importancia que han cobrado los datos no estructurados (texto, páginas de Internet, etc.)

• La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet, etc.

• La exigencia de que los procesos funcionen prácticamente en línea (por ejemplo, que frente a un fraude con una tarjeta de crédito, ésta pueda ser cancelada casi al instante).

1.5 Minería de texto

La minería de texto es la más reciente área de investigación del procesamiento de textos. Ella se define como el proceso de descubrimiento de patrones interesantes y nuevos conocimientos en una colección de textos, es decir, la minería de texto es el proceso encargado del descubrimiento de conocimientos que no existían explícitamente en ningún texto de la colección, pero que surgen de relacionar el contenido de varios de ellos [Hearst y Kodratoff, 1999].

Este proceso consiste de dos etapas principales: una etapa de pre-procesamiento y una etapa de descubrimiento [Tan, 1999]. En la primera etapa, los textos se transforman a algún tipo de representación estructurada o semi-estructurada que facilite su posterior análisis, mientras que en la segunda etapa las representaciones intermedias se analizan con el objetivo de descubrir en ellas algunos patrones interesantes o nuevos conocimientos. La figura 1.4 ilustra este proceso.

(35)

Dependiendo del tipo de métodos usados en la etapa de pre – procesamiento es el tipo de representación del contenido de los textos construida; y dependiendo de esta representación, es el tipo de patrones descubiertos. La figura 1.5 muestra los tres tipos de estrategias empleadas en los actuales sistemas de minería de texto.

Figura 1. 5. Estado del arte de la Minería de texto.

La minería de texto o Text Mining es una herramienta que proviene del área del procesamiento automático de textos y que permite localizar y extraer la información más significativa y esencial de los documentos, así como información y conocimiento implícito y oculto en grandes corpus textuales electrónicos, estructurados o no estructurados, como mensajes de correos electrónicos, discursos, artículos, entre otros. Debido a esto, en ocasiones se asocia con el espionaje.

Funciona a partir de una telaraña semántica, que tiene como objetivo construir toda una estructura de metadatos, información sobre la estructura y significado de los datos almacenados e incluirlos en los documentos de forma que sean navegables, identificables y entendibles por las máquinas, por lo que es una herramienta eficaz para gestionar el conocimiento. “Se enfoca en el descubrimiento de patrones interesantes y nuevos conocimientos en un conjunto de textos, es decir, su objetivo es descubrir tendencias, desviaciones y asociaciones en la gran cantidad de información textual disponible”, es decir, facilita realizar análisis y se instituye como un área emergente de la minería de datos. Elimina la información duplicada y detecta información similar o relacionada con la existente. La minería de textos utilizada en las Ciencias de la Información pudiera explotarse como herramienta en los nuevos métodos de resumen porque permite la decodificación y análisis del lenguaje natural e interfaces en la lengua materna de cada dominio, traducción automática, procesamiento de voz, generación de texto, etcétera.

Todas estas cualidades de la minería de texto son la razón que fundamenta la propuesta de esta herramienta como perspectiva metodológica para la realización de resúmenes documentales.

(36)

Las perspectivas metodológicas de la minería de texto aplicables en las instituciones de información son disímiles, porque su rango de acción no sólo se desarrolla en el trabajo con el texto, sino que además explora otros sectores como el procesamiento de voz, decodificación de imágenes, construcción de corpus documentales, representación y graficación de términos mediante herramientas de ponderación asociadas, entre otros.

1.5 .1 Técnicas de minería de texto.

La minería de texto es el proceso encargado del descubrimiento de conocimiento que no existe en el texto, pero que surge al relacionar el contenido de varios textos.

La minería de texto se divide en dos etapas que son el pre-procesamiento y una etapa de descubrimiento.

Dependiendo del tipo de métodos utilizados en la etapa de pre-procesamiento se genera una representación distinta del contenido del texto.

1.5 .1 Técnicas clásicas:

Las técnicas clásicas en minería de texto se estructuran básicamente en tres etapas:

• Etapa de pre-procesamiento: Es el proceso mediante el cual los textos se transforman en algún tipo de representación estructurada que facilite su análisis.

• Etapa de representación: La representación depende de la técnica de pre-procesamiento utilizada y determinarán cuál será el algoritmo de descubrimiento a utilizar.

• Etapa de descubrimiento: Son algoritmos que a partir de una representación estructurada de la información, son capaces de descubrir regularidades en los textos.

Como se puede observar, todas las etapas están muy interrelacionadas, así pues, la primera etapa condiciona el descubrimiento de los patrones que la minería de texto puede realizar.

Las técnicas más usadas en minería de texto son los vectores de temas que muestran el nivel temático del texto, la secuencia de palabras que permite descubrir patrones en el texto y las tablas de datos que permite descubrir interrelaciones entre entidades.