Centro de Investigación en Computación
Secretaría de Investigación y PosgradoDEDESSAARRRROOLLLLOO DDEE UUNN SSIISSTTEEMMAA DDEE AANNÁÁLLIISSIISS TTEEMMÁÁTTIICCOO D
DEELL CCOONNOOCCIIMMIIEENNTTOO CCIIEENNTTÍÍFFIICCOO
T E S I S
QUE PARA OBTENER EL GRADO DE
MAESTRO EN CIENCIAS DE LA COMPUTACIÓN
P R E S E N T A
EL LIC. EDUARDO GODÍNEZ FERNÁNDEZ
DIRECTORES DE TESIS: DR. GILBERTO LORENZO MARTÍNEZ LUNA DR. ADOLFO GUZMÁN ARENAS
MÉXICO, D.F. 2009
SECRETARIA DE INVESTIGACIÓN Y POSGRADO ACTA DE REVISIÓN DE TESIS
En la Ciudad de México, D.F. siendo las 12:00 horas del día 23 del mes de octubre de 2009 se reunieron los miembros de la Comisión Revisora de Tesis designada por el Colegio de Profesores de Estudios de Posgrado e Investigación del:
Centro de Investigación en Computación para examinar la tesis de grado titulada:
"DESARROLLO DE UN SISTEMA DE ANÁLISIS TEMÁTICO DEL CONOCIMIENTO CIENTÍFICO"
GODÍNEZ FERNANDEZ EDUARDO
Apellido paterno materno nombre(s)
Con registro: B 0 7 1 4 5 0
aspirante al grado de: MAESTRÍA EN CIENCIAS DE LA COMPUTACIÓN
Después de intercambiar opiniones los miembros de la Comisión manifestaron SU APROBACIÓN DE LA TESIS, en virtud de que satisface los requisitos señalados por las disposiciones reglamentarias vigentes.
LA COMISIÓN REVISORA Presidente
Dr. Alexandre Fetixovich Guelboukh Kahn
Primer vocal (Director de tesis)
Dr. Gilberto Lorenzo Martínez Lunaliberto Tercer vocal
creta rio
Segundo vocal (Director de tesis)
Dr. Adolfo Guzman Arenas Suplente
Dr. Jesús Manuel Olivares Cej M. en C. Alejandro Botello Castillo
ESIDEfTE DEL COLEGIO
:.
:Dr. Jaime Álvarez Gallegos
SECRETARÍA DE INVESTIGACIÓN Y POSGRADO
CARTA CESIÓN DE DERECHOS
En la Ciudad de México el día _Q9 del mes Diciembre del año 2009 , el (la) que suscribe Eduardo Godínez Fernández alumno (a) del Programa_Maestría en Ciencias de la Computación con número de registro B071450 , adscrito a Centro de Investigación en Computación , manifiesta que es autor (a) intelectual del presente trabajo de Tesis bajo la dirección de Dr. Gilberto L. Martínez Luna y Dr. Adolfo Guzmán Arenas, y cede los derechos del trabajo intitulado Desarrollo de un Sistema de Análisis Temático del Conocimiento Científico al Instituto Politécnico Nacional para su difusión, con fines académicos y de investigación.
Los usuarios de la información no deben reproducir el contenido textual, gráficas o datos del trabajo sin el permiso expreso del autor y/o director del trabajo. Este puede ser obtenido escribiendo a la siguiente dirección _ [email protected] . Si el permiso se otorga, el usuario deberá dar el agradecimiento correspondiente y citar la fuente del mismo.
EDUARDO GÓDINEZ FERNÁNDEZ
Nombre y firma
RESUMEN
En este trabajo de tesis se presenta una herramienta de software que permite identificar tendencias, que describen la evolución en una disciplina del conocimiento científico cuyos recursos de información se encuentran ya clasificados. La herramienta busca apoyar a la minería de datos como parte del proceso de descubrimiento de conocimiento y la identificación se apoya, en el análisis de la producción de los recursos de información de ciencia y tecnología, y su visualización en gráficas con respecto al tiempo.
Para ilustrar el uso de la herramienta se emplean los artículos de divulgación de 2 revistas electrónicas de Computación de la librería digital de ACM (Association for Computing Machinery), que están ya clasificados con la temática multinivel “The 1998 ACM Computing Classification System” que describe esta disciplina. Las tendencias en las categorías o temas de la disciplina se identifican mediante la formulación de preguntas dirigidas conocidas como modelos y dependiendo del modelo utilizado, los resultados son representados en gráficas que muestran las tendencias o en gráficas, que se pueden considerar como mapas de conocimiento que satisfacen el criterio del modelo. La unidad de análisis del conocimiento son los temas o categorías en los primeros tres niveles que se encuentran dentro del sistema de clasificación de ACM.
Las gráficas pueden ayudar a mostrar la contribución en la producción de los temas o categorías de la disciplina en un lapso de tiempo, mostrando comparativos en la producción de sus descriptores afines. También permite identificar en los temas si su “popularidad” va en aumento o en caso contrario de otras que ya no son de interés o están abandonadas en su estudio o investigación y por cuánto tiempo.
La contribución de este trabajo es el software que permite visualizar gráficas para identificar tendencias en una categoría de una disciplina científica y que se puede extender a cualquier otra que esté debidamente clasificada y con el tratamiento adecuado para registrar en la base de datos de este software. Otra contribución es que el diseño de la base de datos está acorde a como la trabaja la web de la ciencia y algunas herramientas que se dedican a aplicar la Bibliometría y Cienciometría entre otras ciencias afines.
Palabras Clave The 1998 ACM Computing Classification System: H.2 Administración de Bases de Datos; H.2.8 Minería de Datos; Tendencias en la evolución del conocimiento científico; Herramienta de Software.
ABSTRACT
In this work we present a software tool that allow identify tendencies that describe the evolution in a discipline of scientific knowledge, where information resources are classified. The tool search support the data mining as part of discovery knowledge process and the identification is supported by production analysis of information resources in science and technology and his visualization in graphs with respect to time.
To illustrate the use of the tool we utilize the divulgation articles from two electronic magazines in computation of the digital library in ACM (Association for Computing Machinery), classified with multilevel thematic "The 1998 ACM Computing Classification System" that describe this discipline. The tendencies in categories or themes of this discipline are identified by the formulation of directed questions known as models and depending to the utilized model, the results are represented in graphs showing the tendencies, or by graphs considered as knowledge mappings that satisfied the model criterion. The knowledge analysis units are the themes in the first three levels localized in the ACM classification system.
The graphs can help to show the contribution in the themes production or categories of the discipline in a period time, showing production comparatives in his descriptors related. They permit identify in the themes if his popularity increase or in opposite case of others that are not interesting, or they are abandoned in his studied or investigation and for how many time.
The contribution of this work is software that permits to visualize graphics to identify tendencies in a category of a scientific discipline, and can be extended to any other classified, and with the adequate treatment for register in the database of this software. Another contribution is the database design it is accord at the manner how the web of science works and something tools that applied the Bibliometrics and Scientometrics and other related sciences.
The 1998 ACM Computing Classification System Keywords: H.2 Database Management; H.2.8 Data Mining; Tendencies in the evolution of scientific knowledge; Software tool.
Al Instituto Politécnico Nacional.
Por brindarme la oportunidad de pertenecer a una de las mejores instituciones de la republica mexicana ofreciéndome una formación académica de calidad al servicio de mi país.
Al Centro de Investigación en Computación.
Por proporcionar los recursos humanos y materiales necesarios para la adecuada adquisición de conocimiento fomentando la transferencia de conocimiento y valores entre investigadores y estudiantes.
Al Comité Tutorial.
Por su valiosa aportación en comentarios y recomendaciones que permitieron mejorar mi formación académica y aumentar la calidad de mi proyecto de tesis.
A mi padre.
Que siempre me ha guiado y me ha sabido ofrecer sabios consejos en los momentos en que más lo he necesitado, además de ser el ejemplo que siempre me motiva a buscar más en la vida y a obrar con rectitud y congruencia en todo momento.
A mi madre.
Que siempre ha estado conmigo en todo momento brindándome su cariño y comprensión, y que me ha enseñado que en la vida hay que tener siempre una actitud de servicio para toda la gente que nos rodea aplicándola lo mejor posible.
A mis hermanos.
Que desde siempre me han cuidado y protegido, y que actualmente son los ejemplos más significativos de cómo debo afrontar las situaciones cotidianas e importantes de la vida diaria.
A mis amigos.
Que en la escuela vivimos y compartimos los momentos más difíciles y alegres de la vida académica, y que junto conmigo han crecido y madurado hasta ser las personas que el día de hoy somos.
A mis amigos.
Que durante cada etapa de mi vida me han animado y apoyado para lograr mis objetivos y metas, y que han confiado incondicionalmente en mi ofreciéndome valiosos consejos y compartiendo sus experiencias más significativas.
A ti.
Que has llenado de luz mi vida y que día a día me animas a alcanzar mis mas grandes sueños y hacerlos realidad.
Y en general, a aquellas personas que han compartido momentos especiales de su vida conmigo que quedaran por siempre grabados en mi memoria, y por los cuales estaré agradecido todo la vida.
TABLA DE CONTENIDO
RESUMEN i
ABSTRACT ii
TABLA DE CONTENIDO iii
LISTA DE FIGURAS v
LISTA DE TABLAS vi
GLOSARIO vii
1. NECESIDAD DE MEDIR Y OBSERVAR EL PROGRESO DE LA CIENCIA 1
1.1. Introducción 1
1.2. Definición del Problema 2
1.3. Objetivos 2
1.3.1. Objetivo General 2
1.3.2. Objetivos Particulares 2
1.4. Propuesta de Solución 3
1.5. Justificación 3
1.6. Beneficios Esperados 4
1.7. Alcances y Límites 5
1.8. Logros Alcanzados 6
1.9. Conclusiones 6
2. MARCO TEÓRICO 7
2.1. Ciencias para la medición del progreso de la ciencia 7 2.2. La Computación como apoyo a los Estudios de Cienciometría y Bibliometría 7 2.2.1. Estudio 1: Mapa del Mundo de la Ingeniería Biomédica (1986) 7 2.2.2. Estudio 2: Desarrollo del Hardware y del Software en Computo Paralelo (2007) 9 2.2.3. Estudio 3: Visualizando el Mundo Científico y su Evolución (2006) 10 2.2.4. Estudio 4: Comparación de la Literatura de Semiconductores en China y otros
Países Asiáticos (2007) 14
2.3. Herramientas de Software de Cienciometría y Bibliometría 17
2.3.1. Herramienta de Software: HistCite 17
2.3.2. Herramienta de Software: Redes 2005 18
2.4. Clasificaciones Temáticas 20
2.5. Comparativas del Estudio y de la Herramienta 22
2.5.1. Comparativa frente a estudios similares 22
2.5.2. Comparativa frente a herramientas similares 23
2.6. Conclusiones 24
3. MODELOS DE ANÁLISIS DE DATOS 25
3.1. Introducción 25
3.2. Recursos de Información 25
3.3. Formulación de Modelos 30
3.3.1. Modelo de Estadísticas y Comparativas de Producción 30
3.3.2. Modelo de Tendencia de Presencia 31
3.3.3. Modelo de Relación Temática 31
3.4. Contenido de la Base de datos 32
3.5. Conclusiones 35
4. ANÁLISIS Y DISEÑO DEL SISTEMA 36
4.1. Introducción 36
4.2. Usuarios participantes 36
4.3. Descripción actual del sistema 37
4.4. Establecimiento de requerimientos 37
4.4.1. Requerimientos funcionales 37
4.4.2. Requerimientos no funcionales 38
4.5. Especificaciones de Requerimientos 38
4.5.1. Diagrama de Casos de Uso Principal 38
4.5.2. Detalle de Casos de Uso 39
4.5.3. Diagramas de Secuencia de los Casos de Uso 42
4.5.3.1. Diagrama de Secuencia del Caso de Uso: Buscar Tema 43 4.5.3.2. Diagrama de Secuencia del Caso de Uso: Estadísticas / Comparativos de
Producción 43
4.6. Diseño del Sistema 44
4.6.1. Diagrama de Clases 44
4.6.2. Diagrama de Actividades del Sistema 46
4.7. Descomposición en Subsistemas 47
4.8. Conclusiones 48
5. IMPLEMENTACIÓN 49
5.1. Introducción 49
5.2. Consideraciones de hardware y software 49
5.3. Arquitectura del Sistema SATC 50
5.3.1. Arquitectura General 50
5.3.2. Componentes del Subsistema Administración 52
5.3.3. Componentes del Subsistema Errores 53
5.3.4. Componentes del Subsistema Modelos 54
5.3.5. Componentes del Subsistema Utilidades 55
5.4. Instalación del Sistema SATC 56
5.5. Conclusiones 57
6. PRUEBAS Y RESULTADOS 58
6.1. Introducción 58
6.2. Pruebas del sistema 58
6.2.1. Caso de Uso: Buscar Tema 58
6.2.2. Caso de Uso: Estadísticas y Comparativos de Producción 59
6.2.3. Caso de Uso: Tendencia de la Presencia 61
6.2.4. Caso de Uso: Relación Temática 62
6.3. Resultados 63
6.3.1. “Communications of the ACM” 64
6.3.1.1. Estadísticas y Comparativas de Producción 64
6.3.1.2. Tendencia de la Presencia 69
6.3.1.3. Relación de Utilidad 73
6.3.2. Transactions on Database Systems 76
6.3.2.1. Estadísticas y Comparativos de Producción 76
6.3.2.2. Relación de Utilidad 78
6.3.3. Modelo “Estadísticas y Comparativas de Producción” 79
6.4. Conclusiones 83
7. CONCLUSIONES Y TRABAJO FUTURO 84
7.1. Conclusiones 84
7.2. Trabajo Futuro 85
BIBLIOGRAFÍA 86
A. TUTORIAL DE INSTALACIÓN SISTEMA SATC (Sistema de Análisis Temático del
Conocimiento) 88
B. TUTORIAL SATC (Sistema de Análisis Temático del Conocimiento) 103
C. CODIGO FUENTE SATC 115
D. THE ACM COMPUTING CLASSIFICATION SYSTEM (1998) 116