• No se han encontrado resultados

El estándar XML Topic Maps 1,0 como elemento de transición hacia una Web semántica

N/A
N/A
Protected

Academic year: 2021

Share "El estándar XML Topic Maps 1,0 como elemento de transición hacia una Web semántica"

Copied!
83
0
0

Texto completo

(1)

Facultad Matemática, Física  y Computación  Licenciatura en Ciencia de la Computación 

“El estándar XML Topic Maps 1,0 como elemento de transición  hacia una Web semántica” 

AUTOR 

Yorday Figueroa Sánchez 

TUTOR 

Ing. Dannis Rivero Cañizares 

“Año 50 de la Revolución” 

Santa Clara, 4 Julio de 2008

(2)

Hago constar que el presente trabajo fue realizado en la Universidad Central “Marta Abreu” 

de Las Villas como parte de la culminación de los estudios de la especialidad de Ciencia de  la Computación, autorizando a que el  mismo sea  utilizado por la  institución, para  los  fines  que  estime  conveniente,  tanto  de  forma  parcial  como  total  y  que  además  no  podrá  ser  presentado en eventos ni publicado sin la autorización de la Universidad. 

Firma del autor 

Los abajo firmantes, certificamos que el presente trabajo ha sido realizado según acuerdos de  la  dirección  de  nuestro  centro  y  el  mismo  cumple  con  los  requisitos  que  debe  tener  un  trabajo de esta envergadura referido a la temática señalada. 

Firma del tutor  Firma del jefe del 

Laboratorio

(3)
(4)

Marco Tulio Cicerón

(5)
(6)

A mi papá.

A mi mamá.

A mi hermana.

(7)
(8)

aquellos que son amables”

Agradezco especialmente al Lic. Julio César Báez Vergara, por la ayuda brindada pese a su estado de salud.

A mi madre, por su apoyo y amor infinito.

A mi padre, por estar siempre presente.

A mi hermana, quien ha compartido conmigo los momentos alegres y tristes sin dudarlo.

A Yosleiby, por su preocupación.

A mi tutor el Ing. Dannis Rivero Cañizares, por el tiempo invertido.

A mis abuelos y abuelas presentes o no, por la educación, paciencia y ayuda incondicional.

A mis tíos y tías, por ayudarme en todo lo que han podido.

(9)

A Guillermo, que nunca esta ocupado para ayudar a un amigo.

A Osley, por ser mí amigo y hermano.

A Leslie, por esos impulsos que me dio inconcientemente en la etapa final de este trabajo y...

A todos mis profesores, por la enseñanza brindada.

A mis amigos, por los momentos compartidos y conocimientos intercambiados.

A mi familia, que forma parte de este logro.

A todos muchas gracias

Yorday.

(10)

El Centro de Documentación e Información Científico­Técnica (CDICT) de  la Universidad  Central  de  Las  Villas  en  su  ambición  por transitar  por  los  cánones  de  la  Library  2,0  se  ha  dado  a  la  tarea  de  desarrollar  una  investigación  exploratoria  para  desarrollar  una  Web  semántica utilizando el estándar  Extensible Markup  Language Topic Maps (XTM)  1,0. El  presente trabajo consiste en el desarrollo de un sistema  computacional cuyo fin es posibilitar  la  navegación por una estructura semántica  de recursos de  información que se crea con  la  información almacenada en una de las bases de datos  del CDICT. La solidez del sistema se  encuentra  en  la  utilización  del  paquete  de  código  libre  Topic  Maps  for  Java  (TM4J),  que  realiza una correcta implementación del estándar XTM 1,0 y esta desarrollado en el lenguaje  de programación Java. El sistema se compone por dos aplicaciones, una aplicación Escritorio  que permite la construcción de la estructura semántica con la  información recuperada de la  base  de  datos  “Seriada”  y  la  otra  Web  con  la  posibilidad  de  navegar  por  la  información. 

Mediante la implementación de ambas aplicaciones se logra la navegación por la estructura 

semántica, lo que garantiza un mayor significado de la información en la Web por la que se 

navega.

(11)

The Documentation and Scientific and Technical Information Center (CDICT) of the Central  University of  Las  Villas   in  its wishes to transit  on Library 2.0  has  been  engaged with an  exploratory investigation  to develop a semantic web using  the Standard Extensible Markup  Language  Topic  Maps  (XTM)    1,0.  The  current  work  pretends  to  create  a  computational  system to facilitate surfing through a  information resources semantic structure created with  stored  information  in  one  of  the  databases  belonging  to the  CDICT.  The  system’s  solidity  lies  on  the  usage  of  the  free  code  package  Topic  Maps  for  Java  (TM4J),  which  makes  the  right implementation  for the standard  XTM 1,0 and, at the same time  is developed  in  Java  language.  Thus, the system is composed of two applications: 

1­Desktop  application,  which  enables  the  construction  of  the  semantic  structure  with  the  retrieved information from the database “Seriada”; 

2­ Web application, which enables to go through all the information. 

Through the implementation of both applications we achieve the navigation   of the semantic 

structure that  guarantees  more  structured  information  retrieved  from  the  previous  analysed 

structure.

(12)

INTRODUCCION ... 1 

CAPITULO 1: ANALISIS Y ELEMENTOS FUNDAMENTALES DE LA WEB SEMANTICA... 5 

1.1.  La universidad en el mundo cambiante y globalizado... 5 

1.1.1.  La universidad y la sociedad de la información y el conocimiento. ... 6 

1.2.  De la Web tradicional a la Web semántica. ... 7 

1.2.1.  La Web hoy. ... 8 

1.2.2.  La Web semántica. ... 12 

1.3.  De la Web actual a la Web semántica... 14 

1.3.1.  La Web semántica hoy... 16 

CAPITULO 2: DISEÑO E IMPLEMENTACION DE LOS SISTEMAS BTSM 1,0 y STMS 1,0. ... 18 

2.1.  El estándar XML Topic Maps 1.0. ... 18 

2.1.1.  Características generales del estándar XTM 1,0. ... 18 

2.1.2.  Componentes del modelo... 20 

2.1.3.  Entornos de aplicación... 22 

2.2.  Análisis del paquete Topic Maps for Java (TM4J)... 22 

2.2.1.  Arquitectura básica... 22 

2.2.2.  Cómo crear la estructura semántica en memoria... 25 

2.2.3.  Cómo construir el fichero “.xtm” a partir de una estructura semántica. ... 26 

2.2.4.  Cómo importar un fichero “.xtm” a memoria. ... 28 

2.2.5.  Cómo consultar una estructura semántica... 28 

2.3.  Recuperación de la información de la base de datos “Seriada”. ... 29 

2.3.1.  Transformación hacia XTM 1,0. ... 29 

2.4.  Análisis del diseño e implementación de la aplicación BTMS 1,0. ... 31 

2.4.1.  Descripción de los casos de uso generales del sistema BTMS 1,0... 31 

2.5.  Análisis del diseño e implementación de la aplicación STMS 1,0... 35

(13)

2.5.2.  Boceto estructural de los espacios del diseño. ... 40 

2.5.3.  Modelo de despliegue. ... 40 

2.6.  Herramientas  que  se  utilizaron  en  la  fase  de  implementación  de  los  sistemas  BTMS  1,0  y  SMTS 1,0. ... 41 

2.7.  Conclusiones parciales... 43 

CAPITULO 3: GUIA DEL NAVEGADOR... 44 

3.1.  Características generales del BTMS 1,0. ... 44 

3.1.1.  Requerimientos mínimos. ... 44 

3.1.2.  Descripción del funcionamiento... 44 

3.2.  Características generales del STMS 1,0... 49 

3.2.1.  Requerimientos mínimos. ... 49 

3.2.2.  Instalación. ... 50 

3.2.3.  Descripción de funcionamiento... 50 

CONCLUSIONES ... 57 

RECOMENDACIONES... 58 

BIBLIOGRAFIA... 59 

ANEXOS ... 62

(14)

Fig. 1.1 La Web vista por una persona………10 

Fig. 1.2 La Web vista por el programador………...……10 

Fig. 1.3 La Web actual vs La Web semántica...…..12 

Fig. 1.4 De la Web actual a la Web semántica……….………14 

Fig. 2.1 Arquitectura básica del TM4J……….……22 

Fig. 2.2 Exportando un archivo “.xtm” en TM4J……….………26 

Fig. 2.3 Base de datos “Seriada”……….….29 

Fig. 2.4 Casos de uso de la aplicación BTMS 1,0……….……..30 

Fig. 2.5 Casos de uso de la aplicación SMTS 1,0………....……34 

Fig. 2.6 Boceto estructural del sistema STMS 1,0……….…..39 

Fig. 2.7 Modelo de despliegue……….…..….….40 

Fig. 3.1 Aplicación BTMS 1,0 dividida en secciones………..…44 

Fig. 3.2 Menú Aplicación desplegado………..…44 

Fig. 3.3 Menú Base Datos desplegado……….…45 

Fig. 3.4 Configuración de usuario y contraseña……….……….…….45 

Fig. 3.5 Menú dividir desplegado………..…..46 

Fig. 3.6 Configuración de los grupos………..……….…46 

Fig. 3.7 Mostrar los resultados obtenidos………..…..48 

Fig. 3.8 Pagina principal del STMS 1,0……….…..……49 

Fig. 3.9 Formulario de búsqueda de artículos………..……..…..50 

Fig. 3.10 Resultado de la búsqueda de una palabra clave………..…..51 

Fig. 3.11 Resultado de mostrar un articulo………..….51 

Fig. 3.12 Lista de temáticas………...…..….52 

Fig. 3.13 Lista de revistas pertenecientes a la temática Humanidades………...53 

Fig. 3.14 Lista de revistas……….…...….…54 

Fig. 3.15 Resultado de mostrar una revista……….………..…55

(15)

Tabla 2.1 Descripción del caso de uso “Especificar usuario y contraseña”………31 

Tabla 2.2 Eventos del caso de uso “Especificar usuario y contraseña”………..31 

Tabla 2.3 Descripción del caso de uso “Especificar partición”………..32 

Tabla 2.4 Eventos del caso de uso “Especificar partición”……….…32 

Tabla 2.5 Descripción del caso de uso “Construir archivos”………..33 

Tabla 2.6 Eventos del caso de uso “Construir archivos”………33 

Tabla 2.7 Descripción del caso de uso “Seleccionar archivo”………35 

Tabla 2.8 Eventos del caso de uso “Seleccionar archivo”………..35 

Tabla 2.9 Descripción del caso de uso “Listar temáticas”………..36 

Tabla 2.10 Eventos del caso de uso “Listar temáticas”………..36 

Tabla 2.11 Descripción del caso de uso “Buscar artículos”……….……...37 

Tabla 2.12 Eventos del caso de uso “Buscar artículos”………..…37 

Tabla 2.13 Descripción del caso de uso “Mostrar revista”……….38 

Tabla 2.14 Eventos del caso de uso “Mostrar revista”………38

(16)

INTRODUCCION 

El desarrollo de la Web y el aumento en las necesidades de información de sus usuarios ha  impuesto  la  necesidad  de  disponer  de  una  red  en  la  que  cualquier  usuario  pueda  encontrar  respuestas a sus preguntas de  forma  más rápida  y sencilla gracias a una  información  mejor  definida,  y  disponer  de  sitios  estandarizados  donde  se  les  provea  de  información  mejor  entendible  por  los  ordenadores  los  sistemas  informáticos.  Al  dotar  a  la  web  de  más  significado  y,  por  lo  tanto,  de  más  semántica,  se  pueden  obtener  soluciones  a  problemas  habituales  en  la  búsqueda  de  información  gracias  a  la  utilización  de  una  infraestructura  común,  mediante  el  cual  es  posible  compartir,  procesar  y  transferir  información  de  forma  sencilla.  Esta  web  extendida  y  basada  en  el  significado,  se  apoya  en  estándares  que  solucionan los problemas ocasionados por una web carente de estandarización y viciada de  sitios  con  errores  en  sus  códigos  en  la  que  en  ocasiones  el  acceso  a  la  información  se  convierte en una tarea difícil y frustrante. 

Las necesidades de los usuarios no solo estriban en la información en sí, sino también en la  forma  de  obtenerla,  por  tanto,  urge  a  la  biblioteca  universitaria  brindar  acceso  a  estos  recursos, muchos de los cuales ni siquiera están disponibles en forma impresa. Ya no se trata  sólo de describir su contenido, forma y ubicación, hay que informar sobre su accesibilidad y  forma  de  distribución  y  precisamente  en  esto  estriba  los  conceptos  elementales  de  la  Web  Semántica. 

Las  universidades  y  sus  bibliotecas  no  escapan,  por  supuesto,  a  las  transformaciones  globales en el área de la informatización. El desarrollo de la tecnología, las demandas cada  vez más exigentes de los usuarios, las restricciones presupuestarias y el aumento exponencial  de  la  cantidad  de  recursos  de  información,  de  manera  tal  que  ninguna  organización  puede  mantenerlos físicamente, constituyen para las bibliotecas universitarias un complejo desafío,  sin embargo el desarrollo de las bibliotecas no ha estado alejado del mismo desarrollo de la  web.  Hoy  día  el  funcionamiento  de  una  biblioteca  se  enmarca  en  la  utilización  de  plataformas  web  y  herramientas  informáticas,  eso  ha  dado  lugar  a  un  nuevo  modelo  de  biblioteca conocido como Library 2,0. 

El  Centro  de  Documentación  e  Información  Científico­Técnica  (CDICT)  de  nuestra 

universidad  no  está  ajeno  de  todas  estas  transformaciones  y  poco  a  poco  ha  venido

(17)

desarrollando  un  papel  protagónico  como  centro  de  acceso  a  la  información  y  el  conocimiento.  Uno  de  los  principales  elementos  que  ha  ayudado  en  gran  medida  tal  desempeño  es  la  creación  de  grupos  investigativos  especializados  en  el  desarrollo  de  servicios  que  se  sustentan  en  las  tecnologías  de  la  Web  2,0,  en  este  contexto  se  enmarca  nuestro trabajo que persigue la representación con cierto grado de semántica de una base de  datos  aplicando  el  estándar  XML  Topic  Maps  1,0  y  así  dar  los  primeros  pasos  en  la  evolución  de  la  Web  Universitaria  hacia  una  Web  Semántica  y  por  ende  el  desarrollo  del  CDICT dentro de los cánones de la Library 2.0. 

Hipótesis de investigación. 

Es posible representar la información disponible en las bases de datos correspondientes a los  servicios  de  información  de  la  Biblioteca  Universitaria,  a  través  del  estándar  Topic  Map. 

Proveyendo  de  semántica  la  información  allí  disponible  y  haciéndola  más  entendible  a  los  sistemas y herramientas informáticas. 

Para dar cumplimiento a  la hipótesis de investigación se proponen los objetivos del trabajo. 

Objetivo general. 

Desarrollar una herramienta computacional, que permita la extracción de la información de  la  base  de  datos  del  servicio  “Seriada”  y  representarla  aplicando  el  estándar  XML  Topic  Maps 1,0 para añadirle semántica a la información e implementar una herramienta web que  sirva para explorar los posibles usos de esta filosofía de trabajo. 

Objetivos específicos. 

1.  Evaluar cual es la mejor vía para la aplicación del estándar XML Topic Maps 1,0. 

2.  Establecer  cuál  de  los  softwares  libres    que  se  utilizan  para  representar  el  estándar 

XML Topic Maps 1,0 se ajusta más a las especificaciones de nuestro problema.

(18)

3.  Diseñar e implementar el sistema necesario para la construcción de los archivos que  tendrán  la  información extraída de  la  base de datos después de aplicarle el  estándar  XML Topic Maps 1,0. 

4.  Diseñar  e  implementar  el  sistema  necesario  para  la  navegación  por  la  información  que se almacena en los archivos antes creados. 

Valor práctico. 

El valor práctico del trabajo realizado estriba en su originalidad toda vez que es parte de una  investigación exploratoria y de más alcance que tiene como finalidad la migración de la Web  de  la  Biblioteca Universitaria  hacia una  Web  semántica. Esta  migración permitirá disponer  de herramientas y servicios que beneficien la recuperación de la información disponible en la  red y el fortalecimiento del modelo de Library 2.0 iniciado en la Universidad. 

Descripción de los capítulos. 

El presente trabajo se encuentra dividido en tres capítulos. El primero aborda el tema de la  Sociedad del Conocimiento hoy día y el desarrollo de la Web Semántica y sus posibilidades  de  resolver  problemas  cotidianos  automáticamente.  También  hace  referencias  a  técnicas  usadas  para  incorporarle  el  significado  necesario  a  la  información.  En  el  segundo  se  mencionan aspectos generales del diseño e implementación de las herramientas Build Topic  Maps Seriada versión 1,0 (BTMS 1,0) y Search Topic Maps Seriada versión 1,0 (STMS 1,0). 

Por  último  en  el  tercer  capítulo  se  presenta  la  guía  del  navegador  donde  se  explica  el  funcionamiento de los dos sistemas antes mencionados. 

Descripción de anexos. 

En los anexos uno y dos se muestran los diagramas de clases de las aplicaciones BTMS 1,0 y 

STMS  1,0  respectivamente,  donde  se  especifican  las  clases,  atributos,  métodos  y  las 

relaciones  entre  las  clases.  Los  diagramas  de  clases  son  utilizados  durante  el  proceso  de 

análisis y diseño de los sistemas, donde se crea el diseño conceptual de la información  que 

se manejará en el sistema. Para facilitar la navegación por STMS 1,0 se muestra en el anexo

(19)

tres  el  diagrama  de  navegación  que  refleja  el  flujo  de  interacción  dentro  de  la  interfaz  de 

usuario.  El  cuarto  anexo  describe  una  Document  Type  Declaration  (DTD)  con  la  sintaxis 

para serializar e intercambiar documentos topic maps conformes a la especificación XTM.

(20)

CAPITULO  1:  ANALISIS  Y  ELEMENTOS  FUNDAMENTALES  DE LA WEB SEMANTICA. 

Las sociedades contemporáneas se enfrentan al reto de proyectarse y adaptarse a un proceso  de  cambio  que  viene  avanzando  muy  rápidamente  hacia  la  construcción  de  Sociedades  del  Conocimiento.  Este  proceso  es  dinamizado  esencialmente  por  el  desarrollo  de  nuevas  tendencias en  la generación, difusión  y utilización del  conocimiento, y está demandando  la  revisión y adecuación de muchas de las empresas y organizaciones sociales y la creación de  otras  nuevas  con  capacidad  para  asumir  y  orientar  el  cambio.  Una  Sociedad  del  Conocimiento  es  una  sociedad  con  capacidad  para  generar,  apropiar,  y  utilizar  el  conocimiento para atender  las necesidades de su desarrollo y así construir su propio futuro,  convirtiendo la creación y transferencia del conocimiento en herramienta de la sociedad para  su propio beneficio. 

Jugando un papel preponderante en este entorno se encuentran las Universidades y por ende  sus bibliotecas que están llamadas a ser las locomotoras del cambio en sus centros, para ello  están avocadas a cambios tanto estructurales como de cultura de la profesión toda vez que se  supone un accionar totalmente novedoso. 

Con  el  desarrollo  de  la  Web  y  el  planteamiento  de  nuevas  inquietudes  a  resolver  se  han  venido  desarrollando  una  serie  de  softwares  y  estándares  que  han  dado  paso  a  una  nueva  estructura de la Web. 

1.1.  La universidad en el mundo cambiante y globalizado. 

En  el  contexto  descrito  anteriormente  están  insertadas  las  universidades  que  han  de  ir 

adaptándose  a  estas  realidades  caracterizadas  por  un  cambio  incesante  e  inesperado,  y  por 

una  creciente  globalización,  el  paradigma  clásico  de  una  universidad  tradicional  y  casi 

inmutable  no  resulta  muy  congruente  con  las  nuevas  realidades  y  demandas  sociales,  y 

científicas, tanto actuales como  futuras. Por otra parte, si consideramos que, cada  vez  más, 

importantes investigaciones coinciden en afirmar que «ninguna sociedad actual es superior a 

sus universidades », resulta evidente que un instrumento esencial del progreso y el desarrollo

(21)

es  la  universidad.  En  efecto,  no  hay  países  realmente  avanzados  que  no  cuenten  con  un  eficaz sistema universitario y, dentro de él, con unas sólidas y permanentes investigaciones. 

Estas categóricas afirmaciones adquieren especial importancia para el caso de Iberoamérica,  donde,  por  la  acumulación  de  diversos  factores,  muchas  de  sus  universidades  más  importantes  están  evidenciando,  hoy  día,  serias  y  continúas  limitaciones  para  poder  modificar rápida y profundamente sus modelos, estructuras y procedimientos obsoletos, con  la finalidad de responder funcional y oportunamente a las nuevas y exigentes demandas. 

Los sistemas de educación  superior, dice  la Declaración Mundial (París, octubre de 1998),  deberían aumentar su capacidad para vivir en medio de la incertidumbre, para transformarse  y  provocar  el  cambio…  La  incertidumbre  no  debe  conducirnos  a  la  perplejidad,  sino  a  la  disposición para el cambio y a la ampliación y renovación incesante del conocimiento. Si el  siglo XX fue el siglo de la búsqueda de certezas científicas y del desarrollo acelerado de las  diferentes disciplinas del conocimiento humano, el presente siglo está llamado a ser el siglo  de la incertidumbre y la interdisciplinariedad. 

Por consiguiente, si la universidad es un instrumento tan decisivo para las sociedades, resulta  inaplazable poder transformar  profundamente tanto sus  instituciones  individuales como sus  sistemas, redes o conjuntos universitarios. No obstante, no sería justo dejar de reconocer que,  especialmente  durante  los  últimos  veinte  años,  diversas  universidades  de  esta  área  han  acometido  cambios  e  intervenciones  para  mejorar  su  condición,  pero,  en  general,  con  resultados de escasa trascendencia. 

1.1.1.  La universidad y la sociedad de la información y el conocimiento. 

Resulta evidente el papel crucial que deberá desempeñar  la universidad para  lograr  que  las  respectivas  sociedades  tradicionales  avancen  hacia  la  conformación,  en  primer  lugar,  de  la  sociedad  de  la  información  y,  en  último  término,  idealmente,  hacia  la  sociedad  del  conocimiento. 

Para  avanzar  hacia  tales  objetivos,  (Tünnermann,  2000)  señala:  «La  médula  del  problema 

radica  en  que  nos  encontramos  en  una  etapa  de  transición  y  por  lo  mismo  crítica,  entre  la 

educación superior elitista y la educación superior masiva.

(22)

Las actuales estructuras académicas responden a la educación superior elitista; por lo mismo,  les es imposible, sin una profunda transformación, hacer frente al fenómeno de masificación. 

Son, en general, demasiado rígidas, poco diversificadas, y carentes de adecuados canales de  comunicación entre sus distintas modalidades y con el mundo de la producción y del trabajo. 

La  homogeneidad de sus programas  no  les permite atender  la amplia gama de  habilidades,  intereses  y  motivaciones de una población  estudiantil cada  vez  más extensa  y  heterogénea; 

su excesiva compartimentalización contradice  la  naturaleza  esencialmente  interdisciplinaria  del conocimiento moderno; su apego a  los sistemas  formales  les  impide servir con eficacia  los propósitos de la educación permanente». 

Naturalmente,  en  cada  uno  de  los  casos,  las  estrategias  requeridas  tendrán  grandes  diferencias, y las de mayor complejidad corresponderán principalmente a las sociedades que  acusen un escaso desarrollo y dispongan todavía de unas instituciones y sistemas educativos  de  insuficiente  consolidación.  Por  ello,  la  UNESCO,  en  su  reciente  declaración  mundial  sobre  la  educación  superior,  reconoce  su  importancia  estratégica  en  la  sociedad  contemporánea  y  concluye  que:  «La  propia  educación  superior  ha  de  emprender  su  transformación y la renovación más radical que jamás haya tenido por delante». 

1.2.  De la Web tradicional a la Web semántica. 

Una vez que se ha expuesto los basamentos esenciales de la Library 2.0 y toda vez que ella  se materializa sobre la Internet detengámonos en el análisis del origen y el desarrollo de esta  plataforma. 

La aparición de  la  WWW se puede situar  en 1989 (Abrams 1998, Connolly 2000), cuando  Tim  Berners­Lee  presentó  su  proyecto  de  “World  Wide  Web”  (Berners­Lee  1989)  en  el  CERN  (Suiza),  con  las  características  esenciales  que  perduran  en  nuestros  días.  El  propio  Berners­Lee  completó  en  1990  el  primer  servidor  Web  y  el  primer  cliente,  y  un  año  más  tarde publicó el primer borrador de las especificaciones de HTML y HTTP. 

El lanzamiento en 1993 de Mosaic, el primer navegador de dominio público, compatible con 

Unix,  Windows,  y  Macintosh,  por  el  National  Center  for  Supercomputing  Applications 

(NCSA),  marca  el  momento  en  que  la  WWW  se  da  a  conocer  al  mundo,  extendiéndose

(23)

primero  en  universidades  y  laboratorios,  y  en  cuestión  de  meses  al  público  en  general,  iniciando  el  que  sería  su  vertiginoso  crecimiento.  Los  primeros  usuarios  acogieron  con  entusiasmo la facilidad con que se podían integrar texto y gráficos y saltar de un punto a otro  del  mundo  en  una  misma  interfaz,  y  la  extrema  sencillez  para  contribuir  contenidos  a  una  Web mundial. 

Por  estas  mismas  fechas  se  define  la  interfaz  CGI  para  la  generación  dinámica  de  páginas  Web,  con  lo  que  se  consigue  ofrecer  información  actualizada  en  tiempo  real,  enlazar  con  bases  de  datos,  o  tener  en  cuenta  entradas  del  usuario,  y  más  aún,  servir  como  punto  de  acceso  y  plataforma  para  la  ejecución  de  aplicaciones  distribuidas.  En  1994  miembros  del  equipo  que  creó  Mosaic  desarrollan  Netscape,  un  navegador  con  sensibles  mejoras  que  contribuye  a  impulsar  la  propagación  de  la  web.  Este  mismo  año  se  celebra  el  primer  congreso  internacional  de  la  WWW,  y  unos  meses  más  tarde  se  constituye  el  consorcio  W3C,  que  desde  entonces  y  presidido  por  Tim  Berners­Lee,  se  ha  hecho  cargo  de  estandarizar  las  principales  tecnologías  Web.  En  1995  Sun  lanza  oficialmente  la  primera  versión del lenguaje Java, y un año más tarde Netscape presenta JavaScript. Estos lenguajes  y  otros  posteriores  permiten  que  las  propias  páginas  Web  contengan  programas  enteros,  dando  opción  a  una  mayor  autonomía  respecto  del  servidor,  mayor  eficiencia,  capacidad  dinámica y capacidad de interacción. 

1.2.1.  La Web hoy. 

Es  sumamente  difícil  medir  el  tamaño  de  la  Web,  pero  se  estima  que  hoy  día  alberga  un  volumen  de  información  equivalente  a  entre  14  y  28  millones  de  libros  (Bergman  2001). 

Como  dato  comparativo,  la  asociación  American  Research  Libraries,  que  agrupa  unas  100  bibliotecas  en  EE.UU.,  tiene  catalogados  unos  3.7  millones  de  libros.  La  biblioteca  de  la  Universidad de Harvard, la mayor de EE.UU., contiene en torno a 15 millones de libros. 

Estas cifras  incluyen sólo lo que se ha dado en denominar  la  Web superficial,  formada por 

los  documentos  estáticos  accesibles  en  la  Web.  Se  ha  calculado  que  la  llamada  Web 

profunda, constituida por las bases de datos cuyos contenidos, no directamente accesibles, se 

hacen  visibles  mediante  páginas  generadas  dinámicamente,  puede  contener  un  tamaño  de 

información  varios  cientos  de  veces  mayor,  y  de  mucha  mejor  calidad,  que  la  Web

(24)

superficial, y crece a un ritmo aún mayor que ésta (O’Neill 2003). Se estima que el tamaño  de  la  Web profunda  ha  superado  ya  al  volumen  total  de  información  impresa  existente  en  todo el planeta. 

Hoy casi todo está representado de una u otra forma en la Web, y con la ayuda de un buen  buscador,  podemos  encontrar  información  sobre  casi  cualquier  cosa  que  necesitemos.  La  Web está cerca de convertirse en una enciclopedia universal del conocimiento humano. 

Por otra parte la Web nos permite realizar diferentes actividades de nuestra vida diaria con  una  comodidad,  economía  y  eficiencia  sin  precedentes:  sin  movernos  de  casa  podemos  comprar  todo  tipo  de  productos  y  servicios,  gestionar  una  cuenta  bancaria,  buscar  un  restaurante, consultar la cartelera, leer la prensa, localizar a una persona, matricularnos en la  universidad, acceder a un callejero, o trabajar desde nuestro domicilio. 

No  obstante,  en  este  panorama  tan  favorable  hay  espacio  para  mejoras.  Por  ejemplo,  el  enorme tamaño que ha alcanzado la Web, a la vez que es una de las claves de su éxito, hace  que  algunas  tareas  (por  ejemplo  encontrar  la  planificación  óptima  con  transporte,  alojamiento, etc., entre todas  las posibles para un viaje  bajo ciertas condiciones), requieran  un tiempo excesivo para una persona o resulten sencillamente inabarcables. 

Desarrollar  programas  que  realicen  estas  tareas  en  nuestro  lugar  es  enormemente  complicado, ya que es muy difícil reproducir, y más costoso aún mantener, en una máquina  la  capacidad  de  una  persona  para  comprender  los  contenidos  de  la  Web  tal  y  como  están  codificados actualmente. 

La asombrosa eficacia de los buscadores actuales tiene también sus límites. Por ejemplo, si 

queremos  conocer  la  historia  de  Netscape,  los  resultados  de  una  consulta  como  “Netscape 

history”,  nos  informan  sobre  las  herramientas de  históricos de este  navegador, pero no nos 

dicen  nada  sobre  el  origen  y  evolución  de  Netscape.  Igualmente,  para  averiguar  qué 

organismo se ocupa de estandarizar CGI, o en qué fecha apareció la primera versión de Java, 

necesitaremos  realizar  varias  consultas  y  leer  varios  documentos  y  artículos  hasta  llegar 

indirectamente  a  la  respuesta  buscada.  Si  introducimos  la  palabra  “Ketchup”  para  buscar 

información  sobre  el  grupo  de  música  del  mismo  nombre,  obtendremos  enlaces  a 

restaurantes,  recetas,  fabricantes,  distribuidores  y  clubes  de  aficionados  al  condimento,  y

(25)

finalmente  lo  que  buscábamos  (posiblemente  ni  siquiera  esto  si  el  grupo  fuese  menos  popular). 

Con los continuos cambios de la Web y los algoritmos de los buscadores, los resultados de  estas pruebas pueden variar de un día para otro. 

Si  buscamos  un  “artículo  sobre  García  Márquez”,  encontraremos  decenas  de  artículos  de  García  Márquez,  pero  ninguno  que trate  sobre  este  autor.  Si  preguntamos  sobre  estándares  XML para la enseñanza (“XML education”), la mayor parte de los resultados se referirán a la  enseñanza de XML. 

Todos  estos  ejemplos  son  el  síntoma  de  una  causa  común:  la  falta  de  capacidad  de  las  representaciones en que se basa la Web actual para expresar significados. Los contenidos  y  servicios  en  la  Web  se  presentan  en  formatos  (p.e.  HTML)  e  interfaces  (p.e.  formularios)  comprensibles por personas, pero no por máquinas. La Fig. 1.1 ejemplifica esta situación con  una versión simplificada de una página de información meteorológica. 

Mientras que la presentación de los datos en el navegador es inmediatamente  comprendida 

por una persona, es muy difícil para el ordenador entender cuál es la temperatura, el estado 

del  cielo,  y  demás  semántica  del  documento,  al  estar  entremezclada  con  las  etiquetas  de 

formato (Véase Fig. 1.2).

(26)

Fig. 1.1 La Web vista por una persona. 

<html><head><title>Yahoo! Weather ­ Harare (Zimbabwe) Forecast 

</title></head><body><table width=100%><tr bgcolor=CCCCFF><td> 

<b>Harare Today</b></td></tr> <tr><td>at 1:00 pm CAT</td></tr> 

<tr><td><table width=100%><tr align=center><td rowspan=2  bgcolor=FFCC66>Currently:<br><b><font size=+2>21&ordm;C</font> 

</b></td><td rowspan=2 bgcolor=EEEEEE><img src=thunderstorm.gif> 

<br>Thunderstorms</td> <td bgcolor=FF9966>Hi: <b>27</b></td></tr> 

<tr align=center><td bgcolor=FFFF99>Lo: <b>18</b></td></tr> 

</table><p><center><img src=cscale.gif></center><p><table  width=100%><tr><td><b>Appar Temp:</b></td><td>21&deg;</td><td> 

<b>Dewpoint:</b></td><td>16&deg;</td></tr><tr><td><b>Barometer: 

</b></td><td>1017 mb; falling</td><td><b>Wind:</b></td><td>SE/10  mph </td></tr><tr><td><b>Humidity:</b></td><td>73%</td><td><b> 

Visibility:</b></td><td>6 mi</td></tr></table></td></tr></table> 

</body></html> 

Fig. 1.2 La Web vista por el ordenador.

(27)

En estas condiciones es poco viable automatizar tareas mediante software en substitución del  humano. Un programa puede llevar al usuario hasta lugares en la Web, generar, transportar,  transformar  y ofrecer  la información a las personas, pero la máquina sencillamente no sabe  lo  que  esta  información  significa,  y  por tanto  su capacidad  de  actuación  autónoma  es  muy  limitada. Esta misma limitación expresiva hace que la noción de semántica que manejan los  buscadores  Web  se  limite  a  palabras  clave  con  pesos,  pero  planas  e  inconexas,  lo  que  no  permite reconocer ni solicitar significados más elaborados. 

1.2.2.  La Web semántica. 

La  Web  semántica  (Berners­Lee  2001)  propone  superar  las  limitaciones  de  la  Web  actual 

mediante la introducción de descripciones explícitas del significado, la estructura interna y la 

estructura  global  de  los  contenidos  y  servicios  disponibles  en  la  WWW.  Frente  a  la 

semántica  implícita,  el  crecimiento  caótico  de  recursos,  y  la  ausencia  de  una  organización 

clara de  la  Web actual,  la  Web semántica aboga por clasificar, dotar de estructura y anotar 

los  recursos  con  semántica  explícita  procesable  por  máquinas.  La  Fig.  1.3  ilustra  esta 

propuesta. Actualmente la Web se asemeja a un grafo formado por nodos del mismo tipo, y 

arcos (hiperenlaces) igualmente indiferenciados. Por ejemplo, no se hace distinción entre la 

página personal de un profesor y el portal de una tienda on­line, como tampoco se distinguen 

explícitamente  los  enlaces  a  las  asignaturas  que  imparte  un  profesor  de  los  enlaces  a  sus 

publicaciones.  Por  el  contrario  en  la  Web  semántica  cada  nodo  (recurso)  tiene  un  tipo 

(profesor,  tienda,  pintor,  libro),  y  los  arcos  representan  relaciones  explícitamente 

diferenciadas (pintor – obra, profesor – departamento, libro – editorial).

(28)

Fig. 1.3 La Web actual vs la Web semántica. 

La Web semántica mantiene los principios que han hecho un éxito de la Web actual, como  son  los  principios  de  descentralización,  compartición,  compatibilidad,  máxima  facilidad  de  acceso y contribución, o la apertura al crecimiento y uso no previstos de antemano. En este  contexto  un  problema  clave  es  alcanzar  un  entendimiento  entre  las  partes  que  han  de  intervenir en la construcción y explotación de la Web: usuarios, desarrolladores y programas  de  muy  diverso  perfil.  La  Web  semántica  rescata  la  noción  de  ontología  del  campo  de  la  Inteligencia Artificial como vehículo para cumplir este objetivo. 

Gruber define ontología como “a formal explicit specification of a shared conceptualization” 

(Gruber 1993). Una ontología es una jerarquía de conceptos con atributos y relaciones, que 

define  una  terminología  consensuada  para  definir  redes  semánticas  de  unidades  de 

información  interrelacionadas.  Una  ontología  proporciona  un  vocabulario  de  clases  y 

relaciones  para  describir  un  dominio,  poniendo  el  acento  en  la  compartición  del 

conocimiento y el consenso en  la representación  de éste. Por ejemplo, una ontología  sobre 

arte podría incluir clases como Pintor, Cuadro, Estilo o Museo, y relaciones como autor de 

un cuadro, pintores pertenecientes a un estilo artístico u obras localizadas en un museo.

(29)

La  idea  es  que  la  Web  semántica  esté  formada  (al  menos  en  parte)  por  una  red  de  nodos  tipificados  e  interconectados  mediante  clases  y  relaciones  definidas  por  una  ontología  compartida por sus distintos autores. Por ejemplo, una  vez establecida una ontología  sobre  cuadros y pintura, un museo virtual puede organizar sus contenidos definiendo instancias de  pintores,  cuadros,  etc.,  interrelacionándolas  y  publicándolas  en  la  Web  semántica.  La  adopción  de  ontologías  comunes  es  clave  para  que  todos  los  que  participen  de  la  Web  semántica, contribuyendo o consumiendo recursos, puedan trabajar de forma autónoma con  la garantía de que las piezas encajen. Así por ejemplo varios museos podrían colaborar para  dar lugar a un gran meta­museo que integre los contenidos de todos ellos. Un programa que  navegue  por  una  red  como  ésta  puede  reconocer  las  distintas  unidades  de  información,  obtener datos específicos o razonar sobre relaciones complejas. A partir de aquí sí podemos  distinguir entre un cuadro pintado por un artista y un retrato de un artista. 

Por último, la Web no solamente proporciona acceso a contenidos sino que también ofrece  interacción  y  servicios  (comprar  un  libro,  reservar  una  plaza  en  un  vuelo,  hacer  una  transferencia  bancaria,  simular  una  hipoteca).  Los  servicios  Web  semánticos  son  una  línea  importante  de  la  Web  semántica,  que  propone  describir  no  sólo  información  sino  definir  ontologías  de  funcionalidad  y  procedimientos  para  describir  servicios  Web:  sus  entradas  y  salidas, las condiciones necesarias para que se puedan ejecutar, los efectos que producen, o  los pasos a seguir cuando se trata de un servicio compuesto. Estas descripciones procesables  por máquinas permitirían automatizar el descubrimiento, la composición,  y  la ejecución de  servicios, así como la comunicación entre unos y otros. 

1.3.  De la Web actual a la Web semántica. 

Llegados a este punto una pregunta importante a responder es cómo encaja la Web semántica 

con  la  actual,  es  decir  cómo  accederá  el  usuario  a  la  Web  semántica,  y  sobre  todo,  cómo 

hacer  la transición de la Web actual a la Web semántica. Para que la Web semántica pueda 

realizarse  es  importante  que  guarde,  al  menos  al  principio,  una  compatibilidad  con  la 

tecnología actual. Es deseable por ejemplo mantener HTML (u otros lenguajes compatibles 

con los navegadores actuales) como vehículo de comunicación con el usuario. La asociación 

entre las instancias de la Web semántica y el código HTML se puede establecer de distintas

(30)

maneras  (Véase  Fig.  1.4).  Una  consiste  en  conservar  los  documentos  actuales,  y  crear  las  instancias asociadas anotando su correspondencia con los documentos. Esta posibilidad es la  más  viable  cuando  se  parte  de  un  gran  volumen  de  material  antiguo.  Otra  es  generar  dinámicamente páginas Web a partir de las ontologías y sus instancias. 

Esta  última  opción  puede  resultar  factible  cuando  los  documentos  antiguos  ya  se  estaban  generando automáticamente a partir, por ejemplo, de una base de datos. 

Fig. 1.4. De la Web actual a la Web semántica. 

La  transición  de  la  Web  actual  a  la  Web  semántica  puede  implicar  un  coste  altísimo  si  tenemos en cuenta el volumen de contenidos que ya forman parte de la Web. Crear y poblar  ontologías  supone  un  esfuerzo  extra  que  puede  resultar  tedioso  cuando  se  agregan  nuevos  contenidos,  pero  directamente  prohibitivo  por  lo  que  respecta  a  integrar  los  miles  de  gigabytes de contenidos antiguos. Las estrategias  más  viables combinan una pequeña parte  de  trabajo  manual  con  la  automatización  del  resto  del  proceso.  Las  técnicas  para  la  automatización  incluyen,  entre  otras,  el  mapeo  de  la  estructura  de  bases  de  datos  a  ontologías,  el  aprovechamiento,  previa  conversión,  de  los  metadatos  y  estándares  de  clasificación presentes en la Web (y fuera de ella), y la extracción automática de metadatos a  partir de texto y recursos multimedia. 

Otra  dificultad  importante  a  la  hora  de  realizar  la  Web  semántica  en  la  práctica  es  la  de 

consensuar  ontologías  en  una  comunidad  por  poco  amplia  que  sea.  Converger  a  una 

representación  común  es  una  labor  más  compleja  de  lo  que  puede  parecer,  ya  que 

típicamente  cada  parte  del  sistema  conlleva  peculiaridades  necesarias,  y  un  punto  de  vista

(31)

propio que a menudo necesitan incidir en la propia ontología. La representación del mundo  no  es  neutra  respecto  al  uso  que  se  le  va  a  dar:  tanto  un  dietista  como  un  biólogo  tienen  conocimiento  sobre  las  plantas,  pero  su  representación  de  esa  materia  es  muy  distinta,  y  probablemente no sería adecuado imponer la misma representación para ambas perspectivas. 

Las vías para salvar esta dificultad consisten en compartir ontologías para las áreas comunes  en  que  puede  tener  lugar  una  interacción  o  intercambio  de  información  entre  las  partes,  y  establecer  formas  de  compatibilidad  con  las  ontologías  locales,  mediante  extensión  y  especialización de las ontologías genéricas, o por mapeo y exportación entre ontologías. 

1.3.1.  La Web semántica hoy. 

Los  resultados  alcanzados  hasta  ahora  hacia  la  realización  de  la  Web  semántica  son  muy  preliminares si se mira desde la óptica más ambiciosa, la de la adopción universal de la Web  semántica.  Se  ha  avanzado  mucho  con  las  herramientas,  los  estándares  y  la  infraestructura  necesarios  para  el  despliegue  de  la  Web  semántica,  y  se  han  desarrollado  proyectos  y  experiencias  piloto  para  poner  a  prueba  las  herramientas  y  las  ideas.  En  este  punto,  el  desarrollo  de  aplicaciones  reales  basadas  en  esta  tecnología  se  ha  identificado  como  una  realización necesaria para que la Web semántica prospere (Haustein 2002). 

Existe un gran interés desde el entorno corporativo, el sector público y el mundo académico  por  hacer  de  la  Web  semántica  una  realidad,  ya  que  se  piensa  que  puede  ser  una  pieza  importante  para  el  progreso  de  la  sociedad  de  la  información.  Las  grandes  agencias  de  financiación  pública  (programas  marco  EU­IST  en  Europa,  DARPA  en  EE.UU.)  incluyen  áreas  prioritarias  específicas  dedicadas  a  la  Web  semántica,  y  están  invirtiendo  grandes  presupuestos en proyectos de investigación y desarrollo en este campo (la última llamada del  VI Programa Marco ha destinado más de 60.000 millones de euros al área “Semantic­based  Knowledge Systems” para los próximos cuatro años). 

Las  principales  empresas  (IBM,  Microsoft,  Sun,  Oracle,  BEA,  SAP,  HP…)  están  participando activamente en el desarrollo de los estándares y tecnologías. 

La  Web semántica se ha convertido en un área de  investigación de  moda en  los centros de 

investigación  de  todo  el  mundo,  entre  ellos  el  MIT,  la  Universidad  de  Stanford,  la

(32)

Universidad  de  Maryland,  la  Universidad  de  Innsbruck  (Austria),  la  Universidad  de  Karlsruhe (Alemania), la Universidad de Manchester, la Open University en el Reino Unido,  por  citar  tan  sólo  algunos  de  los  grupos  más  destacados.  También  en  la  Universidad  Autónoma de Madrid se están llevando a cabo proyectos en esta área. En pocos años se ha  consolidado  una  comunidad  investigadora  considerable,  de  cuyo  reflejo  cabe  destacar  un  gran congreso  internacional que  se celebra con carácter  anual (International Semantic  Web  Conference), y revistas como el Journal of Web Semantics, o el área The Semantic Web de  Electronic Transactions on  Artificial Intelligence  (ETAI). Es muy de destacar  así  mismo el  apoyo y el importante papel del W3C en el proyecto de la Web semántica, con la creación de  grandes  y  muy activos grupos de trabajo para el  desarrollo de esta área,  y  muy en especial  liderando el esfuerzo de estandarización de  lenguajes  y tecnologías específicas para  la web  semántica. 

Aún  queda  mucho  trabajo  por  hacer.  Se  necesita  crear  más  y  mejor  tecnología  e 

infraestructura,  y  más  aún,  desarrollar  aplicaciones  reales  que  pongan  en  práctica  los 

principios de la Web semántica, que pueblen la Web con ontologías, y que hagan que la Web 

semántica adquiera la masa crítica imprescindible para hacerse realidad. En espera de que se 

alcance esta meta y al margen de ese debate, se han desarrollado ideas muy aprovechables a 

niveles  específicos,  y  se  han  abierto  nuevos  campos  para  la  innovación,  suficientemente 

interesantes para motivar la investigación en esta área.

(33)

CAPITULO  2:  DISEÑO  E  IMPLEMENTACION  DE  LOS  SISTEMAS BTSM 1,0 y STMS 1,0. 

En el presente capítulo se abordan aspectos generales relacionados con la implementación y  diseño  de  las  aplicaciones  BTMS  1,0  y  STMS  1,0.  Paralelamente  se  hará  un  análisis  del  estándar XTM 1,0 como gramática abstracta XML para el intercambio de mapas de tópicos  diseñados  para  la  Web,  además  de  un  amplio  estudio  del  paquete  Topic  Maps  for  Java  (TM4J) como instrumento fundamental que servirá de base del proceso de implementación  de ambas aplicaciones  mencionadas anteriormente. 

2.1.  El estándar XML Topic Maps 1.0. 

La publicación del  modelo  Topic  Maps  como estándar  por  la   International  Organization  for  Standardization  (ISO)  en  el  año  2000  y  su  posterior  adaptación  al  lenguaje  XML  mediante  la  especificación  XTM,  para  una  mejor  incorporación  de  éste  a  la  Web,  ha  ido  despertando un interés creciente. 

A pesar de que el modelo tiene, en un primer acercamiento, un componente principalmente  técnico o tecnológico que puede dificultar su comprensión, los presupuestos teóricos que lo  sustentan  conceptualmente  son  muy  cercanos  a  los  que  maneja  la  documentación.  Al  dirigirse sus primeras aplicaciones  hacia  el desarrollo de sistemas  informáticos de Gestión  de  Conocimiento  empresarial  y  el  mantenimiento  y  gestión  de  sitios  Web,  los  documentalistas  del  área  comenzaron  a  prestarle  atención,  al  tiempo  que  sus  impulsores  desde el área técnica descubrían  la utilidad de  los vocabularios controlados como punto de  partida idóneo para la construcción de Topic Maps.(Pepper and Moore, 2001) 

2.1.1.  Características generales del estándar XTM 1,0. 

Los inicios del estándar Topic Maps  se localizan  en los trabajos  que el llamado Grupo de 

Davenport,  surgido  de  un  consorcio  de  empresas,  comenzó  en  1991  con  la  intención  de 

desarrollar  un  estándar  para  la  documentación  técnica  de  software  (Pepper  and  Moore,

(34)

2001). Dividido en dos subgrupos en 1993, uno de ellos se centró en definir una DTD para el  contenido de los manuales, que dio como resultado la DTD DocBook que esta diseñada para  documentación  del  área  informática,  aunque  muchos  autores  de  otros  campos  lo  han  ido  adaptando  porque  su  estructura  refleja  la  idea  abstracta  que  se  tiene  de  un  libro;  el  otro  subgrupo,  Conventions  for  the  Application  of  HyTime  (CApH),  tenía  como  objetivo  desarrollar un índice común a partir de distintas fuentes de documentación. Esta tarea, que en  principio  les  pareció  que  no  revestiría  grandes  dificultades,  resultó  más  compleja  de  lo  esperado. 

En 1996 el grupo de trabajo de Standard Generalized Markup Language (SGML) de la ISO  aceptó  el  borrador  desarrollado,  denominado  entonces  “Topic  Navigation  Maps”. 

Finalmente, en el verano de 1999 fue aceptado como norma en la International Organization  for Standardization / International Electrotechnical Comission (ISO/IEC) y publicada como  ISO/IEC 13250:2000. 

A  comienzos  del  2000  se  funda  una  organización  independiente,  TopicMaps.Org,  con  el  objetivo de adaptar esta norma a un lenguaje más adecuado para la Web. Basándose en las  recomendaciones  XML  y  el  estándar  para  enlaces  XML  Linking  Language  (XLink)  del  World Wide Web Consortium (W3C), publicó  la primera versión de una DTD para expresar  Topic Maps en marzo de 2001, conocida como XTM. 

La especificación XTM 1,0 fue admitida por la ISO he incorporada al estándar mediante una  Enmienda  Técnica.  En  mayo  del  2002  la  ISO  aprobó  y  publicó  la  segunda  edición  de  la  norma, recogida finalmente como ISO/IEC 13250:2003 (Eíto Brun, 2001). 

El  modelo  intenta  proporcionar  un  esquema  de  representación  de  estructuras  de  conocimiento,  en  forma  de  red  semántica,  asociarlas  con  recursos  de  información  y  que  incorpore un valor añadido similar al que un índice analítico añade a un libro. Denominado 

“GPS  del  universo  de  información”  por  Charles  F.  Goldfarb,  el  desarrollador  de  los 

lenguajes  de  marcado  y  del  lenguaje  SGML,  los  Topic  Maps  permite  tanto  organizar

(35)

documentos digitales como navegar a través de la estructura semántica que los conecta entre  sí (R. Newcomb and Biezunski, 2002). 

2.1.2.  Componentes del modelo. 

El núcleo central del modelo definido por el estándar ISO/IEC 13250:2003 Topic Maps está  constituido  por  tres  elementos  básicos:  Topic,  Association,  y  Occurrence  (Pepper  and  Moore, 2001). Esta tríada de conceptos  fue recogida como el TAO de  los Topic Maps por  Steve Pepper, uno de los editores de XTM. 

Un  Topic  Maps  se  funda  sobre  el  concepto  de  topic,  el  cual  constituye  la  representación  material o concreta del subject, percepción humana abstracta de una realidad. La noción de  subject es el punto de partida conceptual sobre el que descansa el modelo, siendo definido en  la norma en los siguientes términos. 

“En  el  sentido  más  amplio,  un  subject  es  cualquier  cosa,  con  independencia  de  si  existe  o  tiene  otras  características  específicas,  sobre  la  cual  puede  decirse  cualquier  cosa  con  cualquier significado” según (Pepper and Moore, 2001). Para aclarar la definición se indica  que “el corazón invisible de cada topic es el subject que su autor tenía en mente cuando fue  creado ” según (Colmenero Ruiz, 2003)

Así, el término topic indica el objeto u elemento del Topic Maps que representa al subject  al  que se está refiriendo, haciéndolo real para el sistema. Entre topic y subject se establece una  relación biunívoca en la cual un subject es representado por un único topic y viceversa. 

Cada  topic  es  una  instancia  de  una  o  más  clases  de  topics  (denominados  también  topic  types),  que  pueden  o  no  indicarse  de  forma  explícita.  Los  topic  types  o  clase  de  topic  son  topics  igualmente.  Esta  relación  clase­instancia  según  la  especificación  XTM    lo  realiza  mediante el elemento instanceOf. 

El  proceso  de  materialización  de  los  subjects  como  topics  hace  posible  la  asignación  de 

características  a  éstos  últimos.  Cada  topic  puede  tener  las  características  siguientes:  una 

denominación (topic name), un o unos ejemplos o descripciones (topic occurrence) y un rol

(36)

como  miembro de una asociación. Dos topics  con  las  mismas características  se  consideran  idénticos,  produciendo  duplicidad,  por  lo  que  uno  de  ellos  se  eliminará  cuando  el  Topic  Maps sea procesado.(Pepper and Moore, 2001) 

El nombre, legible para los humanos, de un topic se inscribe a través del topic name. Dado  que un  mismo  concepto puede ser  designado con una gran  variedad de  nombres, e  incluso  ninguno  válido,  el  modelo  permite  definir  nombres  normalizados  a  los  topics  que  sean  significativos desde el punto de vista semántico, al mismo tiempo que concede la posibilidad  de asociar otros libremente con vistas a su procesamiento por distintas aplicaciones. Así un  topic  puede  desde  no  tener  nombre  hasta  disponer  de  varios,  mediante  la  asignación  de  múltiples base name. 

Una occurrence es cualquier información que es especificada como relevante para un subject  dado. En puridad, son recursos externos de información, enlazados mediante una referencia  que sirve para su localización, que aclaran o ejemplifican el contenido del topic. 

La  occurrence  puede  incluir  también  información  como  datos  de  caracteres,  lo  que  es  especialmente  útil  cuando  su  cantidad  es  pequeña  (por  ejemplo,  fechas  de  nacimiento,  publicación, coordenadas, definiciones cortas…). 

El  tercer  elemento  del  núcleo  central  del  modelo  topic  maps  es  la  association  que  es  una  relación entre uno o mas topics donde cada uno de ellos juega un rol como miembro de dicha  asociación. 

Esta relación estaría expresada, en forma implícita, por la expresión verbal que uniría los dos 

topics,  asumiendo  que  éstos  representarían  los  sustantivos  de  la  frase  así  formada.  Por 

ejemplo, “el sol es una estrella” o “la miel es elaborada por las abejas”. El número de topics 

involucrados en una  association  no está  limitado  aunque  lo  más  frecuente es que  sean dos 

(asociaciones binarias) o, en menor grado, tres (asociaciones ternarias).

(37)

2.1.3.  Entornos de aplicación. 

Las  aplicaciones  del  modelo  Topic  Maps  derivan  fundamentalmente  de  dos  de  sus  características  principales:  formar  una  capa  o  nivel  independiente  de  los  recursos  que  organiza, sean éstos documentos con cualquier grado de estructuración o datos, y la facultad  de navegar a través de la estructura semántica que conforman y los recursos que enlaza. 

La  primera  característica  posibilita  su  uso  para  la  organización  y  representación  del  conocimiento  sobre  un  dominio  específico.  A  su  vez  la  segunda  característica  es,  en  sí  misma,  una  aplicación:  un  sistema  de  navegación  hipertextual,  semejante  a  una  segunda  generación  de  sistemas  hipertextuales  caracterizados  por  la  separación  entre  enlaces,  sistemas  de  navegación  y  los  recursos.  En  fin  la  combinación  de  ambas  características  permite  aplicaciones  multifuncionales,  considerando  la  navegación  sólo  a  través  de  la  estructura del conocimiento expresado y la navegación tanto por la estructura como por los  recursos. 

2.2.  Análisis del paquete Topic Maps for Java (TM4J). 

TM4J  es  un  paquete  de  código  abierto  para  el  trabajo  con  Topic  Maps  que  soporta  el  estándar XTM 1,0. El núcleo de TM4J es un conjunto de Application Programming Interface  (API)  desarrollada  en  lenguaje  Java  que  permite  importar,  exportar  y  manipular  Topic  Maps(Groschupf and Kerk, 2003). 

2.2.1.  Arquitectura básica. 

A  continuación  se  muestra  un  modelo  de  la  arquitectura  del  TM4J  (Véase  Fig.  2.1).  Se 

realiza una  explicación de las clases más importantes dentro del modelo:

(38)

TopicMapProviderFactory 

Clase  abstracta  que  tiene  implementaciones  separadas  para  cada  una  de  las  formas  de  almacenamiento que soporta TM4J. Su único propósito es permitir la conexión  con la forma  de almacenamiento. Una  vez creada una  instancia de  la clase  TopicMapProviderFactory,  esta puede ser usada para crear una instancia de la interfaz TopicMapProvider llamando al  método newTopicMapProvider(Ahmed, 2004). 

TopicMapProvider 

La  interfaz  TopicMapProvider  representa  la  conexión  al  mecanismo  de  almacenamiento  que  se  utiliza.  TopicMapProvider  gestiona  objetos  TopicMap  y  se  utiliza  para    añadir  nuevas  instancias  de  TopicMap  o  eliminarlas  proporcionando  los  medios  para  acceder    a  estos objetos(Ahmed, 2004). 

Fig. 2.1 Arquitectura básica del TM4J

(39)

TopicMapSource 

La  interfaz  TopicMapSource  es  una  abstracción  de  una  combinación  de  datos  y  procesamiento  que  genera  un  TopicMap.  La  fuente  más  común  de  un  topic  maps  son  archivos escritos con la sintaxis XTM o Linear Topic Maps (LTM) que generan Topic Maps  al ser procesados por TopicMapBuilder(Ahmed, 2004). 

TopicMap 

La  interfaz  TopicMap  representa  un  único  Topic  Maps  y  proporciona  los  métodos  necesarios para crear, modificar y eliminar elementos de una instancia(Ahmed, 2004). 

LocatorFactory 

La  interfaz  LocatorFactory  proporciona  métodos  para  crear  objetos  que  representan  las  direcciones a los recursos(Ahmed, 2004). 

Locator 

Provee  un  constructor  independiente  para  representar  las  direcciones  de  recursos(Ahmed,  2004). 

TopicMapFactory 

Proporciona  métodos  para  copiar  un  TopicMap  hacia  otro.  El  método  que  permite  copiar  tiene  dos  formas  de  realizar  la  copia,  una  copia  completa  del  objeto,  sus  hijos  y  las  referencias mientras la otra, llamada copia somera solo realiza la copia del objeto y sus hijos  pero no de las referencias(Ahmed, 2004). 

IndexManager 

Proporciona  acceso  a  los  índices  de  los  objetos  de  un  Topic  Maps.  Cada  instancia  de 

TopicMap  tiene  una  instancia  de  IndexManager  que  puede  ser  recuperado  llamando  al 

método getIndexManager de la interfaz TopicMap(Ahmed, 2004).

(40)

2.2.2.  Cómo crear la estructura semántica en memoria. 

Para  crear  un  Topic  Maps  en  memoria  lo  primero  es  obtener  una  instancia  de  la  interfaz  TopicMapProviderFactory  usando  la  implementación  para  almacenamiento  en  memoria  que provee TM4J. 

providerFactory = new org.tm4j.topicmap.memory.TopicProviderFactoryImpl(); 

Después  de  tener  la  instancia  llama  al  método  newTopicMapProvider  que  proporciona  la  interfaz TopicMapProviderFactory para obtener una instancia de TopicMapProvider. 

provider = providerFactory.newTopicMapProvider(); 

Ahora  se  necesita  una  instancia  de  la  interfaz  Locator  para  representar  la  dirección  del  recurso  y  se  obtiene  con  el  método  getLocatorFactory  de  la  instancia  de  TopicMapProvider. 

loc = provider.getLocatorFactory().createLocator(¨URI¨,¨http://www.tm4j.org/ex.xtm¨); 

Y finalmente se llega al TopicMap al llamar  al método createTopicMap de la instancia de  TopicMapProvider. 

tm = provider.createTopicMap(loc); 

Para  crear  un  Topic  se  usa  el  método  createTopic  de  la  instancia  de  TopicMap  con  un  parámetro que representa un identificador dentro del Topic Maps. 

topic = tm.createTopi(id); 

Con el Topic creado, se le agrega el nombre con el método createName que proporciona la 

instancia de Topic.

(41)

topic = createName(null).setData(nombre); 

Las  occurrence  se  crean  usando  el Topic  creado  previamente,  se  le  agrega  el  nombre  y  el  tipo de Topic que representa. 

occurrence = topic.createOccurrence(null); 

occurrence.setData(nombre); 

occurrence.setType(type_topic); 

Otro  elemento  importante  de  la  estructura  de  un  Topic  Maps  son  las  association  que  permiten relacionar  Topic. Se crea usando el  método  createAssociation de   la  instancia de  TopicMap y  tiene un tipo de asociación que es un Topic que proporciona una idea sobre la  relación. 

association  = tm.createAssociation(null); 

association.setType(type_topic); 

Para agregarle un miembro a la association se tiene que crear antes un member, asignarle el  tipo de rol que jugara y el Topic que se quiere relacionar. 

member = association.createMember(null); 

member.setRoleSpec(type_rol); 

member.addPlayer(topic); 

2.2.3.  C ó mo construir el fichero “.xtm” a partir de una estructura semántica. 

El proceso de exportar a un archivo “.xtm” requiere de múltiples pasos. En primer  lugar  se 

crea  un  objeto  para  serializar.  La  Fig.2.2  muestra  el  uso  de  la  clase  XMLSerializer,  pero 

cualquier clase que implemente la interfaz ContentHandler puede utilizarse. En este caso se 

especifica el formato de salida y el archivo en el cual será escrito.

(42)

XMLSerializer serializer = new XMLSerializer(out_xtm_file, of); 

Seguidamente se crear un objeto XTMWriter. El XTMWriter se conecta con el serializer  mediante el método setContentHandler. 

XTMWriter writer = new XTMWriter(); 

writer.setContentHandler(serializer); 

Fig. 2.2 Exportando un archivo “.xtm” en TM4J 

Posteriormente se crear un objeto TopicMapWalker que se conecta con el XTMWriter por  medio  del  método  setTopicMapHandler.  Y  finalmente  se  llama  el  método  walk  que  tiene  como parámetro la estructura que se quiere exportar hacia un archivo “.xtm”. 

topicMapWalker walker = new TopicMapWalker(); 

walker.setHandler(writer); 

walker.walk(tm);

Referencias

Documento similar

You may wish to take a note of your Organisation ID, which, in addition to the organisation name, can be used to search for an organisation you will need to affiliate with when you

Where possible, the EU IG and more specifically the data fields and associated business rules present in Chapter 2 –Data elements for the electronic submission of information

The 'On-boarding of users to Substance, Product, Organisation and Referentials (SPOR) data services' document must be considered the reference guidance, as this document includes the

In medicinal products containing more than one manufactured item (e.g., contraceptive having different strengths and fixed dose combination as part of the same medicinal

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

D) El equipamiento constitucional para la recepción de las Comisiones Reguladoras: a) La estructura de la administración nacional, b) La su- prema autoridad administrativa

b) El Tribunal Constitucional se encuadra dentro de una organiza- ción jurídico constitucional que asume la supremacía de los dere- chos fundamentales y que reconoce la separación