Facultad Matemática, Física y Computación Licenciatura en Ciencia de la Computación
“El estándar XML Topic Maps 1,0 como elemento de transición hacia una Web semántica”
AUTOR
Yorday Figueroa Sánchez
TUTOR
Ing. Dannis Rivero Cañizares
“Año 50 de la Revolución”
Santa Clara, 4 Julio de 2008
Hago constar que el presente trabajo fue realizado en la Universidad Central “Marta Abreu”
de Las Villas como parte de la culminación de los estudios de la especialidad de Ciencia de la Computación, autorizando a que el mismo sea utilizado por la institución, para los fines que estime conveniente, tanto de forma parcial como total y que además no podrá ser presentado en eventos ni publicado sin la autorización de la Universidad.
Firma del autor
Los abajo firmantes, certificamos que el presente trabajo ha sido realizado según acuerdos de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de esta envergadura referido a la temática señalada.
Firma del tutor Firma del jefe del
Laboratorio
Marco Tulio Cicerón
A mi papá.
A mi mamá.
A mi hermana.
aquellos que son amables”
Agradezco especialmente al Lic. Julio César Báez Vergara, por la ayuda brindada pese a su estado de salud.
A mi madre, por su apoyo y amor infinito.
A mi padre, por estar siempre presente.
A mi hermana, quien ha compartido conmigo los momentos alegres y tristes sin dudarlo.
A Yosleiby, por su preocupación.
A mi tutor el Ing. Dannis Rivero Cañizares, por el tiempo invertido.
A mis abuelos y abuelas presentes o no, por la educación, paciencia y ayuda incondicional.
A mis tíos y tías, por ayudarme en todo lo que han podido.
A Guillermo, que nunca esta ocupado para ayudar a un amigo.
A Osley, por ser mí amigo y hermano.
A Leslie, por esos impulsos que me dio inconcientemente en la etapa final de este trabajo y...
A todos mis profesores, por la enseñanza brindada.
A mis amigos, por los momentos compartidos y conocimientos intercambiados.
A mi familia, que forma parte de este logro.
A todos muchas gracias
Yorday.
El Centro de Documentación e Información CientíficoTécnica (CDICT) de la Universidad Central de Las Villas en su ambición por transitar por los cánones de la Library 2,0 se ha dado a la tarea de desarrollar una investigación exploratoria para desarrollar una Web semántica utilizando el estándar Extensible Markup Language Topic Maps (XTM) 1,0. El presente trabajo consiste en el desarrollo de un sistema computacional cuyo fin es posibilitar la navegación por una estructura semántica de recursos de información que se crea con la información almacenada en una de las bases de datos del CDICT. La solidez del sistema se encuentra en la utilización del paquete de código libre Topic Maps for Java (TM4J), que realiza una correcta implementación del estándar XTM 1,0 y esta desarrollado en el lenguaje de programación Java. El sistema se compone por dos aplicaciones, una aplicación Escritorio que permite la construcción de la estructura semántica con la información recuperada de la base de datos “Seriada” y la otra Web con la posibilidad de navegar por la información.
Mediante la implementación de ambas aplicaciones se logra la navegación por la estructura
semántica, lo que garantiza un mayor significado de la información en la Web por la que se
navega.
The Documentation and Scientific and Technical Information Center (CDICT) of the Central University of Las Villas in its wishes to transit on Library 2.0 has been engaged with an exploratory investigation to develop a semantic web using the Standard Extensible Markup Language Topic Maps (XTM) 1,0. The current work pretends to create a computational system to facilitate surfing through a information resources semantic structure created with stored information in one of the databases belonging to the CDICT. The system’s solidity lies on the usage of the free code package Topic Maps for Java (TM4J), which makes the right implementation for the standard XTM 1,0 and, at the same time is developed in Java language. Thus, the system is composed of two applications:
1Desktop application, which enables the construction of the semantic structure with the retrieved information from the database “Seriada”;
2 Web application, which enables to go through all the information.
Through the implementation of both applications we achieve the navigation of the semantic
structure that guarantees more structured information retrieved from the previous analysed
structure.
INTRODUCCION ... 1
CAPITULO 1: ANALISIS Y ELEMENTOS FUNDAMENTALES DE LA WEB SEMANTICA... 5
1.1. La universidad en el mundo cambiante y globalizado... 5
1.1.1. La universidad y la sociedad de la información y el conocimiento. ... 6
1.2. De la Web tradicional a la Web semántica. ... 7
1.2.1. La Web hoy. ... 8
1.2.2. La Web semántica. ... 12
1.3. De la Web actual a la Web semántica... 14
1.3.1. La Web semántica hoy... 16
CAPITULO 2: DISEÑO E IMPLEMENTACION DE LOS SISTEMAS BTSM 1,0 y STMS 1,0. ... 18
2.1. El estándar XML Topic Maps 1.0. ... 18
2.1.1. Características generales del estándar XTM 1,0. ... 18
2.1.2. Componentes del modelo... 20
2.1.3. Entornos de aplicación... 22
2.2. Análisis del paquete Topic Maps for Java (TM4J)... 22
2.2.1. Arquitectura básica... 22
2.2.2. Cómo crear la estructura semántica en memoria... 25
2.2.3. Cómo construir el fichero “.xtm” a partir de una estructura semántica. ... 26
2.2.4. Cómo importar un fichero “.xtm” a memoria. ... 28
2.2.5. Cómo consultar una estructura semántica... 28
2.3. Recuperación de la información de la base de datos “Seriada”. ... 29
2.3.1. Transformación hacia XTM 1,0. ... 29
2.4. Análisis del diseño e implementación de la aplicación BTMS 1,0. ... 31
2.4.1. Descripción de los casos de uso generales del sistema BTMS 1,0... 31
2.5. Análisis del diseño e implementación de la aplicación STMS 1,0... 35
2.5.2. Boceto estructural de los espacios del diseño. ... 40
2.5.3. Modelo de despliegue. ... 40
2.6. Herramientas que se utilizaron en la fase de implementación de los sistemas BTMS 1,0 y SMTS 1,0. ... 41
2.7. Conclusiones parciales... 43
CAPITULO 3: GUIA DEL NAVEGADOR... 44
3.1. Características generales del BTMS 1,0. ... 44
3.1.1. Requerimientos mínimos. ... 44
3.1.2. Descripción del funcionamiento... 44
3.2. Características generales del STMS 1,0... 49
3.2.1. Requerimientos mínimos. ... 49
3.2.2. Instalación. ... 50
3.2.3. Descripción de funcionamiento... 50
CONCLUSIONES ... 57
RECOMENDACIONES... 58
BIBLIOGRAFIA... 59
ANEXOS ... 62
Fig. 1.1 La Web vista por una persona………10
Fig. 1.2 La Web vista por el programador………...……10
Fig. 1.3 La Web actual vs La Web semántica...…..12
Fig. 1.4 De la Web actual a la Web semántica……….………14
Fig. 2.1 Arquitectura básica del TM4J……….……22
Fig. 2.2 Exportando un archivo “.xtm” en TM4J……….………26
Fig. 2.3 Base de datos “Seriada”……….….29
Fig. 2.4 Casos de uso de la aplicación BTMS 1,0……….……..30
Fig. 2.5 Casos de uso de la aplicación SMTS 1,0………....……34
Fig. 2.6 Boceto estructural del sistema STMS 1,0……….…..39
Fig. 2.7 Modelo de despliegue……….…..….….40
Fig. 3.1 Aplicación BTMS 1,0 dividida en secciones………..…44
Fig. 3.2 Menú Aplicación desplegado………..…44
Fig. 3.3 Menú Base Datos desplegado……….…45
Fig. 3.4 Configuración de usuario y contraseña……….……….…….45
Fig. 3.5 Menú dividir desplegado………..…..46
Fig. 3.6 Configuración de los grupos………..……….…46
Fig. 3.7 Mostrar los resultados obtenidos………..…..48
Fig. 3.8 Pagina principal del STMS 1,0……….…..……49
Fig. 3.9 Formulario de búsqueda de artículos………..……..…..50
Fig. 3.10 Resultado de la búsqueda de una palabra clave………..…..51
Fig. 3.11 Resultado de mostrar un articulo………..….51
Fig. 3.12 Lista de temáticas………...…..….52
Fig. 3.13 Lista de revistas pertenecientes a la temática Humanidades………...53
Fig. 3.14 Lista de revistas……….…...….…54
Fig. 3.15 Resultado de mostrar una revista……….………..…55
Tabla 2.1 Descripción del caso de uso “Especificar usuario y contraseña”………31
Tabla 2.2 Eventos del caso de uso “Especificar usuario y contraseña”………..31
Tabla 2.3 Descripción del caso de uso “Especificar partición”………..32
Tabla 2.4 Eventos del caso de uso “Especificar partición”……….…32
Tabla 2.5 Descripción del caso de uso “Construir archivos”………..33
Tabla 2.6 Eventos del caso de uso “Construir archivos”………33
Tabla 2.7 Descripción del caso de uso “Seleccionar archivo”………35
Tabla 2.8 Eventos del caso de uso “Seleccionar archivo”………..35
Tabla 2.9 Descripción del caso de uso “Listar temáticas”………..36
Tabla 2.10 Eventos del caso de uso “Listar temáticas”………..36
Tabla 2.11 Descripción del caso de uso “Buscar artículos”……….……...37
Tabla 2.12 Eventos del caso de uso “Buscar artículos”………..…37
Tabla 2.13 Descripción del caso de uso “Mostrar revista”……….38
Tabla 2.14 Eventos del caso de uso “Mostrar revista”………38
INTRODUCCION
El desarrollo de la Web y el aumento en las necesidades de información de sus usuarios ha impuesto la necesidad de disponer de una red en la que cualquier usuario pueda encontrar respuestas a sus preguntas de forma más rápida y sencilla gracias a una información mejor definida, y disponer de sitios estandarizados donde se les provea de información mejor entendible por los ordenadores los sistemas informáticos. Al dotar a la web de más significado y, por lo tanto, de más semántica, se pueden obtener soluciones a problemas habituales en la búsqueda de información gracias a la utilización de una infraestructura común, mediante el cual es posible compartir, procesar y transferir información de forma sencilla. Esta web extendida y basada en el significado, se apoya en estándares que solucionan los problemas ocasionados por una web carente de estandarización y viciada de sitios con errores en sus códigos en la que en ocasiones el acceso a la información se convierte en una tarea difícil y frustrante.
Las necesidades de los usuarios no solo estriban en la información en sí, sino también en la forma de obtenerla, por tanto, urge a la biblioteca universitaria brindar acceso a estos recursos, muchos de los cuales ni siquiera están disponibles en forma impresa. Ya no se trata sólo de describir su contenido, forma y ubicación, hay que informar sobre su accesibilidad y forma de distribución y precisamente en esto estriba los conceptos elementales de la Web Semántica.
Las universidades y sus bibliotecas no escapan, por supuesto, a las transformaciones globales en el área de la informatización. El desarrollo de la tecnología, las demandas cada vez más exigentes de los usuarios, las restricciones presupuestarias y el aumento exponencial de la cantidad de recursos de información, de manera tal que ninguna organización puede mantenerlos físicamente, constituyen para las bibliotecas universitarias un complejo desafío, sin embargo el desarrollo de las bibliotecas no ha estado alejado del mismo desarrollo de la web. Hoy día el funcionamiento de una biblioteca se enmarca en la utilización de plataformas web y herramientas informáticas, eso ha dado lugar a un nuevo modelo de biblioteca conocido como Library 2,0.
El Centro de Documentación e Información CientíficoTécnica (CDICT) de nuestra
universidad no está ajeno de todas estas transformaciones y poco a poco ha venido
desarrollando un papel protagónico como centro de acceso a la información y el conocimiento. Uno de los principales elementos que ha ayudado en gran medida tal desempeño es la creación de grupos investigativos especializados en el desarrollo de servicios que se sustentan en las tecnologías de la Web 2,0, en este contexto se enmarca nuestro trabajo que persigue la representación con cierto grado de semántica de una base de datos aplicando el estándar XML Topic Maps 1,0 y así dar los primeros pasos en la evolución de la Web Universitaria hacia una Web Semántica y por ende el desarrollo del CDICT dentro de los cánones de la Library 2.0.
Hipótesis de investigación.
Es posible representar la información disponible en las bases de datos correspondientes a los servicios de información de la Biblioteca Universitaria, a través del estándar Topic Map.
Proveyendo de semántica la información allí disponible y haciéndola más entendible a los sistemas y herramientas informáticas.
Para dar cumplimiento a la hipótesis de investigación se proponen los objetivos del trabajo.
Objetivo general.
Desarrollar una herramienta computacional, que permita la extracción de la información de la base de datos del servicio “Seriada” y representarla aplicando el estándar XML Topic Maps 1,0 para añadirle semántica a la información e implementar una herramienta web que sirva para explorar los posibles usos de esta filosofía de trabajo.
Objetivos específicos.
1. Evaluar cual es la mejor vía para la aplicación del estándar XML Topic Maps 1,0.
2. Establecer cuál de los softwares libres que se utilizan para representar el estándar
XML Topic Maps 1,0 se ajusta más a las especificaciones de nuestro problema.
3. Diseñar e implementar el sistema necesario para la construcción de los archivos que tendrán la información extraída de la base de datos después de aplicarle el estándar XML Topic Maps 1,0.
4. Diseñar e implementar el sistema necesario para la navegación por la información que se almacena en los archivos antes creados.
Valor práctico.
El valor práctico del trabajo realizado estriba en su originalidad toda vez que es parte de una investigación exploratoria y de más alcance que tiene como finalidad la migración de la Web de la Biblioteca Universitaria hacia una Web semántica. Esta migración permitirá disponer de herramientas y servicios que beneficien la recuperación de la información disponible en la red y el fortalecimiento del modelo de Library 2.0 iniciado en la Universidad.
Descripción de los capítulos.
El presente trabajo se encuentra dividido en tres capítulos. El primero aborda el tema de la Sociedad del Conocimiento hoy día y el desarrollo de la Web Semántica y sus posibilidades de resolver problemas cotidianos automáticamente. También hace referencias a técnicas usadas para incorporarle el significado necesario a la información. En el segundo se mencionan aspectos generales del diseño e implementación de las herramientas Build Topic Maps Seriada versión 1,0 (BTMS 1,0) y Search Topic Maps Seriada versión 1,0 (STMS 1,0).
Por último en el tercer capítulo se presenta la guía del navegador donde se explica el funcionamiento de los dos sistemas antes mencionados.
Descripción de anexos.
En los anexos uno y dos se muestran los diagramas de clases de las aplicaciones BTMS 1,0 y
STMS 1,0 respectivamente, donde se especifican las clases, atributos, métodos y las
relaciones entre las clases. Los diagramas de clases son utilizados durante el proceso de
análisis y diseño de los sistemas, donde se crea el diseño conceptual de la información que
se manejará en el sistema. Para facilitar la navegación por STMS 1,0 se muestra en el anexo
tres el diagrama de navegación que refleja el flujo de interacción dentro de la interfaz de
usuario. El cuarto anexo describe una Document Type Declaration (DTD) con la sintaxis
para serializar e intercambiar documentos topic maps conformes a la especificación XTM.
CAPITULO 1: ANALISIS Y ELEMENTOS FUNDAMENTALES DE LA WEB SEMANTICA.
Las sociedades contemporáneas se enfrentan al reto de proyectarse y adaptarse a un proceso de cambio que viene avanzando muy rápidamente hacia la construcción de Sociedades del Conocimiento. Este proceso es dinamizado esencialmente por el desarrollo de nuevas tendencias en la generación, difusión y utilización del conocimiento, y está demandando la revisión y adecuación de muchas de las empresas y organizaciones sociales y la creación de otras nuevas con capacidad para asumir y orientar el cambio. Una Sociedad del Conocimiento es una sociedad con capacidad para generar, apropiar, y utilizar el conocimiento para atender las necesidades de su desarrollo y así construir su propio futuro, convirtiendo la creación y transferencia del conocimiento en herramienta de la sociedad para su propio beneficio.
Jugando un papel preponderante en este entorno se encuentran las Universidades y por ende sus bibliotecas que están llamadas a ser las locomotoras del cambio en sus centros, para ello están avocadas a cambios tanto estructurales como de cultura de la profesión toda vez que se supone un accionar totalmente novedoso.
Con el desarrollo de la Web y el planteamiento de nuevas inquietudes a resolver se han venido desarrollando una serie de softwares y estándares que han dado paso a una nueva estructura de la Web.
1.1. La universidad en el mundo cambiante y globalizado.
En el contexto descrito anteriormente están insertadas las universidades que han de ir
adaptándose a estas realidades caracterizadas por un cambio incesante e inesperado, y por
una creciente globalización, el paradigma clásico de una universidad tradicional y casi
inmutable no resulta muy congruente con las nuevas realidades y demandas sociales, y
científicas, tanto actuales como futuras. Por otra parte, si consideramos que, cada vez más,
importantes investigaciones coinciden en afirmar que «ninguna sociedad actual es superior a
sus universidades », resulta evidente que un instrumento esencial del progreso y el desarrollo
es la universidad. En efecto, no hay países realmente avanzados que no cuenten con un eficaz sistema universitario y, dentro de él, con unas sólidas y permanentes investigaciones.
Estas categóricas afirmaciones adquieren especial importancia para el caso de Iberoamérica, donde, por la acumulación de diversos factores, muchas de sus universidades más importantes están evidenciando, hoy día, serias y continúas limitaciones para poder modificar rápida y profundamente sus modelos, estructuras y procedimientos obsoletos, con la finalidad de responder funcional y oportunamente a las nuevas y exigentes demandas.
Los sistemas de educación superior, dice la Declaración Mundial (París, octubre de 1998), deberían aumentar su capacidad para vivir en medio de la incertidumbre, para transformarse y provocar el cambio… La incertidumbre no debe conducirnos a la perplejidad, sino a la disposición para el cambio y a la ampliación y renovación incesante del conocimiento. Si el siglo XX fue el siglo de la búsqueda de certezas científicas y del desarrollo acelerado de las diferentes disciplinas del conocimiento humano, el presente siglo está llamado a ser el siglo de la incertidumbre y la interdisciplinariedad.
Por consiguiente, si la universidad es un instrumento tan decisivo para las sociedades, resulta inaplazable poder transformar profundamente tanto sus instituciones individuales como sus sistemas, redes o conjuntos universitarios. No obstante, no sería justo dejar de reconocer que, especialmente durante los últimos veinte años, diversas universidades de esta área han acometido cambios e intervenciones para mejorar su condición, pero, en general, con resultados de escasa trascendencia.
1.1.1. La universidad y la sociedad de la información y el conocimiento.
Resulta evidente el papel crucial que deberá desempeñar la universidad para lograr que las respectivas sociedades tradicionales avancen hacia la conformación, en primer lugar, de la sociedad de la información y, en último término, idealmente, hacia la sociedad del conocimiento.
Para avanzar hacia tales objetivos, (Tünnermann, 2000) señala: «La médula del problema
radica en que nos encontramos en una etapa de transición y por lo mismo crítica, entre la
educación superior elitista y la educación superior masiva.
Las actuales estructuras académicas responden a la educación superior elitista; por lo mismo, les es imposible, sin una profunda transformación, hacer frente al fenómeno de masificación.
Son, en general, demasiado rígidas, poco diversificadas, y carentes de adecuados canales de comunicación entre sus distintas modalidades y con el mundo de la producción y del trabajo.
La homogeneidad de sus programas no les permite atender la amplia gama de habilidades, intereses y motivaciones de una población estudiantil cada vez más extensa y heterogénea;
su excesiva compartimentalización contradice la naturaleza esencialmente interdisciplinaria del conocimiento moderno; su apego a los sistemas formales les impide servir con eficacia los propósitos de la educación permanente».
Naturalmente, en cada uno de los casos, las estrategias requeridas tendrán grandes diferencias, y las de mayor complejidad corresponderán principalmente a las sociedades que acusen un escaso desarrollo y dispongan todavía de unas instituciones y sistemas educativos de insuficiente consolidación. Por ello, la UNESCO, en su reciente declaración mundial sobre la educación superior, reconoce su importancia estratégica en la sociedad contemporánea y concluye que: «La propia educación superior ha de emprender su transformación y la renovación más radical que jamás haya tenido por delante».
1.2. De la Web tradicional a la Web semántica.
Una vez que se ha expuesto los basamentos esenciales de la Library 2.0 y toda vez que ella se materializa sobre la Internet detengámonos en el análisis del origen y el desarrollo de esta plataforma.
La aparición de la WWW se puede situar en 1989 (Abrams 1998, Connolly 2000), cuando Tim BernersLee presentó su proyecto de “World Wide Web” (BernersLee 1989) en el CERN (Suiza), con las características esenciales que perduran en nuestros días. El propio BernersLee completó en 1990 el primer servidor Web y el primer cliente, y un año más tarde publicó el primer borrador de las especificaciones de HTML y HTTP.
El lanzamiento en 1993 de Mosaic, el primer navegador de dominio público, compatible con
Unix, Windows, y Macintosh, por el National Center for Supercomputing Applications
(NCSA), marca el momento en que la WWW se da a conocer al mundo, extendiéndose
primero en universidades y laboratorios, y en cuestión de meses al público en general, iniciando el que sería su vertiginoso crecimiento. Los primeros usuarios acogieron con entusiasmo la facilidad con que se podían integrar texto y gráficos y saltar de un punto a otro del mundo en una misma interfaz, y la extrema sencillez para contribuir contenidos a una Web mundial.
Por estas mismas fechas se define la interfaz CGI para la generación dinámica de páginas Web, con lo que se consigue ofrecer información actualizada en tiempo real, enlazar con bases de datos, o tener en cuenta entradas del usuario, y más aún, servir como punto de acceso y plataforma para la ejecución de aplicaciones distribuidas. En 1994 miembros del equipo que creó Mosaic desarrollan Netscape, un navegador con sensibles mejoras que contribuye a impulsar la propagación de la web. Este mismo año se celebra el primer congreso internacional de la WWW, y unos meses más tarde se constituye el consorcio W3C, que desde entonces y presidido por Tim BernersLee, se ha hecho cargo de estandarizar las principales tecnologías Web. En 1995 Sun lanza oficialmente la primera versión del lenguaje Java, y un año más tarde Netscape presenta JavaScript. Estos lenguajes y otros posteriores permiten que las propias páginas Web contengan programas enteros, dando opción a una mayor autonomía respecto del servidor, mayor eficiencia, capacidad dinámica y capacidad de interacción.
1.2.1. La Web hoy.
Es sumamente difícil medir el tamaño de la Web, pero se estima que hoy día alberga un volumen de información equivalente a entre 14 y 28 millones de libros (Bergman 2001).
Como dato comparativo, la asociación American Research Libraries, que agrupa unas 100 bibliotecas en EE.UU., tiene catalogados unos 3.7 millones de libros. La biblioteca de la Universidad de Harvard, la mayor de EE.UU., contiene en torno a 15 millones de libros.
Estas cifras incluyen sólo lo que se ha dado en denominar la Web superficial, formada por
los documentos estáticos accesibles en la Web. Se ha calculado que la llamada Web
profunda, constituida por las bases de datos cuyos contenidos, no directamente accesibles, se
hacen visibles mediante páginas generadas dinámicamente, puede contener un tamaño de
información varios cientos de veces mayor, y de mucha mejor calidad, que la Web
superficial, y crece a un ritmo aún mayor que ésta (O’Neill 2003). Se estima que el tamaño de la Web profunda ha superado ya al volumen total de información impresa existente en todo el planeta.
Hoy casi todo está representado de una u otra forma en la Web, y con la ayuda de un buen buscador, podemos encontrar información sobre casi cualquier cosa que necesitemos. La Web está cerca de convertirse en una enciclopedia universal del conocimiento humano.
Por otra parte la Web nos permite realizar diferentes actividades de nuestra vida diaria con una comodidad, economía y eficiencia sin precedentes: sin movernos de casa podemos comprar todo tipo de productos y servicios, gestionar una cuenta bancaria, buscar un restaurante, consultar la cartelera, leer la prensa, localizar a una persona, matricularnos en la universidad, acceder a un callejero, o trabajar desde nuestro domicilio.
No obstante, en este panorama tan favorable hay espacio para mejoras. Por ejemplo, el enorme tamaño que ha alcanzado la Web, a la vez que es una de las claves de su éxito, hace que algunas tareas (por ejemplo encontrar la planificación óptima con transporte, alojamiento, etc., entre todas las posibles para un viaje bajo ciertas condiciones), requieran un tiempo excesivo para una persona o resulten sencillamente inabarcables.
Desarrollar programas que realicen estas tareas en nuestro lugar es enormemente complicado, ya que es muy difícil reproducir, y más costoso aún mantener, en una máquina la capacidad de una persona para comprender los contenidos de la Web tal y como están codificados actualmente.
La asombrosa eficacia de los buscadores actuales tiene también sus límites. Por ejemplo, si
queremos conocer la historia de Netscape, los resultados de una consulta como “Netscape
history”, nos informan sobre las herramientas de históricos de este navegador, pero no nos
dicen nada sobre el origen y evolución de Netscape. Igualmente, para averiguar qué
organismo se ocupa de estandarizar CGI, o en qué fecha apareció la primera versión de Java,
necesitaremos realizar varias consultas y leer varios documentos y artículos hasta llegar
indirectamente a la respuesta buscada. Si introducimos la palabra “Ketchup” para buscar
información sobre el grupo de música del mismo nombre, obtendremos enlaces a
restaurantes, recetas, fabricantes, distribuidores y clubes de aficionados al condimento, y
finalmente lo que buscábamos (posiblemente ni siquiera esto si el grupo fuese menos popular).
Con los continuos cambios de la Web y los algoritmos de los buscadores, los resultados de estas pruebas pueden variar de un día para otro.
Si buscamos un “artículo sobre García Márquez”, encontraremos decenas de artículos de García Márquez, pero ninguno que trate sobre este autor. Si preguntamos sobre estándares XML para la enseñanza (“XML education”), la mayor parte de los resultados se referirán a la enseñanza de XML.
Todos estos ejemplos son el síntoma de una causa común: la falta de capacidad de las representaciones en que se basa la Web actual para expresar significados. Los contenidos y servicios en la Web se presentan en formatos (p.e. HTML) e interfaces (p.e. formularios) comprensibles por personas, pero no por máquinas. La Fig. 1.1 ejemplifica esta situación con una versión simplificada de una página de información meteorológica.
Mientras que la presentación de los datos en el navegador es inmediatamente comprendida
por una persona, es muy difícil para el ordenador entender cuál es la temperatura, el estado
del cielo, y demás semántica del documento, al estar entremezclada con las etiquetas de
formato (Véase Fig. 1.2).
Fig. 1.1 La Web vista por una persona.
<html><head><title>Yahoo! Weather Harare (Zimbabwe) Forecast
</title></head><body><table width=100%><tr bgcolor=CCCCFF><td>
<b>Harare Today</b></td></tr> <tr><td>at 1:00 pm CAT</td></tr>
<tr><td><table width=100%><tr align=center><td rowspan=2 bgcolor=FFCC66>Currently:<br><b><font size=+2>21º;C</font>
</b></td><td rowspan=2 bgcolor=EEEEEE><img src=thunderstorm.gif>
<br>Thunderstorms</td> <td bgcolor=FF9966>Hi: <b>27</b></td></tr>
<tr align=center><td bgcolor=FFFF99>Lo: <b>18</b></td></tr>
</table><p><center><img src=cscale.gif></center><p><table width=100%><tr><td><b>Appar Temp:</b></td><td>21°;</td><td>
<b>Dewpoint:</b></td><td>16°;</td></tr><tr><td><b>Barometer:
</b></td><td>1017 mb; falling</td><td><b>Wind:</b></td><td>SE/10 mph </td></tr><tr><td><b>Humidity:</b></td><td>73%</td><td><b>
Visibility:</b></td><td>6 mi</td></tr></table></td></tr></table>
</body></html>