Codificación por formato - Tecnologías Usadas

OWL 3 , los dos estándares que ayudan a convertir la Web en una infraestructura global en la que es posible compartir y reutilizar datos y documentos entre diferentes tipos de

2.6. Estado del Arte

2.6.3. Tecnologías Usadas

2.6.3.2. Codificación por formato

Enalgunas fuentes,sobre todolas estructuradas, existen patronesdeformatoque permitanasignarleciertasemánticaalosdatosencontrados.Estospatronessuelenestar formados por elementos de presentación (fuentes subrayadas, tipos de letra, etc.), símbolos gráficos (símbolos de moneda, sobre de correos, etc.) o simplemente por la colocación de los caracteres en estructuras (listas, tablas, etc.). Los extractores de informaciónautomáticoshacenusodeestaspropiedadesyextraenlainformaciónde acuerdo al formato que tienen los datos. La dependencia que presenta la semántica de los datos con el formato o aspecto de su presentación es un hecho muy común en los documentosWeb,ynospermitenanosotrosloshumanoscomprenderelcontenidode manera mucho más eficiente sin necesidad de explicaciones detalladas.

A continuación se detallan tres formas de codificación por el formato:

Codificación por caracteres. Siseconsideraunafuentetextualcomounacadenade caracteressepuedenencontrarpatronesqueserepitenyaportansignificadoalosdatos encontrados. De esta manera podemos suponer con cierta probabilidad de acierto, dependiendo del dominio, que ciertas secuencias de caracteres corresponden a datos buscados:cantidadesmonetarias,fechas,direccionesdecorreoelectrónico,etc.Esun métodomuyapropiadoparaladeteccióndeinstanciasdeconceptosconunaparticular presentación. En algunos casos este método es suficiente para la detección de valores de atributos de instancias e incluso para la detección de relaciones semánticas entre distintas instancias.Estosucedesidichainformaciónestácodificadaenteramenteporelformato de los datos y el formato de los datos está unívocamente determinado por los caracteres de la fuente. Un claro ejemplo es un documento CSV (comma separated value), valores separadosporcomasquerepresentanunatablacondimensionesconocidasycon significadoclaroparacadacelda.Normalmente,paradetecciónderelacionessemánticas complejas o para asignar valores de atributos a instancias ya existentes debe analizarse más en profundidad el significado del contenido.

Elmecanismomásusadoparaladeteccióndecadenasquecumplancondicionesdeseadas sonlasexpresionesregulares.Unaexpresiónregularpermitedescribirdeformaabreviada con conjunto de cadenas con cierta propiedad. Existen variaciones sobre la notación de las expresiones regulares, según la implementación del software de detección que se use.

Ejemplo: Una posible expresión regular para detección de cadenas de correos electrónico.



 





a z | 0 9



@



a z

 

| 0 9









a z

 

| 0 9



Un ejemplo, a veces doloroso, son los programas que buscan y coleccionan direcciones de correoselectrónicosparapropósitosdepublicidadnodeseada(spam).

Laconstrucciónydepuracióndeexpresionesregularesesunatareacomplejaytediosa. Con el objetivo de reducir este esfuerzo se han utilizado con éxito técnicas de aprendizaje automático que a partir de un conjunto inicial de ejemplos positivos y negativossoncapacesdeinferirexpresionesregularesparaladeteccióndecadenaso gruposdecadenasdeseadas.EsteeselcasodelaempresaWhizBang!,cuyosistema FlipDog (http://flipdog.monter.com), descrito más adelante, detecta información sobre puestosdetrabajo.ElprocesodeaprendizajeconsisteenalmacenarlasfuentesHTMLen una forma tabular ysobreellas semarcan los ejemplospositivos,losnombresde empresas, puestos ofertados, condiciones salariales, etc., para generar reglas de detección basadas en expresiones regulares.

Codificación por estructura.Algunossistemasquetrabajansobreundominioreducido

puedeninferirelsignificadodelosdatosapartirdelaestructuradeldocumento.Sila estructura sigue un patrón estable se puede combinar técnicas de expresiones con algunas reglas semánticas que toman en cuenta estructuras. Este es el caso de sistemas comoCiteseer(Citeseer)queescapazdeprocesarartículoscientíficosonline.Estetipode documentos tiene una estructura fija y en ellos se pueden basar las reglas de identificación de títulos, autores, resúmenes, citas a otros artículos, etc. Las reglas de estructura, normalmente construidas ad‐hoc para cada sistema, dependen en gran medidadeldominioydelformatoqueusenlosdocumentos(HTML,PDF,LaTeX,etc.).

Codificación Visual. Como los documentos online están orientados para consumo por

lectores humanos, la composición visual de éstos es otra fuente que aporta significado a losdatosextraídos.SobretodoenformatoscomoHTML,dondelaformadevisualizarel documentonoestáunívocamenteligadaaunafuente(distintasfuentesproducenigual efecto visual resultante), es una ayuda contar con esta información para inferir el significado. Para procesar el contenido visual de un documento es necesario contar con un modelodedosdimensionesdelemplazamientodelosdatos.Conestemodelosepueden comprobar las posiciones relativas y absolutas entre elementos del documento. Información sobre si una etiqueta y un dato está en la misma línea virtual, si una frase esta debajo de un gráfico o si unos números están en la misma columna la cual aporta informaciónmuyvaliosa.

Este es el caso del sistema AIDAS (Hoog et al, 02) del proyecto IMAT (IMAT) descrito más adelante,queprocesamanualestécnicosmediantedistintasontologíasconelobjetivode construirundocumentoparapropósitosdeeducaciónyformación.Losdocumentos, originalmente en formato PDF, se procesan y se extrae información sobre el aspecto y colocación visual de cada parte, como se indica en el ejemplo_:

 

l (text('12.1', 'Times-Bold-12'), area (60,160,34,14), , [position=left /* alineado al margen derecho */ , column = 3 /* en la tercera columna*/ , fontsize = large /* fuente grande*/

, emphasis = bold /*negrita*/ ]).

Posteriormente reglas de inferencia permiten deducir la semántica de las partes considerando toda la información disponible.

En los documentos HTML está necesidad se hace más notoria. Con un procesamiento simpledelasfuentesnoesposibledeterminarsidosdatosseencuentranenunamisma líneaocolumnavisualonisiquierasiestáncercaunodelotro.Paradeterminaresta información es necesario realizar el mismo proceso que hacen los navegadores interpretando etiquetas HTML, funciones javascript, hojas de estilo, etc., para visualizar un documentoyademásconstruirunmodeloespacialdesucontenidoquesepuedan consultardesdeprogramas.ParaelformatoHTMLexistenvariaslibreríasdesoftware (IceSoft, WebRenderer) que permiten construir este tipo de modelos donde cada elemento del documento HTML tiene asignado coordenadas



X Y,



para que sean consultadas e interpretadas, como se ilustra en la figura 25.

A este proceso se le suele denominar renderización19_{, del inglés render, que significa}

retratar.

In document Buscadores semánticos para la gestión del conocimiento (página 117-120)