3. ESTADO DEL ARTE
3.4. Integración de tecnologías de la web semántica en propiedad industrial
Si el interés por incorporar tecnología semántica o de linked data a diversos servicios web ha sido creciente, el caso de la propiedad industrial y el mundo de la patentes no ha quedado excluido, a pesar de sus características particulares.
En primer lugar, el crecimiento exponencial de la producción de patentes a nivel mun- dial, la complejidad y extensión de los textos, el exceso de terminología legal y técnica, entre otros factores han hecho que los mecanismos de búsqueda, recuperación y análisis de información tecnología sean crecientes. Sin embargo, actualmente las bases de datos de patentes almacenan la información en bases de datos relacionales, y las exhiben en CVS o XML, dificultando los posibles análisis semánticos (Bermudez-Edo, Noguera, Garrido, y Hurtado, 2013). Por lo tanto, resulta fundamental contar con tecnologías que permitan el acceso, el intercambio y la interoperabilidad entre los datos y recursos de información relacionados a la propiedad industrial debido a que potencian el uso de esta información técnica por parte de empresas y organismos relacionados con la investigación, el desarrollo y la innovación, consolidando este ecosistema. En este contexto surge el rol de las tecnolo- gías semánticas en el mundo de las patentes (Diamantini et al., 2013).
Si bien, en muchos casos algunas oficinas de propiedad industrial y otras empresas relacionadas con el rubro declara ofrecer servicios de búsqueda semántica en sus bases de datos tecnológicas (OMPI, 2012), estas funcionalidades están referidas a búsqueda de sinónimos, variaciones de palabras, términos relacionados, pero no apuntan a tecnologías de linked data basadas en ontologías y RDF.
Según (García Moreno, 2015), a diferencia de los servicios referidos, un servicio basa- do en linked data resulta prometedor a la hora de soportar la gestión de la I+D+i. Particular- mente, en el entorno de la propiedad industrial, contribuye a establecer mejores clasifica- ciones basadas en una ontología, enriquecer los datos de contenido semántico y promueve su (re)utilización para entregar ventajas competitivas a las empresas o instituciones que re- quieran su uso. Sin embargo, de acuerdo al mismo autor, el potencial de estas tecnologías se ha tratado principalmente desde el plano de la investigación, pero de manera muy escasa en el plano de la integración a servicios reales.
De acuerdo a lo anterior, si bien las principales iniciativas que integran tecnologías de la web semántica van del lado de las publicaciones científicas (Angrosh, Cranefield, y Stanger, 2014), es preciso destacar ciertas investigaciones y/o aplicaciones que se enmarcan en el contexto de la propiedad industrial y las patentes.
Dentro de las iniciativas más concretas de integración de tecnologías semánticas al mundo de las patentes, destaca GoPatents, un prototipo orientado a la búsqueda de patentes apoyada por la extracción de términos, la categorización de patentes y el uso de ontologías de diversos dominios para establecer relaciones (Eisinger et al., 2014).
Por otra parte, destaca el desarrollo de NEST (“Newly Emerging Science and Techno- logy”), que utiliza técnicas de minería de datos y minería de texto tanto de publicaciones científicas como patentes para identificar información clave sobre actores y tecnologías. Posteriormente, aplicaba una función semántica basada en RDF y una ontología para eje- cutar una aplicación basada en TRIZ con la idea de apoyar la resolución compleja de pro- blemas de inventiva (Zhang et al., 2014).
Siguiendo la misma línea, destacan iniciativas de extracción de información semántica a partir de las solicitudes de patentes, con el objetivo de identificar el grado de innovación o novedad de la solicitud. Lo anterior lo desarrolla utilizando extracciones de estructuras frasales en base a una ontología del dominio de la propiedad industrial y presentándolo en un formato legible para máquinas (de Carvalho, França, y Lima, 2014).
Bajo la línea de esta investigación, destaca el trabajo de (Bermudez-Edo et al., 2013), cuyo objetivo es fortalecer la información disponible en repositorios o bases de datos de patentes a través de tecnologías semánticas, ofreciendo nuevas relaciones, propiedades e inferencias. La metodología planteada consiste en procesar consultas en las bases de datos y convertir los archivos XML a un formato OWL.
Por otro lado, destaca el desarrollo de ciertas ontologías aplicadas al dominio de la I+D+i como GI2MO (“Generic Idea and Innovation Management Ontology”) basada en RDF y OWL, que incorpora terminología de distintas fuentes y tiene como objetivo vincu- larse con otros vocabularios estándar como FOAF (“Friend of a Friend”) o DCTerms, o la ontología IDEA, basada en OWL, que también reutiliza otros vocabularios de uso común para fortalecer la gestión de ideas de innovación (García Moreno, 2015).
Particularmente en el caso de las patentes, destaca el desarrollo del grupo de investi- gación “Agile Knowledge Engineering and Semantic Web” (AKSW), quienes crearon una ontología para el contexto de la oficina de patentes de los Estados Unidos (USPTO), la cual denominaron “US Patents”. Dicha ontología incluye distintas clases y propiedades relacio- nadas con los documentos de patentes de la USPTO y es utilizada para generar tripletas en RDF que puedan nutrir de contenido semántico a dicha documentación.
En base a lo expuesto, la necesidad por optimizar las bases de datos de patentes es notoria, y las tecnologías semánticas suponen una oportunidad con mucho potencial, a pesar de las características heterogéneas y complejas de que pueden presentar estas fuentes de información. Sin embargo, su aplicación no ha sido una práctica masiva y eso da cabida a que sea un campo de investigación con mucho potencial.