• No se han encontrado resultados

3. Confecci´ on de bibliom´ etricas sobre repositorios no estructurados

3.4. Procesamiento y mejora de datos

3.4.2. Procesamiento de t´ıtulos

La interfaz de acceso a los datos brinda acceso a los campos de los art´ıculos e investigadores que se encontraron en el repositorio objetivo. El objetivo del procesamiento de t´ıtulos y autores es transformar los objetos ofrecidos por la interfaz de acceso a los datos, en un conjunto de entidades y relaciones, de las definidas modelo de datos, que representen correctamente la realidad del repositorio objetivo.

El problema m´as importante que presenta el procesamiento de los datos obtenidos del repositorio es la existencia de errores. Los errores que no se corrijan durante este procesamiento, llevar´an a crear una representaci´on incorrecta de la realidad y, por lo tanto, a indicadores bibliom´etricos con valores incorrectos.

Los errores de mayor importancia en la construcci´on del grafo de entidades, son aquellos que pueden llevar a la creaci´on de entidades incorrectas o asociaciones incorrectas entre entidades. Este trabajo se enfoca en los errores presentes en los t´ıtulos de los art´ıculos y en aquellos que existen en las listas de autores de los art´ıculos. Esta secci´on describe el tratamiento de los t´ıtulos de art´ıculos, mientras que la siguiente hace lo mismo para las listas de autores.

Generalmente, los art´ıculos son identificables un´ıvocamente por su t´ıtulo, por lo que la presencia de errores ortogr´aficos en estos dificulta su correcta identificaci´on. Este tipo de errores pueden ser incorporados por personas que ingresan art´ıculos de forma manual a repositorios de infor- maci´on cient´ıfica. Otra posible fuente de errores son los mismos repositorios, los cuales pueden procesar ciertos datos de forma incorrecta, como por ejemplo no aplicar ciertas restricciones de integridad [Kim et al., 2003, Buchanan, 2006].

3.4. PROCESAMIENTO Y MEJORA DE DATOS 31 El problema de los t´ıtulos de art´ıculos ingresados incorrectamente se ha estudiado en el contexto del an´alisis de referencias bibliogr´aficas [Sweetland, 1989, Buchanan, 2006]. El estudio presenta- do en [Buchanan, 2006] analiza los errores presentes en 5648 referencias bibliogr´aficas obtenidas del repositorio SciFinder Scholar (SFS) y 5460 obtenidas del repositorio Science Citation Index Expanded (SCIE). El estudio reporta errores en el 9.1 % de las citas obtenidas de SFS y en el 9.3 % de las correspondientes a SCIE. De estos, el 11 % son producto de errores en el t´ıtulo del art´ıculo citado, mientras que el resto es compartido entre errores ortogr´aficos en el nombre de los autores o el a˜no de publicaci´on.

Los errores en los t´ıtulos pueden traer problemas para la identificaci´on de art´ıculos, tal como es el caso del repositorio de CONICET. En el mismo, cada investigador es responsable de ingresar manualmente la informaci´on de los art´ıculos en los que participa como autor. Ya que el sistema de carga de art´ıculos no intenta unificar los art´ıculos ingresados, el repositorio cuenta con tantas copias de un art´ıculo como autores tenga el mismo. El procesamiento de este repositorio, por parte de la herramienta propuesta, debe tener en cuenta la posibilidad de que las m´ultiples copias de un art´ıculo se encuentren con peque˜nas variaciones en el t´ıtulo, producto de errores de tipeo. Sin un adecuado procesamiento de los t´ıtulos es posible que algunos art´ıculos no se unifiquen correctamente y que se cree m´as de una entidad para el mismo art´ıculo, cuando solo corresponde que exista una.

El conjunto de operaciones que se realizan sobre datos existentes, con el fin de remover anomal´ıas y asegurar que se cuenta con un representaci´on adecuada del universo del discurso, se conoce como data cleansing [M¨uller and Freytag, 2005]. En t´erminos generales, este proceso consta de las siguientes actividades:

1. Auditar los datos con los que se va a trabajar para identificar los tipos de anomal´ıas que se pueden presentar.

2. Seleccionar los m´etodos apropiados para detectar estas anomal´ıas y corregirlas.

3. Ejecutar los m´etodos seleccionados sobre las tuplas que componen la colecci´on de datos. En esta secci´on se plantea un conjunto de m´etodos para la correcci´on de errores en los t´ıtulos, seleccionados a partir de las anomal´ıas observadas en repositorios de publicaciones cient´ıficas. Los t´ıtulos, una vez corregidos, son utilizados para determinar si dos documentos del repositorio corresponden a una misma entidad del tipo art´ıculo o si deben considerarse como entidades separadas.

La Figura 3.4 muestra el diagrama de actividades con las etapas que componen el proceso de transformaci´on de t´ıtulos y creaci´on de entidades tipo art´ıculo. Este proceso se aplica a cada uno de los documentos de tipo art´ıculo obtenidos del repositorio. La entrada del proceso consta de un art´ıculo obtenido de la interfaz de acceso a los datos del repositorio. A continuaci´on se describe cada uno de los pasos del proceso:

32 CAP´ITULO 3. CONFECCI ´ON DE BIBLIOM ´ETRICAS

3.4. PROCESAMIENTO Y MEJORA DE DATOS 33 Extraer t´ıtulo de art´ıculo. El primer paso consiste en extraer el t´ıtulo del documento que se est´a procesando. Esta tarea es realizada por la interfaz de acceso a los datos. Como se mencion´o previamente, el m´odulo Converter debe ser implementado para cada repositorio con el que se desee trabajar. Este m´odulo debe poder interpretar el formato de los documentos que se encuentran en el repositorio y extraer los atributos de inter´es de los mismos.

Normalizar. Dado que el repositorio puede contar con m´as de un documento para un mismo art´ıculo y que estos pueden haber sido ingresados con diferencias en el t´ıtulo, es necesario realizar un proceso de normalizaci´on para eliminar estas posibles diferencias. De esta forma, se pueden identificar art´ıculos duplicados mediante la comparaci´on de los t´ı- tulos normalizados de los mismos.

Con el fin de eliminar posibles diferencias, los t´ıtulos de los art´ıculos son normalizados me- diante la conversi´on a min´usculas y la eliminaci´on de acentos, caracteres no alfanum´ericos, espacios innecesarios y cadenas de caracteres entre par´entesis o corchetes.

Eliminar stopwords. Al analizar los t´ıtulos de algunos repositorios se observaron casos donde la diferencia entre dos t´ıtulos, de un mismo art´ıculo, consta de preposiciones, art´ıcu- los y pronombres. Este tipo de palabras, denominadas stopwords, no agregan informaci´on de relevancia para el t´ıtulo y presentan un posible punto de diferencia entre t´ıtulos que de otra forma ser´ıan id´enticos.

Esta etapa elimina las stopwords identificadas en el t´ıtulo. De esta forma se espera un mayor porcentaje de unificaci´on entre t´ıtulos.

Corregir errores. Esta etapa intenta corregir posibles errores ortogr´aficos. Si bien los errores ortogr´aficos correspondientes a la acentuaci´on de las palabras son eliminados en la etapa de normalizaci´on, los errores ortogr´aficos de otro tipo deben ser tratados para as´ı mejorar las posibilidades de encontrar dos t´ıtulos iguales. El enfoque planteado para implementar esta etapa consiste en confeccionar un listado de errores ortogr´aficos comunes y sus correcciones tanto en castellano como en ingles. Cada una de las palabras entregadas por la etapa anterior debe ser validada contra este listado. Si la palabra se encuentra en el listado, se debe reemplazar la misma por su correcci´on.

Aplicar stemming. Al igual que la eliminaci´on de stopwords y la correcci´on de errores, esta etapa intenta solucionar las diferencias entre t´ıtulos de art´ıculos producto de palabras ingresadas err´oneamente. La t´ecnica destemming consiste en transformar una palabra a su lema o palabra ra´ız [Lovins, 1968]. Por ejemplo, las palabras ”programando”, ”programar” y ”programan” tienen su ra´ız en la palabra ”program”.

Al aplicar esta t´ecnica a cada una de las palabras del t´ıtulo, se pueden encontrar art´ıculos iguales donde la diferencia radica en el uso de diferentes derivaciones de la ra´ız de una misma palabra. Los algoritmos utilizados para transformar una palabra en su ra´ız son conocidos y se encuentran disponibles numerosas implementaciones de los mismos.

34 CAP´ITULO 3. CONFECCI ´ON DE BIBLIOM ´ETRICAS

Al finalizar las etapas descriptas, se obtiene el t´ıtulo normalizado del art´ıculo que est´a siendo procesado. El nuevo t´ıtulo es el identificador del art´ıculo al que pertenece. A trav´es del nuevo t´ıtulo, se realiza una consulta en la base de datos para determinar si ya existe un art´ıculo de igual t´ıtulo. En caso afirmativo simplemente se asocia al autor del art´ıculo en proceso al art´ıculo ya existente. En caso negativo se crea una nueva entidad del tipo art´ıculo en la base de datos, con la informaci´on contenida en el art´ıculo en proceso.

Una vez procesados todos los documentos obtenidos del repositorio y creadas las entidades de tipo art´ıculo, resta crear las instancias de la relaci´on entre los art´ıculos y los investigadores. A continuaci´on se describe el enfoque tomado para la creaci´on de estas relaciones.

3.4.3. Procesamiento de autores

Figura 3.5:Lista de autores para un art´ıculo del repositorio del CONICET

Generalmente, un art´ıculo contiene una lista de los investigadores que son autores del mismo, la cual consta de una serie de nombres, apellidos e iniciales, con un car´acter delimitador se- parando los distintos autores. La Figura 3.5 muestra la lista de autores de un art´ıculo tomado del repositorio CONICET. Al procesar un art´ıculo la lista de autores es utilizada para vincular la entidad art´ıculo con los correspondientes investigadores. Este vinculo puede observarse en el modelo de datos de la Figura 3.3. Esta secci´on describe el enfoque tomado para la creaci´on de estos v´ınculos.

El procesamiento de autores se divide en dos partes. En primer lugar, es necesario extraer los autores nombrados en la lista de autores. Se deben identificar los limites entre un autor y otro, y cada palabra de la lista debe ser identificada seg´un su tipo (apellido, nombre, inicial, etc.). La obtenci´on de informaci´on a partir de texto, tal como es el caso de los autores y listas de autores, se conoce en la literatura como information extraction [Ding et al., 1999].

El principal problema en la extracci´on de autores es la variedad de patrones utilizados en distintos repositorios. El patr´on de una lista de autores es el orden en que se presentan los nombres propios de los autores y la forma en que se marca el fin de un autor y el comienzo de otro. Por ejemplo, en la lista de autores de la Figura 3.5 se puede ver que el patr´on consiste en nombrar a los autores por sus nombres de pila, seguidos de sus apellidos, utilizando el car´acter ’;’ como delimitador entre autores. La variedad de patrones dentro de un mismo repositorio es uno de los principales problemas a tratar en el procesamiento de autores, ya que dificulta la extracci´on de los autores que son nombrados en la lista.

El segundo paso del procesamiento de autores consiste en vincular los autores nombrados con entidades existentes en la base de datos. Esta tarea se puede clasificar comonamed entity recog- nition [Rao et al., 2013], record linkage [Treeratpituk and Giles, 2009] o reference disambigua- tion [Kalashnikov et al., 2005] entre otros, y es considerada uno de los problemas clave en la

3.4. PROCESAMIENTO Y MEJORA DE DATOS 35 creaci´on de bases de datos a partir de fuentes de informaci´on “ruidosa” [Wellner et al., 2004]. La correcta vinculaci´on entre autores y art´ıculos es fundamental para la elaboraci´on de indicadores bibliom´etricos confiables.

Como se menciona en [Treeratpituk and Giles, 2009, Han et al., 2005, Rao et al., 2013], los prin- cipales problemas que se pueden presentar al vincular los nombres de un autor con su corres- pondiente entidad son los siguientes:

Un autor puede ser nombrado de formas diferentes en distintos art´ıculos. Por ejemplo, es necesario que a partir de los autores “Edsger W. Dijkstra”, “E. W. Dijkstra” y “Edsger Dijkstra” se llegue a la misma entidad de la base de datos.

Un nombre o apellido puede corresponder con m´as de una entidad. Por ejemplo, puede existir m´as de un autor con el nombre “Edsger”.

Los nombres y apellidos pueden contener errores tipogr´aficos. Este tipo de errores pueden

presentarse en sistemas donde los datos son ingresados

manualmente [Maletic and Marcus, 2000].

Los nombres y apellidos pueden referir a una entidad que exista en la realidad, pero no se encuentre en la base de datos.

Los problemas mencionados tanto en la extracci´on de autores como en la vinculaci´on de estos a entidades son reportados en [Arif et al., 2012, Ding et al., 1999, Day et al., 2007]. Esta secci´on comienza con ejemplos de listas de autores obtenidas de distintos repositorios para luego describir el enfoque desarrollado para el procesamiento de autores.

3.4.3.1. Listas de autores

Esta secci´on presenta ejemplos de listas de autores tomadas de un conjunto de repositorios de art´ıculos cient´ıficos accesibles p´ublicamente a trav´es de Internet. Los ejemplos fueron selecciona- das con el fin de mostrar evidencias de la variedad de patrones utilizados en distintos repositorios y como estos var´ıan, incluso dentro de un mismo repositorio. Ejemplos similares a los mostrados aqu´ı son reportados en [Aleixandre-Benavent et al., 2008, Ruiz-P´erez et al., 2002].

La Figura 3.6 muestra un conjunto de listas de autores agrupadas por repositorio. Los conjuntos se enumeran del 1 al 6 y corresponden a los repositorios Oxford Journals; JSTOR; Springer Link; Science Direct; Ministerio de Ciencia, Tecnolog´ıa e Innovaci´on Productiva de la Argentina y CONICET, respectivamente.

Como se puede observar, dentro de cada repositorio se utilizan diferentes patrones para nombrar los autores de un art´ıculo. Se observan diferencias en el uso de iniciales, el orden de los nombres propios y el car´acter utilizado como delimitador entre autores. El proceso de extracci´on de autores debe contemplar estas posibles variantes.

36 CAP´ITULO 3. CONFECCI ´ON DE BIBLIOM ´ETRICAS

3.4. PROCESAMIENTO Y MEJORA DE DATOS 37 3.4.3.2. Soluci´on propuesta

Al observar que un n´umero significativo de repositorios utilizan diferentes formatos para listar los autores de un art´ıculo y que estos formatos var´ıan incluso dentro de un mismo repositorio, se opt´o por dise˜nar un procesamiento de autores que sea adaptable al repositorio con el que se desee trabajar. La soluci´on propuesta consta de una serie de etapas que se aplican progresivamente. La entrada al proceso es una lista de autores obtenida de un documento del repositorio con el que se est´a trabajando. La salida consta de una o m´as entidades del tipo investigador, correspondientes a los autores nombrados en la lista de autores procesada. Las entidades retornadas como salida del proceso son obtenidas a partir de una consulta a la base de datos donde se encuentran almacenadas las entidades del tipo investigador previamente procesadas.

Figura 3.7:Proceso de reconocimiento de autores

La Figura 3.7 muestra las etapas del proceso realizado por el reconocimiento de autores junto a las entradas y salidas del mismo. En la figura puede observarse que para cada uno de los autores nombrados en la lista de autores de entrada, se retorna una entidad del tipo investigador. El proceso de reconocimiento de autores se compone de cinco etapas. Luego de una primera etapa de preprocesamiento, la generaci´on de tokens marca cada palabra presente en la lista de

38 CAP´ITULO 3. CONFECCI ´ON DE BIBLIOM ´ETRICAS

autores de acuerdo al tipo de la misma. Los tipos posibles son: nombre de pila, apellido, inicial, separador y desconocido.

Una vez que cada componente de la lista de autores es correctamente marcado, se intenta reconocer el patr´on utilizado, para luego dividir la lista en los autores que la componen. Las etapas de aplicaci´on de heur´ısticas y traducci´on realizan esta tarea. Por ejemplo, para el ejemplo n´umero 1.2 de la figura 3.6, una vez identificado el patr´on la lista de autores se divide en tres conjuntos: {(inicial, “E”), (inicial, “L”), (apellido, “Nicolazzi”)}, {(inicial, “D”), (apellido, “Iamartino”)},{(inicial, “J”), (inicial, “L”), (apellido, “Williams”)}.

A continuaci´on de las etapas mencionadas, que realizan la extracci´on de autores, se prosigue a la vinculaci´on de estos con las entidades de la base de datos. Aquellas entidades del tipo investigador que se correspondan con los autores buscados ser´an asociadas con la entidad del tipo art´ıculo a la que corresponde la lista de autores procesada. De este modo, se refleja en el grafo de entidades quienes son los autores de un art´ıculo y cuales son los art´ıculos de los que un investigador es autor. A continuaci´on, se detalla el funcionamiento de las etapas presentadas en la Figura 3.7.

3.4.3.3. Preprocesamiento

El primer paso del reconocimiento es preparar la lista de autores para su procesamiento, mediante t´ecnicas dedata cleaning[Raman and Hellerstein, 2001, Han et al., 2011]. En este paso se deben eliminar posibles errores sint´acticos [M¨uller and Freytag, 2005] y transformar los datos a un formato uniforme que cumpla con las caracter´ısticas esperadas por las siguientes etapas. Si bien hay un gran n´umero de actividades relacionadas con el data cleaning, en este trabajo se consideran las siguientes transformaciones:

Remover acentos y convertir los caracteres a min´usculas. De esta forma se facilita el re- conocimiento de autores, ya que es posible que la linea de autores haya sido ingresada al repositorio con errores de acentuaci´on o con un uso incorrecto de caracteres en may´uscula. Remover caracteres que se encuentren entre par´entesis.Se observ´o que en ciertos reposito- rios las lineas de autores cuentan con informaci´on entre par´entesis que no es relevante para el reconocimiento de autores. Estos caracteres deben ser removidos ya que no nombran a un investigador.

Agregar un espacio en blanco despu´es de cada punto.Esta operaci´on facilita la identificaci´on de los limites entre una palabra y la siguiente.

Eliminar caracteres especiales.En esta etapa se eliminan caracteres num´ericos o especiales tales como ’*’, ’‘’, ’¬’, etc. Estos caracteres no son de utilidad para la identificaci´on de autores ya que no pueden ser parte de un apellido, nombre o inicial de un investigador. Reemplazo por diccionario.En los repositorios mencionados previamente se observ´o la exis- tencia de palabras innecesarias dentro de las lineas de autores. Ejemplos de estas palabras

3.4. PROCESAMIENTO Y MEJORA DE DATOS 39 son: “DRA.”, “DR.”, ”Ph. D.”, “ENTRE OTROS”, “SRA.”, etc. Para tratar estos casos la soluci´on ideada consiste en confeccionar una lista con las palabras de este tipo que puedan aparecer en el repositorio con el que se trabaja. Cada palabra de una linea de autores que se encuentre en esta lista es eliminada de la linea de autores.

Las operaciones realizadas en esta etapa deben aplicarse en cualquier repositorio con el que se desee trabajar. Para algunos repositorios puede ser necesario a˜nadir operaciones, o adaptar las existentes, para contemplar las caracter´ısticas particulares de los mismos. Una vez que se transform´o la lista de autores a una cadena de caracteres libre de elementos indeseados, se comienza a marcar cada una de las palabras que componen la lista de acuerdo a su tipo, para luego poder identificar el patr´on utilizado.

3.4.3.4. Generaci´on de tokens

Como se mencionaba previamente, la correcta identificaci´on de los autores contenidos en una lista de autores depende de reconocer el patr´on utilizado en la misma. El patr´on de una lista de autores est´a determinado por el tipo de cada una de las cadenas de caracteres que componen la