Procesamiento de t´ıtulos - Procesamiento y mejora de datos

3. Confecci´ on de bibliom´ etricas sobre repositorios no estructurados

3.4. Procesamiento y mejora de datos

3.4.2. Procesamiento de t´ıtulos

La interfaz de acceso a los datos brinda acceso a los campos de los art´ıculos e investigadores que se encontraron en el repositorio objetivo. El objetivo del procesamiento de t´ıtulos y autores es transformar los objetos ofrecidos por la interfaz de acceso a los datos, en un conjunto de entidades y relaciones, de las definidas modelo de datos, que representen correctamente la realidad del repositorio objetivo.

El problema más importante que presenta el procesamiento de los datos obtenidos del repositorio es la existencia de errores. Los errores que no se corrijan durante este procesamiento, llevarán a crear una representación incorrecta de la realidad y, por lo tanto, a indicadores bibliométricos con valores incorrectos.

Los errores de mayor importancia en la construcción del grafo de entidades, son aquellos que pueden llevar a la creación de entidades incorrectas o asociaciones incorrectas entre entidades. Este trabajo se enfoca en los errores presentes en los t´ıtulos de los art´ıculos y en aquellos que existen en las listas de autores de los art´ıculos. Esta sección describe el tratamiento de los t´ıtulos de art´ıculos, mientras que la siguiente hace lo mismo para las listas de autores.

Generalmente, los art´ıculos son identificables un´ıvocamente por su t´ıtulo, por lo que la presencia de errores ortográficos en estos dificulta su correcta identificación. Este tipo de errores pueden ser incorporados por personas que ingresan art´ıculos de forma manual a repositorios de infor- mación cient´ıfica. Otra posible fuente de errores son los mismos repositorios, los cuales pueden procesar ciertos datos de forma incorrecta, como por ejemplo no aplicar ciertas restricciones de integridad [Kim et al., 2003, Buchanan, 2006].

3.4. PROCESAMIENTO Y MEJORA DE DATOS 31 El problema de los t´ıtulos de art´ıculos ingresados incorrectamente se ha estudiado en el contexto del análisis de referencias bibliográficas [Sweetland, 1989, Buchanan, 2006]. El estudio presenta- do en [Buchanan, 2006] analiza los errores presentes en 5648 referencias bibliográficas obtenidas del repositorio SciFinder Scholar (SFS) y 5460 obtenidas del repositorio Science Citation Index Expanded (SCIE). El estudio reporta errores en el 9.1 % de las citas obtenidas de SFS y en el 9.3 % de las correspondientes a SCIE. De estos, el 11 % son producto de errores en el t´ıtulo del art´ıculo citado, mientras que el resto es compartido entre errores ortográficos en el nombre de los autores o el año de publicación.

Los errores en los t´ıtulos pueden traer problemas para la identificación de art´ıculos, tal como es el caso del repositorio de CONICET. En el mismo, cada investigador es responsable de ingresar manualmente la información de los art´ıculos en los que participa como autor. Ya que el sistema de carga de art´ıculos no intenta unificar los art´ıculos ingresados, el repositorio cuenta con tantas copias de un art´ıculo como autores tenga el mismo. El procesamiento de este repositorio, por parte de la herramienta propuesta, debe tener en cuenta la posibilidad de que las múltiples copias de un art´ıculo se encuentren con pequeñas variaciones en el t´ıtulo, producto de errores de tipeo. Sin un adecuado procesamiento de los t´ıtulos es posible que algunos art´ıculos no se unifiquen correctamente y que se cree más de una entidad para el mismo art´ıculo, cuando solo corresponde que exista una.

El conjunto de operaciones que se realizan sobre datos existentes, con el fin de remover anomal´ıas y asegurar que se cuenta con un representación adecuada del universo del discurso, se conoce como data cleansing [Müller and Freytag, 2005]. En términos generales, este proceso consta de las siguientes actividades:

1. Auditar los datos con los que se va a trabajar para identificar los tipos de anomal´ıas que se pueden presentar.

2. Seleccionar los m´etodos apropiados para detectar estas anomal´ıas y corregirlas.

3. Ejecutar los métodos seleccionados sobre las tuplas que componen la colección de datos. En esta sección se plantea un conjunto de métodos para la corrección de errores en los t´ıtulos, seleccionados a partir de las anomal´ıas observadas en repositorios de publicaciones cient´ıficas. Los t´ıtulos, una vez corregidos, son utilizados para determinar si dos documentos del repositorio corresponden a una misma entidad del tipo art´ıculo o si deben considerarse como entidades separadas.

La Figura 3.4 muestra el diagrama de actividades con las etapas que componen el proceso de transformación de t´ıtulos y creación de entidades tipo art´ıculo. Este proceso se aplica a cada uno de los documentos de tipo art´ıculo obtenidos del repositorio. La entrada del proceso consta de un art´ıculo obtenido de la interfaz de acceso a los datos del repositorio. A continuación se describe cada uno de los pasos del proceso:

32 CAPÍTULO 3. CONFECCI ÓN DE BIBLIOM ÉTRICAS

3.4. PROCESAMIENTO Y MEJORA DE DATOS 33 Extraer t´ıtulo de art´ıculo. El primer paso consiste en extraer el t´ıtulo del documento que se está procesando. Esta tarea es realizada por la interfaz de acceso a los datos. Como se mencionó previamente, el módulo Converter debe ser implementado para cada repositorio con el que se desee trabajar. Este módulo debe poder interpretar el formato de los documentos que se encuentran en el repositorio y extraer los atributos de interés de los mismos.

Normalizar. Dado que el repositorio puede contar con más de un documento para un mismo art´ıculo y que estos pueden haber sido ingresados con diferencias en el t´ıtulo, es necesario realizar un proceso de normalización para eliminar estas posibles diferencias. De esta forma, se pueden identificar art´ıculos duplicados mediante la comparación de los t´ı- tulos normalizados de los mismos.

Con el fin de eliminar posibles diferencias, los t´ıtulos de los art´ıculos son normalizados mediante la conversión a minúsculas y la eliminación de acentos, caracteres no alfanuméricos, espacios innecesarios y cadenas de caracteres entre paréntesis o corchetes.

Eliminar stopwords. Al analizar los t´ıtulos de algunos repositorios se observaron casos donde la diferencia entre dos t´ıtulos, de un mismo art´ıculo, consta de preposiciones, art´ıcu- los y pronombres. Este tipo de palabras, denominadas stopwords, no agregan informaci´on de relevancia para el t´ıtulo y presentan un posible punto de diferencia entre t´ıtulos que de otra forma ser´ıan id´enticos.

Esta etapa elimina las stopwords identificadas en el t´ıtulo. De esta forma se espera un mayor porcentaje de unificaci´on entre t´ıtulos.

Corregir errores. Esta etapa intenta corregir posibles errores ortográficos. Si bien los errores ortográficos correspondientes a la acentuación de las palabras son eliminados en la etapa de normalización, los errores ortográficos de otro tipo deben ser tratados para as´ı mejorar las posibilidades de encontrar dos t´ıtulos iguales. El enfoque planteado para implementar esta etapa consiste en confeccionar un listado de errores ortográficos comunes y sus correcciones tanto en castellano como en ingles. Cada una de las palabras entregadas por la etapa anterior debe ser validada contra este listado. Si la palabra se encuentra en el listado, se debe reemplazar la misma por su corrección.

Aplicar stemming. Al igual que la eliminación de stopwords y la corrección de errores, esta etapa intenta solucionar las diferencias entre t´ıtulos de art´ıculos producto de palabras ingresadas erróneamente. La técnica destemming consiste en transformar una palabra a su lema o palabra ra´ız [Lovins, 1968]. Por ejemplo, las palabras ”programando”, ”programar” y ”programan” tienen su ra´ız en la palabra ”program”.

Al aplicar esta t´ecnica a cada una de las palabras del t´ıtulo, se pueden encontrar art´ıculos iguales donde la diferencia radica en el uso de diferentes derivaciones de la ra´ız de una misma palabra. Los algoritmos utilizados para transformar una palabra en su ra´ız son conocidos y se encuentran disponibles numerosas implementaciones de los mismos.

34 CAPÍTULO 3. CONFECCI ÓN DE BIBLIOM ÉTRICAS

Al finalizar las etapas descriptas, se obtiene el t´ıtulo normalizado del art´ıculo que está siendo procesado. El nuevo t´ıtulo es el identificador del art´ıculo al que pertenece. A través del nuevo t´ıtulo, se realiza una consulta en la base de datos para determinar si ya existe un art´ıculo de igual t´ıtulo. En caso afirmativo simplemente se asocia al autor del art´ıculo en proceso al art´ıculo ya existente. En caso negativo se crea una nueva entidad del tipo art´ıculo en la base de datos, con la información contenida en el art´ıculo en proceso.

Una vez procesados todos los documentos obtenidos del repositorio y creadas las entidades de tipo art´ıculo, resta crear las instancias de la relación entre los art´ıculos y los investigadores. A continuación se describe el enfoque tomado para la creación de estas relaciones.

3.4.3. Procesamiento de autores

Figura 3.5:Lista de autores para un art´ıculo del repositorio del CONICET

Generalmente, un art´ıculo contiene una lista de los investigadores que son autores del mismo, la cual consta de una serie de nombres, apellidos e iniciales, con un carácter delimitador se- parando los distintos autores. La Figura 3.5 muestra la lista de autores de un art´ıculo tomado del repositorio CONICET. Al procesar un art´ıculo la lista de autores es utilizada para vincular la entidad art´ıculo con los correspondientes investigadores. Este vinculo puede observarse en el modelo de datos de la Figura 3.3. Esta sección describe el enfoque tomado para la creación de estos v´ınculos.

El procesamiento de autores se divide en dos partes. En primer lugar, es necesario extraer los autores nombrados en la lista de autores. Se deben identificar los limites entre un autor y otro, y cada palabra de la lista debe ser identificada según su tipo (apellido, nombre, inicial, etc.). La obtención de información a partir de texto, tal como es el caso de los autores y listas de autores, se conoce en la literatura como information extraction [Ding et al., 1999].

El principal problema en la extracción de autores es la variedad de patrones utilizados en distintos repositorios. El patrón de una lista de autores es el orden en que se presentan los nombres propios de los autores y la forma en que se marca el fin de un autor y el comienzo de otro. Por ejemplo, en la lista de autores de la Figura 3.5 se puede ver que el patrón consiste en nombrar a los autores por sus nombres de pila, seguidos de sus apellidos, utilizando el carácter ’;’ como delimitador entre autores. La variedad de patrones dentro de un mismo repositorio es uno de los principales problemas a tratar en el procesamiento de autores, ya que dificulta la extracción de los autores que son nombrados en la lista.

El segundo paso del procesamiento de autores consiste en vincular los autores nombrados con entidades existentes en la base de datos. Esta tarea se puede clasificar comonamed entity recog- nition [Rao et al., 2013], record linkage [Treeratpituk and Giles, 2009] o reference disambigua- tion [Kalashnikov et al., 2005] entre otros, y es considerada uno de los problemas clave en la

3.4. PROCESAMIENTO Y MEJORA DE DATOS 35 creación de bases de datos a partir de fuentes de información “ruidosa” [Wellner et al., 2004]. La correcta vinculación entre autores y art´ıculos es fundamental para la elaboración de indicadores bibliométricos confiables.

Como se menciona en [Treeratpituk and Giles, 2009, Han et al., 2005, Rao et al., 2013], los principales problemas que se pueden presentar al vincular los nombres de un autor con su corres- pondiente entidad son los siguientes:

Un autor puede ser nombrado de formas diferentes en distintos art´ıculos. Por ejemplo, es necesario que a partir de los autores “Edsger W. Dijkstra”, “E. W. Dijkstra” y “Edsger Dijkstra” se llegue a la misma entidad de la base de datos.

Un nombre o apellido puede corresponder con m´as de una entidad. Por ejemplo, puede existir m´as de un autor con el nombre “Edsger”.

Los nombres y apellidos pueden contener errores tipogr´aficos. Este tipo de errores pueden

presentarse en sistemas donde los datos son ingresados

manualmente [Maletic and Marcus, 2000].

Los nombres y apellidos pueden referir a una entidad que exista en la realidad, pero no se encuentre en la base de datos.

Los problemas mencionados tanto en la extracción de autores como en la vinculación de estos a entidades son reportados en [Arif et al., 2012, Ding et al., 1999, Day et al., 2007]. Esta sección comienza con ejemplos de listas de autores obtenidas de distintos repositorios para luego describir el enfoque desarrollado para el procesamiento de autores.

3.4.3.1. Listas de autores

Esta sección presenta ejemplos de listas de autores tomadas de un conjunto de repositorios de art´ıculos cient´ıficos accesibles públicamente a través de Internet. Los ejemplos fueron selecciona- das con el fin de mostrar evidencias de la variedad de patrones utilizados en distintos repositorios y como estos var´ıan, incluso dentro de un mismo repositorio. Ejemplos similares a los mostrados aqu´ı son reportados en [Aleixandre-Benavent et al., 2008, Ruiz-Pérez et al., 2002].

La Figura 3.6 muestra un conjunto de listas de autores agrupadas por repositorio. Los conjuntos se enumeran del 1 al 6 y corresponden a los repositorios Oxford Journals; JSTOR; Springer Link; Science Direct; Ministerio de Ciencia, Tecnolog´ıa e Innovaci´on Productiva de la Argentina y CONICET, respectivamente.

Como se puede observar, dentro de cada repositorio se utilizan diferentes patrones para nombrar los autores de un art´ıculo. Se observan diferencias en el uso de iniciales, el orden de los nombres propios y el car´acter utilizado como delimitador entre autores. El proceso de extracci´on de autores debe contemplar estas posibles variantes.

36 CAPÍTULO 3. CONFECCI ÓN DE BIBLIOM ÉTRICAS

3.4. PROCESAMIENTO Y MEJORA DE DATOS 37 3.4.3.2. Soluci´on propuesta

Al observar que un número significativo de repositorios utilizan diferentes formatos para listar los autores de un art´ıculo y que estos formatos var´ıan incluso dentro de un mismo repositorio, se optó por diseñar un procesamiento de autores que sea adaptable al repositorio con el que se desee trabajar. La solución propuesta consta de una serie de etapas que se aplican progresivamente. La entrada al proceso es una lista de autores obtenida de un documento del repositorio con el que se está trabajando. La salida consta de una o más entidades del tipo investigador, correspondientes a los autores nombrados en la lista de autores procesada. Las entidades retornadas como salida del proceso son obtenidas a partir de una consulta a la base de datos donde se encuentran almacenadas las entidades del tipo investigador previamente procesadas.

Figura 3.7:Proceso de reconocimiento de autores

La Figura 3.7 muestra las etapas del proceso realizado por el reconocimiento de autores junto a las entradas y salidas del mismo. En la figura puede observarse que para cada uno de los autores nombrados en la lista de autores de entrada, se retorna una entidad del tipo investigador. El proceso de reconocimiento de autores se compone de cinco etapas. Luego de una primera etapa de preprocesamiento, la generaci´on de tokens marca cada palabra presente en la lista de

38 CAPÍTULO 3. CONFECCI ÓN DE BIBLIOM ÉTRICAS

autores de acuerdo al tipo de la misma. Los tipos posibles son: nombre de pila, apellido, inicial, separador y desconocido.

Una vez que cada componente de la lista de autores es correctamente marcado, se intenta reconocer el patrón utilizado, para luego dividir la lista en los autores que la componen. Las etapas de aplicación de heur´ısticas y traducción realizan esta tarea. Por ejemplo, para el ejemplo número 1.2 de la figura 3.6, una vez identificado el patrón la lista de autores se divide en tres conjuntos: {(inicial, “E”), (inicial, “L”), (apellido, “Nicolazzi”)}, {(inicial, “D”), (apellido, “Iamartino”)},{(inicial, “J”), (inicial, “L”), (apellido, “Williams”)}.

A continuación de las etapas mencionadas, que realizan la extracción de autores, se prosigue a la vinculación de estos con las entidades de la base de datos. Aquellas entidades del tipo investigador que se correspondan con los autores buscados serán asociadas con la entidad del tipo art´ıculo a la que corresponde la lista de autores procesada. De este modo, se refleja en el grafo de entidades quienes son los autores de un art´ıculo y cuales son los art´ıculos de los que un investigador es autor. A continuación, se detalla el funcionamiento de las etapas presentadas en la Figura 3.7.

3.4.3.3. Preprocesamiento

El primer paso del reconocimiento es preparar la lista de autores para su procesamiento, mediante técnicas dedata cleaning[Raman and Hellerstein, 2001, Han et al., 2011]. En este paso se deben eliminar posibles errores sintácticos [Müller and Freytag, 2005] y transformar los datos a un formato uniforme que cumpla con las caracter´ısticas esperadas por las siguientes etapas. Si bien hay un gran número de actividades relacionadas con el data cleaning, en este trabajo se consideran las siguientes transformaciones:

Remover acentos y convertir los caracteres a minúsculas. De esta forma se facilita el reconocimiento de autores, ya que es posible que la linea de autores haya sido ingresada al repositorio con errores de acentuación o con un uso incorrecto de caracteres en mayúscula. Remover caracteres que se encuentren entre paréntesis.Se observó que en ciertos repositorios las lineas de autores cuentan con información entre paréntesis que no es relevante para el reconocimiento de autores. Estos caracteres deben ser removidos ya que no nombran a un investigador.

Agregar un espacio en blanco después de cada punto.Esta operación facilita la identificación de los limites entre una palabra y la siguiente.

Eliminar caracteres especiales.En esta etapa se eliminan caracteres numéricos o especiales tales como ’*’, ’‘’, ’¬’, etc. Estos caracteres no son de utilidad para la identificación de autores ya que no pueden ser parte de un apellido, nombre o inicial de un investigador. Reemplazo por diccionario.En los repositorios mencionados previamente se observó la existencia de palabras innecesarias dentro de las lineas de autores. Ejemplos de estas palabras

3.4. PROCESAMIENTO Y MEJORA DE DATOS 39 son: “DRA.”, “DR.”, ”Ph. D.”, “ENTRE OTROS”, “SRA.”, etc. Para tratar estos casos la soluci´on ideada consiste en confeccionar una lista con las palabras de este tipo que puedan aparecer en el repositorio con el que se trabaja. Cada palabra de una linea de autores que se encuentre en esta lista es eliminada de la linea de autores.

Las operaciones realizadas en esta etapa deben aplicarse en cualquier repositorio con el que se desee trabajar. Para algunos repositorios puede ser necesario añadir operaciones, o adaptar las existentes, para contemplar las caracter´ısticas particulares de los mismos. Una vez que se transformó la lista de autores a una cadena de caracteres libre de elementos indeseados, se comienza a marcar cada una de las palabras que componen la lista de acuerdo a su tipo, para luego poder identificar el patrón utilizado.

3.4.3.4. Generaci´on de tokens

Como se mencionaba previamente, la correcta identificación de los autores contenidos en una lista de autores depende de reconocer el patrón utilizado en la misma. El patrón de una lista de autores está determinado por el tipo de cada una de las cadenas de caracteres que componen la

In document Una herramienta para la confeccion de bibliométricas basada en repositorios de datos científicos no estructurados (página 46-60)