4. Implementaci´ on
4.2. Obtenci´ on del repositorio objetivo
4.4.2. Tablas de la base de datos
4.6.3.1. Patrones considerados por las heur´ısticas
El objetivo de las heur´ısticas es identificar un conjunto de patrones sencillos, que se observan en las lineas de autor del repositorio. A continuaci´on, se lista cada uno de los patrones considerados por las heur´ısticas.
1. En este primer caso se trata el patr´on en el cual la lista de autor no tiene ning´un separador y ninguno de lostokens es del tipo desconocido. El objetivo de este primer caso es aceptar listas que cuentan con un ´unico autor. Por ejemplo, la lista “Cristian Mateos”, que se podr´ıa representar con los tokens n5 l1, ser´ıa reconocida por este caso.
2. En este segundo caso, se trata el patr´on en el cual la linea de autor contiene la informaci´on de un solo autor y los apellidos se encuentran separados de los nombres de pila por el car´acter ’,’. Un ejemplo del patr´on reconocido por este caso es la linea de autor “Mateos Diaz, Cristian”, que se podr´ıa expresar con lostokens l1 l2, n5. Para identificar este patr´on, primero se verifica que la lista cuente con una ´unica ocurrencia del car´acter ’,’. Luego se comprueba que lostokens a la izquierda del separador sean del tipo apellido, mientras que los que est´an a la derecha, sean del tipo nombre de pila.
3. El tercer caso es similar al anterior, solo que considera iniciales y no nombres de pila, como por ejemplo la lista de autores “Mateos Diaz, C.”. En este caso, el patr´on consta de uno o mas apellidos separados de una o m´as iniciales, por el car´acter ’,’. Nuevamente, solo es necesario asegurar que existe un ´unico car´acter ’,’ y que los tokens a la izquierda de ´este son del tipo apellido, mientras que los que se encuentran a su derecha son del tipo inicial. Los casos descriptos hasta aqu´ı tratan patrones donde la lista de autores est´a compuesta de un ´
unico autor. Las siguientes heur´ısticas tratan patrones de dos o m´as autores. Como paso previo a la aplicaci´on de estas, la linea de autores se divide en autores individuales, a partir del car´acter
4.6. PROCESAMIENTO DE AUTORES 75 que se identifique como separador de autores en la lista. Cada posici´on del arreglo consta de una cadena de tokens, con la informaci´on correspondiente a un autor, la cual es procesada por las heur´ısticas descriptas a continuaci´on. Aquellas cadenas de tokens que no coincidan con los patrones que se describen son almacenadas para luego ser procesadas por el traductor de la siguiente etapa.
4. Esta heur´ıstica se aplica cuando ninguno de lostokenses del tipo desconocido y el separador entre autores es el car´acter ’;’. ´Este es uno de los patrones m´as utilizados dentro del repositorio, para los casos de m´ultiples autores. Un ejemplo de este patr´on es la lista “Crasso, Marco ; Mateos, Cristian ; Zunino, Alejandro”. Esta puede ser representada por los tokens“l5, n3 ; l1, n5 ; l3, n1”. El arreglo de salida para este ejemplo ser´ıa [“l5, n3”, “l1, n5”, “l3, n1”].
5. Este caso tiene el objetivo diferenciar entre aquellos autores que pertenecen al CONICET y aquellos que no. Lostokens de tipo desconocido, pueden presentarse por dos razones. La primera de ellas es un error de tipeo al ingresar la linea de autores a trav´es del SIGEVA. Estos errores, que no se corrigieron en etapas previas del reconocimiento, terminan presen- t´andose comotokensdel tipo desconocido en esta etapa. La segunda raz´on es que el nombre propio que est´a representando eltoken, sea un nombre o apellido de un investigador ajeno al CONICET.
La estrategia implementada en el caso n´umero 5, para diferenciar entre estos dos tipos de in- vestigadores, se basa en determinar si los tokens que componen un autor, a pesar de contener uno o m´astokens del tipo desconocido, son suficientes para la posterior b´usqueda en la base de datos. Es decir, si un autor est´a compuesto por untoken desconocido, pero el resto de lostokens son de tipo apellido o nombre de pila, se asume que el token desconocido es producto de un error de tipeo y que el autor pertenece al CONICET. En caso contrario, se asume que el autor no pertenece al CONICET. Para este ´ultimo caso, no se puede hacer m´as que indicar que este autor es ajeno a la instituci´on y que no debe buscarse entre los investigadores presentes en la base de datos.
Por ejemplo la linea de autores “Cristiann Maximiliano Mateos; Ezequiel Fernandez Diaz”, re- presentada por lostokens“@1 n6 l1; @2 @3 l1”, es tratada por este caso. Si bien el primer autor contiene un token del tipo desconocido, los dos tokens restantes, n6 y l1, son suficientes para considerar al autor como reconocido. En este ejemplo, el supuesto que el token desconocido @1 se debe a un error de tipeo es correcto. El segundo autor, compuesto por los tokens @2 @3 l1, cuenta con dos tokens desconocidos, pero los tokens restantes,l1, no son suficientes para consi- derar al autor como reconocido. Simplemente, se da el caso que el autor ajeno a la instituci´on cuenta con un apellido igual a un investigador que si pertenece a la instituci´on. Finalmente, todos los autores que no han sido reconocidos al iterar sobre los elementos del arreglo son almacenados para ser procesados por el traductor en la siguiente etapa.
76 CAP´ITULO 4. IMPLEMENTACI ´ON