Caso de estudio Evaluación y comparación de comisiones designadas por el CONICET.

5.2-Consideraciones previas a la evaluación

5.3.4 Caso de estudio Evaluación y comparación de comisiones designadas por el CONICET.

Para contrastar los resultados del algoritmo genético se utilizaron las comisiones asesoras disciplinarias correspondientes al área de informática y comunicaciones del CONICET . 11

Estas comisiones son integradas por especialistas de reconocida trayectoria, equivalente o superior a la Clase Investigador Independiente del CONICET, y tienen por misión asesorar al Directorio del CONICET en lo concerniente a las presentaciones de ingresos, informes, promociones, proyectos PIP y becas. Para el desempeño en sus tareas, las Comisiones deben seleccionar los Pares Consultores en los trámites que así lo requieran. Los dictámenes de las Comisiones cuentan con elementos necesarios que permiten evaluar la calidad académica de la producción científica y su continuidad, la consistencia teórica y metodológica del plan de investigación, la valoración de los recursos humanos formados por el investigador, el impacto y/o transferencia al medio, cuando correspondieren, así como también otros elementos que avalen la recomendación y/o el orden de mérito. La fundamentación de estos dictámenes se sustenta exclusivamente en razones académicas.

Para el área de becas de “informática y comunicaciones” se obtuvo el grupo de 8 investigadores conformados por:

Nombre Rol ID en Neo4j

Integrante A COORDINADOR NO ENCONTRADO

Integrante B COORDINADOR ALTERNO 89118

Integrante C TITULAR 97992 Integrante D TITULAR 131830 Integrante E TITULAR 128885 Integrante F TITULAR 107296 Integrante G TITULAR 131037 Integrante H TITULAR 77043 [Tabla 5.6] Grupo 1

Para el área de promociones y proyectos de “informática y comunicaciones” se obtuvo un grupo de 10 investigadores conformados por:

Nombre Rol ID en Neo4j

Integrante A COORDINADOR 106742

Integrante B COORDINADOR ALTERNO 143669

Integrante C TITULAR 125450

Integrante D TITULAR 100129

Integrante E TITULAR NO ENCONTRADO

Integrante F TITULAR 116123 Integrante G TITULAR 134063 Integrante H TITULAR 125268 Integrante I TITULAR 113273 Integrante J TITULAR 97030 [Tabla 5.7] Grupo 2

Dado que en ambos grupos hay una persona que no se encuentra en los datos del caso de estudio, no serán consideradas en las pruebas (Integrante A del grupo 1 e integrante E del grupo 2).

En primera instancia, para evaluar los grupos de propuestos por el CONICET se usó la función fitness con el grupo 1. Obteniéndose un fitness de 0.25, esto se debe a que se consideraron todas las relaciones (“residen”, “edad”, “trabaja en”, “tiene como disciplina” y “nacionalidad”). Obteniendo la siguiente tabla de adyacencia. La tabla de adyacencia muestra la distancia de un candidato con el resto, obteniéndose una matriz simétrica ya que la distancia entre 2 nodos no depende de cual se eligió como origen.

[Tabla 5.8] Adyacencia del Grupo 1.

Recordemos que la función fitness es la siguiente: f = ₂_D *

(i, j) / k + m

[(

∑k

i, j=0

) ]

Con los datos de adyacencia anterior obtenemos un fitness de . .25 f = _{2 8} * 21 2 /21 + 2 [ _* ] _{= 0}

Como todos los integrantes del grupo son de nacionalidad Argentina el fitness dio un valor muy bajo. Dado esto, se volvió a evaluar el grupo ignorando la relación de “nacionalidad”, obteniendo la matriz de adyacencia:

[Tabla 5.9] Adyacencia del Grupo 1 sin considerar la relación “nacionalidad”.

Sin considerar la relación “nacionalidad” se obtiene un fitness . .2797619048 f = _{2 8} * (16 2+5 4) /21 + 2 [ * * ] _{= 0}

Considerando solo las relaciones “trabaja en” y “tiene como disciplina” se obtiene un fitness f = _{2 8} = 0,2916666667.

(14 2+7 4) /21 + 2 [ * * ]

Teniendo como parámetro los resultados anteriores, se ejecutó el algoritmo, considerando las relaciones “residen”, “edad”, “trabaja en” y “tiene como disciplina” para 7 candidatos. Obteniéndose una solución, cuya matriz de adyacencia es la siguiente:

[Tabla 5.11] Adyacencia de la solución propuesta por el algoritmo usando las relaciones “residen”, “edad”, “trabaja en” y “tiene como disciplina”

Dicha solución cuenta con un fitness de f = _{2 8} = 0,4642857143. *

(2 2+2 4+17 6) /21 + 2 [ * * * ]

Luego se ejecutó el algoritmo con las relaciones “trabaja en” y “tiene como disciplina” para 7 candidatos. Para este caso, sólo se consideraron 59664 de los 71877 investigadores, ya que estos son los que no le faltan datos de “lugar de trabajo” ni “disciplina”. En caso de no hacer este filtrado el resultado obtenido son investigadores con distancia infinita entre ellos.

[Tabla 5.12] Adyacencia de la solución propuesta por el algoritmo usando las relaciones “trabaja en” y “tiene como disciplina”

Con el grupo 2 se realizaron las mismas pruebas y comparaciones. Obteniendo los siguientes resultados: Relaciones consideradas Grupo 1 CONICET (7 integrantes) Grupo propuesto por algoritmo (7 integrantes) Grupo 2 CONICET (9 integrantes) Grupo propuesto por algoritmo (9 integrantes) reside en, edad, trabajaen,

tiene como disciplina,

nacionalidad 0,250 0,351 0,250 0,361 reside en, edad, trabajaen,

tiene como disciplina 0,279 0,464 0,315 0,465 trabajaen, tiene como disciplina 0,291 0,750 0,322 0,750

[Tabla 5.13]Fitness de grupos x relaciones.

5.4 Resumen

El método propuesto es heurístico, y por lo tanto no poder asegurar el mejor resultado, el algoritmo muestra un buen desempeño cuando es configurado correctamente. En tiempos aceptables se pueden obtener soluciones con un fitness igual o mayor a 0.5. Los grupos conformados con este valor de aptitud resultan ser lo suficientemente buenos ya que la independencia es garantizada pese a la fuerte interconexión existente en el dominio presentado.

La búsqueda exhaustiva del mejor comité es muy costosa en el dominio presentado debido a la cantidad de investigadores y conexiones entre ellos. El algoritmo genético es un método eficiente para encontrar grupos lo suficientemente buenos reduciendo significativamente el costo computacional. La parametrización es importante ya que es lo que va a determinar que la ejecución del algoritmo sea exitosa o no en términos de performance y fitness. Debido, también, a la cantidad de nodos y a la interconexión del grafo resulta deseable establecer una configuración

soluciones. Además, se mostró, que lo selectores de tipo Boltzmann (con b>0), Exponential Rank (con valores cercanos al uno o al cero) y Tournament son los que dan mejores resultados. Con respecto a los alteradores, es preferible el uso de PartiallyMatched con probabilidad cercana a uno.

El uso de esta solución para un problema real sobre el dominio dado fue exitoso, ya que se obtuvieron grupos con valores de fitness superior a los grupos reales tomados como ejemplo. Por ejemplo, la comisión asesora de becas propuesta por el algoritmo tiene un fitness de 0.46 (cuando no se toma en cuenta la nacionalidad), superando ampliamente al fitness 0.28 de la comisión real.

Capítulo 6-Conclusiones

Este trabajo presenta un enfoque para la selección de grupos de personas, el cual aborda dos aspectos claves del problema, la representación de las características de los candidatos y la optimización del proceso de búsqueda de soluciones. En este, los candidatos son representados mediante el desarrollo de una red social y la búsqueda de soluciones es optimizada mediante un algoritmo genético.

La contribución principal es extender lo presentado en [30] presentando una nueva implementación que permita la conformación de grupos de individuos independientes a partir de una nueva red social mayor, y con distintos tipos de enlaces. La reducción, de coeficiente binomial a lineal, de la cantidad de enlaces gracias a la incorporación de nuevos tipos de nodos que representan las propiedades de los individuos, junto con la utilización de algoritmos genéticos y la utilización de Neo4j para almacenar el grafo, son las herramientas que permiten obtener buenos resultados en un tiempo aceptable para grandes conjuntos de candidatos fuertemente relacionados.

El desempeño del algoritmo, como fue mostrado en el último capítulo, depende en gran medida de la completitud de los datos en la red social y la optimización de los parámetros en el algoritmo genético. El criterio de independencia del algoritmo depende de las propiedades que se utilizan para generar los enlaces en la red social. En este trabajo se presentan 5 tipos de enlaces y debido a esto, la independencia está restringida a 5 propiedades de los investigadores.

En trabajos futuros podrían incorporarse pesos a los distintos tipos de enlaces y conexiones entre los nodos que representan las características de los candidatos. La incorporación de pesos está ejemplificada en la sección 3.2. Con respecto a la conexión de los nodos que representan las características se podrían, por ejemplo, generar enlaces entre los nodos de tipo rango etario. Por ejemplo, el nodo “30-39” tendría un enlace con el nodo “40-49” y este último tendría un enlace

limítrofes. De esta manera, se agregarían nuevos caminos posibles y nuevos grados de independencia sin modificar el algoritmo.

Bibliografía

[1] William M. Campbell, Charlie K. Dagli, Clifford J. Weinstein, Social Network Analysis with Content and Graphs,Lincoln Laboratory Journal, Vol. 20, Nro. 1, 2013.

[2] Jure Leskovec, Anand Rajaraman, Jeff Ullman, Mining of Massive Datasets, CS246: Mining Massive Datasets, capitulo 10, 2014.

[3] John Scott, Social Network Analysis 2nd_edition,_{ISBN: 978-1-4462-0903-5,} 2000.

[4] Stanley Wasserman,Katherine Faust, Social Network Analysis: Methods and Applications, ISBN:0-521-38707-8,University of Cambridge, 1994.

[5] Alfred Radcliffe-Brown, Social Organization of Australian Tribes, ISBN: 9781298030573, 1931.

[6] John Holland, Adaptation in Natural and Artificial Systems ,University of Michigan Press, ISBN:0262581116, Ann Arbor , 1975.

[7] Report to Congress regarding the Terrorism Information Awareness Program, Defense Advanced Research Projects Agency ,2003

[8] Alden S. Klovdahl, Social networks and the spread of infectious diseases: The AIDS example,Department of Sociology, Faculty of Arts, The Australian National University, G.P.O. Box 4, Canberra, A.C.T. 2601, Australia,2002

[9] George E. P. Box, Evolutionary operation: A method for increasing industrial productivity, Journal of the Royal Statistical Society. Series C (Applied Statistics), Vol. 6, Nro. 21957, 1957.

[10] Nils Baricelli, Symbiogenetic evolution processes realized by artificial methods,1957.

[11] Mitchell Melanie, An Introduction to Genetic Algorithms, ISBN: 9780262631853, Massachusetts Institute of Technology, 1996.

[12] Zekai Şen & Ahmet Öztopal, Genetic algorithms for the classification and prediction of precipitation occurrence, Hydrological Sciences Journal, ISSN: 0262-6667,2001.

[13] Mantas Paulinas, Andrius Ušinskas, A survey of genetic algorithms applications for image enhancement and segmentation,Information Technology and Control, 2007, Vol.36, Nro.3, ISSN: 1392-124X ,2007.

[14] Wojciech Paszkowicz,Applications of genetic algorithms in nanomaterials

science: a short survey of recent results , Computer Methods In Materials Sciencie,

Vol. 13, 2013, Nro. 1, ISSN 1641-8581, 2013.

[15] Arthur C. Brooks,Genetic Algorithms and Public Economics, Journal of

public economic theory, 2000

[16] Ingo Rechenberg, Cybernetic Solution Path of an Experimental Problem .

Ministry of Aviation, Royal Aircraft Establishment (U.K.),1965.

[17] Ingo Rechenberg. Evolutionsstrategie: Optimierung Technischer Systeme

[18] Lawrence Jerome Fogel, Alvin J. Owens, Michael John Walsh, Artificial

Intelligence Through Simulated Evolution, Universidad de Michigan,1966.

[19] Clara Pizzuti, GA-Net: A Genetic Algorithm for Community Detection in

Social Networks, ISBN: 978-3-540-87700-4,Springer, Berlin, Heidelberg, 2008.

[20] Keehyung Kim, RI (Bob) McKay, Byung-Ro Moon, Multiobjective

evolutionary algorithms for dynamic social network clustering, ISBN:

978-1-4503-0072-8, New York, NY, USA, 2010.

[21] Zhangtao Li, Jing Liu, A multi-agent genetic algorithm for community

detection in complex networks, Xidian University, Xi’an 710071, China,2015.

[22] Pooya Moradian Zadeh, Ziad Kobti,A Multi-Population Cultural Algorithm

for Community Detection in Social Networks,University of Windsor, Windsor,

Canada, 2015.

[23] J.Kalavathi, S.Balamurali, M.Venkatesulu, An efficient evolutionary

approach for identifying evolving groups in dynamic social networks using genetic

modeling, ISSN:1877-0509, Kalasalingam University, Krishnankoil 626 126, TN,

India, 2015.

[24] Stefano B. B. R. P. Mathias, Valerio Rosset, Maria C. V. Nascimento,

Community detection by consensus genetic-based algorithm for directed networks,

ISSN: 1877-0509, Universidade Federal de Sao Paulo, Sao Paulo,Brasil, 2016.

[25] Saoud Bilal , Moussaoui Abdelouahab, Evolutionary algorithm and

modularity for detecting communities in networks, University of Bejaia, Bejaia,

[26] Stephen P. Borgatti,Identifying sets of key players in a social network,

Computational & Mathematical Organization Theory , ISSN: 1572-9346, Department

of Organization Studies,Boston College,Boston, 2006

[27] Mehrdad Agha Mohammad Ali Kermani et. al, Introducing a procedure for developing a novel centrality measure (Sociability Centrality) for social networks using TOPSIS method and genetic algorithm, ISSN: 0747-5632, Iran University of Science and Technology, Iran, 2015.

[28] Nitai B. Silva et. al, A Graph-Based Friend Recommendation System Using Genetic Algorithm, ISBN: 978-1-4244-6911-6, 2010.

[29] Jeff Naruchitparames, Mehmet Hadi Günes, Sushil J. Louis, Friend Recommendations in Social Networks using Genetic Algorithms and Network Topology, ISBN: 978-1-4244-7835-4, University of Nevada, Reno, 2011.

[30] Eduardo Zamudio, Luis S. Berdún, Analía A. Amandi, Social networks and genetic algorithms to choose committees with independent members, Expert Systems With Applications, ISISTAN Research Institute (UNICEN/CONICET), Campus Universitario, Paraje Arroyo Seco, Tandil, Buenos Aires B7001BBO, Argentina, 2015.

[31] Peter Hoff, Centrality 567 Statistical analysis of social networks,

In document Implementación de un algoritmo genético para la conformación de grupos mediante análisis de redes sociales (página 87-98)