Reducción del espacio n-dimensional y visualización de la información

6. MATERIALES Y MÉTODOS

6.2 Métodos

6.2.3 Reducción del espacio n-dimensional y visualización de la información

Tras la obtención de la matriz de co-ocurrencia es necesario representar estos datos de tal manera que puedan transmitir la misma información, pero cuya interpretación sea visualmente más comprensible y clara. El objetivo es representar la interacción de las unidades de análisis a través de los documentos de manera que sea posible reflejar su estructura relacional (red) y que permita la identificación de agrupaciones bien

el ámbito de la bibliometría es la representación gráfica conocida como técnica de mapeo. Esto conlleva una transformación del espacio n-dimensional en uno bidimensional o tridimensional.

Según Van Eck y Waltman (2010), fundamentalmente, se utilizan dos tipos de

visualizaciones basadas en diferentes técnicas de mapeo y clustering en la

representación de redes. Por un lado, se encuentran los mapas basados en la distancia (distance-based maps). Éstos se caracterizan porque la distancia entre dos elementos refleja la fuerza de la relación entre ellos, una distancia pequeña indica, generalmente, una fuerte relación. Esta técnica tiene la ventaja de que facilita más claramente la

identificación de grupos o clusters pero tiene el inconveniente de que dificulta la

identificación de los nombres de los elementos debido a un fuerte solapamiento entre

ellos. Dentro de esta técnica destacan el Escalamiento Multidimensional

(Multidimensional Scaling – MDS), VxOrd (Davidson et al., 2001) y VOS (Van Eck et al., 2006; Van Eck & Waltman 2007a, b). Por otro lado, se encuentran los mapas basados en

grafos (graph-based maps). Éstos, se caracterizan porque la fuerza de relación entre los

elementos no viene dada por la distancia entre los elementos sino por los enlaces que los unen. Los elementos suelen estar distribuidos en el espacio de una manera más uniforme. Esta técnica tiene la ventaja de que el solapamiento de los nombres es mucho menor, pero en cambio, tiene la desventaja de que es más difícil detectar la fuerza de relación entre los elementos por lo que la identificación de los clústeres es más difusa. Generalmente, para desarrollar este tipo de mapas basados en grafos, se utilizan los

algoritmos de tipo springs embedders como Kamada Kawai (1989) y Fruchterman and

Reingold (1991) que están implementados en el software Pajek (Batagelj & Mrvar,

2010). También, los programas de ordenador CiteSpace (Chen, 2006) y Network

Workbench Tool (NWB Team, 2006) entre otros, utilizan esta técnica de mapeo.

En esta tesis, se han utilizado ambas técnicas de cara a la visualización y representación de los datos para la detección de líneas o áreas de investigación. Para la aplicación de cada una de ellas, se ha recurrido al uso de dos de los softwares más

utilizados en la visualización de redes sociales y que constituyen un buen ejemplo de

ambas técnicas como son Pajek22_{en la generación de mapas basados en grafos y}

VOSviewer23_{en la generación de mapas basados en la distancia. Dada las ventajas y}

limitaciones que conllevan el uso de una técnica frente a la otra se han utilizado ambas con la intención de que puedan ser utilizadas de manera complementaria. Estas propuestas comportan grandes diferencias metodológicas que se describen a continuación.

6.2.3.1 Mapas basados en grafos (Pajek): Términos más frecuentes, PFNETs y Kamada Kawai

El uso de esta técnica de mapeo tiene como propósito representar el comportamiento de las unidades de análisis de manera relacional. El objetivo fundamental consiste en obtener una representación en forma de red que consta de dos elementos esenciales, por un lado, las propias unidades de análisis que son objeto de

estudio y que reciben el nombre de nodos, actores, vértices, etc., y, por otro lado, la

relación en sí que vincula a estos elementos entre sí y que recibe el nombre de enlaces,

aristas, líneas, lados o conexiones. De este modo, es posible, representar y analizar la estructura relacional que existe entre las unidades de análisis a través de los documentos. Mediante este tipo de técnica de mapeo se obtiene una imagen estructural de la interacción de las unidades de análisis que es cuantificable y evaluable mediante el denominado análisis de redes dentro del ámbito de la teoría de grafos.

Generalmente, en redes donde existen un gran número de elementos que se relacionan frecuentemente entre sí y que su interacción es elevada, se obtiene una representación poco inteligible formando un amasijo o maraña de enlaces que dificulta la visualización de la estructura relacional principal. Este es el caso de esta tesis, ya que

22_{Pajek (2016). Disponible en:} _{http://vlado.fmf.uni-lj.si/pub/networks/pajek/}_{[Fecha de consulta:}

5/02/2016].

todas las redes que se han obtenido se han realizado a partir de un número muy elevado de nodos y enlaces. Por eso, ha sido necesario desarrollar una serie de técnicas y herramientas que han permitido seleccionar las relaciones principales y descartar las relaciones menos significativas o menos importantes. Es decir, ha sido necesario un proceso de simplificación de la red que permita representar la estructura y esencia de la red original. De este modo, en esta tesis se han utilizado dos criterios para la simplificación de los elementos esenciales de la red. Por un lado, se han seleccionado únicamente las unidades de análisis más frecuentes, es decir, los términos de indización

más frecuentes. No existe un número de elementos que a priori pueda constituir un

umbral óptimo para las representaciones, pero si se ha demostrado que las redes compuestas en torno a 100 nodos ofrecen resultados más satisfactorios (Van Eck & Waltman, 2010). En todas las publicaciones que integran esta tesis se han generado y analizado redes con los términos de indización que oscilan desde los 60 a los 150 nodos, en función de la estructura relacional de cada conjunto de análisis y según los objetivos planteados en cada fase de estudio. Por otro lado, se ha utilizado como criterio de

simplificación de la red un algoritmo denominado de poda como es Pathfinder Networks

(PFNETs) (Schvaneveldt et al., 1988 & Schvaneveldt, 1990), que permite detectar cuáles son los enlaces más relevantes de una red. Su objetivo fundamental es la extracción de la estructura principal de una red por medio del análisis de proximidad entre sus

variables. Se basa, principalmente, en la aplicación de dos parámetros: r, asociado a la

distancia de Minkowski, que se utiliza para calcular la distancia entre puntos a través de

varios enlaces y se define mediante una ecuación paramétrica que subsume a la

distancia euclidiana para r = 2. Esta distancia admite que se haga tender r hasta el

infinito, lo que equivaldría a hallar el máximo de las distancias intermedias. Y el segundo

parámetro es q, que está basado en el principio de desigualdad del triángulo. Este

principio está relacionado con la longitud, en número de enlaces, de los caminos que se comparan, es decir, elimina aquellos enlaces que tienen asociada una distancia menor que otro camino que una los mismos nodos pasando por otros intermedios. De este modo, prevalecen los enlaces con mayor distancia y, por consiguiente, los enlaces con

mayor peso e importancia de la red. El mayor valor que podría alcanzar q sería n-1,

Quesada, 2005; Moya-Anegón, et al., 2007; Quirin et al., 2008 &Vargas-Quesada et al., 2010).

PFNETs viene utilizándose en el campo de la Documentación desde 1990 aunque fue Chen el primero en aplicarlo a la citación (Chen, 1998a; Chen, 1998b & Chen, 1999). Desde entonces, son muchos los trabajos que han utilizado este algoritmo de poda para el estudio, visualización y detección de comunidades científicas a través del análisis de redes (Buzydlowski, 2003; White, 2003; Vargas-Quesada, 2005; Moya-Anegón, et al.,

2007; Quirin et al., 2008; Espinosa-Calvo et al., 2009;Vargas-Quesada et al., 2010; Quirin

et al., 2010; Yoo et al., 2013; White, 2015).

Una vez detectada la estructura principal de la red, otro aspecto a tener en cuenta en la metodología que se propone es la distribución espacial de los elementos que componen dicha red. Es decir, definir qué método se va a utilizar para la generación automática del grafo. Existen multitud de métodos, pero sin duda los más utilizados en

el campo de la Bibliometría son los algoritmos de tipo spring embedders (insertadores

de muelles). Se trata de programas cuyo objetivo principal es el de realizar grafos atractivos siguiendo una serie de principios estéticos como puede ser utilizar el máximo espacio disponible, forzar la posición de los nodos y reducir el número de enlaces cruzados, entre otros. En definitiva, estos algoritmos consisten en asignar coordenadas a los nodos de tal modo que, el grafo final sea estéticamente agradable al ojo humano (Vargas-Quesada, 2005). De todos ellos, el que se ha empleado en este trabajo y el que

resulta más utilizado en el campo de la Bibliometría es Kamada Kawai (1989). Este

algoritmo parte del fundamento de que la posición de los vértices no está restringida y que los enlaces son dibujados como líneas rectas, su propósito final es determinar únicamente la posición de los nodos o vértices. La idea es que se considera que la distancia deseable entre dos nodos es la misma que la representada en el gráfico basándose en el algoritmo de Floyd-Warshall (Floyd, 1963). Se introduce un sistema dinámico virtual formado por anillos (nodos) y por muelles (enlaces) haciéndolo evolucionar hasta que disminuye la energía acumulada por los muelles.

Algorítmicamente, se calcula la evolución de cada nodo por separado, fijando todos los nodos menos aquel que más energía acumula, dejándolo evolucionar hasta que la energía acumulada sea menor que un determinado límite y se vuelve a fijar. Este proceso se repite, continuamente hasta que, ninguno de los nodos acumule una energía superior al límite.

La combinación del algoritmo de poda PFNETs y el de visualización Kamada Kawai ha

demostrado ser una propuesta interesante que ofrece buenos resultados en el análisis de dominios y que ha sido ampliamente utilizada en el campo de la Bibliometría (Chen, 1999; White, 2003; Moya-Anegón et al., 2007; Quirin et al., 2008; Vargas-Quesada et al., 2008; Vargas-Quesada et al., 2010).

Finalmente, se ha desarrollado una última fase dentro de esta técnica de análisis basada en el mapeo del dominio mediante grafos. Se trata de la validación gráfica. Una vez obtenidas las representaciones finales, se ha recurrido a dos técnicas para la interpretación de la información obtenida en los mapas:

o Análisis Factorial. Es una técnica estadística de reducción de datos que se utiliza para explicar las correlaciones entre las variables observadas en términos de un número menor de variables no observadas llamadas factores. Es una técnica exploratoria multivariante cuya aplicación práctica principal consiste en reducir el número de variables, detectar la estructura por medio de sus relaciones, así como clasificarlas. En definitiva, se ha aplicado esta técnica con el fin de agrupar los términos de indización e identificar cada una de las líneas de investigación representadas. Esta técnica ha sido empleada en el Dominio 1 y está recogido en la Publicación nº 1.

mapas a través de los términos de indización. En este caso, se ha contado con la colaboración de especialistas relacionados con la investigación española en células madre, ya que, este método se ha aplicado, exclusivamente, al Dominio 2, presente en las publicaciones nº 2, 3, 4, 5 y 6.

6.2.3.2 Mapas basados en la distancia (VOSviewer): todos los términos, técnica de mapeo VOS y técnicas de clustering.

Esta técnica de mapeo basada en la distancia comparte el mismo propósito que en el caso de la técnica anterior, representar el comportamiento de las unidades de análisis de manera relacional. La diferencia fundamental reside en que las relaciones y el valor de las mismas, no viene representado por enlaces que conectan los ítems entre sí, sino, por la distancia existente entre ellos, cuanta menor sea la distancia entre los ítems más fuerte es la relación. A diferencia de la técnica basada en grafos, en esta técnica resulta fundamental la disposición de los elementos en la representación para interpretar la relación existente entre ellos.

En el campo de la bibliometría existen muchas técnicas de mapeo basadas en la distancia para la elaboración de mapas bibliométricos. Una de las más utilizadas por la

comunidad científica ha sido el Escalamiento Multidimensional (Multidimensional

Scaling – MDS). Esta técnica comprende una amplia familia de procedimientos multivariados, algunos de los cuales hacen posible representar las proximidades entre los elementos como distancias en un espacio de un número reducido de dimensiones. La idea central es que las distancias que median entre los puntos se corresponden con las proximidades entre los objetos por medio de una función de ajuste resultante de un proceso iterativo de optimización, pudiéndose describir las relaciones entre los objetos sobre la base de las proximidades observadas. De este modo, se establece una analogía

entre el concepto “psicológico” de proximidad (semejanza o desemejanza) y el concepto

geométrico de distancia (Arce, 1996), quedando reflejadas las diferencias entre ambos en una función denominada stress (Kruskal, 1964a y b).

Tomando esta técnica como referencia, Ludo Waltman y Nees Jan van Eck desarrollaron otra técnica alternativa de mapeo basada en la distancia conocida como técnica de visualización de similitudes (visualization of similarities ̶ VOS) (Van Eck & Waltman, 2007a). Ésta, se fundamenta en gran medida, en los principios metodológicos

en los que se asienta el MDS, pero incorpora a su vez, una serie de parámetros y ajustes

algorítmicos que ofrecen mejores resultados desde el punto de vista de la visualización de la información. Para profundizar más sobre los aspectos que asemejan o diferencian a estas dos técnicas de mapeo se recomienda la lectura de las siguientes publicaciones (Van Eck & Waltman, 2007a; Van Eck et al., 2008; Van Eck et al., 2010). No obstante,

tanto VOS como MDS parten de un mismo objetivo esencial que consiste en situar a los

ítems en un espacio de reducidas dimensiones, de tal manera que, la distancia entre dos ítems refleje, tanto como sea posible, la similitud o grado de relación entre ellos (Van Eck et al., 2010).

Para medir dicha similitud la técnica de mapeo VOS requiere de la matriz de datos de

co-ocurrencias. Para Van Eck y Waltman el empleo de estos datos no es suficiente para calcular la proximidad entre los ítems por lo que, consideran indispensable la aplicación de una medida de similitud a los datos de co-ocurrencia. En concreto, estos autores proponen dentro de las que se consideran medidas de similitud directas la denominada

fuerza de asociación (association strength) (Van Eck et al., 2006; Van Eck & Waltman,

2007b). También es conocida esta medida con el nombre de índice de proximidad (proxemity index) (Rip & Courtail, 1984; Peters & Van Raan, 1993) o índice de afinidad

probabilística (probabilistic affinity index) (Zitt et al., 2000). Se formula de la siguiente

manera:

𝐴𝑆ij= 𝐶ij

𝐶i𝐶j

Esta fórmula se interpreta como la fuerza de asociación (ASij) de los ítems i y j es

lado, y al número esperado de co-ocurrencias de i y j por otro, asumiendo que las co-

ocurrencias de i y j son estadísticamente independientes (Van Eck & Waltman, 2009).

Calculada la fuerza de asociación como medida de similitud entre los ítems, la técnica

de mapeo VOS tiene una forma predeterminada de ubicar los elementos en un mapa

bidimensional. Ésta consiste en minimizar la suma ponderada de las distancias euclidianas al cuadrado entre todos los pares de ítems. Cuanta mayor sea la similitud entre dos elementos, mayor será el peso de la suma al cuadrado de su distancia. Con el fin de evitar mapas triviales en los que todos los elementos puedan tener la misma

ubicación, VOS impone la restricción que la distancia media entre dos elementos debe

ser igual a 1. Además de esta restricción, se aplica el denominado algoritmo de

mayorización (majorization algorithm) que es una variante del algoritmo SMACOF (Scaling by MAyorizing a COmplicated Function) cuyo desarrollo inicial se debe, fundamentalmente, a De Leeuw (De Leeuw, 1977; De Leeuw & Heiser, 1977) y que ha

sido ampliamente utilizado en la literatura del MDS (Van Eck & Waltman, 2010; Van Eck

et al., 2010b). La característica fundamental de este algoritmo consiste en que, si se aplica de manera iterativa, se generan secuencias no crecientes de valores de la función que termina, generalmente, en un mínimo local. La idea general radica en reemplazar la función a minimizar f(x) por una función auxiliar g(x, z) donde z es un valor fijo. De este modo, no se trabaja con cada punto de manera independiente considerando fijos los

demás, sino que se hace modificando las posiciones de todos los puntos a la vez. VOS

tiende a localizar los objetos cerca de lo que considera su ideal de coordenadas.

Asimismo, esta técnica de mapeo está integrada en un software diseñado para la

visualización y generación de mapas bibliométricos denominado VOSviewer. Sus

creadores, Van Eck y Waltman, han implementado en una misma herramienta

informática la técnica de mapeo VOS en combinación con técnicas bibliométricas de

clustering. Éstas últimas se basan, fundamentalmente, en una variante ponderada y parametrizada de la conocida función de similitud de Newman and Girvan (2004).

VOSviewer está diseñado con una configuración en la que, por defecto, se aplican y combinan todas las técnicas y variantes algorítmicas descritas sin necesidad de que los usuarios tengan que intervenir metodológicamente, en la construcción o visualización de los mapas bibliométricos. Consta de una serie de parámetros que obedecen a una metodología previamente definida y basada en los criterios que se acaban de describir. Esto supone una ventaja para los usuarios que en una sola herramienta tienen agrupadas un conjunto de técnicas bibliométricas que simplifican y agilizan la creación o visualización de mapas bibliométricos. No obstante, ofrece la posibilidad de modificar algunos parámetros por otros que prefieran los usuarios. En el caso de los análisis

orientados a la delimitación temática, VOSviewer ofrece la opción de extraer

directamente los términos más relevantes de cada documento y mapearlos. En este caso, se ha descartado esta opción porque el objetivo del estudio se basa en el uso exclusivo de los términos de indización como unidades de medida para la identificación

temática. Del mismo modo, VOSviewer ofrece la posibilidad de generar mapas

bibliométricos a partir de datos de co-ocurrencia en bruto, es decir, sin emplear la medida de similitud basada en la fuerza de asociación que aplica por defecto. El software permite a los usuarios desactivar la normalización de los datos de co-ocurrencia que, por defecto, aplica a los datos de entrada. En este caso, cabe decir que, se han utilizado los datos en bruto de la matriz de co-ocurrencias como datos de entrada, pero al

mantener los parámetros iniciales de VOSviewer, el programa, finalmente, ha

normalizado los datos mediante la medida de similitud basada en la fuerza de asociación entre los ítems para la construcción de los mapas bibliométricos.

También cabe destacar que, a diferencia de Pajek, este software permite trabajar con

redes más amplias, donde intervienen mayor número de actores o nodos. Dependiendo de la distribución de los datos de co-ocurrencia es posible representar mayor o menor número de elementos. En la publicación 3, por ejemplo, se han representado todos los elementos. En principio, la matriz de co-ocurrencias que se facilita al programa contempla a todos los elementos, pero es posible modificar su número estableciendo algún umbral mínimo relacionado con los valores del índice de proximidad. Todo ello,

de las representaciones de cara a su interpretación y la información que aporte del dominio. Este ha sido el caso de los términos de indización representados en las

In document Localización y visualización de las principales líneas de investigación a través del análisis de co palabras y del análisis de redes sociales Propuesta metodológica para la delimitación temática de dominios científicos (página 123-137)