5.3 Resultados con PCA y t-SNE
5.3.2 Representación en t-SNE
Esta técnica puede crear “mapas”, en las dimensiones que más nos convenga, para su estudio a partir de cientos o miles de dimensiones.
Previamente a mostrar los resultados para este método, se han de aclarar dos tecnicismos. El primero es el hecho de que este método no es lineal y se adapta a los datos subyacentes, es decir, puede realizar diferentes transformaciones de los datos en diferentes regiones. Fuera de la vista del usuario, el algoritmo realiza todo tipo de ajustes para ordenar sus visualizaciones. Además, la técnica ofrece ligeras variaciones residuales en las soluciones, a pesar de ser los mismos valores, debido al tipo de procesamiento.
La segunda característica a aclarar es la perplejidad, que dice cómo equilibrar la atención entre los aspectos locales y globales de sus datos. De manera más simple, este parámetro es una estimación del número de vecinos cercanos que tiene cada punto. Una baja perplejidad nos muestra datos locales, viendo en más detalle las relaciones de palabras. Una alta perplejidad, muestra aspectos globales de la red, observando como se relacionan los clusters entre sí.
5.3. Resultados con PCA y t-SNE 81 El método t-SNE expande clusters densos y contrae los menos poblados, luego la relación entre tamaños relativos de parcelas tanto locales y como globales, y su “distancia” no son datos significativos.
Una vez explicado todo lo anterior, ya podemos hablar de los resultados obteni- dos. Cada uno de los siguientes resultados se capturaron tras más de 2000 iteraciones, cuando se observó una estabilidad del sistema. Se utiliza una tasa de aprendizaje de 10 y una perplejidad de 76, siendo este el valor que nos recomendaba la herramien- ta TensorBoard para nuestra cantidad de datos, no pudiéndose saber el valor más adecuado de perplejidad de forma teórica. Veamos los resultados primero en 2D:
Figura 5.31: Representación t-SNE en 2D con perplejidad 76.
En la figura 5.31 se puede ver una forma ovalada con dos nodos interiores de mayor densidad, mostrando las agrupaciones por colores de cada punto. De esta nube de puntos no se puede sacar información de las etiquetas de colores, pues están todos mezclados sin relación aparente. En cuanto a la forma de la nube, si se deduce que los clusters centrales de mayor densidad, efectivamente son ambos un conjunto de datos verdaderamente denso, debido a que el t-SNE tiende a expandir los puntos de gran densidad, representándose en la nube que rodea a los clusters centrales.
82 Capítulo 5. En la figura anterior se muestra las palabras de cada punto, no pudiendo encon- trar ninguna relación entre ellas, ya que tiene 91620, habría que inspeccionar muy detalladamente para ver como la red ha aprendido a relacionarlas entre ellas.
En las figura 5.33 se representa la figura 5.31 pero en 3D. Se puede interpretar la estabilidad del sistema por la forma esférica y la distribución uniforme, con espacios aproximadamente iguales entre los puntos.
Figura 5.33: Representación t-SNE en 3D con perplejidad 76.
Como curiosidad también se han añadido las palabras más superficiales de la red en esta visión, no pudiendo encontrar de nuevo ninguna relación. A continuación, la figura referida:
Figura 5.34: Representación t-SNE en 3D con perplejidad 76.
Ahora se muestra la representación de la misma red, pero cambiando la perple- jidad, para estudiar otros posibles resultados.
Se opta en primera instancia por una perplejidad de 100, debido a la gran can- tidad de vocabulario, con el fin de ver las relaciones más globales entre clusters. A continuación, la representación obtenido aplicando t-SNE:
5.3. Resultados con PCA y t-SNE 83
Figura 5.35: Representación t-SNE en 3D con perplejidad 100.
La forma resultante nos dice bastante información, existen dos claros clusters, teniendo uno de ellos una nube de datos a su alrededor y ambos unidos por una cola de datos. Las líneas están ligeramente curvadas hacia afuera en el diagrama en la parte de la cola. La razón es que como de costumbre este método tiende a expandir las regiones de datos más densas, luego la nube de datos y el cluster al que rodea son los puntos de mayor densidad, a pesar de que ambos clusters tengan el mismo tamaño, está falsamente representado. Por otro lado, dado que el centro de la nube tiene espacio vacío a su alrededor, esto es también un indicador de que el algoritmo magnifica la representación.
Figura 5.36: Representación t-SNE en 3D con perplejidad 100.
En la figura 5.36 se muestran las palabras más superficiales de la representación vista en la figura 5.35. Una vez más, se ve un cluster con palabras relacionadas con la informática al final de la cola, al igual que sucede en el diagrama del PCA, en la figura 5.30. No estando muy clara la representación del otro cluster.
Los resultados para una perplejidad de 38, es decir, algo inferior para la que nos recomendaba la herramienta TensorBoard, nos aporta una información bastante
84 Capítulo 5. parecida a la vista para una perplejidad de 100. Se han visto los mismos patrones y, por lo tanto, no se hacen suposiciones nuevas.
A continuación, la figura para la perplejidad de 38:
Figura 5.37: Representación t-SNE en 3D con perplejidad 38.
Por último se ha aplicado t-SNE con una perplejidad de 5. Los datos aportados son interesantes desde las primeras iteraciones hasta su estabilidad final, más allá de las 2000 iteraciones.
En las figuras 5.38 y 5.39 se pueden ver unas hileras iniciales, donde se relacionan las palabras de ámbito informático antes mencionadas.
5.3. Resultados con PCA y t-SNE 85 Más detalladamente la zona central, mostrando las palabras en cada punto:
Figura 5.39: Representación t-SNE en 3D con perplejidad 5, iteración 700.
En las siguientes iteraciones, tras pasar por varias formas, se muestran hasta tres diferentes clusters de palabras bien definidos, deduciendo que uno de estos clusters esta oculto en las anteriores representaciones, al ser probablemente bastante menos denso que los otros dos. Lo podemos ver en la siguiente representación:
Figura 5.40: Representación t-SNE en 3D con perplejidad 5, iteración 1200.
Finalmente, después de más de 2000 iteraciones se obtienen diferentes resultados en bastantes ocasiones, casi todos muy parecidos a los mostrados en las figuras 5.35 para una perplejidad de 100 y la figura 5.37 para una perplejidad de 38.
86 Capítulo 5.
5.4.
Predicciones: Evaluar el modelo
Como parte final de nuestro modelo se explican los resultados obtenidos tras realizar predicciones de texto con nuestro modelo ya entrenado. Además, se analizan los resultados que ya se mostraron en la sección 4.7, con el fin de entenderlos en mayor profundidad.
Veamos de nuevo la evaluación hecha con nuestra red y otro ejemplo más:
Figura 5.41: Predicción de una respuesta ante un contexto aleatorio del UDC.
Figura 5.42: Predicción de una respuesta ante un contexto aleatorio del UDC.
Como podemos ver, utilizando la red de grupo 9 5.2.9, se ha conseguido que prediga correctamente la solución al contexto de entrada de entre las 10 posibles
5.4. Predicciones: Evaluar el modelo 87 respuestas en los dos ejemplos, utilizando la métrica recall@1. No olvidemos que la probabilidad de acertar en la respuesta es de tan solo el 50 %, como vimos en la gráfica 5.26a, es decir, que no siempre acertará en su elección, como se muestra en la siguiente imagen:
Figura 5.43: Predicción de una respuesta ante un contexto aleatorio del UDC.
En este ejemplo se le ha dado un valor bastante alto a la solución correcta (primera respuesta), pero no ha sido la más alta de todas las puntuaciones asignadas al resto de respuestas. Si miramos detenidamente cada solución, vemos que todas las puntuaciones son superiores a esta, lo que nos indica que el error ha estado al puntuar la primera respuesta de manera muy baja.
Recordemos que hay una segunda parte de predicciones, donde la red puntúa las respuestas introducidas por el usuario a un contexto también introducidos por el usuario. Volvamos a ver el ejemplo mostrado en la sección 4.7.
Figura 5.44: Predicción de una respuesta ante un contexto introducido por el usuario.
88 Capítulo 5. Se puede observar que puntúa de forma correcta las respuestas 2 y 4, conside- rándose estas las correctas aunque de manera algo inferior. También puntúa con porcentajes demasiado altos a las respuestas incorrectas, siendo estas la 1 y la 3. Debería haber puntuado más alto a las respuestas correctas y más bajo a las inco- rrectas. Se ha de destacar que no hay fallos en la ortografía, entando la red preparada para leer las palabras ya procesadas, es decir, habiéndolas aplicado unos sencillos cambios. Por esto se han introducido los textos de manera especial.