• No se han encontrado resultados

8. Evaluación Online: Dominio de Películas

8.2. Experimento 2: Análisis de explicaciones

8.2.2. Resultados obtenidos

8.2.2.2. Explicaciones a nivel recomendación

El objetivo de las preguntas Q8, Q9, Q10 y Q11 era determinar si las explica-

ciones de satisfacción con granularidad de la recomendación, tanto respecto al grupo (preguntasQ8 y Q9) como a cada uno sus miembros (Q10 y Q11) proveían informa-

ción útil o al menos interesante. Las respuestas a las preguntas Q8 y Q9 revelaron

que, efectivamente, la gran mayoría de los participantes (aproximadamente un 90 % de ellos, ver la Figura 8.11a) consideraban útil conocer qué tan satisfecho estaría el

8.2 Experimento 2: Análisis de explicaciones

Figura 8.10: Respuestas a la pregunta Q6

grupo con la recomendación generada. En este caso, los usuarios resaltaron que este tipo de explicación le permitía al grupo tener una idea general acerca de qué tan buena sería la recomendación sin tener que revisar las explicaciones generadas para cada ítem (algo que consideraban que podía ser bastante tedioso), lo que podría ayudar a evitar que el grupo ignore una recomendación sólo por no conocer los títulos de las películas recomendadas. Los participantes del experimento mencionaron que si el recomendador les indica que les recomendó algo que cree que les agradará, ellos estarían dispuestos a darle una segunda mirada a las películas recomendadas y, por ejemplo, buscar un review de algunas de ellas.

Al analizar las respuestas para las preguntasQ10 yQ11 se descubrió una tendencia

similar. Una vez más, la mayoría de los usuarios (aproximadamente el 80 %, ver la Figura 8.11a) consideró útil conocer el nivel de satisfacción estimado de cada uno de los miembros del grupo con respecto a la recomendación. La justificación en estos casos fue que les permitía saber de antemano cuál(es) de los miembros del grupo serían los más satisfechos con la recomendación, en caso de que dicha recomendación no satisficiera a todos los miembros de forma uniforme. Sin embargo, algunos de los encuestados mencionaron que no consideraban necesario este tipo de explicaciones ya que les bastaba con saber qué tan buena creía el recomendador que la recomendación era para el grupo.

Las preguntas Q12, Q13 tuvieron por objetivo determinar si se habían generado

las explicaciones de afinidad que identifican miembros del grupo conflictivos y qué tan útiles eran consideradas esas explicaciones. De acuerdo con las respuestas obtenidas para la pregunta Q12, un 72 % de los participantes del experimento afirmó haber

recibido una explicación de este tipo, y que la explicación recibida había sido bastante acertada. De hecho sólo un 25 % de los participantes que recibió la explicación informó que la información brindada por la explicación no se correspondía con la realidad.

La pregunta Q14, que tenía por objetivo evaluar si se habían detectado miembros

(a) Respuestas a la preguntaQ8 (b) Respuestas a la preguntaQ10 Figura 8.11: Respuestas a las preguntas Q8 y Q10

malinterpretada por los usuarios, por lo que las respuestas fueron ignoradas.

De acuerdo con las respuestas a la pregunta Q15, en la Figura 8.12a puede obser-

varse que las explicaciones de afinidad entre pares de usuario fueron acertadas sólo en algunos casos. En base a esto se concluyó que dichas explicaciones deberían ser revisadas en trabajos futuros.

Para culminar con las preguntas relacionadas a las explicaciones de afinidad, se les preguntó a los usuarios acerca de si consideraban útiles las explicaciones de afinidad que acompañaban a las recomendaciones generadas, o si les bastaba con sólo tener las explicaciones de satisfacción (Q16). Los resultados (Figura 8.12b) en este caso no

fueron los esperados, ya que en casi un 40 % de los casos los encuestados afirmaron que les bastaba con conocer los niveles de satisfacción estimados.

Las preguntasQ17 y Q18 estaban centradas en las explicaciones que notifican al

grupo acerca de qué causó que se les recomendaran menos ítems de los que habían solicitado. Si bien, de acuerdo con lo reportado por los usuarios, MAGReS no se vió en la necesidad de generar esta explicación, la mayoría de ellos (aproximadamente un 71 %) indicaron que este tipo de explicación les resultaría útil en caso de que el fenómeno ocurriese. De manera similar a lo ocurrido con la preguntaQ17, ninguno de

los participantes respondió afirmativamente a la pregunta Q19. Esto fue considerado

positivo puesto que es un indicador de que se eligió correctamente la cantidad mínima de películas que cada usuario debía votar.

Las últimas dos preguntas del cuestionario (Q20 yQ21)tenían por objetivo deter-

minar si, en base a la información aportada por las explicaciones, los usuarios habían decidido cambiar alguno de los feedbacks que habían dado a una o más de las películas

recomendadas. De acuerdo con las respuestas recibidas (Figuras 8.13a y 8.13a), sólo un 45 % de los encuestados indicó estar dispuesto a cambiar algunos de los feedbacks dados, y de ese 45 % un 38,93 % de los usuarios indicó que había cambiado el feed-

8.2 Experimento 2: Análisis de explicaciones

(a) Respuestas a la preguntaQ15 (b) Respuestas a la preguntaQ16 Figura 8.12: Respuestas a las preguntas Q15 y Q16

(a) Respuestas a la preguntaQ20 (b) Respuestas a la preguntaQ21 Figura 8.13: Respuestas a las preguntas Q20 y Q21

back dado a 3 o más de las películas recomendadas. Esto demostró que si bien las explicaciones influyeron en el juicio de los usuarios al momento de evaluar los ítems recomendados, aún hay que mejorar las explicaciones si se quiere incrementar su grado de impacto.

8.2.3.

Observaciones

En esta sección se describió un experimento realizado para evaluar las explicaciones generadas por MAGReS.

En primer lugar se evaluaron las explicaciones generadas para cada ítem recomen- dado. Estas explicaciones tenían por objetivo informar al usuario y al grupo cuán satisfechos creía el recomendador que estarían con la el ítem que se había recomenda- do, a fin de justificar el porqué se les había recomendado el ítem. Estas explicaciones se presentaron utilizando tres estilos: sólo texto, sólo gráfico e híbrido. De todos ellos, los favoritos fueron los estilos híbrido y gráfico, puesto que los participantes del expe- rimento encontraron el estilo “solo texto” un tanto repetitivo. Posteriormente, se les consultó a los participantes si las explicaciones habían brindado información correcta, es decir, información que se condecía con lo que ellos pensaban. Desafortunadamente, muchos de los encuestados respondieron que no. Finalmente, cuando se consultó a los usuarios acerca de la utilidad de las explicaciones y sobre si las mismas habían influído en su decisión de considerar películas que de otra forma no habrían considerado, la mayoría de los usuarios (aproximadamente un 65-70 %) respondió positivamente.

En segundo lugar se evaluaron las explicaciones generadas por MAGReS para las recomendaciones (como un todo). MAGReS genera explicaciones que tienen por obje- tivo brindar información respecto a:

(i) los niveles de satisfacción estimados (tanto individuales como grupales),

(ii) la afinidad entre los intereses de los miembros,

(iii) el hecho de que existan conflictos entre los intereses de los miembros sea la causa

de que se recomienden menos ítems que los solicitados (por ejemplo, se solicitaron 10 ítems y se recomendaron 4), y

(iv) el hecho de que uno o más miembros no hayan votado las suficientes películas.

Al evaluar las explicaciones de satisfacción, el 90 % los usuarios afirmó que les re- sultaban muy útiles las explicaciones relacionadas al nivel de satisfacción grupal, es- pecialmente porque les ayudaba a tener una “vista preliminar” de la calidad de la recomendación y los incentivaba a buscar reviews acerca de películas que habían sido recomendadas y no conocían. También fueron muy bien recibidas las explicaciones de satisfacción que tenían por objetivo informar a cada miembro del grupo en qué me- dida se creía que iba a estar satisfecho: aproximadamente un 80 % de los encuestados las consideró como útiles. Las explicaciones de afinidad, en cambio, no fueron tan bien recibidas. De hecho, un 40 % consideró que no eran necesarias. Las explicaciones

8.3 Resumen

relacionadas a la cantidad de ítems recomendados y a los perfiles de preferencias in- completos, por su parte, fueron consideradas como útiles a pesar de que en la mayoría de los casos no se generaron, algo que era esperable considerando que esas explicacio- nes se generan sólo cuando MAGReS debe informar sobre alguna situación extrema que condicionó su funcionamiento.

También se consultó a los participantes del experimento acerca de sí, luego de observar las explicaciones, habían decidido cambiar el feedback que le habían dado a

alguna de las recomendaciones. En base a las respuestas se determinó que sólo un 45 % de los encuestados había decidido hacerlo. Esto, junto con las justificaciones brindadas por los encuestados al responder sobre por qué las explicaciones de satisfacción gene- radas para la recomendación eran consideradas útiles, se interpretó como un indicador de que las explicaciones pueden potencialmente afectar el accionar de los grupos e influir en el proceso de toma de la decisión final.

Los resultados de los experimentos estuvieron condicionados por una serie de fac- tores que se detallan a continuación. El primer factor es la cantidad de participantes, la cual podría considerarse como reducida. Esto afectó a la cantidad de grupos que formaron parte del experimento y la composición de los mismos. El segundo es la parametrización de MAGReS, dado que utilizar otra parametrización podría generar cambios en algunas de las explicaciones como, por ejemplo, las de afinidad. Por último, el tercer factor es que las explicaciones de satisfacción dependen enteramente del SRI utilizado para realizar las predicciones de ratings. Por lo anterior, la calidad dichas explicaciones es directamente dependiente de las predicciones del SRI.

8.3.

Resumen

El segundo de los experimentos fue diseñado para probar que las explicaciones provistas por MAGReS para sus recomendaciones les eran útiles a los usuarios. De acuerdo con los resultados obtenidos, fue posible concluir que las explicaciones gene- radas por MAGReS, a pesar de ser simples, probaron ser de utilidad para los usuarios, puesto que ayudaron a que tuvieran en cuenta recomendaciones que de otra forma hubiesen ignorado. En general se observó que las explicaciones generadas necesitan ser pulidas y algunas de ellas, como por ejemplo las de afinidad, reconsideradas o redi- señadas. También se observó un problema que se había detectado en la prueba con usuarios reportada en la Sección 8.1, lo que hizo evidente la necesidad de encontrar una parametrización del SRI que mejore la calidad de las predicciones. A pesar de todo esto, si tiene en cuenta que, hasta donde se sabe, ésta es la primera vez que se utilizan datos de la negociación para generar explicaciones para recomendaciones de un SRG, el resultado obtenido fue claramente positivo.

Conclusiones

En este trabajo de tesis se propuso MAGReS, un enfoque de generación de recomen- daciones a grupos y explicaciones para las mismas basado en un SMA. En MAGReS, los ítems a recomendar al grupo se seleccionan utilizando un proceso de negociación entre agentes inteligentes cada uno de los cuales representa a un miembro del grupo. Cada agente conoce las preferencias del usuario al que representan y posee un perfil de comportamiento que su usuario puede personalizar. Los agentes participan de un proceso de negociación en el cual discuten acerca de qué ítem será el más adecuado para recomendarle al grupo. La negociación se lleva a cabo de acuerdo al protocolo MCP [27], que se caracteriza por admitir negociaciones multilaterales y por imitar el proceso de negociación llevado a cabo por los seres humanos. En esta tesis se extendió el mencionado protocolo en tres aspectos:

(i) formalizando estrategias para permitir que a futuro se agreguen variantes de las

mismas,

(ii) incorporando nuevas variantes a estrategias existentes, ya sea para mejorar el

modelado del comportamiento de los grupos o para resolver problemas de las variantes existentes, y

(iii) agregando estrategias que permitieran modelar, dentro del comportamiento del

agente, aspectos vinculados al comportamiento, personalidad y forma de pen- sar de cada uno de los miembros del grupo. Por ejemplo, respecto a bajo qué circunstancias considera que un ítem es aceptable.

En su mayoría las extensiones realizadas estuvieron centradas en agregar puntos de extensibilidad en el protocolo, con el fin de mejorar el modelado del comportamiento de los grupos, y así mejorar las recomendaciones grupales y las explicaciones generadas.

La evaluación de MAGReS fue llevada a cabo en dos partes: una para evaluar las recomendaciones de MAGReS y otra para evaluar las explicaciones generadas para dichas recomendaciones.

En primer lugar, se evaluaron las recomendaciones. Para ello, se realizaron pruebas en dos dominios: películas y puntos de interés (POI, points of interest). En el dominio

de las películas se realizaron pruebas con datasets (evaluación offline) y con usuarios

reales (evaluación online). En las pruebas con datasets se evaluaron 4 puntos:

(i) Si las recomendaciones de MAGReS satisfacían a los miembros del grupo en

mayor medida y más uniformemente que los baselines establecidos. Entre los

baselines había dos SRG que generaban recomendaciones utilizando enfoques tradicionales (uno de agregación de preferencias y otro de agregación de reco- mendaciones), y un SRG que utilizaba una versión simplificada de MCP.

(ii) La variante DD de la estrategia MC (o,Multilateral Concession strategy), creada

para ayudar a reducir la incidencia del problema de los conflictos tempranos. Este problema afecta a dos de las variantes propuestas en [27], Nash y Utilitarian, y causa que los agentes descarten acuerdos potenciales y que, en consecuencia, las negociaciones terminen prematuramente.

(iii) La estrategia PrA, que modela el criterio de aceptación de propuestas de cada

agente y contribuye a “acelerar la negociación” (reduciendo la cantidad de ron- das necesarias para llegar a un acuerdo) sin comprometer significativamente la calidad de las recomendaciones generadas por MAGReS.

(iv) La estrategia ARP, que permite que cada miembro de grupo pueda influir en

el comportamiento del agente que lo representa y por ende en la recomenda- ción generada para el grupo. Uno de los objetivos de esta evaluación fue probar que cuanto más restrictiva es la variante utilizada de la estrategia ARP, menos probable es que las recomendaciones de MAGReS contengan ítems que fueron previamente votados por alguno de los miembros del grupo.

En todos los experimentos realizados fue posible confimar las hipótesis experimentales lo que permitió concluir, que efectivamente las recomendaciones de MAGReS supera- ban a las de losbaselinesen los dominios evaluados. Se observó que las recomendaciones

de MAGReS no sólo satisfacen en mayor medida al grupo sino que también logran que cada uno de los miembros sea satisfecho de forma uniforme, reduciendo así la posibi- lidad de que los intereses de un miembro del grupo sean ignorados. Adicionalmente, los resultados obtenidos permitieron confirmar qué la MC DD contribuía a resolver el

problema de los conflictos tempranos (punto (ii)), y que las estrategias PrA y ARP

cumplían su cometido (punto (iii) y (vi)). Respecto de la estrategia PrA se obser-

vó que la variante Relaxed permite incrementar la cantidad de ítems recomendados

y reducir la cantidad de concesiones necesarias para generar las recomendaciones, al mismo tiempo que mejora la calidad de las recomendaciones generadas. Finalmente, respecto de la estrategia ARP, se concluyó que la variante Taboo debería ser elegida

si fuese necesario elegir una variante para que sea utilizada por defecto por todos los agentes.

En el dominio de películas también se realizó un experimento que involucró la participación de usuarios reales. En dicho experimento se solicitó a los usuarios que formaran grupos y utilizaran una aplicación Web para solicitar recomendaciones gru- pales a dos recomendadores, uno que utilizaba MAGReS y otro que utilizaba un en-

determinar si en un contexto real se mantenían las mejoras observadas al utilizar MA- GReS en la evaluación offline (con datasets), tanto en la satisfacción grupal como en

la uniformidad de satisfacción de los miembros del grupo. En base a los resultados obtenidos, se logró confirmar dichas mejoras, aunque se necesitan más pruebas para probar la validez estadística de los resultados obtenidos.

En el dominio de POI se repitieron casi todos los experimentos realizados en el dominio de películas, salvo aquel que involucraba la participación de usuarios reales. El objetivo de los experimentos realizados fue confirmar que los hallazgos reportados en los experimentos realizados en el dominio de películas eran válidos en otro dominio. Los resultados de los experimentos confirmaron que dichos hallazgos seguían siendo válidos en el dominio de POI.

En segundo lugar, se evaluaron las explicaciones generadas por MAGReS en el dominio de las películas. Al analizar los resultados del experimento realizado se observó que, en general, es posible afirmar que las explicaciones generadas por MAGReS, a pesar de ser simples, fueron de utilidad para los usuarios, puesto que ayudaron a que tuvieran en cuenta recomendaciones que de otra forma hubiesen ignorado. También se observó que algunas de las explicaciones generadas necesitan ser pulidas.

9.1.

Contribuciones

Las principales contribuciones del enfoque MAGReS son las siguientes:

Genera recomendaciones que, en comparación a las recomendaciones de los en- foques tradicionales de recomendación a grupos, satisfacen a los miembros del grupo en mayor medida y, principalmente, de forma más uniforme [120?, 121].

Genera recomendaciones más personalizadas (en comparación a enfoques que usan técnicas de agregación), puesto que en MAGReS cada miembro de grupo puede personalizar el comportamiento del agente que lo representa, para que así su forma de pensar y su personalidad sean tenidas en cuenta al momento de generar las recomendaciones para el grupo. Para este propósito se agregaron las estrategias ARP y PrA, y se podrían agregar estrategias (y/o variantes de estrategias existentes) en caso de ser necesario.

Provee explicaciones para recomendaciones a grupos que aprovechan la dinámica del proceso de negociación. Estas explicaciones pueden (i) ayudar a los miembros

del grupo a entender la razón por la que cada ítem fue recomendado, (ii) per-

suadirlos para que tengan en consideración recomendaciones que de otra manera hubiesen ignorado, (iii) informarles acerca de posibles afinidades entre sus in-

tereses y (iv) notificarles acerca de particularidades ocurridas durante el proceso

de recomendación que pudieron haber afectado las recomendaciones generadas. Es un framework flexible, puesto que no sólo permite modificar el protocolo de negociación y las estrategias que gobiernan las diversas partes del mismo,

9.2 Limitaciones

sino que también permite cambiar el SRI de forma transparente. Respecto a esto último, es necesario aclarar que siempre que MAGReS puede utilizar SRI siempre y cuando dicho SRI cumpla con una interfaz específica y esté escritos en el lenguaje JAVA, sin importar qué enfoque utilice (el SRI) para realizar predicciones y generar recomendaciones.

Como otros aportes del trabajo puede mencionarse

Desires Distance (DD), una nueva variante de la estrategia MC. De acuerdo a los

resultados obtenidos en las pruebas realizadas, la MCDD provee una alternativa

de solucia un problema grave de las variantes existentes.

Desde el punto de vista técnico, como resultado de la implementación de MA- GReS, se generó un framework orientado a objetos de recomendación a grupos, el cual admite el uso de distintos algoritmos de recomendación ya sean tradicio- nales (los que aplican las estrategias de agregación tradicionales) o basados en SMA. Cada uno de estos componentes es configurable.

9.2.

Limitaciones

Si bien el trabajo de tesis produjo resultados positivos, el enfoque actual presenta limitaciones.

En primer lugar están las limitaciones del protocolo MCP. Tal como se mencionó en la Sección 4.3.2 del Capítulo 4, MCP tiene al menos dos limitaciones. La primera es que un agente no puede influenciar la postura de otros agentes dentro de la negociación. Esto podría hacerlo, por ejemplo, utilizando una justificación con el objetivo de que el otro agente cambie de parecer y/o cambie su evaluación sobre una propuesta. La segunda limitación consiste en que un agente debe asignar utilidades cuantitativas a las propuestas. Esto usualmente se realiza asignándole a cada agente una función de utilidad que es subjetiva, por lo que si dicha función tiene algún problema dicho problema se translada directamente al proceso de negociación. Adicionalmente, se debe mencionar que en MAGReS las funciones de utilidad se modelaron utilizando las

Documento similar