Ahora bien, aunque Alice y Charlie parecen ser muy similares seg´un el coeficiente de correlaci´on calculado, los contextos en los cuales se present´o su calificaci´on son muy diferentes en muchos de los casos. Por tanto, ser´ıa l´ogico pensar que la similitud entre los usuarios deber´ıa considerar esta informaci´on. Para ello, le ha sido agregado el factor de similitud de contextos a la ecuaci´on 3.5, y los valores de similitud han sido calculados nuevamente en la tabla 3.3 haciendo uso de la ecuaci´on 3.6. Estos resultados muestran que aunque Alice y Charlie tienen cierto parecido, la similitud de los contextos afecta significativamente los resultados y su parecido se disminuye en la medida en que la calificaci´on se da en un entorno completamente diferente.
s(u, v) = P
i∈Iu∩Iv(ru,i−ru) (rv,i−rv)η cru,i, crv,i
q P i∈Iu∩Iv(ru,i−ru) 2qP i∈Iu∩Iv(rv,i−rv) 2 (3.6) 1 -0,021 0,170 1 -0,567 1
Alice Bob Charlie
Alice Bob Charlie
Tabla 3.3: Similitud entre usuarios considerando el contextoFuente: creaci´on propia
Nuevamente, esto puede ser visto tambi´en en un SR basado en ´ıtems, puesto que la ecuaci´on de correlaci´on de Pearson es la misma y s´olo se cambia el punto de vista. En este caso todo se analiza considerando los ´ıtems y no los usuarios.
En esta secci´on se han presentado alternativas para incluir contexto dentro de los sistemas de recomen- daciones y se ha dejado claro que utilizar una aproximaci´on basada en modelo puede generar mejores resultados que usar alg´un filtrado ya sea antes o despu´es de aplicar los algoritmos de recomendaciones cl´asicos. El utilizar esta aproximaci´on basada en modelo sugiere la necesidad de incluir un factor extra a las ecuaciones de predicci´on de ratings, de tal forma que con ´el se tenga en cuenta la similitud entre los contextos. De esta manera, la siguiente secci´on se enfoca en presentar un mecanismo para medir la similitud entre contextos, es decir, calcular el valor deη(eta), y con ello completar las ecuaciones planteadas.
3.4.
Similitud de contextos
Las m´etricas de similitud son una parte importante de los sistemas de recomendaciones, pues estos conf´ıan su funcionamiento en los componentes encargados de medir la semejanza entre los elementos involucrados en la recomendaci´on. Los sistemas basados en usuarios por ejemplo, requieren encontrar los usuarios m´as parecidos a aquel a quien se pretende entregar una recomendaci´on, de la misma
Cap´ıtulo 3. Contexto en entornos de publicidad ubicua y su implantaci´on en Sistemas de Recomendaciones
forma aquellos que se soportan en los ´ıtems primero deben encontrar los ´ıtems m´as parecidos a aque- llos que han sido relevantes para el usuario [89]. A partir de esto es posible inferir que las diferentes m´etricas de similitud son aplicables a cualquier tipo de objeto, as´ı como los RSs pueden usarse para recomendar cualquier tipo de ´ıtem. Algunas de las m´etricas de similitud m´as utilizadas son la correla- ci´on de Pearson, la correlaci´on de Spearman, la distancia Euclidiana y la medida de cosenos; las dos primeras hacen referencia a correlaciones, por tanto se enfocan en medir la similitud de dos objetos respecto a sus comportamientos, y las dos siguientes son medidas de distancia y eval´uan los objetos a partir de la cercan´ıa entre cada una de las partes que lo componen. Las medidas de correlaci´on tienen una ventaja y es que pueden ser aplicadas indiferentemente a cualquier objeto y funcionar´an sin hacer cambio alguno. No obstante, determinar la correlaci´on entre dos elementos sugiere que se realicen distintas iteraciones en el c´alculo, requiriendo un monto importante de procesamiento. Las medidas de distancia suelen depender de los elementos que componen los objetos y por tanto para cada objeto distinto que se compare se requiere una implementaci´on propia. Pese a esto, una vez se cuenta con la informaci´on necesaria, el monto de procesamiento requerido para calcular la distancia entre dos objetos es menor que el requerido para determinar su correlaci´on. En el caso particular de las recomendaciones, las medidas de correlaci´on tienen otra desventaja, y es que para poder medirla es necesario contar con datos de entrada que puedan indicar un comportamiento y sea comparable con otros elementos en el sistema, y en muchos casos cuando el elemento apenas empieza a existir se im- posibilita el calculo de su similitud. Este problema com´unmente se le conoce como “arranque en fr´ıo”.
El arranque en fr´ıo es un problema tan com´un de los SR tanto basados en usuario como basados en ´ıtem, que trabajos como [90] se han enfocado a presentar formas de bordearlo. Eventualmente, el agregar una nueva variable como en este caso el contexto, puede aumentar los casos en los que este problema se presenta. Pues contextos con nuevas configuraciones o caracter´ısticas diferentes son considerados como elementos nuevos imposibles de ser comparados con una m´etrica de correlaci´on. Este es el principal motivo por el cual para este trabajo se ha decidido trabajar con una m´etrica de distancia para medir la similitud entre los contextos, siendo en este caso particular la medida de Distancia Euclidiana, dada su popularidad.
Ahora, para medir la distancia euclidiana sup´ongaseAyB dos elementos de contexto conformados por los atributos{a1, a2, . . . , an}y{b1, b2, . . . , bn}, la distancia euclidiana de este par de elementos se encuentra expresada por:
D(A, B) = v u u t n X i=1 d2 i (3.7)
Dondedies equivalente a la diferencia entre los atributosai ybi, es decir,di =ai−bi. Ahora bien,
es posible que no todas las caracter´ısticas de los objetos tengan el mismo grado de importancia en el momento de medir la similitud, por ejemplo, puede darse el caso de un contexto donde interese m´as la variable de temperatura que la hora del d´ıa, por motivos propios del sistema, como que los anuncios est´an ligados a ´ıtems que son interesantes en momentos calurosos. Para este caso, se ha incluido un tercer vector de variables llamado W = {w1, w2, . . . , w3}, el cual est´a conformado por todos los pesos de cada una de las variables. As´ı la ecuaci´on de distancia incluyendo dichos pesos es:
3.4. Similitud de contextos D(A, B) = v u u t n X i=1 wid2i (3.8)
Finalmente, tal como se encuentra expresada la ecuaci´on no es posible considerarla como una medida de similitud, por una raz´on simple. Las medidas de similitud generalmente se encuentran en el rango
[0,1]donde1significa que los elementos son completamente iguales y0completamente diferentes. Por el contrario las medidas de distancia se encuentran en[0, max(ai, bi)]donde0significa que no hay
distancia entre los objetos y por tanto son completamente iguales. Para corregir ello se ha recurrido a la siguiente transformaci´on: η(A, B) = 1 1 + q Pn i=1wid2i (3.9)
Que puede ser f´acilmente utilizada como ecuaci´on para un c´alculo de similitud.
3.4.1. Similitud de contextos incluyendo la similitud de los usuarios o ´ıtems
Se ha visto que el incluir el contexto dentro de la similitud puede cambiar completamente el resultado del parecido de dos usuarios o dos ´ıtems. Pero tambi´en se ha visto que la similitud entre contextos se mide mediante la combinaci´on de distintas variables. Ahora, ¿qu´e pasa si se considera la similitud entre los usuarios como una variable m´as del contexto? por ejemplo, en vez de utilizar la similitud de las variables del consumidor o el proveedor, se considera la similitud entre los ´ıtems o usuarios midi´endolas como una correlaci´on. La ecuaci´on de similitud de contextos podr´ıa extenderse a lo si- guiente:
η(A, B) = 1
1 +qwsd2s(u,v)+Pni=1wid2i
(3.10)
Dondeds(u,v)es la distancia equivalente a la similitud entre usuarios calculada con una correlaci´on de Pearson o alguna otra.
Hasta este punto ya est´a claro cu´ales son las variables que puede contener un elemento de contexto para publicidad y un mecanismo para medir su similitud. Sin embargo, no est´a claro como medir la distancia entre cada una de las variables del contexto. Para ello en [63] se hizo una clasificaci´on de las variables de contexto en tres tipos: escalares, ordinales y categ´oricas, aunque en dicho trabajo la clasificaci´on se realiza directamente al contexto, es v´alido pensar que se enfoca m´as en los atributos del mismo y adicionalmente, considerando el modelo de contexto planteado, se ha agregado un cuarto tipo llamado variables de decisi´on. Las variables de decisi´on s´olo requieren ser revisadas por su cumplimiento, es decir, son completamente iguales o completamente diferentes, por ejemplo, existen o no elementos en stock; la distancia entre variables escalares y ordinales com´unmente se
Cap´ıtulo 3. Contexto en entornos de publicidad ubicua y su implantaci´on en Sistemas de Recomendaciones
mide mediante su diferencia aritm´etica, las variables categ´oricas por su parte, son un poco m´as complejas y com´unmente requieren del uso de ontolog´ıas de dominio o alg´un otro mecanismo de an´alisis sem´antico para calcular su distancia.
a lo largo de las secciones 3.3 y 3.4 se han presentado mecanismos para incluir contexto dentro de los sistemas de recomendaciones mediante la adaptaci´on de ecuaciones cl´asicas. Asimismo, se ha presentado la distancia euclidiana como punto de partida para determinar la similitud entre un par de contextos. Sin embargo, para poder hacer una evaluaci´on de lo planteado es necesario contar con una fuente de informaci´on que permita aplicar las ecuaciones y sacar conclusiones, y por dicha raz´on, la siguiente secci´on se enfoca en la construcci´on experimental de un dataset que contenga informaci´on contextual que se ajuste a las necesidades propias de este caso.