Módulo basado en contenido - El algoritmo híbrido

3.7 El algoritmo híbrido

3.7.1 Módulo basado en contenido

Este módulo valora cuánto se adecua un determinado programa a un usuario, basado únicamente en las preferencias de éste. Se establece la noción de matching semántico entre ambos, y se denota matching(a, U) siendo a el contenido objetivo y U el usuario activo.

Para obtener dicha valoración se define una métrica llamada similitud semántica que permite detectar si dos contenidos son parecidos sin necesidad de que compartan los mismos atributos. Esta similitud semántica entre dos contenidos a y c se denota SemSim(a, c) y se definirá a continuación.

Finalmente, el matching semántico entre a y U se define de acuerdo a la Ecuación 3-1,

Ecuación 3-1

donde ci, DOIPU(ci), #NU y SemSim(a, ci), respectivamente representan el

contenido i-ésimo definido en el perfil del usuario U (denotado por PU), el nivel de

interés de U en relación a dicho programa, el número total de contenidos almacenados en su perfil y la similitud semántica entre ci y el programa objetivo.

106

Para obtener la similitud semántica, descrita en [60] se debe tener acceso al perfil del usuario, así como a la ontología de los contenidos de la televisión. Se obtiene como la suma ponderada de dos componentes independientes. El primero es la similitud semántica jerárquica (SemSimHie) que valora el conocimiento

implícito en las jerarquías de la ontología. El segundo se denomina similitud semántica inferencial (SemSimInf ) que infiere conocimiento implícito en la

ontología a partir de las propiedades establecidas en sus instancias. Para la ponderación entre ambas, se introduce el parámetro α. Resulta así, la Ecuación 3-2 que computa la similitud semántica entre dos contenidos a y ci.

Ecuación 3-2

La similitud semántica jerárquica entre dos contenidos a y ci la

computamos según la Ecuación 3-3,

Ecuación 3-3

Donde depth representa el nivel de profundidad de la clase sobre la que se aplica, y LCA entre dos contenidos es el ancestro común más bajo entre ambos, es decir la superclase común con mayor profundidad en la jerarquía. En el Anexo A, vemos que la jerarquía de género, según la rama a la que pertenezca la clase, puede tener hasta cuatro niveles. Entonces, esta componente valora qué tan parecidos son ambos programas según que tan próximos están en la jerarquía. Valora no sólo la proximididad sino también la profundidad. Haciendo referencia a la clasificación de género, descrita en el Anexo A, podemos ilustrar la similitud semántica jerárquica con algunos ejemplos.

Supongamos dos programas a y ci que pertenecen al género de misterio

107 pertenecen a ella. Su profundidad es 3. La profundidad de a y la de ci también será

3. Por lo tanto su similitud semántica jerárquica será máxima, e igual a 1.

En cambio si a pertenece al género de misterio, pero ci es una película de

guerra (3.4.6.8 War), a y ci seguirán teniendo profundidad 3, pero su ancestro

común será la clase 3.4.6 que es de nivel 2. En este caso su similitud semántica jerárquica será de 2/3.

Un tercer caso en el que a pertenece al género de misterio, pero ci es un

programa sobre atletismo (3.2.1 Athletics). Ahora su clase ancestro común más baja es la raíz, por lo que su profundidad es cero. La similitud semántica jerárquica es nula.

El cálculo de la similitud semántica inferencial es más complicado ya que está basada en descubrir relaciones implícitas entre los contenidos que se están comparando, para lo cual se utiliza la ontología del dominio de la televisión, permitiendo descubrir asociaciones entre los contenidos comparados, sean éstas explícitas u ocultas en la ontología del sistema.

Mediante la similitud inferencial descubrimos asociaciones de dos tipos entre los contenidos comparados:

Cuando se identifica una característica semántica presente tanto en a como en ci, tal como se ve en la Figura 3-5. Se la llama instancia de unión.

108

Se identifica una clase de unión entre los dos contenidos si ambos tienen características semánticas (instancias), que aunque sean distintas, sean del mismo tipo de clase. Se ilustra en la Figura 3-6.

Figura 3-6. Clase de unión entre los contenidos a y ci.

Se denominan instancias comunes a las instancias compartidas por los contenidos comparados, ya sean las instancias de unión o las instancias de la clase de unión que están definidas en el perfil del usuario.

La similitud semántica inferencial se computa de acuerdo a la Ecuación 3-4,

Ecuación 3-4

donde #CI(a, ci) es el número de instancias comunes entre a y ci, ik es la k-ésima

de estas instancias, #CIMAX(a, b) es el número máximo de posibles instancias

comunes entre ambos programas, fp(ik) y fat(ik) son los factores de penalización y

atenuación, que se definen a continuación, asociados a la instancia común ik, y Cik

109 El factor de atenuación actúa de forma que cuanto más específicas sean las clases a las que pertenecen dichas instancias comunes, el valor de similitud inferencial cuantificado sea más elevado:

El factor de penalización favorece a las asociaciones inferidas mediante instancias de unión frente a las descubiertas mediante clases de unión por ser más significativas, ya que los contenidos comparados comparten el mismo atributo. En cambio, en las clases de unión las características semánticas, si bien pertenecen a una misma clase, son diferentes:

De esta forma, ya es posible computar el matching(a, U). Se define un umbral βMatchU,, a los efectos de decidir recomendar el contenido al usuario si el

matching supera el umbral. En caso que no lo supere, se pasa a la siguiente etapa basada en filtrado colaborativo, siempre que en esta primera etapa no se detecte un interés negativo.

Es de notar que la similitud semántica jerárquica se revela en cierto sentido más poderosa que la similitud semántica inferencial, en tanto y cuanto la última permite establecer que dos programas son similares cuando sus atributos son iguales o hermanos (instancias diferentes de una misma clase). Así, se pasan por alto relaciones menos directas entre los atributos, que pueden apreciarse en la jerarquía. Se adelanta nuevamente la utilidad que tendrá en esta tesis, extender la ontología de la televisión, convirtiéndola en multijerarquía.

110

In document DEPARTAMENTO DE ENXEÑERÍA TELEMÁTICA E.T.S.E. DE TELECOMUNICACIÓN (página 105-110)