Puntuación automática de los diagramas ERD

CAPÍTULO 4. MÓDULO DE DIAGRAMAS ENTIDAD/ RELACIÓN

4.4 CORRECCIÓN AUTOMÁTICA DE DIAGRAMAS ER

4.5.6 Puntuación automática de los diagramas ERD

Tal como se ha comentado en la sección 2.2.7, un tema importante dentro de los entornos CBA es el referente al sistema de puntuación. En muchos casos, y especialmente para la realización de pruebas de validación/exámenes, nos interesa que el sistema, además del correcto/incorrecto, nos facilite una nota sobre el ejercicio realizado por el alumno. Es habitual que en ERD’s muy grandes el alumno realice pequeños fallos y no sería justa una mala nota.

Tal como hemos visto se han desarrollado distintos sistemas que permiten la corrección automática de diagramas. Todos estos diagramas se caracterizan por estar formados por diferentes partes, algunas de ellas relacionadas directamente. De esta forma un ERD está formado por entidades y relaciones. Cada entidad vendrá determinada por un conjunto de atributos, donde uno o varios formarán la clave principal que identificará la entidad. Las relaciones vendrán identificadas por su cardinalidad, las dos entidades relacionadas y posibles atributos de la relación.

La puntuación la obtendremos de forma similar a [WTS04]. En este trabajo se calcula a partir de la comparación de unidades mínimas significativas (MMU) con la solución ideal. En nuestro caso el sistema que proponemos se basa en asignar unos pesos a cada grupo de elementos del diagrama de forma que con la suma total de ellos se obtenga la puntuación final. Consideramos que la nota final estará entre 0 y 10. Así pues si consideramos n grupos de elementos, la suma de los pesos Pi asignados a cada grupo será 10.

10 



 n i i

P

Como que cada grupo i está formado por mi elementos y considerando que a cada uno de ellos le

queremos dar el mismo valor, cada elemento de este grupo tendrá un valor ei = Pi /mi. Por ejemplo, si se

asigna un peso 5 puntos al grupo de las entidades y la solución correcta tienen 10 entidades, cada entidad valdrá 0,5 puntos. Por otra parte, consideramos que un error en un grupo de elementos no es tan grave que en otro y por este motivo se debe poder aplicar distintos factores penalizadores cpi para cada error en

función del grupo. De esta forma el sistema propuesto asigna la nota de la forma:

Solución más parecida

Solución alumno

Mismo número total de entidades ? (regulares + débiles) SI SI SI SI Mensaje:

A la solución enviada le faltan entidades o A la solución enviada le sobran entidades

Mensaje:

Tipo de entidades erróneas

Mensaje para cada entidad erronea : La entidad XXX es incorrecta Mismo número de entidades

regulares y débiles ? NO

Mismo número total de relaciones ? NO

Mensaje:

A la solución enviada le faltan relaciones o A la solución enviada le sobran relaciones Todas las entidades tienen los

atributos y claves correctas ?

Mensaje:

Hay relaciones incorrectas Todas las relaciones tienen las

entidades, cardinalidad y atributos correctos ?

Solución más parecida

Solución alumno

Mismo número total de entidades ? (regulares + débiles) SI SI SI SI Mensaje:

A la solución enviada le faltan entidades o A la solución enviada le sobran entidades

Mensaje:

Tipo de entidades erróneas

Mensaje para cada entidad erronea : La entidad XXX es incorrecta Mismo número de entidades

regulares y débiles ? NO

Mismo número total de relaciones ? NO

Mensaje:

A la solución enviada le faltan relaciones o A la solución enviada le sobran relaciones Todas las entidades tienen los

atributos y claves correctas ?

Mensaje:

Hay relaciones incorrectas Todas las relaciones tienen las

entidades, cardinalidad y atributos correctos ?











n i i i i

ne

cp

e

Nota

)

(

10 Nota0

Donde ei representa el valor de cada elemento del grupo i y nei representa el número de errores cometidos

en el grupo i respecto a la solución correcta más parecida a la enviada por el alumno (véase sección 4.5.5) y que el sistema ha detectado en el proceso de corrección automática.

Con la finalidad de ajustar el método es necesario que las notas obtenidas de forma automática se ajusten al máximo posible a las obtenidas manualmente por el profesor. En el sistema planteado el profesor es quien decide los valores Pi (puntuación de cada grupo de elementos) y es necesario calcular los valores

Cpi (coeficiente penalizador para los errores del grupo) que minimicen la diferencia de notas obtenidas de

forma manual frente a las obtenidas de forma automática. La metodología seguida ha sido la siguiente: 1. A través de la plataforma los alumnos envían sus diagramas como respuesta a los ejercicios

asignados.

2. De estos diagramas enviados se ha seleccionado una muestra significativa que ha sido corregida y puntuada de forma manual por tres profesores expertos en la materia y desconocedores de nuestra propuesta de puntuación automática.

3. Hemos considerado como puntuación manual final la nota media de las puntuaciones facilitadas por los tres profesores. A partir de esta puntuación manual final, de los valores de Pi establecidos

por el profesor y del número de errores de cada grupo detectado por el sistema, se han realizado los cálculos oportunos para determinar los valores cpi que consiguen que la nota automática se

acerque más a la puntuación manual final.

Para aplicar esta metodología se han seleccionado tres problemas de entre 5 y 8 entidades y entre 6 y 8 relaciones. De cada problema se han seleccionado 13 ERD significativos. Los 39 problemas han sido corregidos de forma manual por tres profesores y con la nota media obtenida, con los valores Pi y el número de errores cometidos se ha realizado los cálculos de cpi

En primera instancia se pensó en tres grupos de elementos: entidades, relaciones y atributos con pesos de 4 puntos para entidades y relaciones y 2 puntos para atributos. Cada entidad, relación o atributo erróneo sería penalizado con un error. A partir de aquí se calcularon los valores cpi que debían minimizar la

diferencia con las correcciones manuales. Con este sistema los resultados que se obtuvieron no fueron muy buenos, con diferencias de más de un punto entre las calculadas manualmente y las calculadas de forma automática.

Entonces se pensó que el sistema debía calcular el número de errores cometidos de forma más parecida a la forma de actuar de un experto. El criterio establecido ha sido el siguiente:

 Se han establecido dos grupos, uno para las entidades y el otro para las relaciones. Los valores establecidos para las Pi de cada grupo son cinco puntos (cinco puntos para las entidades y cinco

puntos para las relaciones).

 La forma de contabilizar errores por parte del sistema ha sido la siguiente

o Errores en las entidades

 Un error por cada entidad incorrecta. Por entidad incorrecta entendemos entidades que sobran o que faltan y entidades con atributo identificador incorrecto.

 0,25 errores por cada entidad identificada correctamente pero en la que hay algún atributo, distinto al identificador, incorrecto.

o Errores en el grupo relaciones

 Un error por cada relación incorrecta. Por relación incorrecta entendemos relaciones que sobran, relaciones que faltan y relaciones entre entidades distintas.

 0,5 errores por cada relación bien identificada pero con los atributos de la relación incorrectos (en caso de haberlos).

 0,75 errores por cada relación bien identificada pero con la cardinalidad incorrecta

Un vez establecidos los valores Pi y con el número de errores detectados por el sistema, se ha calculado

los valores cpi que minimicen las diferencias entre las notas manuales y las calculadas.

Para el cálculo de los cpi se ha utilizado un modelo de regresión.Para ello hemos partido de que el cálculo

de la nota se realiza a partir de Nota = 10 – cpe * (ee* nee) – cpr * (er * ner) donde conocemos los valores

de ee (valor de una entidad), de nee (número de entidades erróneas), de er (valor de una relación) y de ner

(número de relaciones erróneas). A partir de ahí se han calculado los valores de cpe y de cpr de forma que

se ajusten a Nota-10 = - cpe * x1 - cpr * x2. Los valores obtenidos para cpe ycpr son respectivamente 1,45 y

1,62. Estos valores son significativos ya que el p-valor es 0,00. El coeficiente de determinación R2_{es de}

0,993 con lo cual el modelo ofrece una calidad muy buena.

En la Figura 4.8 se puede ver en primer lugar (gráfica Normal Probability Plot) que el modelo obtenido se ajusta a la normalidad. Si observamos los valores de los residuos en las otras tres gráficas vemos que en ningún caso hay una diferencia superior/inferior a los 0,5 puntos respecto a las notas calculadas manualmente. 0,6 0,3 0,0 -0,3 -0,6 99 90 50 10 1 Residual Pe rc en t 0,0 -1,5 -3,0 -4,5 -6,0 0,50 0,25 0,00 -0,25 -0,50 Fitted Value Re si du al 0,4 0,2 0,0 -0,2 -0,4 6,0 4,5 3,0 1,5 0,0 Residual Fr eq ue nc y 35 30 25 20 15 10 5 1 0,50 0,25 0,00 -0,25 -0,50 Observation Order Re si du al

Normal Probability Plot Versus Fits

Histogram Versus Order

Residual Plots for y-10

Figura 4.8 Gráficas del modelo de puntuación obtenido.

Comentar que para estos cálculos se han omitido los casos con una nota media inferior a 3. Hemos observado que aunque en un problema haya gran cantidad de errores la nota que asigna el profesor suele estar entre 2 y 3 independientemente de si le correspondería un cero. En estos casos, las notas calculadas según el modelo eran siempre inferiores a la media de la corrección manual. Por otra parte, no consideramos importante esta omisión ya que para notas inferiores a 3, el sistema responderá simplemente “prueba no superada”. Por otra parte vemos que no considerando estos valores el modelo se ajusta muy bien al resto de casos que son los que realmente nos interesa evaluar.

In document Entorno virtual para el aprendizaje y la evaluación automática en bases de datos (página 101-103)