Pruebas para constatar la eficiencia del sistema

CAPÍTULO 3. MANUAL DE USUARIO CONSTATACIÓN DE LOS RESULTADOS

3.5. Pruebas para constatar la eficiencia del sistema

En este epígrafe se mostrarán datos que demuestran la efectividad y eficiencia de cada uno de los métodos implementados para el tratamiento de valores faltantes.

Casos Completos:

Este método elimina todos los registros que tengan valores nulos y es recomendado para las tablas que tienen un bajo por ciento de valores nulos.

Para probar la corrección del método, este fue aplicado a base de datos sobre distintos gestores.

• En Access se utilizó la tabla “Acceso” que se exportó de la base de datos en SQL Server “Integral”. Esta tabla tiene 30201 registros. Se creó una copia de la tabla y fueron forzados 906 valores a nulos en diferentes campos, lo que representó un 3% de los registros. El método eliminó satisfactoriamente todos los registros de la tabla Acceso que contenían valores nulos.

• En SQL Server se usó una copia de la tabla “Acceso” obteniéndose los mismos resultados.

• En FoxPro se probó con la tabla Defu03 que registra las defunciones ocurridas en el año 2003. Se escogió una muestra de 487 registros y en el campo raza que toma valores 1, 2 y 3 se forzó a que el 10% de los registros, 49 valores, fueran nulos. Igualmente se corroboró que el método eliminó los registros que contenían estos valores.

Para los siguientes métodos se realizaron pruebas sobre bases de datos reales con el objetivo de comprobar la eficiencia y efectividad de cada uno de ellos. Forzando a nulos un por ciento de valores y almacenándolos para después comparar los introducidos por el método y los reales. Para evaluar la calidad del método se calculó la dispersión de los valores antes y después de aplicar cada método, a través del cálculo de la desviación estándar, y el por ciento de exactitud de los valores introducidos.

La desviación estándar es una medida de variación que muestra el comportamiento de los valores. Es importante que la diferencia entre las desviaciones estándares calculadas antes y después de aplicar el método sean pequeñas, lo que demuestra que al introducir los nuevos valores estos mantienen la variabilidad de los datos ya existentes.

El por ciento de exactitud se calcula a partir de la siguiente fórmula: % de exactitud =

CantTotalR den CantCoinci ∗100

donde:

CantCoinciden: es el número de los valores que al ser sustituidos coinciden con los valores reales.

Sustituir por la media:

En la prueba de eficiencia del método se empleó como referencia una base de datos en Access que tiene por nombre Cilinder.mdb, se realiza un análisis de la tabla con el mismo nombre, que cuenta con 540 registros, donde se utilizó el campo caliper de tipo numérico que puede tomar los siguientes valores: 0 o 1. En un principio éste cuenta con 27 registros que tenían valores nulos que son eliminados posteriormente quedando un total de 513 registros. La desviación estándar de los valores observados es de 0.06948673046.

El procedimiento para probar la eficiencia del método consiste en forzar un por ciento de los valores observados a nulos y determinar la desviación estándar de los restantes valores.

Luego se prosigue con la aplicación del método de reemplazo de los valores nulos al campo y se determina la desviación estándar de sus valores que ahora incluye los reemplazados y se compara con la anteriormente calculada. En la siguiente tabla se muestran los resultados obtenidos.

% de nulos forzados

Cantidad de nulos

forzados

Desv. Estándar antes de aplicar el método. Desv. Estándar después de aplicar el método. % de exactitud 2% 10 0.07000173617 0.06931478144 95.6% 5% 26 0.06928073212 0.06749877326 95.9% 10% 51 0.06628226227 0.06289452133 95.3% 25% 128 0.06706284679 0.05807832464 96.5%

Tabla 3.1 Pruebas para el método de sustitución por la media.

Sustituir por la mediana:

Para probar la eficiencia del método se utiliza una muestra de 200 registros de la tabla Submayor que pertenece a la base de datos Integrales del departamento de economía de la Universidad Central de las Villas. El campo que se selecciona para tratar sus valores

nulos se nombra Mes, los valores que puede tomar y la cantidad de cada uno de ellos se muestra en la siguiente tabla.

Valores que puede tomar el campo Mes 1 2 3 4 5 6 7 9 Cantidad de veces que se repite el valor 107 77 3 1 3 5 3 1

Tabla 3.2 Análisis del campo Mes.

Para este campo se hacen varias ejecuciones del método variando el por ciento de valores forzados a nulos y en cada una de estas se determinó la desviación estándar de los valores observados antes y después de cada una de las ejecuciones. En la siguiente tabla se muestran los resultados obtenidos.

Tabla 3.3 Pruebas para el método de sustitución por la mediana. % de nulos forzados Cantidad de nulos forzados

Desv. Estándar antes de aplicar el método. Desv. Estándar después de aplicar el método. % de exactitud. 5% 10 1.17838133366493 1.1574968661 97.5% 10% 20 2.0689841035 1.9637672748 96.3% 25% 50 1.3368633361 1.2045141225 98.2%

Sustituir por la moda:

La tabla Empleado que pertenece a la base de datos Integrales del departamento de economía de la Universidad Central de las Villas, presenta un total de 18523 registros de los cuales se tomó una muestra de 200 registros para realizar las ejecuciones de este método. El campo al que se le hizo el tratamiento de nulos se nombra Edad y presenta los siguientes valores. Ver tabla 3.5

Valores que puede tomar el campo Edad 35 36 37 40 43 Cantidad de veces que se repite el valor 107 77 9 4 3

En la siguiente tabla se muestran los valores calculados para la desviación estándar y el por ciento de exactitud para cada una de las pruebas realizadas.

% de nulos forzados

Cantidad de nulos

forzados

Desv. Estándar antes de aplicar el método. Desv. Estándar después de aplicar el método. % de exactitud. 5% 10 1.1783813337 1.1574968661 94.3% 10% 20 1.1912047231 1.1503877432 96.8% 25% 50 1.3368633361 1.2045141225 95.9%

Tabla 3.5 Pruebas para el método de sustitución por la moda.

Desviación Estándar:

La tabla que se utilizó para las pruebas de este método fue Detalle_PPagos de la base de datos Integrales del departamento de economía de la Universidad Central de las Villas, de la cual se tomó una muestra de 200 registros. Esta tabla presenta varios campos entre ellos el campo Importe, de tipo numérico y dominio continuo. En la siguiente tabla se muestran los resultados obtenidos para cada una de las ejecuciones que se realizaron.

Tabla 3.6 Pruebas para el método Desviación Estándar. % de nulos forzados Cantidad de nulos forzados

Desv. Estándar antes de aplicar el método. Desv. Estándar después de aplicar el método. % de exactitud. 5% 10 5411.83040828164 5411.11469939344 89.8% 10% 20 5512.8801667 5511.3409008 90.6% 25% 50 5590.62358666041 5596.5547236 89.9% Método Discreto:

Para este método se utilizó la tabla Submayor que pertenece a la base de datos Integrales del departamento de economía de la Universidad Central de las Villas, tomando una muestra de 300 registros. El campo que se selecciona para tratar sus valores nulos se nombra Mes, los valores que tomar y la cantidad de cada uno de ellos se muestra en la siguiente tabla.

Valores que puede tomar el campo Mes 1 2 3 4 5 6 7 9 Cantidad de veces que se repite el valor 112 82 28 21 23 13 10 11

Tabla 3.7 Análisis del campo Mes.

En la siguiente tabla se muestra los valore calculados para la desviación estándar antes y después de aplicar el método y el por ciento de exactitud de los valores reemplazados. % de nulos

forzados

Cantidad de nulos

forzados

Desv. Estándar antes de aplicar el método. Desv. Estándar después de aplicar el método. % de exactitud. 5% 15 1.3157376678 1.3672405544 95.8% 10% 30 1.3322546831 1.633129068 97.6% 25% 75 1.3198384436 1.6451466615 96.9%

Tabla 3.8 Pruebas para el Método Discreto.

Regresión Lineal Simple:

En la aplicación de este método se empleó una muestra de la tabla Submayor de 200 registros. El campo seleccionado como dependiente fue el campo Mes y como independiente el campo Saldo de tipo moneda. En la siguiente tabla se muestran los resultados obtenidos en cada una de las pruebas.

Tabla 3.9 Pruebas para el método Regresión lineal simple. % de nulos forzados Cantidad de nulos forzados

Desv. Estándar antes de aplicar el método. Desv. Estándar después de aplicar el método. % de exactitud. 5% 10 2.1328710239 2.0740015458 98.2% 10% 20 2.11423309589878 2.0422669442 97.8% 25% 50 2.0723059382 2.016360083 97.9%

Regresión Lineal Múltiple:

En la aplicación de este método se empleo la muestra de la tabla Submayor de 200 registros. El campo seleccionado como dependiente fue el campo Mes. Los campos seleccionados como independiente fueron Saldo, Haber y Debe, los tres de tipo moneda. En la siguiente tabla se muestran los resultados obtenidos en cada una de las pruebas.

Tabla 3.10 Pruebas para el método Regresión lineal múltiple. % de nulos forzados Cantidad de nulos forzados

Desv. Estándar antes de aplicar el método. Desv. Estándar después de aplicar el método. % de exactitud. 5% 10 2.1328710239 2.0381115694 98.6% 10% 20 2.11423309589878 2.0256983214 98.5% 25% 50 2.0723059382 2.036593196 98.4%

Al comparar las desviaciones estándares calculadas antes y después de aplicar cada uno de los métodos se puede ver que las diferencias son pequeñas. Esto comprueba que los métodos implementados al reemplazar los valores nulos introducen valores que mantienen la dispersión de los ya existentes. También se puede notar que los métodos son efectivos ya que la mayoría de los valores introducidos coinciden con los valores reales y esto lo demuestran los altos por cientos de exactitud logrados en cada una de las pruebas realizadas.

3.6. Conclusiones del capítulo.

En este capítulo se muestra como aplicar el método regresión múltiple y se realizan algunas recomendaciones para obtener mejores resultados. Los métodos existentes en la herramienta, casos completos, regresión lineal simple, sustituir por la media, la moda o la mediana, método discreto, desviación estándar y regresión lineal múltiple fueron probados con varios juegos de datos arrojando buenos resultados lo que comprueba la efectividad y eficiencia de los mismos.

CONCLUSIONES.

A partir del trabajo realizado se concluye que:

• Se realizó una revisión y recopilación de técnicas que en la literatura señalan la forma de predecir valores nulos.

• Se hizo un estudio sobre como aprovechar la información contenida en los patrones de valores faltantes para el reemplazo de valores ausentes o nulos.

• Se construyó una nueva versión de la herramienta Sistema para la Sustitución de Valores Nulos en una Base de Datos añadiéndole el método de regresión múltiple, para reemplazar nulos en tablas que presentan patrones de valores faltantes monótonos.

• Se constató la utilidad y eficiencia de todos los métodos existentes en la herramienta.

RECOMENDACIONES.

• Cuando se manejen datos incompletos, hay que valorar previamente el uso de más de una alternativa para tratarlos y realizar un análisis de sensibilidad que permita una mejor elección del procedimiento a implementar.

• Añadir a la herramienta el método Monte Carlo con cadena de Markov para reemplazar valores nulos en tablas que presente patrones de valores faltantes arbitrarios.

• Para verificar que las diferencias entre los valores de las desviaciones estándares calculados antes y después de aplicar cada método no son significativas, debe realizarse posteriormente un análisis estadístico usando la prueba de Fisher.

• Agregarle al sistema una ayuda que muestre al usuario los detalles de cada uno de los métodos que existen en el Sistema para la Sustitución de Valores Nulos en una Base de Datos.

REFERENCIAS BIBLIOGRÁFICAS.

Referencias Bibliográficas

ÁLVAREZ, M., GUERRA, A. & LAU, R. (2004) Matemática Numérica., La

Habana.

CAÑIZARES, M., BARROSO, I. & ALFONSO, K. (2003) Datos incompletos: una

mirada crítica para su manejo., La Habana. Cuba., Instituto Nacional de

Epidemiología y Microbiología (INHEM).

CODY, R. (2002) Data cleaning 101,Proceedings for the Twenty-Seventh SAS

User

Group International Conference. Cary, NC:SAS Institute Inc.

GALHARDAS, H. (2000) An extensible framework for data cleaning.

Proceedings of the international conference on data engineering (ICDE).

GARSON, G. D. (2005) Data Imputation for Missing Value, Janvier 2005.

GIMÉNEZ, D. C. (2000) Técnicas de Tratamientos de Datos Ausentes.

HOEL, P. G. (1976) Estadística Elemental., Calfornia, Los Angeles., Editoriar Pueblo

y Educación.

INMON & HAKATHORN (2004) Using the data warehouse.

KAEWBUADEE, K., TEMTANAPAT, Y. & PEACHAVANISH, R. (2009) Data cleaning using fd from data mining process.

LITTLE, R. J. & RUBIN, D. B. (1987) Statistical Analysis with Missing Data.,

New York, John Wiley and Sons.

LÓPEZ, E. M. M. (2008) Regresión múltiple.Demostraciones. Disponble en: http://halweb.uc3m.es/esp/Personal/personas/emolanes/esp/archivos/EstII/Reg -multiple.pdf

MARTINA, T. (2005) Tratamiento de valores ausentes en las bases de datos.

Facultad de Matemática-Física-Computación. Santa Clara, Universidad

MCDERMEIT, M., FUNK, R. & DENNIS, M. (1999) Data cleaning and replacements of missing values.

PYLE, D. (1999) Data preparation for data mining., Inc. San Francisco,

California., Morgan Kaufmann Publishers.

RAHM, E. & DO, H. H. (2001) Data cleaning: Problems and current approaches.

REDMAN, T. C. (1992) Data Quality: Management and Technology, New York.,

Bantam Books.

RUBIN, D. B. (1987) Multiple imputation for nonresponse in surveys, New

York:John Wiley.

RUBIN, D. B. (1996) Multiple Imputation after 18+year, Journal of the American

Statistical Association 91.

SARLE, W. S. (1998) Prediction with Missing Inputs., Cary USA, SAS Institute

Inc. SAS Campus Drive.

SCHMULLER, J. (2000) Aprendiendo UML en 24 horas, Mexico, Macmillan

Computer Publishing.

SERVICES, I. T. (2004) Handling Missing or Incomplete Data, The University of

Texas at Austin.

SHAFTER, J. L. (1997) Multiple of incomplete multivariate data., London:

Chapman and Hall.

STONE ANALYSTICS, (2003), Second Moment.The news and business resource for applied Stone AnalysticsMissing Data Method. TLDP-ES/LUCAS (2006) Modelado de Sistemas con UML.

WAND, Y. & WANG, R. (1996) Anchoring Data Quality Dimensions Ontological

Foundations., Communications of ACM.

YUAN, Y. C. (2000) Multiple Imputation for Missing Data: Concepts and New Development.

In document Implementación de una versión mejorada del sistema para la sustitución de valores nulos en una base de datos (página 57-67)