4.10 Prueba del sistema
4.10.2 Imputación TKSM Determinación del número k de vecinos.
Procedimiento de imputación: TKSM (Take K Stochastic Multivariate) Parámetro: K (número de vecinos)
Valor del Parámetro: K = 5, 10, 15, 20, 25, 30, 35, 40 Archivo: idescat
Figura 4.37 Imputación TKSM
Se puede ver en la figura 4.37 que el número de vecinos más cercanos adecuado para el experimento oscila entre 5 y 10. Los mejores resultados se obtienen para este número de vecinos. Los resultados obtenidos corresponden con lo esperado.
El índice ASL es superior a 0.05 en todos los casos (K = 5, 10, . . . , 40).
El índice de homogeneidad interna es pequeño 0.0531, lo mismo que en el caso de la homogeneidad externa 0.0583, lo cual constituyen valores aceptables para la fusión realizada.
Verificación de distribución equivalente entre los datos imputados y reales
Para verificar que efectivamente se ha obtenido un conjunto de valores imputados para las variables específicas que son “como los reales”, se ha procedido a efectuar un análisis de componentes principales de la tabla de datos formada por los receptores y los valores de las variables especificas observadas. A continuación se proyectan los mismos individuos
receptores sobre el primer plano factorial, obtenido “según los valores imputados en las mismas variables”. Para apreciar mejor la equivalencia entre ambas distribuciones, se ha procedido a comparar los valores reales observados en los receptores con sus valores imputados, si bien en general se haría entre los valores reales observados en los donantes y los valores imputados en los receptores.
Estos resultados se pueden observar en la figura 4.38, en donde se han representado en los dos primeros ejes factoriales los individuos donantes y los receptores con la diferencia ahora que los donantes son los individuos originales y los receptores, los individuos imputados.
Figura 4.38 Individuos receptores: originales e imputados x
Para ver si la estructura de correlaciones entre los datos reales observados y los datos imputados es la misma, se representa el círculo de correlaciones de las variables activas (específicas observadas en la muestra de receptores), conjuntamente con las correlaciones de las variables específicas imputadas, con los mismos dos primeros ejes factoriales obtenidos en el análisis de componentes principales mencionado.
Puede observarse visualmente la equivalencia entre las dos estructuras de correlación (tabla 4.12, figura 4.39)
Tabla 4.12 Estructuras de correlación
Variable Φ1 _recep_imp Φ2 _recep_imp Φ1 _recep_orig Φ2 _recep_orig
emailing 0.814 -0.016 0.86 -0.062 chating -0.305 0.537 -0.238 0.217 leisure 0.350 0.525 0.458 0.429 buying 0.866 -0.048 0.887 0.114 shopping 0.644 0.152 0.664 0.265 paying 0.818 0.148 0.836 0.241 banking 0.789 -0.184 0.795 -0.022 studying 0.665 -0.078 0.693 -0.045 government 0.835 -0.289 0.809 -0.181 gtransact 0.737 -0.229 0.722 -0.155 health 0.494 -0.614 0.435 -0.574 htransact 0.290 -0.706 0.38 -0.629 teleworking 0.469 0.230 0.577 0.391 -1.0 Φ1ο chat-i health an health-i htr htran-i buy pay-i pay s twork-i shop-i hop leis leis-i twork chat e stud
stud-i buy-inmailail-i
gove ban-i gtran-i r ran gover-i gt ba em Φ2o 1.0 0.5 0.0 -0.5
Figura 4. 39 Círculo de correlaciones
Imputación y Validación en Fusiones de Datos Resultados mediante imputación EM
Para evaluar la calidad de los resultados obtenidos con el método K-NN se ha repetido el experimento utilizando el método EM. Para poder comparar los resultados con la imputación previa realizada mediante el método TKSM, se ha agregado una componente aleatoria teniendo de esta manera lo que se llama aquí como: EM-R. Los resultados se presentan en la tabla 4.13.
En la tabla se presentan los resultados obtenidos mediante el método EM-R, comparando las imputaciones realizadas con los valores reales observados en los receptores. Se incluyen a su vez los resultados obtenidos mediante TKSM comparando los datos imputados con los valores observados de los receptores y con los valores observados de los donantes.
Tabla 4.13 Resultados del ensayo
Validación con: Índice TKSM Receptores TKSM Donantes EM-R Receptores ASL 0.1902 0.1663 0.1880 Homogeneidad Interna (ACD) 0.0746 0.0531 0.0660 Homogeneidad Externa (ACD) 0.0595 0.0583 0.0508 Precisión(
τ
) 1.0274 1.1913 1.0728Se puede apreciar en la tabla los buenos resultados obtenidos con el método propuesto. El índice de precisión muestra un valor que ya se esperaba. En el caso EM-R, los resultados son similares a los obtenidos con el sistema GRAFT.
Señor… si me das fortuna, no me quites la razón
Capítulo 3
- Propuesta -
3.1 Introducción
La Fusión tiene como objetivo combinar datos de diferentes fuentes para poder disponer de toda la información en un solo archivo. Esto se consigue imputando a unos individuos la información proveniente de otros individuos con los cuales comparten aspectos en común que se relacionan con la información que se quiere estimar.
Como ya se ha mencionado, el interés por la fusión se debe a ciertos casos en los cuales es imposible disponer de la información específica para un solo archivo o a la reducción de costos entre otras causas.
La fusión integra muestras (encuestas) emparejando respuestas individuales. Dos muestras de una misma población (por ejemplo, uso de medios y uso de productos) seleccionarán diferentes individuos para representar esa población. La fusión intenta conectar un individuo dado en una muestra a un(os) individuo(s) en la otra muestra cuyas características sean lo más parecidas posible sobre un conjunto preseleccionado de variables. Se define una medida de distancia para establecer la semejanza. Cuanto menor sea la distancia, mejor es el parecido entre individuos. Una vez seleccionados los individuos que aportaran la información requerida, esta se puede imputar de diferentes formas.
La forma de imputación se puede hacer de manera determinística o estocástica. Los distintos métodos de imputación se pueden aplicar para imputar un valor para cada valor ausente (imputación simple) o en algunos casos, imputar más de un valor para permitir una evaluación apropiada de la incertidumbre de la imputación (imputación múltiple)1 en la cual se utilizan m (3 ≤ m ≤ 10) valores imputados (cf. 1.2.2.2).
1
Little, R.J.; Rubin, D.B. (2002)
La imputación conlleva variación adicional que debe ser estimada. Con frecuencia se emplea la imputación múltiple para medir esta variación adicional, aunque existen otros métodos2.
Tiene que existir evidencia de que el método empleado es lo suficientemente preciso para el objetivo deseado. En un nivel agregado, interesará saber si:
Se han preservado las distribuciones marginales
Se ha conservado la estructura correlacional de los distintos pares de variables
La distribución conjunta de las variables se ha conservado incluyendo algunos valores de estadísticos puntuales
En un nivel individual interesa saber si los valores imputados se han aproximado a los valores reales no observados.
Así pues, los objetivos principales que se esperan de la operación de fusión y de los cuales se deberán establecer sus indicadores son: coherencia, lo que significa que los valores imputados deberán ser realistas; precisión, lo que quiere decir que los valores imputados se aproximen lo más posible a los valores reales desconocidos y que reproduzca f (Y|X) en el archivo receptor.
Adicionalmente se pueden evaluar estadísticos marginales, así como ciertas medidas estadísticas entre las variables específicas en el archivo receptor suponiendo que tanto el archivo donante como el archivo receptor son muestras de la misma población.
Existen diversas técnicas de fusión, de entre las cuales se ha decidido escoger para este trabajo de investigación la técnica de fusión por búsqueda de los vecinos más cercanos (método de imputación Hot deck) en un espacio de referencia factorial.
Esta decisión permite obtener imputaciones condicionadas a variables comunes, reduciendo de esta manera el sesgo y preservando la asociación entre las variables específicas y comunes. Se puede adaptar para el desarrollo de imputaciones multivariadas, preservando así la asociación entre variables específicas. Se prevén valores sin sentido
2
Rao y Shao, 1992
(incoherentes) y se pueden hacer imputaciones por extracciones aleatorias de una distribución predictiva para simular valores reales y efectuar imputación múltiple.
El algoritmo de búsqueda de vecinos seleccionado para este trabajo ha sido el algoritmo de Fukunaga/Narendra. Es un algoritmo fácil de llevar a cabo y muy controlable. Las estructuras requeridas para la operación del algoritmo de búsqueda de vecinos se pueden obtener con ayuda de paquetes estadísticos. Tomando ventajas de las prestaciones existentes en paquetes como SPAD, se puede permanecer dentro del marco de estos.
En la imputación por donante resulta de vital importancia la determinación del número de vecinos (donantes) que se habrán de tomar, así como de la forma empleada para seleccionarlos. La calidad de la fusión depende en parte de la calidad del método empleado y de la calidad predictiva de las variables comunes. Se debe tener en cuenta también el propósito para el cual se hace la fusión. El establecer una comparación entre las variables específicas en los donantes y los receptores resultaría un poco artificial dado que las variables específicas en los receptores no han sido observadas. No hay que olvidar que el principal objetivo de la fusión es reconstruir una base de datos lo mas parecida posible a la que se hubiera obtenido con los datos completos. Las etapas para el proceso de fusión quedan definidas de la siguiente manera:
Preproceso
Selección de las variables comunes.
Posicionamiento de donantes y receptores en el mismo subespacio factorial definido por las variables comunes.
Determinación de la tabla de vecinos en la que se relaciona cada receptor con sus k vecinos más cercanos.
Imputación de los valores.
Validación de la imputación.
En la etapa de preproceso, se analizan las características de las muestras. No es necesario que las dos muestras representen a la misma población, pero si que las distribuciones condicionales de las variables a transferir con respecto a las variables comunes sean iguales. Otra característica a revisar es la naturaleza de variables a transferir (normalidad en el caso de las variables continuas, y multinomial en el caso de las discretas). El hecho de no ser normales, implicaría un uso impropio del método estocástico basado en normalidad.
Uso de la ponderación de los individuos para caracterizar la muestra. Deben ser ponderados de tal manera que la muestra de donantes sea representativa de la población. Pesos inversamente proporcionales a la probabilidad de selección (Probabilidad de que un individuo esté presente en la muestra).
En la etapa de selección de variables comunes, se debe asegurar el poder predictivo sobre las variables que se desean imputar. La no existencia de este poder de predicción significará que las imputaciones que se hagan serán equivalentes a una imputación aleatoria.
En la selección del subespacio factorial, se necesita enmarcar las dos muestras en un mismo espacio de referencia a través de las técnicas de análisis factoriales (Análisis de Componentes Principales, Análisis de Correspondencias Múltiples). Las variables activas son las variables comunes en las dos muestras. Así mismo, los individuos en la muestra donante serán considerados como individuos activos. De esta manera entonces, se hace una proyección en suplementario de los individuos en la muestra receptora.
Ψ = = α α α α o) Normalizad no (ACP o) Normalizad (ACP Xu u XS Zu -1 3
uα = vectores propios calculados a partir de la muestra de donantes
Una vez que se ha establecido el espacio común, lo siguiente a realizar es la búsqueda de los vecinos más cercanos. El tiempo de búsqueda estará en función del número de variables conservadas y el número de donantes.
Finalmente, con el conjunto de vecinos más cercanos para cada receptor, se puede efectuar el proceso de imputación, para el cual, existen diferentes procedimientos. Esta etapa va a requerir de alguna herramienta para medir su efectividad.
3
cf. Aluja Banet, T.; Morineau, A. (1999)