IBM SPSS Data Preparation

(1)

IBM SPSS Data

Preparation

Mejore la preparación de

los datos para obtener resultados más precisos

Todos los investigadores tienen que preparar sus datos antes del análisis. Aunque IBM SPSS Statistics* incluye herramientas para la preparación de los datos, en ocasiones necesita técnicas más especializadas para prepararlos. Gracias a IBM ®_SPSS®_{Data Preparation*, podrá}

valores de datos; ver patrones de datos perdidos; resumir distribuciones de variables; y trabajar de forma más precisa con algoritmos diseñados preparación de datos para que estén listos para el análisis con mayor rapidez y obtener conclusiones más precisas. Elija un procedimiento de preparación de datos totalmente automatizado para obtener resultados más rápidamente o seleccione entre otros métodos distintos para gestionar los conjuntos de datos más complejos.

IBM SPSS Data Preparation está disponible para su instalación como software de sólo cliente pero, para conseguir mayor rendimiento y capacidad de ampliación, también existe una versión para servidor.

Seleccione una de estas opciones para la

preparación de los datos

Procedimiento Validar Datos

Generalmente, la validación de datos ha sido un proceso manual. Podía realizar un análisis de frecuencia en los datos, imprimir las frecuencias, marcar con un círculo las que necesitaban corrección y comprobar los ID de los casos. Este procedimiento requiere mucho tiempo y, puesto que cada analista de la organización podría usar un método ligeramente distinto, mantener la coherencia entre proyectos podría suponer un reto.

Para eliminar las comprobaciones manuales, utilice el procedimiento Validar Datos. Este procedimiento le permite aplicar reglas para

realizar comprobaciones de datos basadas en el nivel de medida de cada variable (tanto si es categórica como continua). Por ejemplo, si analiza los datos de una encuesta que incluye variables en una escala Likert de cinco puntos, utilice el procedimiento Validar Datos para aplicar una regla para escalas de cinco puntos y marcar todos los valores que estén

Funciones destacadas

Identificar valores de datos, variables y •

casos sospechosos o no válidos Ver patrones de datos perdidos •

Resumir distribuciones variables •

Preparar de manera más rápida y precisa •

(2)

Puede recibir informes de los casos no válidos, así como resúmenes de violaciones de reglas y el número de casos afectados y también comprobaciones de intervalos) y comprobaciones de inter-variables (por ejemplo, “hombres embarazados”).

Este conocimiento puede ayudarle a determinar la validez de los datos y a eliminar o corregir casos sospechosos según su criterio antes del análisis.

Preparación de datos en un solo paso y de forma automática

La preparación manual de los datos es un proceso complejo que puede requerir entre un 40 y un 90% del tiempo que dedica un analista en un proyecto determinado. Si necesita resultados rápidamente, el

procedimiento Preparación Automatizada de Datos (ADP) le ayuda a detectar y corregir errores de calidad e imputar valores perdidos en un comprender con recomendaciones y visualizaciones completas que le ayudan a determinar qué datos usar en el análisis.

Procedimiento Detección de anomalías

Evite valores atípicos de análisis sesgados mediante el Procedimiento Detección de Anomalías, que busca casos inusuales basándose en desviaciones con respecto a casos parecidos y proporciona las razones

seguir examinándolos y determinar si deben incluirse en los análisis.

La función de preparación automatizada de datos ofrece recomendaciones y permite que los usuarios las examinen.

(3)

Intervalos óptimos

Para usar algoritmos diseñados para atributos nominales (como algoritmos bayesianos Naïve y modelos logit), debe agrupar las

variables de escala antes de crear el modelo. Si éstas no están agrupadas, los algoritmos, como la regresión logística multinomial, tardarían mucho tiempo en procesarse o podrían no converger, en especial si tiene un conjunto de datos grande. Además, la lectura o la

interpretación de los resultados obtenidos podría ser difícil.

No obstante, Agrupación Óptima le permite establecer puntos de corte para ayudarle a obtener el mejor resultado posible para algoritmos diseñados para atributos nominales.

Gracias a este procedimiento, puede seleccionar entre tres tipos de agrupación para preprocesar los datos antes de crear el modelo:

Sin supervisión

• : crea agrupaciones con recuentos iguales

Supervisada

• : utiliza la variable de destino para establecer los puntos de corte. Este método es más preciso que el anterior; no obstante, también requiere mayor cantidad de cálculos.

Enfoque híbrido

• : combina los enfoques anteriores. Este método resulta especialmente útil si tiene una gran cantidad de valores distintos.

que cumplan los requisitos normativos internos y externos y publicar los resultados de manera que un número mayor de usuarios comerciales pueda verlos e interactuar con ellos, amplíe el software IBM SPSS Statistics con IBM ®_SPSS®_{Collaboration and Deployment Services*.} Puede encontrar más información sobre estas valiosas funciones en

www.spss.com/software/deployment/cds .

Nuestra gama de software estadístico está disponible en tres ediciones: IBM SPSS Statistics Standard, IBM SPSS Statistics Professional e IBM SPSS Statistics Premium. Al agrupar funciones esenciales, estas ediciones departamento cuente con las funciones y funcionalidad que necesitan para realizar los análisis que contribuyen al éxito de su organización.

(4)

Funciones

Preparación automatizada de datos Pasos recomendados para acelerar la creación de modelos y mejorar el potencial predictivo:

Determinar objetivo: Equilibrar •

velocidad y precisión, Optimizar velocidad, Optimizar precisión o Personalizar análisis.

Preparar fechas y horas para el •

modelado:

Calcular tiempo transcurrido –

hasta una fecha de referencia Calcular tiempo transcurrido –

hasta una hora de referencia Extraer elementos de tiempo –

cíclicos

Excluir campos de entrada de baja •

calidad:

Excluir campos con demasiados –

valores perdidos

Excluir campos nominales con –

demasiadas categorías únicas Excluir campos categóricos con –

demasiados valores en una sola categoría

Ajustar niveles de medición: •

Ajustar niveles de medición de –

campos numéricos Preparar campos para mejorar la •

calidad de los datos:

Tratamiento de valores atípicos –

Reemplazar valores perdidos –

Reorganizar campos nominales –

Cambiar la escala de los campos: •

Ponderación de análisis –

Campos de entrada continuos •

Campos objetivo continuos

Transformar campos: •

Mediante campos de entrada –

categóricos y/o continuos Realizar la creación y selección de •

funciones

Asignar nombres a campos: • Campos transformados y – construidos Duraciones calculadas –

Elementos de tiempo cíclicos –

extraídos

Aplicar transformaciones a datos •

Validar datos

Use el procedimiento Validar Datos para validar los datos del archivo de datos de trabajo:

comprobaciones básicas para aplicarlas a las variables y los casos del archivo. Por ejemplo, genere informes que

porcentaje de valores perdidos o casos vacíos:

Porcentaje máximo de valores –

perdidos

Porcentaje máximo de casos en –

una sola categoría

Porcentaje máximo de casos con –

–

Desviación típica mínima –

Indicar ID incompletos –

Indicar ID duplicados –

Indicar casos vacíos –

Reglas estándar: describir los datos, ver •

reglas de variable única y aplicarlas a variables de análisis:

Descripción de datos: –

Distribución: muestra un ˚

miniatura para variables categóricas o un

histograma para variables de escala

Se muestran los valores ˚

máximos y mínimos de los datos.

Reglas de variable única: –

Aplique reglas a variables ˚

individuales para perdidos o no válidos, como valores fuera de un intervalo válido.

Las reglas de variable ˚

usuario también son posibles.

•

expresiones de reglas de inter-variables en las que las respuestas de los participantes son contrarias a la lógica (“hombres embarazados”,

por ejemplo).

Resultados: informes que describen •

datos no válidos:

Informe por casos, que enumera –

las violaciones de reglas de validación por caso:

˚

mínimo de violaciones necesario para que se incluya un caso en el informe.

(5)

˚

máximo de casos en el informe.

Informes de reglas de validación –

estándar:

Resumir violaciones por ˚

variable de análisis Resumir violaciones por ˚

regla

Mostrar estadísticos ˚

descriptivos

Guardar: le permite guardar variables

•

que registran violaciones de reglas y casos incorrectos:

Variables de resumen: –

Indicador de caso vacío ˚ Indicador de ID ˚ duplicado Indicador de ID ˚ incompleto Violación de regla de ˚ validación (recuento total)

Variables de indicador que –

registran todas las violaciones de reglas de validación

Identificar casos inusuales El procedimiento Detección de anomalías busca casos inusuales, basándose en desviaciones con respecto a sus grupos de homólogos, y

proporciona razones para tales desviaciones:

•

el procedimiento con el subcomando categóricas, continuas y de

y enumerar variables excluidas del análisis.

El subcomando HANDLEMISSING

•

de valores perdidos en este procedimiento:

Aplicar tratamiento de valores –

perdidos. Si se selecciona esta opción, las medias principales se sustituirán por valores perdidos de variables continuas, y las categorías perdidas de variables categóricas se combinarán y tratarán como categorías válidas. Después las variables procesadas se utilizan en el análisis. Si no está seleccionada, los casos con valores perdidos se excluyen del análisis.

Crear una variable de –

proporción perdida adicional y usarla en el análisis. Si selecciona esta opción, se creará una variable adicional denominada Variable de proporción perdida que representa la proporción de variables perdidas en cada registro y se utilizará en el análisis. Si no se selecciona esta opción, no se creará la variable de proporción perdida.

•

los siguientes valores:

Número máximo y mínimo de –

grupos de homólogos

Ponderación de ajuste en el nivel –

de medición

Número de razones en la lista de –

anomalías

Porcentaje de casos considerados –

anómalos e incluidos en la lista de anomalías

Número de casos considerados –

anómalos e incluidos en la lista de anomalías

Punto de corte del índice de –

anomalías para determinar si un caso se considera una anomalía Guardar más variables en el archivo

•

de datos de trabajo con el subcomando SAVE:

Índice de anomalías –

ID de grupo de homólogos –

Tamaño del grupo de –

homólogos

Tamaño del grupo de –

homólogos en porcentaje Variable asociada con una razón –

Medida del impacto de la –

variable asociada con una razón Valor de la variable asociada con –

una razón

Valor de la norma asociado con –

una razón

Escribir el modelo en un nombre de

•

(6)

Controlar la visualización de los

•

resultados con el subcomando PRINT Podrá imprimir:

Resumen de procesamiento de –

casos

La lista del índice de anomalías, –

la lista de ID de homólogos de anomalías y la lista de razones de anomalías

La tabla Normas de variables –

continuas (si se usa alguna variable continua en el análisis) y Normas

de variables categóricas (si se usa –

alguna en el análisis) Resumen del índice de –

anomalías

Tabla Resumen de razones –

correspondiente a cada razón: Suprimir todos los

˚

resultados visualizados excepto la tabla de notas y las advertencias

Intervalos óptimos

Preprocese los datos mediante

diversas variables continuas mediante la distribución de los valores de cada variable en agrupaciones. Este procedimiento es útil para reducir el número de valores en las variables de entrada concretas que se van a agrupar, lo que puede suponer una mejora algoritmos.

Al usar ciertos métodos de Agrupación óptima, una variable guía le ayuda a establecer los puntos de corte, aumentando al máximo por lo tanto la relación entre la variable guía y la variable agrupada.

Seleccione uno de los métodos

•

siguientes:

Agrupación sin supervisión –

mediante el algoritmo de frecuencia igual. Este método usa el algoritmo de frecuencia igual para discretizar las

variables de entrada que se van a agrupar. No es necesaria una variable guía.

Agrupación supervisada mediante –

el algoritmo MDLP (principio de longitud de descripción mínima). Este método discretiza las variables de entrada que se van a agrupar mediante el algoritmo MDLP sin necesidad de ningún procesamiento previo. Resulta idóneo para conjuntos de datos con un número pequeño de casos. Es necesaria una variable guía.

Agrupación MDLP híbrida. –

Conlleva el procesamiento previo mediante el algoritmo de frecuencia igual, seguido del algoritmo MDLP. Resulta idóneo para conjuntos de datos con un número grande de casos. Es necesaria una variable guía.

•

–

mínimo para cada variable de entrada que se va a agrupar –

máximo para cada variable de entrada que se va a agrupar –

de un intervalo Si forzar la fusión de –

agrupaciones poco pobladas Si los valores perdidos se tratan –

mediante la eliminación por lista o por pareja

Guarde lo siguiente:

•

Variables nuevas que contienen –

valores agrupados

Sintaxis en un archivo de sintaxis –

de IBM SPSS Statistics Base Controle la visualización de resultados

•

con el subcomando PRINT. Podrá imprimir:

Los conjuntos de puntos de –

corte de las variables de entrada que se van a agrupar

Información descriptiva de todas –

las variables de entrada que se van a agrupar

Entropía del modelo para variables agrupadas Requisitos del sistema

Los requisitos dependen de la plataforma.

(7)

Acerca de IBM Business Analytics

El software IBM Business Analytics ofrece información completa, coherente y precisa en la que los órganos de toma de decisiones confían para mejorar el rendimiento comercial. Un conjunto integral de

inteligencia empresarial, análisis avanzado, rendimiento comercial y gestión de estrategias, así como de aplicaciones de análisis predictivo le ofrece una perspectiva clara, inmediata e interactiva del rendimiento actual y la capacidad para predecir resultados futuros.

Como parte de este portafolio, el software de IBM SPSS Predictive Analytics ayuda a las organizaciones a predecir eventos futuros y actuar proactivamente según esa información para llegar a mejores resultados de negocio. Clientes del entorno comercial, gubernamental y

académico de todo el mundo confían en la tecnología de IBM SPSS como una ventaja competitiva para atraer, retener y aumentar los riesgos. Al incorporar el software de IBM SPSS en sus operaciones diarias, las organizaciones se convierten en empresas predictivas - capaces de direccionar y automatizar decisiones para cumplir con los objetivos de negocio y conseguir una ventaja competitiva apreciable. Para más información, visite www.ibm.com/spss/es.

(8)

YTD03016ESES-01 Derechos restringidos de usuarios del Gobierno de EE.UU. - El uso o duplicación de revelación está restringido por el GSA ADP Schedule Contract con IBM Corp. Creado en Estados Unidos de América

Mayo de 2010

Reservados todos los derechos

IBM y el logotipo de IBM, ibm.com, WebSphere, InfoSphere y Cognos son marcas comerciales de International Business Machines Corporation en EE.UU., otros países o ambos. Si estos u otros términos con marca comercial de IBM están indicados en su primera aparición en esta información con un símbolo de marca comercial (® o TM), dichos símbolos indican una marca comercial registrada en EE.UU. propiedad de IBM en el momento de la publicación de esta información. Dichas marcas comerciales también pueden estar registradas en otros países. Existe una lista actualizada de marcas comerciales de IBM bajo "Copyright and trademark information" en ibm.com/legal/ copytrade.shtml

SPSS es una marca comercial de SPSS, Inc., an IBM Company, registrada en muchas jurisdicciones de todo el mundo.

Otros nombres de empresas, productos y servicios pueden ser marcas comerciales o marcas de servicio de terceros.

Por Favor Recicle

Business Analytics software

PERÚ Av. La Encalada No. 1010 Ofic. 503 Santiago de Surco, Lima 33

TEL: (+51-1) 4344440 [email protected] Lima

ECUADOR Gral. Roca No. 32 - 262 e Ignacio Bossano (Tras TSE)

TEL: (+593-2) 2248488/2248834 Ext. 107 FAX: (+593-2) 2248856

[email protected] Quito

VENEZUELA Edificio Lijak Piso 1 Ofic. 1-B Avenida Libertador entre Buenos Aires y Bogotá Urbanización Los Caobos / Caracas 1050 Media cuadra antes de la funeraría Los Caobos TEL: (+58-212) 5742867

[email protected] Caracas