• No se han encontrado resultados

Modificación de Archivo y Datos SPSS

N/A
N/A
Protected

Academic year: 2020

Share "Modificación de Archivo y Datos SPSS"

Copied!
27
0
0

Texto completo

(1)

Análisis previo y exploratorio de

datos

Ana María López

(2)

Introducción

(3)

La mayoría de estos objetivos se alcanzan realizando un análisis descriptivo de las variables. Concretamente utilizaremos medidas de tendencia central y de dispersión para describir las características de las variables cuantitativas y tablas de frecuencias y porcentajes para las variables cualitativas. Para ello utilizaremos, esencialmente, los procedimiento de SPSS que aparecen en la última columna de la siguiente tabla:

Análisis univariable

Tipo de variable Índices analíticos Representaciones gráficas

Procedimientos de SPSS

Cuantitativa media, mediana, moda, desviación típica, rango, amplitud intercuartílica, prueba de normalidad histograma, gráfico de caja Descriptivos, Explorar, Tablas Cualitativa frecuencias,

porcentajes, moda, etc.

diagrama de barras, diagrama de líneas, diagrama de

sectores

(4)

Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos y gráficos- que vamos a describir a lo largo del presente curso y que están implementados en la mayoría de los programas estadísticos (SPSS, SAS, S-PLUS, LISREL, EQS, etc).

(5)

vamos a entender por errores de codificación a todos aquellos valores que están fuera del rango de las variables cuantitativas y a códigos numéricos o no numéricos no definidos para representar a categorías de las variables cualitativas.

Ejemplo: Estamos interesados en estudiar si la opinión acerca de la ley de

matrimonios entre parejas del mismo sexo depende de la edad y del sexo. Para ello seleccionamos una muestra de sujetos mayores de edad y les pedimos que nos den su opinión acerca de la ley eligiendo una de las opciones de una escala que va desde 1 (muy desfavorable) hasta 7 (muy favorable). Los datos los hemos escrito en una archivo de spss y hemos realizado un análisis descriptivo básico utilizando el procedimiento frecuencias para las todas las variables incluidas en el archivo y el procedimiento descriptivos para las cuantitativas

1. Detectar errores en la codificación de las variables cualitativas

(6)

Para realizar el análisis descriptivo hemos seleccionado las opciones que aparecen en los cuadros siguientes y hemos obtenido las siguientes tablas. A partir de la información que nos proporcionan las tablas

(7)

• Para ello utilizaremos tanto índices numéricos como gráficos.

2.

Caracterizar las distribuciones de las variables en cuanto a su

tendencia central, dispersión y forma (normalidad).

Estadísticos de tendencia central

– Media aritmética.

– Mediana: una vez ordenados los datos, es el valor que deja el mismo número de observaciones a su derecha que a su izquierda.

– Media truncada: es la media de la variable eliminando el 5% de las colas inferior y superior de la distribución, de esta forma se eliminan valores extremos y es por tanto un estadístico robusto.

(8)

Estadísticos de dispersión:

– Rango – Varianza

– Desviación tipo

– Amplitud intercuartílica (AI)

Estadísticos de forma:

– Asimetría. – Curtosis

Prueba de normalidad de Kolmogorov

2.

Caracterizar las distribuciones de las variables en cuanto a su

(9)

Histograma

Gráfico de caja Gráfico Q-Q DIG 15.0 12.5 10.0 7.5 5.0 2.5 0.0 16 14 12 10 8 6 4 2 0

Desv. típ. = 3.57 Media = 7.1 N = 49.00

2.

Caracterizar las distribuciones de las variables en cuanto a su

(10)

Figura 1. Tipologías de histogramas

Figura 2. Tipologías de gráficos Q-Q

2.

Caracterizar las distribuciones de las variables en cuanto a su

tendencia central, dispersión y forma (normalidad).

i

X

i

máx X

X 1)

(

i

X

10

log log10Xmáx1Xi

i

X

1

  Xmáx1Xi

(11)

Para caracterizar a las variables cuantitativas utilizaremos el procedimiento Explorar de SPSS con las variables cansancio emocional, despersonalización, realización personal y depresión total medidas en una muestra de odontólogos. Los cuadros de diálogo con las opciones básicas recomendadas son:

2. Caracterizar las distribuciones de las variables en cuanto a su tendencia central,

(12)

Con las opciones seleccionadas hemos obtenido información que nos permite responder a las siguientes cuestiones de las variables analizadas:

1. Identificar las medidas de tendencia central y de dispersión

2. Comparar la media con la mediana y con los estimadores robustos 3. Evaluar mediante inspección visual la normalidad de las variables

4. Evaluar utilizando la prueba de significación la normalidad de las variables

2.

Caracterizar las distribuciones de las variables en cuanto a su

(13)

Llamamos datos atípicos a aquellas observaciones que se encuentran alejadas del resto de las observaciones en una variable (atípico univariable) o en la distribución conjunta de dos o más variables (atípico multivariable). Los valores atípicos multivariantes resultan de combinaciones de valores muy inusuales. Las consecuencias de una sola observación atípica pueden ser graves pues pueden distorsionar las medias y desviaciones típicas de las variables y destruir o construir relaciones entre ellas. Ejemplo

Los valores atípicos pueden deberse a

2.1. Errores en la codificación de los valores de las variables, errores en la codificación de valores perdidos, errores de medida, errores en la transcripción. 2.2. Observaciones que no proceden de la población de la que se ha extraído la muestra.

2.3. Observaciones atípicas debidas a que la distribución de la variable en la población tiene valores más extremos que los de una distribución normal.

Los valores atípicos debidos a 2.1. y 2.2., una vez detectados deben ser eliminados o recodificados como valores perdidos. En el caso 2.3 suelen retenerse y analizar su incidencia en los análisis posteriores.

(14)

• Para considerar a una observación como atípica existen diferentes criterios:

Se consideran atípica aquellas observaciones que están, en valores absolutos, a más de 3 desviaciones tipo de la media (Z>3 o Z<-3) pero la aplicación de este para criterio depende del tamaño de la muestra.

• En el gráfico de caja, como ya hemos vistos, son atípicos observaciones con puntuaciones superiores o inferiores a 1,5*AI. A partir de 3*AI se califican de extremos.

• Otra regla simple es considerar sospechosas aquellas observaciones tales que:

  5 , 4 ) (   x MEDA x med xi

(15)

• Los criterios para detectar atípicos a nivel univariante no tienen porque identificar atípicos multivariantes. Para ello se puede utilizar, aunque no exenta de problemas, la distancia de Mahalanobis.

La distancia de Mahalanobis es la distancia al centro de gravedad ponderada por la matriz de varianzas covarianzas. Una observación multivariante resultará sospechosa si su distancia supera el valor de chi-cuadrado para k (número de variables) y un nivel de significación de 0,001.

Algunos de los gráficos disponibles en SPSS implementan los criterios anteriores para detectar datos atípicos. Los siguientes cuadros de diálogo corresponden a los gráficos recomendados para detectar atípicos:

(16)
(17)

3. Detectar datos atípicos

:

(18)

3. Detectar datos atípicos

:

Gráficos de estrella

-4 -2 0 2 4 zcan zdespe zrea zdepre zsatisfa fr -1 0 1 2 3 4

zcan zdespe zrea zdepre zsatisfa

Gráficos de linea

(19)

4. Linealidad

Muchos procedimientos de análisis se basan en el patrón de correlaciones de Pearson entre variables cuantitativas. El coeficiente de correlación mide el grado de asociación lineal entre variables y no es adecuado utilizarlo cuando el patrón de covariación no es lineal. Es importante también que los coeficientes de correlación sean fiables y, bajo determinadas circunstancias, los coeficientes de correlación pueden ser mucho más grandes o mucho más pequeños de lo que deberían ser.

Variables compuestas: En muchas investigaciones es frecuente utilizar variables

compuestas (sumas, promedios, etc) que se obtienen a partir de varios items, las correlaciones entre variables compuestas que comparten items individuales en su definición suelen estar infladas.

La presencia de valores atípicos: los valores atípicos como ya hemos demostrado

pueden inflar o reducir significativamente las correlaciones entre variables.

Restricción de rango: las correlaciones muestrales pueden ser inferiores a las

(20)

• La herramienta más útil para obtener información, a nivel exploratorio, de la relación entre dos variables cuantitativas es el diagrama de dispersión, o nube de puntos. Se construye representando, en el plano cartesiano, los valores de las variables medidas. La inspección visual del gráfico de dispersión nos permite identificar valores atípicos y el tipo de relación entre las variables.

(21)

0 20 40 60 80 100 0 1 -15 -10 -5 0 5 10 0 5 10 15 20 25 30 0 5 10 15 20 25 30 35 40

0 5 10 15 20

0 50 100 150 200 250 300

0 5 10 15 20

(22)
(23)

Gráfico

20,00 40,00 60,00 80,00 100,00

hrv_a

20,00 40,00 60,00 80,00

h

rv

_

b

a) Diagrama de dispersión por defecto

(24)
(25)

20,00 40,00 60,00 80,00 100,00

hrv_a

20,00 40,00 60,00 80,00

h

rv

_b

grup ctrl phob

(26)

análisis previo y exploratorio

Univariable

Multivariado

a) Dos Variables Cualitativas: Tablas de contingencia y

(27)

Escobar, M. (2000). Análisis gráfico/Exploratorio. Cuadernos de Estadística. Madrid: Editorial La Muralla.

Figueras, M y Gargallo, P. (2003): Análisis Exploratorio de Datos", [en línea].

http://www.5campus.com/leccion/aed> [y añadir fecha consulta]

Palmer, A. (1995). El análisis exploratorio de datos. Madrid: Eudema

Peña, D. (2002). Análisis de datos multivariantes. Madrid: McGraw Hill.

Rial, A.; Varela, J. y rojas, A. (2001). Depuración y análisis preliminares de datos en SPSS. Sistemas informatizados para la investigación del comportamiento. Madrid: RA-MA.

Referencias

Documento similar

[r]

[r]

Luis Miguel Utrera Navarrete ha presentado la relación de Bienes y Actividades siguientes para la legislatura de 2015-2019, según constan inscritos en el

Tras establecer un programa de trabajo (en el que se fijaban pre- visiones para las reuniones que se pretendían celebrar los posteriores 10 de julio —actual papel de los

Effects of cardiac resynchronization on disease progression in patients with left ventricular systolic dysfunction, an indication for an implantable

Consejería de Agricultura, Medio Ambiente y Desarrollo Rural

[r]

[r]