Análisis de datos categóricos y análisis de variables de distribución libre

(1)

Cap. VII Estadística no paramétrica 136

Capítulo

VII

Análisis de datos categóricos y análisis de

variables de distribución libre

... ...

Objetivo del

Capítulo

Desarrollar la metodología de

prueba de hipótesis para variables

de distribución libre. Analizar las

aplicaciones

para

variables

(2)

7.1 Introducción

Consideramos a los métodos estadísticos no paramétricos como aquellos que no requieren conocimientos de ningún parámetro de la población, también denominados de distribución libre. Así también existen situaciones en algunos problemas cuando las variables que intervienen no necesariamente son variables intervalares; en algunos casos pueden ser variables nominales o variables ordinales. Y en el caso de que exista asociación lineal entre las variables dependientes e independientes, pero del tipo mencionado con anterioridad, no resulta conveniente aplicar el coeficiente de correlación de Pearson, si no cumplen las condiciones y requisitos de uso que requiere en este caso el citado coeficiente. Entonces se podrá usar el coeficiente de Spearman (rs),

el cual es un caso particular del coeficiente de Pearson (rxy).

La expresión datos categóricos se refiere al tipo de datos obtenidos al medir variables utilizando una escala de medida nominal o de escala ordinal con pocos niveles, estos tipos de variables abundan en las investigaciones sociales y/o psicológicas. En una investigación clínica se pueden encontrar variables como el tipo de trastorno psicológico (neurosis, esquizofrenia, ansiedad, depresión, etc), o se puede clasificar a los pacientes como tratados y no tratados, recuperados y no recuperados. En una investigación social se puede clasificar a los sujetos de acuerdo con las actitudes u opiniones que manifiestan hacia un objeto en particular (desde muy de acuerdo, hasta muy en desacuerdo)

Estudiaremos el análisis para:

1. Dos variables que pueden ser intervalares pero que no cumplen los supuestos básicos de pruebas paramétricas vistas en el capítulo anterior, o también es el caso que las dos variables sean ordinales (r de Spearman)

2. Una variable: proporciones y bondad de ajuste (prueba Binomial y Chi cuadrado respectivamente)

3. Dos variables: tablas de contingencia bidimensionales (Chi cuadrado de Pearson, medidas de asociación para datos ordinales y nominales).

4. Múltiples variables: MODELOS LOGLINEALES JERÁRQUICOS, Modelos LOGIT

7.2 Análisis de datos categóricos con dos variables relacionadas o también dos variables intervalares que no cumplen los requisitos que exigen las pruebas paramétricas

Coeficiente de correlación por rangos de Spearman

Este coeficiente de correlación se utiliza cuando una o ambas escalas de medidas son ordinales, ejemplo: una variable es el orden de llegada en una carrera y la otra la estatura de los corredores. Es especialmente útil en el caso donde el tamaño de muestra es pequeño (menor de 30), es decir el número de pares de puntajes “n” que se desea asociar. Cuando el número de dichos pares es muy grande, por el teorema del límite central, la condición de normalidad se minimiza, y el modelo que se emplea es uno paramétrico; también, cuando los puntajes se jerarquizan (o se ponen en correspondencia biunívoca con el conjunto de números ordinales) se prevean muchos “empates”, esto es que en el ordenamiento varios puntajes tendrán el mismo número ordinal. Si estás dos situaciones ocurrieran, lo más conveniente es utilizar el coeficiente de correlación de Pearson.

Pero si el número de puntajes que se desean correlacionar fuera n < 30, y los empates son pocos entonces se puede trabajar con el coeficiente de Spearman.

El coeficiente de correlación por rangos (rs) se calcula aplicando la siguiente fórmula:

r

s =

) 1 ( 6

1 ₂

2

n n

(3)

Para el cálculo de (rs) es necesario obtener la diferencia “d” entre los rangos, y si una de las escalas

no es ordinal, entonces se asigna rango a las puntuaciones.

Además de obtener el grado de asociación entre dos variables con rs, se puede saber acerca de la

dependencia o independencia de dos variables aleatorias, como sigue:

Prueba bilateral:

H0 : La variable x y la variable y son mutuamente independientes.

Ha : i) Cuándo existe la tendencia de que los valores altos de x sean pareados con los valores altos de y.

ii) Cuando existe la tendencia de que los valores bajos (o pequeños) de x sean pareados con los valores altos (o grandes) de y.

Ejemplode aplicación:

A un grupo de 10 estudiantes de la UPeU se les aplicó una prueba de matemáticas (x) y una prueba de lógica (y), se obtuvieron los siguientes puntajes (escala de 0 – 100):

Estudiante x y

A 84 52*

B 75 39

C 98* 48

D 70** 32**

E 75 40

F 80 36

G 83 38

H 75 37

I 84 50

J 90 46

Sumatoria

* Calificación más alta ** Calificación más baja

a) Se desea saber el grado de semejanza entre las calificaciones obtenidas por los estudiantes en las pruebas x e y

b) H0: Las calificaciones obtenidas en matemáticas son mutuamente independientes de las

calificaciones obtenidas en lógica por los 10 estudiantes, contra la alternativa bilateral, al 0.05 de nivel de significancia.

Ha: Existe una correlación positiva o negativa entre las calificaciones obtenidas en ambas pruebas (dependencia).

Solución

(4)

Estudiante x y Rango de x Rango de

y

Rx-Ry=d d2

A 84 52* 3.5 ₁ _2.5 _6.25

B 75 39 8 6 2 4

C 98* 48 1 ₃ _-2 ₄

D 70** 32** 10 ₁₀ ₀ ₀

E 75 40 8 5 3 9

F 80 36 6 9 _-3 ₉

G 83 38 5 7 _-2 ₄

H 75 37 8 8 0 0

I 84 50 3.5 2 _1.5 _2.25

J 90 46 2 4 _-2 ₄

Sumatoria _42.5

* Calificación más alta

** Calificación más baja

a) Aplicando la formula de rs

b) A fin de comprobar la hipótesis propuesta anteriormente acerca de la dependencia o independencia entre las calificaciones obtenidas por los estudiantes, lo haremos al 5 % de nivel de significancia y una prueba de hipótesis de dos colas en el SPSS

Pasos a seguir en el SPSS (en el SPSS solamente introducir la data, tal cual es y el software se encarga de hacer los rangos y las respectivas diferencias)

Analizar<correlaciones bivariadas<pasar las dos variables<marcar la prueba de Spearman<aceptar

Salida en el SPSS

Correlaciones

Matemáticas Lógica

Rho de Spearman Matemáticas Coeficiente de

correlación 1.000 .739(*)

Sig. (bilateral) . .015

N 10 10

Lógica Coeficiente de

correlación .739(*) 1.000

Sig. (bilateral) .015 .

N 10 10

* La correlación es significativa al nivel 0,05 (bilateral).

7 4 2 . 0 2 5 7 6 . 0 1 ) 1 1 0 0 ( 1 0

) 5 . 4 2 ( 6 1 )

1 ( 6 1 =

r ₂

2

s rs

n n

(5)

b. Sig 0.015 < 0.05, por lo tanto concluimos que existe una correlación significativa entre los cursos

Coeficiente “TAU” ( ) de Kendall

Esta medida de correlación está basada en intervalos jerarquizados de las observaciones, más que en los números mismos, con la ventaja de que la distribución de dicho coeficiente no depende de la distribución de x e y; siempre y cuando las observaciones representadas por x e y sean independientes y continuas. Este coeficiente desarrollado por Kendall (1938), es preferido por algunos investigadores sobre el coeficiente de Spearman, no obstante que ( ) es más difícil de calcular que (rs), la ventaja principal de Kendall es que su distribución tiende a la distribución

normal más rápidamente que la de Spearman.

La formula está definida por:

2 ) 1 (n n Q P

Ejemplo de aplicación

Considerando una situación de indisciplina en un grupo de niños de 5 años de edad en una guardería, a nueve niños (que aparentemente eran los catalogados más agresivos tanto por sus padres como por la persona encargada de ellos en la guardería), se les aplicó una prueba para confirmar el grado de agresividad. Por una semana se hicieron registros observacionales, día a día y bajo ciertas condiciones, por lo que los registros obtenidos en promedio fueron los siguientes: (ROy), registros observacionales en la guardería; (ROx), registros observacionales en sus hogares, Ry, rangos o intervalos en la guardería Rx, rangos o intervalos en sus hogares.

Niños ROx ROy Rx Ry, A B C D E F G H I 84 80 78 76 70 64 62 50 47 60 64 71 61 58 57 54 55 52 1 2 3 4 5 6 7 8 9 4 2 1 3 5 6 8 7 9

Paso 1. Cada distribución de puntajes que representa a cada variable x o y, se jerarquiza de

la misma manera que cuando se calcula el coeficiente de Spearman para obtener Rx y Ry, Pero con la modificación de que un conjunto de rangos (x o y) debe estar ordenado en una secuencia natural y creciente. El objetivo de este paso es tener una referencia que se utilizará más adelante.

Paso 2. Se obtiene la columna (P) de rangos más altos y la columna (Q) de rangos más

bajos que tengan como referencia la columna Ry. Esto se obtiene de la siguiente manera: se considera el valor numérico del primer niño (en la columna Ry., “4”, en nuestro ejemplo) y se cuenta hacia abajo cuántos valores numéricos son menores que él (en este caso 2,1 y 3 son los tres valores menores que él); también se cuentan cuántos valores son mayores que él (5, 6, 8, 7, y 9 son los cinco valores mayores que él).

Donde: n = Número de casos o sujetos P = Suma de rangos más altos Q = Suma de rangos más bajos

(6)

Rx Ry

1 4

2 2

3 1

4 3

5 5

6 6

7 8

8 7

9 9

Cantidad P de rangos más altos

Cantidad Q de rangos más bajos

5 3

Para obtener el segundo sujeto (2 en nuestro ejemplo), hay uno más bajo que él (el “1” es más bajo que el segundo sujeto) y seis más altos que el segundo sujeto (3, 5, 6, 8,7 y 9).

Rx Ry

1 4

2 2

3 1

4 3

5 5

6 6

7 8

8 7

9 9

Cantidad de rangos más altos (P)

Cantidad de rangos más bajos (Q)

5 3

6 1

En el caso de nuestro tercer sujeto (1) se excluyen los sujetos anteriores a él y se sigue contando hacía abajo cuántos hay menores que él y cuántos mayores en su valor numérico.

Para nuestro tercer sujeto (1) no hay un valor numérico menor que él (0) pero hay 6 más altos 3, 5, 6, 8,7 y 9).

Rx Ry

1 4

2 2

3 1

4 3

5 5

6 6

7 8

8 7

9 9

Primer sujeto Tres rangos más bajos que el primer sujeto Cinco rangos más altos que el primer sujeto

Segundo sujeto Un rango más bajo que el segundo sujeto Seis rangos más altos que el segundo sujeto

Tercer sujeto (Cero rangos más bajos que él)

(7)

Cantidad de rangos más altos (P) Cantidad de rangos más bajos (Q)

5 3

6 1

6 0

Se seguirá sucesivamente este método hasta el último sujeto, que siempre va a ser cero rangos más altos y cero rangos más bajos.

Paso 3. Una vez que se tienen todas las columnas anteriores se obtiene la sumatoria de la columna

de rangos más altos, la cual la denotaremos como P.

A la sumatoria de la columna de rangos más bajos, la denotaremos con Q.

Sujetos ROx ROy Rx Ry,

Rangos más altos P Rangos más altos Q A B C D E F G H I 84 80 78 76 70 64 62 50 47 60 64 71 61 58 57 54 55 52 1 2 3 4 5 6 7 8 9 4 2 1 3 5 6 8 7 9 5 6 6 5 4 3 1 1 0 3 1 0 0 0 0 1 0 0

31 5

Paso 4 El resultado se sustituye en la formula ( ) “Tau” de Kendall

72 . 0 36 26 2 ) 1 9 ( 9 5 31 2 ) 1 (n n Q P

Interpretación: Existe una correlación significativa entre lo detectado por los padres y lo

detectado por la guardería con respecto al nivel de agresividad de los niños menores de 5 años.

Reporte en el SPSS

Correlaciones

Registro_guardería Registro_hogar

Tau_b de Kendall Registro_guardería Coeficiente de

correlación 1.000 .722(**)

Sig. (bilateral) . .007

N ₉ ₉

Registro_hogar Coeficiente de

correlación .722(**) 1.000

Sig. (bilateral) _.007 _.

N ₉ ₉

** La correlación es significativa al nivel 0,01 (bilateral).

(8)

7.3 Análisis de datos categóricos con una variable

Se contrastan hipótesis para proporciones y sobre bondad de ajuste, si la variable es dicotómica o dicotomizada (es decir, si sólo tiene dos categorías), puede utilizarse la prueba Binomial (también llamada contraste para una proporción). Para contrastar la hipótesis nula de que la proporción de cualquiera de las dos categorías de la variable toma un determinado valor. Si la variable es politómica se utiliza la prueba de bondad de ajuste, es decir, si las proporciones observadas o empíricas se ajustan a una determinada distribución teórica (Chi cuadrado).

Prueba Binomial para una muestra

La prueba Binomial permite averiguar si una variable dicotómica sigue o no un determinado modelo de probabilidad, es decir permite contrastar la hipótesis de que la proporción observada de aciertos se ajusta a la proporción teórica de una distribución Binomial. En el SPSS si el tamaño de muestra es pequeño, es decir menor o igual a 25 datos use la prueba Binomial, si por el contrario trabaja con grandes muestras, es decir mayor de 25 utiliza la distribución normal.

Ejemplo: Usando la data que ofrece el SPSS “Datos de empleados.sav”. Asumiendo que el 70% de los empleados de los EEUU es de raza blanca, se quiere saber si en la muestra de esta entidad bancaria de donde provienen los datos de este ejemplo; este % se mantiene (se utilizará la variable minoría (clasificación étnica))

Pasos: Analizar<pruebas no paramétricas<Binomial<pasar la variable a estudiar<en contratar variable introducir el porcentaje .70) <aceptar

Resultados

El SPSS toma como categoría de referencia la correspondiente al primer caso del archivo de datos. En nuestro ejemplo el primer caso le corresponde el código 0, la categoría de referencia es la categoría minoría = “no” es decir raza blanca. Las hipótesis a contrastar son:

Ho: _{m i n}_{or i a}₀ 0.7

Ha: _{m i n}_{or i a}₀ 0.7

Prueba binomial

Categoría N

Proporción observada

Prop. de prueba

Sig. asintót. (unilateral) Clasificación

de minorías

Grupo 1

No (raza blanca) 370 .8 (0.78) .7 .000(a)

Grupo 2 Sí (raza de color) 104 .2

Total 474 1.0

a Basado en la aproximación Z.

(9)

¿Más del 70% de los empleados en la entidad bancaria pertenece a la raza blanca?

Puesto que el nivel crítico (sig 0.000<0.05), rechazamos la Ho, por lo tanto concluimos que la verdadera proporción poblacional de sujetos blancos (minoría=no) es mayor del 70%.

Ejemplo: Con la misma data del ejemplo anterior “datos de empleados.sav” que lo tiene el SPSS

Se desea probar estadísticamente que la proporción de hombres son mayores al de mujeres de los empleados de un banco respecto a sus tres categorías laborales:

Primero “segmentamos archivo” en función de la categoría laboral: comparar grupos de casos

Ho: la proporción entre hombres y mujeres no difieren

Bi nom i al Test

M asculino 157 . 43 . 50 . 012a Fem enino 206 . 57

363 1. 00

M asculino 27 1. 00 . 50 . 000a 27 1. 00

M asculino 74 . 88 . 50 . 000a Fem enino 10 . 12

84 1. 00 G r oup 1

G r oup 2 Tot al G r oup 1 Tot al G r oup 1 G r oup 2 Tot al G éner o

G éner o

G éner o Cat egor í a labor al

Adm inist r at ivo

Segur idad

Dir ect ivo

C a t e g o r y N O b s e r v e d P r o p . T e s t P r o p . A s y m p . S ig . ( 2 -t a ile d )

(10)

Conclusión:

Dado que el Sig para todos las categorías es menor del 5%, entonces decimos al nivel de significancia del 5% que la categoría laboral si difiere en todos los casos con respecto al género, siendo al nivel administrativo la proporción de mujeres es más alta (57%) con respecto a los hombres, sin embargo sucede lo contrario a nivel directivo la proporción de hombres es más alta (88%) con respecto a las mujeres y es más notable en el personal de seguridad donde el 100% son hombres.

Prueba de Rachas

Rachas para probar la aleatoriedad (secuencia de casos que se está repitiendo)

Ejemplo

Los artículos que salen de un proceso se clasifican como defectuosos o no defectuosos. Se tuvo la siguiente sucesión n de artículos observados en el tiempo.

DNNNNNNDDNNNNNNDDDNNNNNDNNNDDNNNDD

¿Sugieren estos datos una falta de aleatoriedad de defectuosos o no defectuosos? Ho: existe aleatoriedad

Ha: No existe aleatoriedad

Añadir nuevo nombre

(11)

Prueba de rachas

2

11

23

34 11

- 1. 751 . 080 Valor de pr uebaa

Casos < Valor de pr ueba Casos >= Valor de pr ueba

Casos en t ot al Núm er o de r achas

Z

Sig. asint ót . ( bilat er al)

ARTI CULO S. RECO DI F

Mediana a.

Como el nivel de significancia es 0.08, no podemos rechazar Ho, concluimos que si existe aleatoriedad.

Prueba de Kolmogorov

Sirve para contrastar la hipótesis nula de que la distribución de una variable se ajusta a una determinada distribución teórica de probabilidad. A diferencia de las anteriores pruebas esta ha sido diseñada para evaluar el ajuste de variable categórica. La prueba de Kolmogorov también se adapta a situaciones en la que interesa evaluar a situaciones de ajuste cuantitativo.

Ejemplo: Con la misma data “datos de empleados.sav” usar la variable “Salario inicial”

Ho: Las puntaciones de salario inicial se ajustan a una distribución normal Ha: Las puntaciones de salario inicial no se ajustan a una distribución normal

Prueba de Kol mogorov- Smi rnov par a una muest ra

474 $17, 016. 09

$7, 870. 638

. 252 . 252 - . 170 5. 484 . 000 N

Media Desviación t í pica Par ámet r os nor m alesa, b

Absolut a Posit iva Negat iva Dif er encias más

ext r emas

Z de Kolmogor ov- Smir nov Sig. asint ót . ( bilat er al)

Salar io inicial

La dist r ibución de cont r ast e es la Nor mal. a.

Se han calculado a par t ir de los dat os. b.

Sig 0.000 < 0.05 por lo tanto rechazamos la Ho, es decir al nivel de significancia del 5% concluimos que los datos no siguen una distribución normal.

Ejemplo: (archivo autoaccidentes “accidents.sav”) base de datos sobre el nº de accidentes

(12)

conductor o chofer y que además registra el nº de accidentes en los 5 años. Se desea probar que el nº de accidentes sigue una distribución de Poisson (Alpha = 1%)

Ho: la variable sigue una distribución de Poisson (Poisson son para ocurrencias raras)

O ne- Sampl e Kol mogorov- Smi r nov Test

500 1. 72 . 065 . 065

- . 041

1. 460 . 028 N

Mean Poisson Par am et er a, b

Absolut e Posit ive Negat ive Most Ext r em e

Dif f er ences

Kolmogor ov- Sm ir nov Z Asym p. Sig. ( 2- t ailed)

númer o de accident es más allá de

5 años

Test dist r ibut ion is Poisson. a.

Calculat ed f r om dat a. b.

Los datos no se ajustan a una distribución de Poisson

Es bueno reconsiderar pues sabemos que debe seguir una distribución de Poisson, sería bueno discernir por género.

(13)

Cap. VII Estadística no paramétrica 148 Prueba de Kolmogorov-Smirnov para una muestra

sexo del asegurado

número de accidentes más allá de 5

años

Masculino N 250

Parámetro de Poisson(a,b) Media 1.98

Diferencias más extremas Absoluta _.047

Positiva .047

Negativa

-.033

Z de Kolmogorov-Smirnov _.750

Sig. asintót. (bilateral) .627

Femenino N ₂₅₀

Parámetro de Poisson(a,b) Media 1.47

Diferencias más extremas Absoluta .074

Positiva _.074

Negativa

-.042

Z de Kolmogorov-Smirnov 1.164

Sig. asintót. (bilateral) _.133

a La distribución de contraste es la de Poisson. b Se han calculado a partir de los datos.

Para los dos casos el nivel de significancia es mayor del 0.05 por lo tanto no podemos rechazar la Ho, por lo tanto demostramos que la variable sigue una distribución de Poisson

7.4 Prueba Chi cuadrada

La prueba Chi-Cuadrada es una de las pruebas más frecuentemente utilizadas para el contraste de variables cualitativas, aplicándose para comparar si dos características cualitativas están relacionadas entre sí, si varias muestras de carácter cualitativo proceden de igual población o si los datos observados siguen una determinada distribución teórica.

Para su cálculo se calculan las frecuencias esperadas para compararlas con las observadas en la

realidad. Se calcula el valor del estadístico 2, como:

e e

o 2

2 ( )

; donde

O Valor observado e Valor esperado =

g en era l to ta l

co lu mn a to ta l x fila to ta l

Supóngase que en una determinada muestra se observan una serie de posibles sucesos E1, E2, E3, . .

. , EK, que ocurren con frecuencias O1, O2, O3, . . ., OK, llamadas frecuencias observadas y que,

según las reglas de probabilidad, se espera que ocurran con frecuencias e1, e2, e3, . . . ,eK llamadas

frecuencias teóricas o esperadas. Se desea saber si las frecuencias observadas difieren significativamente de las frecuencias esperadas.

2

mide el grado de acuerdo entre frecuencias observadas y esperadas, suponiendo que Ho es verdadera.

(14)

.

Las aplicaciones más importantes de la distribución Chi cuadrado, son:

Con una sola variable: Prueba de bondad de ajuste, ejemplo: prueba de normalidad

Con dos variables:

Prueba de independencia

Prueba de homogeneidad de poblaciones.

Cuando consideramos que los valores de una tabla han sido extraídos de una población, entonces nos interesaría probar las siguientes dos hipótesis:

La prueba de la Independencia, que se efectúa para probar si hay asociación entre las variables

categóricas A y B

La prueba de Homogeneidad, que es una generalización de la prueba de igualdad de dos

proporciones. En este caso se trata de probar si para cada nivel de la variable B, la proporción con respecto a cada nivel de la variable A es la misma.

7.4.1 La prueba de la independencia

 Permite determinar si dos variables categóricas son independientes (no están asociadas o no están relacionadas) cuando ambas se han medido en la misma unidad de análisis.

 Las n unidades de análisis se clasifican en categorías mutuamente excluyentes de modo que las frecuencias se presentan en una tabla de contingencia bivariada o de doble entrada o tabla de f

filas x c columnas.

 Los totales marginales no están controlados por el investigador.

Si designamos las columnas por r y las filas o renglones por k, se tendrá una tabla de r x k.

Los grados de libertad serán iguales a n = (r-1)(k-1), así que en una tabla de "2 x 2", los grados de libertad son: (2-1)(2-1)= 1 G.L.; en la tabla "3 x 4" será (3-1)(4-1) = 6 G.L.

Si se tuviera los niveles de un solo criterio, también se utiliza la Chi- cuadrado, y los grados de libertad es igual al número de niveles menos uno (n-1); el valor esperado para cada frecuencia es el correspondiente al promedio.

Pasos para la prueba de hipótesis:

1. Hipótesis estadísticas:

Ho: Las dos variables categóricas son independientes

(Es decir, no hay asociación entre ellas)

Ha: Las dos variables categóricas están relacionadas

(Es decir, son dependientes)

2. Nivel de significancia: α = 0.5 ó 0.01 ó 0.10, etc.

Tomado de Design and Analysis of Experiments in

(15)

3. Función Pivotal:

e e

o 2

2 ( )

4. Regiones:

5. Valor de la Chi cuadrada experimental:

6. Decisión: La regla de decisión consiste en rechazar la hipótesis nula a un nivel α de significación si el valor calculado de la estadística de prueba es mayor que el valor crítico de extremo superior de una distribución Chi- Cuadrada.

7. Conclusión

Ejemplo 1

La tabla siguiente muestra los resultados de un estudio en el que se clasificaron en forma cruzada 100 jóvenes, en edad escolar, de acuerdo con el grado de delincuencia y el contacto con los padres durante los ratos libres. ¿Proporcionan estos datos evidencia suficiente como para indicar que las dos variables están relacionadas? sea α = 0.05

Tiempo libre compartido

con los padres Delincuente

No

delincuente Total

Alto 10 29 39

Bajo 41 20 61

Ho: El grado de delincuencia es independiente del tiempo libre que comparten los padres con

sus hijos

Ha: El grado de delincuencia depende del tiempo libre que comparten los padres con sus hijos

(16)

Función Pivotal:

e e

o 2

2 ( )

O Valor observado

e Valor esperado =

to ta l

co lu mn a to ta l

x fila to ta l

Regiones:

Pasos para calcular el valor experimental 2 exp

9 . 1 9 1 0 0

5 1 * 3 9

11

e 1 9.1

1 0 0 4 9 * 3 9

12

e 3 1.1

1 0 0 5 1 * 6 1

21

e 2 9.9

1 0 0 4 9 * 6 1

22

e

4 5 2 . 1 6 9 . 2 9 ) 9 . 2 9 2 0 ( 1 . 3 1 ) 1 . 3 1 4 1 ( 1 . 1 9 ) 1 . 1 9 2 9 ( 9 . 1 9 ) 9 . 1 9 1 0

( 2 2 2 2

2

Valor experimental: 2 1 6.4 5 2

Decisión: El valor experimental es mayor (16.452 > 3.84) que el valor teórico, por lo tanto rechazamos la hipótesis nula.

Valor de p exacto da el SPSS (p=,000)

Conclusión: Al nivel de significancia del 1% podemos concluir que el grado de delincuencia depende del tiempo libre que comparten los padres con sus hijos (p=,000).

Reporte en SPSS

1° Base de datos

2° Ponderar casos: Datos< Ponderar casos <ponderar casos mediante<pasar la variable

(17)

(18)

4° Reporte

Tabla de contingencia Tiempo libre compartido *

DELINCUENCIA

Recuento

DELINCUENCIA

Total DELINCUENTE

NO DELINCUENTE Tiempo libre

compartido

ALTO 10 29 39

BAJO 41 20 61

Total 51 49 100

5° Prueba de hipótesis

Decisión: Como el valor Sig = 0.000 < 0.05, la prueba es significativa; esto es el grado de delincuencia depende del tiempo invertido por los padres en sus hijos. Nota: no se puede hacer una inferencia pues los datos pertenecen a una muestra no probabilística.

Ejemplo 2.

(19)

Solución:

Abrir el archivo del SPSS “encuesta general USA 1991.sav” Analizar<estadísticos descriptivos<tablas de contingencia

Reporte del SPSS:

Tabl a de cont i ngenci a Sexo del encuest ado * Ni vel de f el i ci dad

206 374 53 633

32. 5% 59. 1% 8. 4% 100. 0%

261 498 112 871

30. 0% 57. 2% 12. 9% 100. 0%

467 872 165 1504

31. 1% 58. 0% 11. 0% 100. 0%

Recuent o % de Sexo del encuest ado Recuent o % de Sexo del encuest ado Recuent o % de Sexo del encuest ado Hom br e

Mujer Sexo del encuest ado

Tot al

Muy f eliz Bast ant e f eliz

No dem asiado

f eliz Nivel de f elicidad

Tot al

(20)

Sexo del encuestado Mujer Hombre

R

ec

uen

to

100,0%

80,0%

60,0%

40,0%

20,0%

0,0%

0,13% 0,08%

0,57%

0,59%

0,30% 0,33%

No demasiado feliz Bastante feliz Muy feliz Nivel de felicidad

Pruebas de chi - cuadrado

7. 739a 2 . 021

7. 936 2 . 019

4. 812 1 . 028

1504 Chi- cuadr ado de Pear son

Razón de ver osim ilit udes Asociación lineal por lineal

N de casos válidos

Valor gl

Sig. asint ót ica ( bilat er al)

0 casillas ( . 0%) t ienen una f r ecuencia esper ada inf er ior a 5. La f r ecuencia m í nima esper ada es 69. 44.

a.

Decisión: Al nivel de significancia del 5% concluimos que existe alguna relación significativa (sig=0.021) entre las variables, a favor de los varones, esto quiere decir que en mayor porcentaje los varones presentan más altos niveles de felicidad.

Nota: Existen tres factores que pueden alterar el resultado de las pruebas de asociación e independencia como lo son el tamaño de la muestra, la fidelidad de los datos y el sesgo muestral; antes de sacar alguna conclusión es necesario revisar estos factores ya que cualquiera de ellos puede distorsionar severamente el resultado.

7.4.2 Prueba de la Homogeneidad

Supóngase que en una determinada muestra se observan una serie de posibles sucesos E1, E2, E3, . .

. , EK, que ocurren con frecuencias o1, o2, o3, . . ., oK, llamadas frecuencias observadas y que,

según las reglas de probabilidad, se espera que ocurran con frecuencias e1, e2, e3, . . . ,eK llamadas

frecuencias teóricas o esperadas. Se desea saber si las frecuencias observadas difieren significativamente de las frecuencias esperadas.

Ejemplo: Se presupone que la prevalencia de cáncer se incrementa en el intervalo de edad 51 a 65 años, mientras que entre los intervalos de edad de 36 a 50 y de 20 a 35 la proporción no es tan alta; se obtuvo una muestra observacional sobre un registro de pacientes que arrojan la siguiente tabla:

EDAD

20 - 35 36 - 50 51 - 65

(21)

Deseamos contrastar si la prevalencia del n° de casos de cáncer es homogénea a los intervalos de edad o alternativamente que las proporciones de enfermos guardan una determinada relación a 1, 1, 4 respectivamente, es decir que la proporción de individuos en el último intervalo de edad es el doble que en el conjunto de los dos intervalos de edad.

Ho: las proporciones de individuos esperadas con cáncer se ajustan para cada intervalo de edad Ha: las proporciones de individuos esperadas con cáncer no se ajustan para cada intervalo de edad

Pasos en el SPSS:

1º. Dado que la data se encuentra en una tabla de frecuencia, la forma de introducir es la siguiente: las edades se codifican (1=20-35), (2=36-50), (3=51-65), entonces en el SPSS en vista de datos ingresamos la variable edad con sus códigos respectivos, para la variable Nº de casos la respectiva frecuencia para cada intervalo de edad, luego hacer como se indica a continuación: Datos<ponderar casos<ponderar casos mediante<pasar “N_casos”<aceptar

2º. Analizar<pruebas no paramétricas<Chi cuadrado<seguir los pasos observando la siguiente figura.

(22)

(df = grados de libertad)

Se puede observar que la 1.5 0 2 5.9 9 e x p

2

t a b u l a r

e r i me n t a l , por lo tanto estamos aceptando que las proporciones de individuos con cáncer si se ajustan a la proporción de cada intervalo de edad. Nota: se llega a la misma conclusión si observamos el Sig de la prueba: Sig =0.472 > 0.05 por lo tanto no podemos rechazar la Ho.

Nota: En el caso que se rechaza la hipótesis nula cuando se realiza la prueba Chi cuadrado

Ho: No hay relación entre las variables en estudio.

Entonces el próximo paso es determinar el grado de asociación de las dos variables categóricas, para ello se usan las llamadas medidas de asociación como:

Análisis para medir la asociación de variables nominal por nominal

Análisis para medir la asociación de variables ordinal por ordinal

Salida en el SPSS (para pedir la prueba, siga los siguientes pasos)

Analizar>estadísticos descriptivos>tablas de contingencia>pasar las variables (una a filas y la otra a columnas)>clip en estadísticos>seleccionar el estadístico correspondiente>

continuar>aceptar

7.5 Análisis para variables de nivel nominal por nominal

Coeficiente de contingencia C

(23)

2 2

n C

Donde:

C = Coeficiente de contingencia 2

= Valor calculado de Chi Cuadrada. n número total de casos (tamaño muestral) El valor de C varía entre 0 y 1

C 0, significa que no hay asociación entre las variables

C>.20, indica una buena asociación entre las variables; sin embargo hay que tomar también en consideración el tamaño de la tabla o de los datos.

Ejemplo de aplicación (Pagano, 2009. Pág. 485)

Un investigador de la sexualidad humana quiere determinar si existe una relación entre el género y la hora del día preferida para tener relaciones sexuales. Se realiza una encuesta cuyos resultados aparecen en la siguiente tabla; los datos de las entradas son la cantidad de individuos que prefieren la mañana, la tarde o la noche:

Género Mañana Tarde Noche Total

Masculino 46 24 20 90

Femenino 28 21 42 91

Total 74 45 62 181

Paso 1 Aplicando la definición de la distribución 2 vista anteriormente, se obtiene 2= 12.380

Paso 2 Se calcula el coeficiente de contingencia C utilizando la formula:

2 5 3 . 0 3 8 . 1 2 1 8 1

3 8 . 1 2 2

2

n C

Salida en el SPSS (para pedir la prueba, siga los siguientes pasos)

Analizar>estadísticos descriptivos>tablas de contingencia>allí marque la prueba que corresponde a su problema)

Medidas simétricas

Valor

Sig. aproximada

Nominal por nominal

Coeficiente de contingencia

,253 ,002

N de casos válidos 181

Prueba de significancia

(24)

Requisitos para el uso del coeficiente de contingencia:

1. Datos nominales.

2. Muestreo aleatorio. Con la finalidad de comprobar la significancia estadística del coeficiente de contingencia, la muestra se debe obtener en forma aleatoria.

Se desea investigar la posible relación entre la categoría laboral que ocupa el trabajador y si considera su vida excitante o aburrida. Emplear la data del SPSS “encuesta general USA 1991.sav”

Paso 1 Los datos obtenidos al realizar este estudio se concentran en una tabla de contingencia,

de la siguiente forma:

Tabla de contingencia Categoría ocupacional * ¿Su vida es excitante o aburrida?

¿Su vida es excitante o aburrida?

Total Excitante Rutinaria Aburrida

Categoría ocupacional

Directivo o profesional liberal

Recuento 129 78 3 210

% de Categoría

ocupacional 61.4% 37.1% 1.4% 100.0%

Empleado técnico, administrativo o comercial

Recuento 125 156 13 294

% de Categoría

ocupacional 42.5% 53.1% 4.4% 100.0%

Servicios Recuento 56 73 6 135

% de Categoría

ocupacional 41.5% 54.1% 4.4% 100.0%

Agricultura, forestal y pesca

Recuento 16 9 0 25

% de Categoría

ocupacional 64.0% 36.0% .0% 100.0%

Producción de precisión, manufactura o reparación

Recuento 38 65 6 109

% de Categoría

ocupacional 34.9% 59.6% 5.5% 100.0%

Operario, fabricación y mano de obra en general

Recuento 45 83 7 135

% de Categoría

ocupacional 33.3% 61.5% 5.2% 100.0%

Total Recuento 409 464 35 908

% de Categoría

ocupacional 45.0% 51.1% 3.9% 100.0%

Paso 2 Aplicando la definición de la distribución 2 vista anteriormente, se obtiene 2=

41.829

Paso 3 Se calcula el coeficiente de contingencia C utilizando la formula:

2 1 0 . 0 8 2 9 . 4 1 9 0 8

8 2 9 . 4 1 2

2

(25)

Medi das si mét ri cas

. 210 . 000

908 Coef icient e de

cont ingencia Nom inal por

nom inal

N de casos válidos

Valor

Sig. apr oximada

Asumiendo la hipót esis alt er nat iva. a.

Em pleando el er r or t í pico asint ót ico basado en la hipót esis nula.

b.

Prueba de significancia

La significancia estadística del coeficiente de contingencia se puede obtener a partir de la magnitud de la 2 obtenida con la siguiente regla de decisión:

Si 2 _{c r i t}2 ,en to n ces

C es significativo

Para nuestro ejemplo la 2tabular o crítica con 10 gl. y al nivel de significancia de 5% es 18.31,

entonces dado que el valor calculado es de 41.829, esto es: 41.829 18.31, podemos concluir que el coeficiente de contingencia calculado es estadísticamente significativo, por lo que se rechaza la hipótesis nula; por lo que podemos concluir que se considera si la vida es excitante o aburrida esta relacionada a la categoría laboral que ocupa el trabajador, es decir se puede observar que la vida es más excitante para los profesionales que ocupan cargos directivos o profesionales liberales de igual manera para aquellos que trabajan en agricultura forestal y pesca.

Llegamos a la misma conclusión observando el Sig=,000<0.05 que se obtiene al pedir el análisis del coeficiente de contingencia

Coeficiente de correlacion (phi) para un diseño 2 x 2

Cuando ambas variables son nominales y dicotómicas, es posible determinar el grado de asociación entre las variables de interés. Este coeficiente ( ) también es un caso particular del coeficiente de correlación de Pearson, y se utiliza con cierta frecuencia, aunque no necesariamente en este aspecto, en la elaboración y análisis de pruebas. En capítulos posteriores se considera la independencia o dependencia de dos variables en una nuestra determinada; cuando se haga este análisis, a partir de las hipótesis establecidas, si la conclusión estadística a la que se llega es la existencia de una dependencia, el análisis estadístico más lógico a seguir es conocer el grado de asociación que implica la dependencia entre las variables o las muestras. Para conocer esto, necesitamos un número, y este número nos lo indicara el coeficiente de correlación ( ),

pero recuérdese que está supeditado al diseño 2 x 2, al tamaño de muestra y a la proporción de las variables dicotomizadas. Cuando el número de casos en una variable es igual al de la otra variable, el coeficiente ( ) tendrá el máximo valor de 1; cuando los totales marginales son diferentes no se alcanzara el máximo valor de 1.

Coeficiente

) )( )( )(

(a b a c b d c d b c

a d

(26)

200 del sexo masculino y 200 del sexo femenino, se les emplea para establecer dicha escala y se analizan las respuestas, obteniéndose lo siguiente: de las personas del sexo masculino 160 están de acuerdo y 40 en desacuerdo; de las del sexo femenino 40 están de acuerdo y y 160 no lo están. Calcule el coeficiente ( ) de correlación y concluya, considerando los resultados obtenidos.

Solución:

Paso 1 Se acomodan los datos obtenidos en una tabla de doble entrada, de dos reglones y dos columnas (tabla de contingencia 2x2)

Acuerdo Desacuerdo Total Masculino 160 (a) 40 (b) 200 Femenino 40 (c) 160 (d) 200 Total 200 200 400

Paso 2 se aplica la definición de ( )

₀_._{6 0}

) 2 0 0 )( 2 0 0 )( 2 0 0 )( 2 0 0 (

) 4 0 )( 4 0 ( ) 1 6 0 )( 1 6 0 ( ) )( )( )(

(a b a c b d c d b c

a d = 0.60

Valor Sig. aproximada

Nominal por nominal

Phi ,600 ,000

V de Cramer ,600 ,000

N de casos

válidos 400

Prueba de significancia de

Para poder comprobar la significancia de dicho coeficiente se utilizará la siguiente definición:

2 2

n

Donde:

n = Número total de casos, n =400

= 0.60 2

= Valor Chi Cuadrado

Sustituyendo los valores anteriores se obtiene:

2 2

n

2 (4 0 0)(0.6 0)2 1 4 4 2 1 4 4

Este resultado se contrasta al valor crítico de ji cuadrada, calculado mediante la siguiente regla de decisión R.D:

Si 2 _{c r i t}2 ,en t o n ces significativa

(27)

Para un diseño de 2x2, los grados de libertad será 1, entonces g.l. = 1

84 . 3

2 %) 5 ( 2

cri t , por lo tanto e xp 1 4 4

2

e r i me nt al , entonces podemos concluir que la

prueba es significativa, esto es =0.46 ¡es significativo!

Requisitos de uso de

A fin de utilizar adecuadamente el coeficiente como medida de asociación entre las variables x e y, dicotomizadas, se deben tomar en cuenta las siguientes condiciones:

1. Datos nominales. Las variables x e y, deben ser nominales y dicotomizables, ya que únicamente se requerirían las frecuencias observadas (el número de veces que ocurren en cierta nominación).

2. Tabla de contingencia 2x2. Los datos deben poder colocarse en un diseño 2x2 (dos renglones - dos columnas). Es inadecuado aplicar el coeficiente donde se comparan varias grupos o categorías.

3. Muestreo aleatorio. Para poder comprobar la significancia y validez de , la muestra en estudio debe haber sido extraída en forma aleatoria (todos los elementos de la población deben tener la misma posibilidad de ser escogidos).

4. Cuando la muestra en estudio es pequeña (un criterio es que la frecuencia observada, en dos o más casillas, sea menor que 10). Se utilizará la definición de 2, pero con la corrección de Yates, también llamada de Pirie-Handem, que consiste en lo siguiente:

) )( )( )( (

5 . 0 2

2

b c d b c a b a

b c a d n

Donde _ad _bc = valor absoluto de la diferencia entre ad y bc.

Lambda. Medida de asociación que refleja la reducción proporcional en el error cuando se utilizan los valores de la variable independiente para pronosticar los valores de la variable dependiente. Un valor igual a 1 significa que la variable independiente pronostica perfectamente la variable dependiente. Un valor igual a 0 significa que la variable independiente no ayuda en absoluto a pronosticar la variable dependiente.

Coeficiente de incertidumbre. Medida de asociación que indica la reducción proporcional

(28)

7.6 Análisis para variables de nivel tipo ordinal por ordinal

Coeficiente Gamma

Medida de asociación simétrica entre dos variables ordinales cuyo valor siempre está comprendido entre menos -1 y 1. Los valores próximos a 1, en valor absoluto, indican una fuerte relación entre las dos variables. Los valores próximos a cero indican que hay poca o ninguna relación entre las dos variables.

d de Somers

La “d de Somers” es importante pues se puede pronosticar las categorías de columna a partir de las categorías de fila; se usa para variables ordinales (filas y columnas). La d de Somers es una

extensión asimétrica de gamma.

Ejemplo:

Se quiere establecer la relación entre las variables ingesta de agua según el número de vasos por día y si la persona tiene un horario establecido para beber este líquido tan importante para la salud. La data se recogió haciendo uso de la metodología de la encuesta y se muestra en la siguiente tabla.

Tabla de contingencia AGUA * HORARIO

HORARIO

Total Siempre Casi siempre A veces

AGUA Ninguno 0 1 2 3

1 - 2 vasos 3 6 2 11

3 - 5 vasos 2 16 5 23

6 a más

vasos 3 5 2 10

(29)

Medidas direccionales

Valor

Error típ. asint.(a)

T aproximada(b)

Sig. Aproximada Ordinal

por ordinal

d de Somer Simétrica

-.100 .148 -.669 .503

AGUA dependiente -.108 .161 -.669 .503

HORARIO dependiente -.092 .137 -.669 .503

a Asumiendo la hipótesis alternativa.

b Empleando el error típico asintótico basado en la hipótesis nula.

Interpretación: Cuánto más cercano el valor se encuentre a +1 o -1 mejor correlación presentará y su prueba de hipótesis Sig < 0.05

Para nuestro ejemplo la d de Somers presenta un valor de (d = -0.100) con una significancia de Sig = 0.503. Por lo tanto podemos concluir que no existe ningún tipo de asociación entre las variables.

Tau-b de Kendall

Medida no paramétrica de la correlación para variables ordinales o de rangos que tiene en consideración los empates. El signo del coeficiente indica la dirección de la relación y su valor absoluto indica la magnitud de la misma, de tal modo que los mayores valores absolutos indican relaciones más fuertes. Los valores posibles van de -1 a 1, pero un valor de -1 o +1 sólo se puede obtener a partir de tablas cuadradas.

Tau-c de Kendall

Medida no paramétrica de asociación para variables ordinales que ignora los empates. El signo del coeficiente indica la dirección de la relación y su valor absoluto indica la magnitud de la misma, de tal modo que los mayores valores absolutos indican relaciones más fuertes. Los valores posibles van de -1 a 1, pero un valor de -1 o +1 sólo se puede obtener a partir de tablas cuadradas.

7.7 Análisis para variables nominal por intervalo:

Coeficiente Eta

Cuando una variable es categórica y la otra es cuantitativa, seleccione Eta. La variable categórica debe codificarse numéricamente. Es una medida de asociación cuyo valor siempre está comprendido entre 0 y 1. El valor 0 indica que no hay asociación entre las variables de fila y de columna. Los valores cercanos a 1 indican que hay gran relación entre las variables. Eta resulta apropiado para una variable dependiente medida en una escala de intervalo (por ejemplo, ingresos) y una variable independiente con un número limitado de categorías (por ejemplo, sexo). Valores de eta próximos a uno indicarán mucha dependencia. El cuadrado de este coeficiente (eta²) puede interpretarse como la proporción de variabilidad de la variable dependiente, Y, explicada por los valores de la independiente, X, por lo que puede utilizarse como medida del grado de asociación existente entre las variables en cuestión. (Ferran A. M, 1996).

Ejemplo:

(30)

Para realizar este análisis usamos el coeficiente Eta, pues se trata de relacionar una variable dependiente numérica asociada a una independiente categórica nominal.

Pasos en el SPSS: analizar<estadísticos descriptivos<tablas de contingencia<pasar las variables como se observa en la figura anterior<pedir el coeficiente Eta<continuar<aceptar

Salida del SPSS

Tabla de contingencia SALON * PROMEDIO

Recuento

PROMEDIO

Total 14,00 15,00 16,00 17,00 18,00 19,00

SALÓN A 5 3 1 1 1 0 11

SALÓN B 0 0 0 5 4 3 12

Total 5 3 1 6 5 3 23

Medidas direccionales

Valor Nominal por intervalo Eta SALON dependiente ,846

PROMEDIO dependiente ,787

El coeficiente Eta, que se obtiene en el cuadro de salida presenta dos sentidos: Un primer caso considerando al salón como variable dependiente, para este caso se obtiene un Eta igual a 0.846. Un segundo caso, considerando al promedio, como la variable dependiente, para lo cual se obtiene un Eta igual a 0.787. En nuestro caso la variable promedio se considera como dependiente, por lo tanto Eta= 0.78, lo que indica que el promedio depende del salón donde provienen los alumnos, en otras palabras alguno de los profesores (A o B) utilizan una mejor didáctica lo cual hace obtener un mejor promedio en sus estudiantes (salón B).

(31)

Eta2 = (,787)2 = 0.619 explica la variación del promedio de los estudiantes en función al salón al que pertenecen, la varianza de los datos que dependen del salón y que hacen predecir el promedio.

El gráfico bivariado que ofrece el SPSS es:

7.8 Otras pruebas

Kappa.

La opción kappa de Cohen mide el acuerdo entre las evaluaciones de dos jueces cuando ambos están valorando el mismo objeto. Un valor igual a 1 indica un acuerdo perfecto. Un valor igual a 0 indica que el acuerdo no es mejor que el que se obtendría por azar. Kappa sólo está disponible para las tablas cuadradas (tablas en las que ambas variables tienen el mismo número de categorías). (Cohen, 1960).

Ejemplo:

La tabla siguiente ofrece una medida del grado de acuerdo existente entre dos observadores o jueces al evaluar a 200 pacientes neuróticos según el tipo de neurosis padecida.

Resultado obtenido por dos jueces al diagnosticar una muestra de 200 pacientes

Segundo diagnóstico Primer

diagnóstico Fóbica Histérica Obsesiva Depresiva

Fóbica 20 8 6 1

Histérica 7 36 14 4

Obsesiva 1 8 43 7

Depresiva 2 6 4 33

Total 30 58 67 45

En el SPSS: Primero ponderar casos.

(32)

Aceptar

Pedir el coeficiente Kappa: analizar<estadísticos descriptivos<tablas de contingencia<pasar las variables <pedir el coeficiente Kappa<continuar<aceptar

Valor Error típ. asint.a T aproximadab

Sig. aproximada

Medida de acuerdo Kappa ,538 ,046 12,921 ,000

a. Asumiendo la hipótesis alternativa.

b. Empleando el error típico asintótico basado en la hipótesis nula.

El valor del estadístico Kappa (,538) y su nivel crítico (Sig aproximada 0.000) por lo tanto se rechaza la hipótesis nula y concluimos que existe un grado de acuerdo mayor que el esperado por el azar.

McNemar

Prueba no paramétrica para dos variables dicotómicas relacionadas. Contrasta los cambios en las respuestas utilizando la distribución de Chi-cuadrado. Es útil para detectar cambios en las respuestas debidas a la intervención experimental en los diseños del tipo "antes-después". Para las tablas cuadradas de mayor orden se informa de la prueba de simetría de McNemar-Bowker.

Ejemplo

(33)

Estilo genérico de interacción social que presentan los ACES del Asentamiento Humano Virgen del Carmen la

Era, antes y después de la aplicación del programa. Pre test Pos test

N % n %

Déficit asertivo 8 30.8 3 11.5

Estilo pasivo dependiente 11 42.3 9 34.6

Estilo agresivo 2 7.7 2 7.7

Estilo asertivo 5 19.2 12 46.2

Respecto al estilo genérico que tenían los agentes comunitarios antes de aplicar el programa de intervención el 30.8% presentaron un déficit asertivo, mientras que al finalizar el programa sólo un 11.5% presentó este déficit. Así también se observa que al inicio del programa el 42.31% presentaban un estilo pasivo dependiente y después de la aplicación del programa este porcentaje disminuyó a un 34.6%. Además el 19.2% de los ACES que alcanzaron un estilo asertivo inicial, después de la intervención este se incrementó al 46.2%, observando el estilo de interacción social agresivo antes y después de la intervención el 7.7% se mantuvo aparentemente sin variación, sin embargo las dos personas que corresponden a este porcentaje inicial no son las mismas, las dos personas que presentan esta conducta después de la intervención, inicialmente presentaron una conducta pasiva dependiente.

Comprobación de hipótesis

La tabla muestra la prueba de McNemar-Bowker (Pardo 2002) prueba no paramétrica de orden mayor que dos, contrasta los cambios en las respuestas, utilizando la distribución de Chi cuadrado. Es útil para detectar cambios de respuesta debidas a la intervención experimental en los diseños del tipo antes – después), para la relación del estilo genérico de interacción social que presentaron los ACES antes y después de la aplicación del programa de intervención “Re hacer la vida”, lo que muestra que la potencia de la prueba (p_value ,014) es inferior al nivel de significación considerado (α = ,05), por lo tanto se rechaza la hipótesis nula de igualdad de proporciones y se concluye que las proporciones de sujetos que participaron en el programa mejoraron su estilo genérico de interacción social, demostrándose la efectividad del programa.

Prueba de McNemar-Bowker para el estilo genérico de interacción social que presentan los ACES del Asentamiento Humano Virgen del Carmen la Era, antes y después de la aplicación del programa.

Prueba de McNemar-Bowker

Valor Gl p-value

Prueba de McNemar-Bowker

12.571 4 ,014

(34)

7.9 PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES (NO PARAMÉTRICAS)

Compara dos grupos de casos en una variable. Se puede trabajar con la prueba U de Mann-Whitney, la prueba de Kolmogorov Smirnov para dos muestras, la prueba de Moses de reacciones extremas y la prueba de rachas de Wald-Wolfowitz.

Ejemplo: Se han desarrollado nuevos correctores dentales diseñados para que sean más comodos y estéticos, así como para facilitar un progreso más rápido en la realineación de la dentadura. Para averiguar si el nuevo corrector debe llevarse tanto tiempo como el modelo antiguo, se eligen 10 niños al azar para que lleven este último y otros 10 para que usen el nuevo. Mediante la prueba de U de Mann-Whitney podría descubrir que de media, los niños que llevan el nuevo corrector tenían que llevarlo puesto menos tiempo que los que llevaban el antiguo.

Datos: utilice variables numéricas que puedan ordenarse.

Supuestos: utilice muestras independientes aleatorias. La prueba U de Mann-Whitney requiere que las dos muestras probadas sean similares en la forma.

Se utiliza como alternativa a la prueba paramétrica de comparación de medias de dos muestras independientes; por lo tanto la escala de medida de la variable dependiente es cuando menos ordinal. (para pruebas paramétricas no se debe usar las escalas de Likert).

En el SPSS:

U de Mann-Whitney: mezclados los datos de ambas muestras, se procede a ordenarlos de menor a mayor; el estadístico de contraste es la suma de los rangos de cada grupo.

Reacciones extremas de Moses: se prueba si el rango de una variable ordinal es el mismo del grupo control y en de comparación, por lo que los valores son ordenados de forma ascendente. Z de Kolmogorov-Smirnov: se prueba si la distribución de una variable, la dependiente, es la misma en dos grupos.

Rachas de Wald-Wolfowitz: Se ordenan los casos de ambos grupos conjuntamente de menor a mayor para a continuación, realizar una prueba de rachas usando como criterio el conjunto de valores que pertenecen al mismo grupo.

7.10 Prueba de U Man Witney: ejemplo Empleados.sav

Es una excelente alternativa a la prueba T cuando no se cumplen los supuestos de normalidad y homocedasticidad o cuando los datos son de tipo ordinal o nominal.

(35)

Ho: los grupos definidos por la variable minoría proceden de poblaciones similares, por lo tanto con igual promedio de salario inicial

Ha: los grupos definidos por la variable minoría proceden de poblaciones distintas, por lo tanto con diferente promedio de salario inicial

Ranks

370 249. 14 92180. 50

104 196. 10 20394. 50

474 Clasif icación de minor í as

No Sí Tot al Salar io inicial

N Mean Rank Sum of Ranks

Test St at i st i csa

14934. 500 20394. 500 - 3. 495 . 000 Mann- Whit ney U

Wilcoxon W Z

Asym p. Sig. ( 2- t ailed)

Salar io inicial

G r ouping Var iable: Clasif icación de minor í as a.

Los grupos definidos por la variable minaría proceden de poblaciones con distintos promedios

Pruebas de reacciones extremas de Moses Test

Sirve para estudiar si existen diferencias en el grado de dispersión o de variabilidad

Frequenci es

370 104 474 Clasif icación de minor í as

No ( Cont r ol) Sí ( Exper im ent al) Tot al Salar io inicial

(36)

Moses Test

Test St at i st i csa, b

467 . 000 434 . 990

18 Sig. ( 1- t ailed)

O bser ved Cont r ol G r oup Span

Sig. ( 1- t ailed) Tr im med Cont r ol

G r oup Span

O ut lier s Tr immed f r om each End

Salar io inicial

Moses Test a.

G r ouping Var iable: Clasif icación de minor í as b.

Outlieres Valores atípicos

Podemos considerar que no se a considerado valores extremos y tomaríamos sig=0.990 Por lo tanto rechazamos la Ho

Prueba de Kolmogorov-Smirnov para dos muestras

Esta prueba sirve para contrastar la hipótesis si la variables proceden de la misma población

Frecuenci as

370 104 474 Clasif icación de minor í as

No Sí Tot al Salar io inicial

N

Est adí st i cos de cont rast ea

. 237 . 000 - . 237 2. 134 . 000 Absolut a

Posit iva Negat iva Dif er encias más

ext r emas

Z de Kolmogor ov- Smir nov Sig. asint ót . ( bilat er al)

Salar io inicial

Var iable de agr upación: Clasif icación de minor í as a.

Ho: Son de la misma población

Sig<0.05 rechazamos que los dos grupos comparados difieren significativamente del salario inicial

Wald-Wolfowitz Test

Similar a la prueba de rachas para una muestra, permiten contrastar si los valores provienen de la misma población,requiere al menos una escala de medida ordinal, es sensible no solamente a la diferencia de valores poblacionales.

Frequenci es

370 104

474 Clasif icación de minor í as

No Sí

Tot al Salar io inicial

N

Est adí st i cos de cont rast eb, c

40a _{- 16. 576} _{. 000} 200a _{4. 923} _{1. 000} Mí nimo posible

Máximo posible Salar io inicial

Núm er o de r achas Z

Sig. asint ót . ( unilat er al)

Hay 25 empat es int er - gr upos que implican 348 casos. a.

Pr ueba de Wald- Wolf owit z b.

(37)

PRUEBAS PARA VARIAS MUESTRAS INDEPENDIENTES

7.11 Prueba de H de Kruskal_Wallis

Este procedimiento contiene varias pruebas, todas ellas diseñadas para analizar datos provenientes con una variable independiente categórica (con mas de dos niveles que definen mas de dos grupos o muestras) y una variable dependiente cuantitativa al menos ordinal, en la cual interesa comparar las muestras

Ejemplo: Archivo Empleados

Directivos y administrativos

Ranks

363 192. 29 27 252. 59 84 428. 04 474

Cat egor í a labor al Adm inist r at ivo Segur idad Dir ect ivo Tot al Salar io inicial

N Mean Rank

Test St at i st i csa, b

203. 112 2 . 000 Chi- Squar e

df Asymp. Sig.

Salar io inicial

Kr uskal Wallis Test a.

G r ouping Var iable: Cat egor í a labor al b.

Rechazamos la hipótesis de igualdad de promedios, las poblaciones comparadas difieren del promedio de salario inicial o sea que hay diferencia entre estas dos categorías laborales.

PRUEBA PARA DOS MUESTRAS RELACIONADAS

Permiten analizar datos con medidas repetidas

7.12 Prueba de Wilcoxon y Signo, Mc Nemar

(38)

Ranks

474a _{237. 50} _{112575. 00}

0b _{. 00} _{. 00}

0c 474 Negat ive Ranks

Posit ive Ranks Ties Tot al Salar io inicial

-Salar io act ual

N Mean Rank Sum of Ranks

Salar io inicial < Salar io act ual a.

Salar io inicial > Salar io act ual b.

Salar io inicial = Salar io act ual c.

Los rangos deberían ser iguales (112575)

Test St at i st i csb

- 18. 865a

. 000 Z

Asymp. Sig. ( 2- t ailed)

Salar io inicial - Salar io

act ual Based on posit ive r anks. a.

Wilcoxon Signed Ranks Test b.

Rechazamos la hipo de igualdad de promedios son iguales, las variables comparadas difieren significativamente Sign Test Frequenci es 474 0 0 474 Negat ive Dif f er ences a

Posit ive Dif f er ences b

Ties c

Tot al Salar io inicial

-Salar io act ual

N

Salar io inicial < Salar io act ual a.

Salar io inicial > Salar io act ual b.

Salar io inicial = Salar io act ual c.

Test St at i st i csa

- 21. 726 . 000 Z

Asymp. Sig. ( 2- t ailed)

Salar io inicial - Salar io

act ual Sign Test

a.

Concluimos igual

Mac Nemar para variable de tipo (Arch. Fumar y no)

Una muestra aleatoria de 150 estudiantes se sometió a un cuestionario de opinión acerca de si fumar produce cáncer al pulmonar. Obtenida la información se les dio una conferencia y se les presento una exposición llevada a cabo por un equipo de sanidad explicando los peligros de fumar y se les explico la relación sobre el efecto de fumar sobre el cáncer pulmonar

(se les hizo una encuesta y luego recibieron una charla y se quiere ver que tan fructífera fue esa charla)

Después de la conferencia

Antes de la

conferencia NO SI Total

NO 43 67 110

SI 10 30 40

150

(39)

ant es de l a conf erenci a & despues de l a conf erenci a

43 67 10 30 ant es de la conf er encia

1 2

1 2 despues de la

conf er encia

1=no 2=si

Test St at i st i csb

150 40. 727 . 000 N

Chi- Squar e a Asym p. Sig.

ant es de la conf er encia & despues de la conf er encia

Cont inuit y Cor r ect ed a.

M cNem ar Test b.

Ho: la probabilidad de que la conferencia no tenga efecto sobre la opinión de los estudiantes es igual a que la probabilidad de que la conferencia si tenga efecto sobre la opinión de los estudiantes

Ha: la probabilidad de que la conferencia es mayor sobre la opinión de los estudiantes

El sig<0.05, rechazamos la Ho por lo tanto concluimos que si existe un efecto estadísticamente significativo de que la conferencia cambie la opinión de los estudiantes a favor de que el fumar si produce cáncer

NPar Tests

Detecta diferencia en la distribución de casos a través de dos variables categóricas relacionadas, los valores distintos se enumeran (es si o es no)

Mar gi nal Homogenei t y Test

2 77 57. 000 . 000 8. 775 6. 496 . 000 Dist inct Values

O f f - Diagonal Cases O bser ved M H St at ist ic Mean MH St at ist ic St d. Deviat ion of M H St at ist ic

St d. MH St at ist ic Asym p. Sig. ( 2- t ailed)

ant es de la conf er encia & despues de la conf er encia

Indican que se diferencian las distribuciones para las dos variables o también que la distribución de casos a través de las categorías de la variables antes es diferente que la distribución de casos a través de las categorías después

Por que se les llama marginal por que la suma de las columnas filas y columnas son diferentes

La prueba de MH es una extensión de la prueba de Mc Nemar de la respuesta binaria a la respuesta multinomial

La media o valor esperados de la estadística de la homogeneidad es 0.000

(40)

PRUEBA PARA K MUESTRAS RELACIONADAS

7.13 En dos direcciones por rangos de friedman (

2

r₎

Si se desean comparar varias muestras o grupos de puntajes pareados (a cada puntaje de un grupo le corresponde otro puntaje del otro grupo o grupos; también se suelen llamar grupos o muestras dependientes o correlacionas), y en las cuales los requisitos básicos para los métodos paramétricos no se cumplen (los puntajes de dichos grupos no se distribuyen normalmente y no hay homogeneidad de las varianzas), el pareamiento puede ser obtenido relacionando conjuntos de sujetos en una o más variables previas y aleatoriamente asignando a cada elemento del conjunto pareado varias condiciones diferentes, o, si los mismos sujetos son elementos de cada grupo a comprobar, entonces los conjuntos pareados resultan adecuados.

Esta prueba es una variación de la prueba t (Student), que se utiliza para comprobar una misma muestra medida dos veces. Por ejemplo, en el diseño antes-después, se utiliza la siguiente fórmula:

) 1 ( 3 ) ( ) 1 (

1 2 2

2

k n R k

n k i

r

Donde:

2

)

( Ri = Suma de rangos de cada uno de los grupos, elevada al cuadrado

K = Número de grupos

n = Número de conjuntos de mediciones

12 y 3 = Constantes

Ejemplo:

Suponga que se desea comprobar la hipótesis nula de que un grupo de 10 sujetos reaccionan de la misma manera ante tres situaciones diferentes; Se obtienen los siguientes resultados, que se ubican en cada uno de los tres grupos I, II, III

Puntajes

Sujeto Grupo 1 Grupo 2 Grupo 3 A B C D E F G H I J 25 30 21 28 19 22 31 17 25 33 28 33 19 31 22 21 33 14 21 35 29 32 16 32 23 25 34 21 24 37