Tema 1: Introducción al Análisis de datos Categóricos

(1)

Tema 1: Introducci´ on al An´ alisis de datos Categ´ oricos

Introducci´ on

Los datos categóricos aparecen cuando una variable se mide en una escala que sólo incluye a los posibles encuestados en un número limitado de grupos. Por ejemplo, una en- cuesta donde se recoge información sobre variables como el género, estado civil o afiliación pol´ıtica.

Además de distinguir una variable como categórica (cualitativa) o continua (cuantita- tiva), las variables también se pueden clasificar como independientes o dependientes. El término independiente se refiere a una variable que se puede manipular experimentalmen- te (e.j. el tipo de tratamiento que se le asigna a cada persona), pero también se aplica a menudo a una variable que se utiliza para predecir otra variable (e.j. nivel socio–económi- co).

El términodependiente se refiere en general a una variable cuyo interés primordial es el resultado o la respuesta. Por ejemplo, se pueden considerar como variables dependientes, el resultado de un tratamiento (basado en el tipo del mismo) o el nivel educativo previsto a partir de una situación socio–económica,.

Ejemplo: supongamos que se desea determinar si los colegios concertados difieren de manera sustancial de los colegios privados y públicos en base a ciertos datos demográficos como la ubicación (urbano, suburbano o rural), el tipo (pública o privada), la situación predominante socio-económica de los estudiantes (bajo, medio o alto) etc. Para este tipo de análisis es necesario usar técnicas de análisis de datos categóricos, porque todas las variables involucradas son categóricas.

(2)

Ejemplo: supongamos que un sociólogo quiere predecir si un estudiante se graduará en secundariaen base a cierta información como el número de d´ıas de asistencia, promedio de las calificaciones y los ingresos familiares. En este caso, se necesita un enfoque de análisis categórico donde la graduación (s´ıo no) sirve como variable dependiente en función de otras variables explicativas.

Escalas de medida

La escala de medida de una variable de respuesta categórica es fundamental para la elección del análisis estad´ıstico apropiado.

Las variables de respuesta categ´orica pueden ser Dicot´omicas

Ordinales Nominales De recuento

Respuestas dicotómicas son aquellas que tienen dos posibles resultados que a menudo son s´ıy no. ¿Se desarrollará la enfermedad? ¿El votante votará por el candidatoA o por elB? ¿Aprobará el examen?

Con frecuencia, las respuestas de los datos categóricos representan más de dos resultados posibles y a veces en estos resultados es posible considerar algún orden inherente.

Estas variables tienen una escala de respuesta ordinal de medici´on. ¿El nuevo plan de estudios gusta a los estudiantes? ¿La muestra de agua es de dureza baja, media o alta?

En el primer caso del nuevo plan de estudios, el orden de los niveles de respuesta es claro, pero no hay ninguna pista en cuanto a lasdistancias relativas entre los niveles.

En el segundo caso de la dureza del agua, hay una distancia posible entre los niveles:

medio podr´ıa tener el doble de la dureza de baja y alta podr´ıa tener tres veces la dureza debaja.

Si existen m´as de dos categor´ıas posibles y no hay un orden inherente entre ellas entonces se tiene una escala de medidanominal. No existe una escala subyacente en esos resultados y no hay una forma aparente de ordenarlos.

(3)

Ejemplos: ¿A cu´al de los cuatro candidatos votaste en las elecciones municipales de la ciudad? ¿Prefieres la playa, la monta˜na o la ciudad para ir de vacaciones?

Las variables categóricas a veces contienen recuentos. En lugar de considerar las categor´ıas que presenta cada observación (s´ı, no) o (bajo, medio, alto), los resultados que se estudian son los mismos números o recuentos de apariciones.

Ejemplos: El tama˜no de una camada, ¿fue de 1, 2, 3, 4 ´o 5 animales? La oficina tiene

¿1, 2, 3 ´o 4 equipos de aire acondicionado?

En la metodolog´ıa clásica habitual se analiza la media de los recuentos, pero los su- puestos que se tienen que cumplir en un modelo lineal estándar con datos continuos no se cumplen a menudo con datos discretos. En general, los recuentos no se distribuyen según una distribución normal y la varianza no suele ser homogénea.

Revisi´ on de distribuciones de Probabilidad

Distribuci´ on binomial

Ensayos deBernoulli: Habitualmente, los datos proceden denensayos independientes e idénticos con dos posibles resultados para cada uno: éxito y fracaso con igual probabilidad de éxito para cada prueba. Ensayos independientes significa que los resultados son variables aleatorias independientes. En particular, el resultado de una prueba no afecta al resultado de otra.

As´ı, se denota como π a la probabilidad de éxito para un ensayo dado e Y denota el número de éxitos de las n pruebas:

P(y) = n!

y! (n−y)!π^y(1−π)^n−y para 0,1,2, . . . , n.

La distribución binomial para n ensayos con parámetroπ tiene como media y desvia- ción estándar:

E(Y) = µ=nπ σ =^qnπ(1−π)

Las gr´aficas de las funciones de probabilidad y distribuci´on son, respectivamente,

(4)

# S c r i p t de R

# F u n c i o n de p r o b a b i l i d a d de una b i n o m i a l X11()

p l o t(0:8 , d b i n o m(0:8 ,8 ,0 .3 ) , t y p e = " h " , x l a b = " x " , y l a b = " P ( X = x ) " , x l i m = c ( -1 ,9))

t i t l e( " F u n c i o n de p r o b a b i l i d a d de X∼Bin (8 , 0 .3 ) " )

# F u n c i o n de d i s t r i b u c i o n de una b i n o m i a l X11()

p l o t(0:8 , p b i n o m(0:8 ,8 ,0 .3 ) , t y p e = " n " , x l a b = " x " , y l a b = " F ( x ) " , x l i m = c ( -1 ,9) , y l i m = c (0 ,1))

s e g m e n t s( -1 ,0 ,0 ,0)

s e g m e n t s(0:8 , p b i n o m(0:8 ,8 , .3 ) , 1:9 , p b i n o m(0:8 ,8 , .3 )) l i n e s(0:7 , p b i n o m(0:7 ,8 , .3 ) , t y p e = " p " , pch = 1 6 )

s e g m e n t s( -1 ,1 ,9 ,1 , lty =2)

t i t l e( " F u n c i o n de d i s t r i b u c i o n de X∼Bin (8 , 0 .3 ) " )

(5)

Para generar 1000 observaciones de una distribuci´on binomialBin(n= 5, p= 0,5):

# Uso la l i b r e r i a P A S W R l i b r a r y( P A S W R )

b i n o . g e n (1000 , 5 , 0 .5 )

(6)

Distribuci´ on Multinomial

Algunos ensayos tienen m´as de dos resultados posibles. Por ejemplo, el resultado de un accidente de autom´ovil se puede clasificar en varias posibles categor´ıas:

1. Sin lesiones,

2. Lesiones que no requieren hospitalizaci´on, 3. Lesiones que requieren hospitalizaci´on, 4. Muerte.

Cuando los ensayos son independientes respecto a cada categor´ıa, la distribuci´on de los recuentos en cada categor´ıa sigue una distribuci´onmultinomial.

Supongamos que se tienencposibles categor´ıas. Dados nsucesos, se puede definir una variable aleatoria X_i (para i = 1, . . . , c) que indica el n´umero de veces que aparece la categor´ıa i.

(7)

Se denota la probabilidad de obtener cada categor´ıa i como {π1, π2, . . . , πc} donde

P

iπ_i = 1.

Para n observaciones independientes, la probabilidad de que n₁ observaciones caigan en la categor´ıa 1, n₂ caigan en la categor´ıa 2, ..., n_c caigan en la categor´ıa c, (donde

P

in_i =n) es igual a

P(n₁, n₁, . . . , n_c) = n!

n₁!n₂!· · ·n_c!

!

π₁ⁿ¹πⁿ₂²· · ·π_cⁿ^c.

La distribuci´on binomial es, en realidad, un caso particular de la distribuci´on multinomial cuandoc= 2.

Ejemplos

Se puede generar una muestra de tama˜no 10 de una multinomialM ult(12,(0,1,0,2,0,7)), y calcular la probabilidad conjunta del vector (3,7,2) y del vector (1,2,9).

# D i s t r i b u c i o n m u l t i n o m i a l con R

r m u l t i n o m (10 , s i z e =12 , p r o b = c (0 .1 , 0 .2 , 0 .7 ))

[ ,1] [ ,2] [ ,3] [ ,4] [ ,5] [ ,6] [ ,7] [ ,8] [ ,9] [ ,10]

[1 ,] 1 2 1 1 2 0 3 2 1 3

[2 ,] 1 1 2 2 2 2 1 1 2 2

[3 ,] 10 9 9 9 8 10 8 9 9 7

d m u l t i n o m ( c (3 , 7 , 2) , p r o b = c (0 .1 , 0 .2 , 0 .7 ))

[1] 4 . 9 6 7 4 2 4 e -05

d m u l t i n o m ( c (1 , 2 , 9) , p r o b = c (0 .1 , 0 .2 , 0 .7 ))

[1] 0 . 1 0 6 5 3 3 5

La esperanza y varianza de observar el suceso ien n ensayos es E(X_i) = np_i

V ar(X_i) = np_i(1−p_i)

La covarianza entre los sucesos iy j observados en n ensayos es Cov(X_i, X_j) = −np_ip_j (i6=j)

(8)

Inferencia para la distribuci´ on binomial

El método habitual en Inferencia Estad´ıstica, desde el punto de vista clásico, es la esti- mación por máxima verosimilitud. El estimador de máxima verosimilitud de un parámetro es el valor del parámetro para el que la probabilidad de obtener los datos observados es mayor.

Por ejemplo, si en n= 10 ensayos se obtienen 0 éxitos, la función de verosimilitud en este caso L(π) = (1−π)¹⁰ que alcanza el máximo en ˆπ = 0. Es decir el resultado de 0

´exitos en 10 ensayos es m´as probable que ocurra cuando π = 0 que para cualquier otro valor.

As´ı, en general, si una variable aleatoria X se observa con x éxitos en n ensayos, el estimador de máxima verosimilitud (EMV) de la probabilidad de éxitopes simplemente ˆ

p=x/n, la proporci´on observada de ´exitos entren ensayos. La varianza es V ar(ˆp) = p(1−p)

n

y un intervalo de confianza al 100×(1−α) aproximado para pes ˆ

p±z^α

2

s

p(1b −p)_b n que se denomina habitualmenteintervalo de Wald.

Una mejor alternativa es el llamadointervalo de Wilson(oq-interval) que se calcula como un subproducto delTeorema Central del L´ımite.

pb





n n+z²α

2



+1 2





z²^α

2

n+z²α 2



±

v u u u u t

"

p(1b −p)_b n

#







n²z²^α

2

n+z²^α

2





+1 4







z⁴^α

2

n+z²^α

2







Esta aproximaci´on funciona mejor que el intervalo de Wald para valores peque˜nos de n.

Estimación numérica de la función de verosimilitud

EnRse pueden calcular de manera num´erica los estimadores de m´axima verosimilitud.

Por ejemplo:

# F u n c i o n de v e r o s i m i l i t u d de una b i n o m i a l

# Se d e f i n e la f u n c i o n de v e r o s i m i l i t u d p a r a una m u e s t r a de

# una b i n o m i a l con N =10 Y =7 e x i t o s

(9)

l k l h d = f u n c t i o n( p ){ d b i n o m(7 ,10 , p ) }

# G r a f i c a de la f u n c i o n de v e r o s i m i l i t u d p l o t( lklhd , 0 , 1 , x l a b = " p_i " , y l a b = " l ( p ) " ,

m a i n = " V e r o s i m i l i t u d de una B i n o m i a l , N =10 , Y =7 " )

# E s t i m a d o r de m a x i m a v e r o s i m i l t u d o p t i m i z e( lklhd , c (0 ,1) , m a x i m u m = T R U E )

$ m a x i m u m [1] 0 . 6 9 9 9 8 4 3

$ o b j e c t i v e [1] 0 . 2 6 6 8 2 7 9

Los intervalos de confianza exactos, o intervalos de Clopper-Pearson, se basan en el cálculo mediante la función de distribución de la distribución binomial, no en aproxima- ciones mediante la normal. Sin embargo, no son exactos en el sentido de que la función de distribución binomial es discontinua en s´ı, lo que impide en la realidad el cálculo exacto de los intervalos de confianza fijados en un (1−α).

(10)

Estos intervalos son conservadores, es decir, suelen ser mayores que los calculados según los métodos asintóticos.

Test de hip´ otesis usando el m´ etodo de la raz´ on de verosimilitudes

En el método de la razón de verosimilitudes se compara la verosimilitud (plausibilidad) de los datos observados usando la proporción especificada bajo la hipótesis nula, respecto a la verosimilitud de los datos observados usando la estimación muestral.

La verosimilitud obtenida bajo la hip´otesis nula se denota medianteL₀ y la verosimilitud obtenida usando el estimador muestral se denota como L₁.

El cociente L0/L1 representa la razón de verosimilitudes. Si L1 (la verosimilitud obtenida a partir de los datos observados) es mucho mayor que L₀ (la verosimilitud bajo la hipótesis nula H₀) la razón de verosimilitudes será pequeña e indicará que los datos muestran evidencias en contra de la hipótesis nula.

El test de la razón de verosimilitudes se obtiene tomando el logaritmo (log) de la razón de verosimilitudes y multiplicándolo por –2. En concreto,

G² =−2 log

L0

L₁

=−2 [log (L₀)−log (L₁)].

Un valor alto de G² (más positivo) indica una mayor evidencia en contra de H₀. Bajo la hipótesis nula y para una muestra razonablemente grande, G² sigue una distribución χ² con los grados de libertad igual al número de parámetros libres que existen bajo la hipótesis nula. En el caso del problema de las proporciones es igual a 1.

Ejemplo

Se tiene una muestra de 2818 personas de modo que el 34 % bebe la cantidad diaria de agua recomendada en general (1.5 litros). El intervalo de confianza aproximado del 95 % para la proporci´on de toda la poblaci´on es

0,34±

s0,34·0,66

2818 = 0,34±0,017 = (0,323,0,357).

El intervalo de Wilson correspondiente es

(11)

pb





n n+z²^α

s



+1 2





z²^α

s

n+z²^α

s



±

v u u u u t

"

p(1b −p)b

n

#







n²z²^α

s

n+z²α s

2





+ 1 4







z⁴^α

s

n+z²α s

2





=

0,34· 2818 2818 + 1,96²

!

+1 2

1,96² 2818 + 1,96²

!

±

v u u t

0,34·0,66

2818 · 2818²·1,96² (2818 + 1,96²)²

!

+1

4 · 1,96⁴ (2818 + 1,96²)²

!

= (0,32274,0,35770) Ejemplo

Se puede usar R para calcular intervalos de confianza para el par´ametro p de la binomial. Supongamos un ensayo con 50 observaciones, entre los que se encuentran 46 ´exitos.

Se trata de calcular los intervalos de confianza.

# x =46 e x i t o s

# n =50 o b s e r v a c i o n e s

p r o p . t e s t ( x =46 , n =50 , c o n f . l e v e l =0 .95 , c o r r e c t = F )

1 - s a m p l e p r o p o r t i o n s t e s t w i t h o u t c o n t i n u i t y c o r r e c t i o n

d a t a : 46 out of 50 , n u l l p r o b a b i l i t y 0 .5 X - s q u a r e d = 35 .28 , df = 1 , p - v a l u e = 2 .855e -09 a l t e r n a t i v e h y p o t h e s i s : t r u e p is not e q u a l to 0 .5 95 p e r c e n t c o n f i d e n c e i n t e r v a l :

0 . 8 1 1 6 1 7 5 0 . 9 6 8 4 5 0 5 s a m p l e e s t i m a t e s :

p 0 .92

# A l t e r n a t i v a l i b r a r y( H m i s c )

b i n c o n f (46 , 50 , m e t h o d = " all " )

P o i n t E s t L o w e r U p p e r E x a c t 0 .92 0 . 8 0 7 6 5 7 2 0 . 9 7 7 7 7 2 0 W i l s o n 0 .92 0 . 8 1 1 6 1 7 5 0 . 9 6 8 4 5 0 5 A s y m p t o t i c 0 .92 0 . 8 4 4 8 0 2 7 0 . 9 9 5 1 9 7 3

(12)

Ejemplo

Supongamos que se plantea un cuestionario y se toma una muestra aletoria de un grupo de estudiantes donde se pregunta si son vegetarianos o no. De entre n = 25 estudiantes, no hay ninguno que dice ser vegetariano.

Se trata de calcular los intervalos de confianza al 95 % para el par´ametro p de la binomial.

l k l h d = f u n c t i o n( p ){ d b i n o m(0 ,25 , p ) }

# G r a f i c a de la f u n c i o n de v e r o s i m i l i t u d p l o t( lklhd , 0 , 1 , x l a b = " p_i " , y l a b = " l ( p ) " ,

m a i n = " V e r o s i m i l i t u d de una B i n o m i a l , N =25 , Y =0 " )

Se obtiene que

# E s t i m a d o r de m a x i m a v e r o s i m i l i t u d m e d i a n t e o p t i m i z e( lklhd , c (0 ,1) , m a x i m u m = T R U E )

(13)

$ m a x i m u m

[1] 6 . 6 1 0 6 9 6 e -05

$ o b j e c t i v e [1] 0 . 9 9 8 3 4 8 6

res = p r o p . t e s t ( x =0 , n =25 , c o n f . l e v e l =0 .95 , c o r r e c t = F ) res$c o n f . i n t

[1] 0 . 0 0 0 0 0 0 0 0 . 1 3 3 1 9 2 3 a t t r ( , " c o n f . l e v e l " ) [1] 0 .95

Inferencia para la distribuci´ on multinomial

Los par´ametros que se tienen que estimar son (π₁, . . . , π_c) dondeπ_c = 1−^P^c−1_i=1π_i. Se obtiene que los estimadores por m´axima verosimilitud son

πc_j = n_j n para j = 1, . . . c.

Es decir, los estimadores son simplemente las proporciones muestrales de cada categor´ıa.

Contraste para la distribuci´on de una multinomial

En 1900 Karl Pearson presentó una prueba de hipótesis que fue uno de los primeros métodos de inferencia que se inventaron y tuvo un gran impacto en el análisis de datos categóricos, que hasta ese momento se hab´ıa centrado en la descripción de las asociaciones entre variables.

La prueba de Pearson eval´ua si los par´ametros de una multinomial son iguales a unos valores previos especificados.

Se considera como hip´otesis nula H₀ :π_j =π_j0

para j = 1, . . . , cdonde ^P_jπ_j0 = 1.

Cuando la hip´otesis nula es cierta, entonces (para j = 1, . . . , c) los valores esperados den_j o frecuencias esperadas son iguales a nπ_j0.

(14)

Se define el siguiente estad´ıstico:

X² =^X

j

(n_j −nπ_j0)² nπj0

.

Intuitivamente, diferencias elevadas entre lo que se espera seg´un H₀ y lo observado implica a su vez valores grandes deX².

Para un el tama˜no muestral no peque˜no, X² se distribuye como una chi cuadrado χ² con c−1 grados de libertad.

El test es muy sensible a los tamaños muestrales. Si alguna categor´ıa tiene una frecuencia esperada baja (menor que 5) el test pierde mucha potencia ya que se basa en la aproximación asintótica a la distribuciónχ².

Ejemplo

El test de Pearson se usó en Genética para contrastar las teor´ıas de Mendel sobre la herencia. Mendel cruzó guisantes amarillos puros con guisantes verdes puros. Su predicción era que 3/4 ten´ıan que ser amarillos y 1/4 verdes.

En un experimento se obtuvo n = 8023 guisantes, de los cuales n₁ = 6022 fueron amarillos y n₂ = 2001 verdes.

Las frecuencias esperadas son, entonces,

H₀ : π_A = 8023·0,75 π_V = 8023·0,25 De modo que

X² = (6022−8023·0,75)²

8023·0,75 + (2001−8023·0,25)²

8023·0,25 = 1,59×10⁻²

# Con R

p c h i s q(0 .015 , 1 , l o w e r . t a i l = F A L S E )

[1] 0 . 9 0 2 5 2 3 3

Es decir, comparando con una distribuci´on χ² con 1 grado de libertad, se obtiene un p-valor igual a 0.90.

(15)

Alternativamente con el comando chisq.test se obtiene

c h i s q . t e s t ( x = c (6022 , 2001) , p = c ( .75 , .25 ))

Chi - s q u a r e d t e s t for g i v e n p r o b a b i l i t i e s

d a t a : c (6022 , 2 0 0 1 )

X - s q u a r e d = 0 .015 , df = 1 , p - v a l u e = 0 . 9 0 2 5

Pero Fisher (y otros) sospech´o que Mendel tuvo demasiada suerte en su experimenta- ci´on...

Fisher coment´o textualmente:

El nivel general de acuerdo entre las expectativas de Mendel y sus resultados obtenidos muestra que está más cerca de lo esperado en el mejor caso de varios miles de repeti- ciones... No tengo duda de que Mendel fue engañado por un asistente de jardiner´ıa, que sab´ıa muy bien lo que su jefe esperaba en cada ensayo.

Con SAS se usa el siguiente programa:

O P T I O N S ls =70 n o d a t e ; / * P a r a S A S U n i v e r s i t y * /

ODS rtf f i l e = ’ / f o l d e r s / m y f o l d e r s / r e s u l t a d o . rtf ’ s t y l e = m i n i m a l s t a r t p a g e = no ;

D A T A m e n d e l ;

I N P U T g u i s a n t e $ r e c u e n t o ; D A T A L I N E S;

a m a r i l l o s 6 0 2 2 v e r d e s 2 0 0 1

;

P R O C f r e q o r d e r = d a t a ; w e i g h t r e c u e n t o ;

t a b l e s g u i s a n t e / b i n o m i a l ( p = 0 . 7 5 ) a l p h a = 0 . 0 5 ; e x a c t b i n o m i a l ;

RUN;

ODS rtf c l o s e ;

Se obtiene el siguiente resultado:

(16)

Ejemplo

El departamento de instrucción pública de Wisconsin usa cuatro categor´ıas para medir las habilidades matemáticas: advanced, proficient,basic y minimal.

Se considera una muestra de 71709 estudiantes de 10^o grado en 2006 y se supone que las proporciones se mantienen en los mismos niveles que en a˜nos anteriores. Los datos se recogen en la siguiente tabla:

Nivel matem´aticas Proporci´on esperada Frecuencia esperada Frecuencia observada

Advanced 15 % 10756.35 18644

Proficient 40 % 28683.60 32269

Basic 30 % 21512.70 10039

Minimal 15 % 10756.35 10757

Con R se usa el comando chisq.test.

(17)

c h i s q . t e s t ( x = c (18644 , 32269 , 10039 , 10757) , p = c (0 .15 , 0 .40 , 0 .30 , 0 .15 ))

Chi - s q u a r e d t e s t for g i v e n p r o b a b i l i t i e s

d a t a : c (18644 , 32269 , 10039 , 1 0 7 5 7 )

X - s q u a r e d = 12352 , df = 3 , p - v a l u e < 2 .2e -16

Con SAS se usar´ıa el siguiente programa:

O P T I O N S ls =70 n o d a t e ; / * P a r a S A S U n i v e r s i t y * /

ODS rtf f i l e = ’ / f o l d e r s / m y f o l d e r s / r e s u l t a d o . rtf ’ s t y l e = m i n i m a l s t a r t p a g e = no ;

D A T A W i s c o n s i n ;

I N P U T n i v e l e s $ r e c u e n t o ; D A T A L I N E S;

a d v a n c e d 1 8 6 4 4 p r o f i c i e n t 3 2 2 6 9 b a s i c 1 0 0 3 9

m i n i m a l 1 0 7 5 7

;

P R O C f r e q o r d e r = d a t a ; w e i g h t r e c u e n t o ;

t a b l e s n i v e l e s / t e s t p = ( 0 . 1 5 0 . 4 0 0 . 3 0 0 . 1 5 ) ; RUN;

ODS rtf c l o s e ;

(18)