DISTRIBUCIONES CONJUNTAS DE VARIABLES: TABLA DE CONTINGENCIA [BORRADOR]

Texto completo

(1)

ESTADÍSTICA SOCIAL, 2006-2007

Profesor: José Saturnino Martínez García, versión 18/01/2007. http://webpages.ull.es/users/josamaga/

[Estas notas complementan al tema 7, y al primer apartado del tema 24 del manual de Peña y Ro-mo]

DISTRIBUCIONES CONJUNTAS DE VARIABLES: TABLA DE

CONTINGENCIA [BORRADOR]

Una distribución conjunta de dos variables es una presentación de los valores de cada una en filas y columnas, colocando en cada casilla el número de casos que cumple con ambos valores. Cuando las variables son cualitativas o/y ordinales, pero con pocos valores, se denominan tablas de con-tingencia. Las tablas de contingencia son una herramienta fundamental de la investigación social. Quizá la más relevante en la investigación cuantitativa de los sociólogos. Esto se debe a que son muy útiles para el análisis de la relación entre variables cualitativas, que son las más habituales en la sociología.

Variable, valor y distribución conjunta de frecuencias

Básicamente, una tabla de contingencia es la representación de las frecuencias conjuntas entre dos o más características que deseamos estudiar. Una frecuencia conjunta es el número de casos que cumplen un valor de cada una de las características, que llamamos variables. Por ejemplo, el sexo y la relación con la actividad económica. El sexo sería una variable con dos valores, varón y mu-jer, y la relación con la actividad económica sería otra variable, que puede tomar los valores de ocupado y parado. Si tuviésemos una población de 260 personas, se podrían repartir entre cuatro posibilidades: varón-ocupado, varón-parado, mujer-ocupado, mujer-parada. El número de perso-nas en cada una de estas combinaciones sería la frecuencia conjunta de las dos variables. Por ejemplo, podríamos tener 100 varones ocupados y 50 parados, y 60 mujeres ocupadas y 50 muje-res paradas. La información, expmuje-resada así, como está en la frase anterior, es más difícil de captar que si la presentamos en una tabla de contingencia, o de forma más general también llamada tabla de doble entrada (porque en este caso hay dos variables, si hubiese tres, tabla de triple entrada, y así, sucesivamente). A continuación presentamos esa tabla:

Tabla 1 Distribución conjunta de las frecuencias absolutas de dos variables

Sexo Relación con la

actividad Varón Mujer

Ocupado 100 60

Parado 50 50

Como vemos, en cada casilla está el número de casos que cumple con las modalidades (valores) de ambas variables. El primer cálculo que podemos hacer con estos datos es saber de cuántos va-rones y mujeres disponemos, realizar la misma operación para averiguar la cantidad de ocupados y parados. Para ello, basta con que añadamos una columna y una fila a la tabla, sumando las res-pectivas frecuencias. En la columna añadida, pondremos el total de ocupados, y en la fila añadida, el total de parados. En este punto, es importante que lector realice este ejercicio antes de seguir leyendo, es muy simple, pero aclarar esta cuestión ahora evitará confusiones futuras. Estas canti-dades las hemos añadido en los márgenes de la tabla original, por lo que se conocen como margi-nales de la tabla. Si ya ha realizado esta operación, puede ver cómo queda la tabla:

(2)

Tabla 2 Distribución conjunta de las frecuencias absolutas de dos variables y sus respectivos marginales

Sexo Total

Relación con la

actividad Varón Mujer

Ocupado 100 60 160

Parado 50 50 100

Total 150 110 260

Es importante, ahora que todo es muy sencillo, que nos fijemos en que hay dos variables en la tabla, una puesta en columnas, el sexo, y otra puesta en filas, la relación con la actividad. El mar-ginal del sexo (variable en columna) está en la última fila, mientras que el marmar-ginal de la relación con la actividad (variable en fila) está puesto en la última columna. Para calcular el total de ocu-pados, hemos sumado en el sentido de la fila, 100 varones ocupados más 60 mujeres ocupadas, y el resultado lo hemos puesto en la última columna. Por tanto, esta última columna es el marginal de la variable relación con la actividad, es decir, la columna del total es el marginal de la fila. Y viceversa, el marginal de la variable puesta en columnas, el sexo, se coloca en la última fila. [Por eso, es habitual cuando se empieza a estudiar las tablas de contingencia la siguiente confusión: considerar que el marginal de columna, es la última columna de la tabla, y el marginal de fila, la última fila de la tabla. Para no enredarse con este juego de palabras, tenemos que tener presente que el marginal recibe el nombre del sentido en el que se suma: si el marginal se halla sumando en filas, es marginal de filas, y viceversa. En este caso, el marginal de filas se halla sumando

100+60=160 y 50+50=100].

Destaquemos también que el marginal no es más que un sinónimo de una frecuencia univariante. Si decimos “marginal de columna” estamos diciendo “frecuencia de sexo” y si decimos “marginal de fila” estamos diciendo “frecuencia de relación con la actividad”. Es habitual entre quienes tra-bajan con tablas emplear la expresión de marginales para referirse a las frecuencias de una sola variable, por ejemplo, preguntar “¿cuál es el marginal de sexo?” para saber cuántos hombres y cuántas mujeres hay.

Ya hemos visto en qué consiste una distribución conjunta y un marginal. Otro concepto básico es el de dimensión de una tabla. La dimensión de una tabla es el número de valores de una variable multiplicado por el número de valores del resto de variables. En este caso tenemos dos variables, cada una de ellas con dos valores, por lo que la dimensión de la tabla es 2x2, cuyo resultado, 4, el número de casillas de la tabla. Es decir, dimensión de una tabla es igual a número de casillas de la tabla. Pero no se indica como el resultado del producto, 4, sino como la operación 2x2, puesto nos permite dejar claro que hay dos variables, la primera –la que se pone en filas- con dos valores y la segunda –en columnas- con dos valores.

Notación de las tablas

Ahora que ya estamos familiarizados con lo que es una distribución conjunta y el marginal de una tabla, podemos pasar a emplear una notación para referirnos a cada casilla. A los valores de la variable puestos en la fila los denotaremos como i y a los puestos en columnas como j, y a la fre-cuencia conjunta como nij . El ejercicio a realizar antes de seguir leyendo es el siguiente: nombrar

cada una de las casillas de la Tabla 1. Como en el caso de la explicación de los marginales, es importante realizar esta tarea para no caer en confusiones posteriores. El resultado, es el siguiente:

(3)

Tabla 3 Notación de una tabla de contingencia de 2 x 2

j=1 j=2

i=1 n11 n12

i=2 n21 n22

A continuación, realice el siguiente ejercicio: denotar cada casilla en una tabla de 3x2. Tras reali-zar este ejercicio, veamos aspectos adicionales de la notación. Al máximo de i lo denotamos como

I, y al máximo de j como J, de forma que en este ejemplo I=2 y J=2. Para referirnos a la dimen-sión de la tabla, lo podemos hacer como IxJ, en este caso sería de 2 (filas) x 2 (columnas) lo que da un total de 4 casillas de frecuencias conjuntas.

Ya hemos visto la notación para las frecuencias conjuntas, veamos ahora la notación para los marginales. Como ya vimos, los marginales se calculan sumando en el sentido en el que está la variable. En nuestro ejemplo, el sexo está en columnas, y por tanto corresponde con la letra j. Si deseamos calcular la cantidad total de varones (que se corresponde con j=1), en términos de nota-ción debemos sumar n11+n21, es decir, el subíndice i cambia, pero el subíndice j se mantiene igual (j=1). Para expresar este cambio de la i y esta constancia de la j diremos que el marginal es n·j, en este caso más en concreto n·1=n11+n21 . Como forma general, para calcular el marginal de cada casilla en columna, tendremos1:

Fórmula 0-1 Marginal de columna

= • = I i ij j n n 1

Si no está familiarizado con estas notaciones, recuerde que el · significa que estamos sumando las filas (i) en el sentido de las columna que estamos calculando (j)

Visto esto, es fácil imaginar cómo será la notación para el marginal de fila:

Fórmula 0-2 Marginal de fila

= • = J j ij i n n 1

Es decir, ahora el · indica que estamos sumando las columnas (j), para calcular el marginal en el sentido de la fila (i) que nos interesa. Si queremos mantener este patrón, el marginal total de la tabla, es decir, las suma de todas las frecuencias de las distribuciones conjuntas en cada casilla, será

Fórmula 0-3 Marginal total

= = • • = = J j ij I i n n N 1 1

Aunque lo más habitual es referirse al total de la tabla no como n··, sino como N o a veces como n

.Con esta notación, la notación final de una tabla de 2X2 sería

(4)

Tabla 4 Notación de una tabla de contingencia de 2 x 2 Columnas j=1 j=2 Marginales de fila i=1 n11 n12 n1· Filas i=2 n21 n21 n2·

Marginales de Columna n·1 n·2 Total=N=n··

Antes de seguir, el lector que no esté familiarizado con estas notaciones, pruebe a denotar por completo, incluyendo los marginales, una tabla de 2x3.

Recapitulando, en lo visto hasta ahora hemos presentado la notación para referirnos a la distribu-ción conjunta de dos variables, y referirnos en exclusiva a las frecuencias absolutas de cada casilla (en este caso, el número de personas). Pero la información normalmente no se presenta en estas frecuencias absolutas, es necesario recurrir a los porcentajes para poder comparar tanto poblacio-nes de distinto tamaño como las casillas de una misma tabla en la que los marginales son distintos. Lo habitual en ciencias sociales es que el resultado quede redondeado a un decimal, a ninguno (menos frecuente en el ámbito académico) o quizá hasta la centésima (en un prurito inútil de pre-cisión), pero no más.

Porcentaje calculado sobre el total de la tabla

Empecemos por los porcentajes sobre el total (también denominado frecuencia relativa conjunta), es decir, sobre toda la frecuencia de la tabla (n··, que también llamamos N). El procedimiento para

calcular cualquier tipo de porcentajes es sencillo: dividir la frecuencia de la casilla que nos inter-esa sobre el marginal que corresponda, y multiplicar por 100. En este caso, si deseamos calcular el porcentaje sobre el total, lo que habrá que hacer es dividir la frecuencia de cada casilla (nij) sobre

el total de la tabla. La fórmula, por tanto sería:

Fórmula 0-4 Porcentaje total

100 × = N n pijT ij

Como vemos, el cálculo es muy sencillo. Y la interpretación, en principio también. Veámoslo con los datos de la Tabla 2. Aplicando a cada casilla la Fórmula 0-4, resulta la siguiente tabla:

Tabla 5 Porcentaje total de la relación entre sexo y relación con al actividad

Sexo Total

Relación con la

actividad Varón Mujer

Ocupado 100/260*100=38,5% 60/260*100=23,1% 160/260*100=61,6%

Parado 50/260*100=19,2% 50/260*100=19,2% 100/260*100=39,4%

Total 150/260*100=57,7% 110/260*100=32,3% 260/260*100=100%

Por motivos didácticos, hemos presentado en cada casilla el procedimiento para calcular el por-centaje, y en negrita hemos marcado el resultado, que, obviamente, es el único dato que se presen-ta en este tipo de presen-tablas. Un aspecto muy imporpresen-tante que debemos despresen-tacar y que es válido para todas las tablas de porcentajes, es que siempre que se nos presente una, lo primero que debemos saber es cómo suman 100% los porcentajes de las casillas; sobre este aspecto insistiremos más adelante. Como vemos, el 100% se obtiene de sumar los porcentajes de las celdas 11, 12, 21 y 22

(según los subíndices que hemos visto con las frecuencias); pero también se obtiene al sumar cada marginal, es decir, el marginal de columna (·1+ ·2) y el marginal de fila (1·+2·).

(5)

cuando primero se compruebe cómo suman 100 las casillas de la tabla. En este caso el 100% es el total de la tabla, así que cada casilla se interpreta como “de toda la población objeto de estudio el porcentaje (que corresponda) está formado por las personas de esa casilla”. En este caso en con-creto, el 38,5% de la población objeto de estudio son varones ocupados (hay que resaltar: varones y ocupados, se cumplen las dos características simultáneamente). Podemos seguir con esta inter-pretación tan literal de la tabla, sin mucha mayor elaboración, diciendo que de toda la población estudiada, el 23,1% son mujeres ocupadas; de toda la población objeto de estudio, el 19,2% son varones parados, y de toda la población estudiada, el 19,2% son mujeres paradas. Así no hay duda de que se han interpretado correctamente los porcentajes, pero también que la redacción es tediosa y repetitiva, por lo que siempre conviene buscar una forma más elegante y concisa de comen-tar la información. En este caso, podría ser algo como “Para el conjunto de la población, hay más varones ocupados (38,5%) que mujeres ocupadas (23,1%), sin embargo la proporción de hombres y mujeres en paro es la misma (19,2%)”. Nótese que si hay más varones ocupados, pero la misma proporción de hombres y mujeres en el paro, la proporción de mujeres paradas en rela-ción con el total de mujeres (23,1% vs. 19,2) debe ser mayor que para el caso de los varones (38,5% vs. 19,2%). La cantidad total de hombres y mujeres es distinta (57,7% y 37,3%, respecti-vamente), por lo que sería mucho más fácil comparar el paro entre varones y mujeres si hubiese la misma cantidad de los dos grupos. Esto lo conseguimos con un nuevo tipo de porcentaje: el por-centaje columna.

Porcentaje calculado sobre el total de la columna

El porcentaje columna, también denominado porcentaje vertical (frecuencia condicionada), con-siste en calcular el porcentaje de una celda a partir del marginal de la columna que le corresponde, en vez del total de la tabla. Su fórmula sería:

Fórmula 0-5 Porcentaje columna (o vertical)

100 × = •j ij C ij n n p

Los cálculos en la tabla que estamos trabajando serán los siguientes:

Tabla 6 Porcentaje columna de la relación entre sexo y relación con al actividad

Sexo Total

Relación con la

actividad Varón Mujer

Ocupado 100/150*100=67,7% 60/110*100=54,5% 160/260*100=61,6%

Parado 50/150*100=33,3% 50/110*100=45,5% 100/260*100=39,4%

Total 150/150*100=100% 110/110*100=100% 260/260*100=100%

Se comprueba que al final de cada columna, el porcentaje suma 100%; nótese que en esta tabla mantenemos el marginal de fila, pero no el de columna, debido a que hemos igualado estos mar-ginales por el procedimiento de convertirlos en 100. Insistimos en que siempre se lee la tabla a partir del colectivo que suma 100, por lo que en este caso, diríamos que de todos los varones, el 67,7% están ocupados, y 33,3% parados, y de todas las mujeres, el 54,5% están ocupadas y el 45,5% están paradas. Expresado de forma más concisa, el paro entre los varones es del 33,3% y entre las mujeres del 45,5% (debido a que solo hay otra categoría, ya sabemos que el porcentaje que falta es de ocupados). Como vemos esta tabla nos permite comparar entre dos colectivos, en este caso varones y mujeres, de forma mucho más fácil que en la tabla de porcentajes totales, de-bido a que el “tamaño” de ambos colectivos es el mismo, el 100%.

(6)

Una cuestión importante, al estudiar la relación entre variables, normalmente contamos con hipó-tesis que nos dicen que una variable causa la otra, o al menos que una de las dos variables no pue-de ser causa pue-de la otra. En este caso, con la única información que presenta la tabla, no sabemos si el sexo es causa del diferencial de paro, pues hay otras características asociadas al sexo (nivel de estudios, experiencia laboral, cargas familiares, prejuicios sobre la productividad de cada sexo…); pero es muy difícil suponer que el sexo depende de la situación en el mercado de trabajo, es decir, no por ser parado u ocupado cambia el sexo de las personas. Para diferenciar esta relación entre las variables, llamamos a una independiente (o explicativa) y a la otra dependiente, (o explica-da). En este caso la independiente es el sexo, pues como hemos razonado hasta el absurdo, no depende de la situación laboral, y la dependiente es la situación laboral, que quizá no dependa del sexo, pero parece razonable suponer que alguna relación haya.

No siempre está claro cuál es la variable independiente y cuál la dependiente, es más, puede ocu-rrir que ninguna de los dos los sea. Por ejemplo, la homogamia educativa es un fenómeno bien documentado, es decir, las personas tienden a formar pareja con otras personas de nivel educativo igual o próximo, pero en una tabla en la que cruzásemos estas dos variables, no podríamos decir que el nivel educativo del marido es dependiente o independiente con relación al nivel educativo de la esposa. Normalmente la variable independiente se considera que o bien causa a la depen-diente, o bien que está muy relacionada con otras variables que así lo hacen. En nuestro ejemplo, se puede tener una teoría sobre discriminación laboral, y por tanto, no sería el sexo biológico el que lleva a mayores tasas de paro, sino que el sexo es una medida de cómo funciona la discrimi-nación laboral.

Por tanto, la tabla que nos informa sobre la posible relación de causalidad entre dos variables es aquella en que el porcentaje se calcula en el sentido de la variable independiente, es decir, a partir de sus marginales. Tal y como hemos presentado los datos, estos porcentajes serían los porcentaje columna, pero también podemos extraer otro tipo de información útil a partir de los porcentajes calculados en el sentido de la variable dependiente, que en nuestro ejemplo, está colocada en filas, por lo que obviamente, serán los porcentajes fila, que pasamos a estudiar.

Debe tenerse en cuenta que la relación de causalidad entre dos variables es un supuesto que es muy difícil de confirmar en la mayor parte de las ocasiones. Para suponer causalidad es necesario tener en cuenta que la variable que suponemos que es la causa (la independiente) antecede en el tiempo al efecto. Además ambas variables deben variar conjuntamente. Y también se necesita de alguna teoría que nos explique por qué dicha variable produce efectos sobre la otra variable. Esto se debe a que dos variables pueden variar conjuntamente, pero esta variación conjunta no se debe a una relación de causalidad entre ambas, sino a que ambas están relacionadas con una tercera, y normalmente necesitamos de una teoría que nos avise de estos posibles efectos.

En caso de que dos variables varíen conjuntamente, pero no estén relacionadas entre ellas, deci-mos que estadeci-mos ante una correlación espuria, pues apreciamos una variación conjunta entre variables que es aparente. Por ejemplo, se ha comprobado que en municipios en los que anidan más cigüeñas, la tasa de nacimientos es mayor. Pero esto no se debe a que las cigüeñas influyan en la natalidad, sino a que las cigüeñas anidan en municipios rurales y pequeños. Y en los munici-pios de estas características la natalidad es mayor que en las ciudades. Cuando se comparan muni-cipios del mismo tamaño (es decir, controlamos por el tamaño del municipio), la relación aparente desaparece. Otro tanto sucede con el tamaño del pié de los niños y sus resultados en pruebas ma-temáticas, que varían conjuntamente. Esto se debe no a que ambas variables estén relacionadas entre sí, sino a que están relacionadas con la edad del niño.

(7)

Porcentaje calculado sobre el total de la fila

Fórmula 0-6 Porcentajes calculados en el sentido de la fila

100 × = • i ij F ij n n p

Los cálculos, serán los siguientes:

Tabla 7 Porcentajes calculados en el sentido de la fila

Sexo Total

Relación con la

actividad Varón Mujer

Ocupado 100/260*100=40% 60/260*100=60% 100%

Parado 50/260*100=50% 50/260*100=50% 100%

Total 150/260*100=57,7% 110/260=32,3% 260/260*100=100%

La información que nos proporcionan los porcentajes calculados en el sentido de la fila, también denominados horizontales (o frecuencias condicionadas) se conocen como perfiles, en el sentido que nos indican cómo es el perfil que encontramos de cada colectivo que nos interesa explicar. Por ejemplo, si tenemos interés en estudiar el paro, en la Tabla 6 vemos en qué medida el paro es distinto para hombres y mujeres, y con ello podemos suponer que o bien hay una relación entre sexo y paro, o bien, hay una serie de características asociadas de forma diferente a hombres y mu-jeres, que a su vez influyen sobre el paro (como formación, experiencia laboral o gestión de las cargas familiares). Sin embargo, si queremos conocer cómo son los parados, tendremos que fijar-nos en la Tabla 7 (porcentajes fila), así vemos que la mitad de los pardos son hombres y la otra mitad mujeres. Para dar un contenido más intuitivo a esta diferencia entre porcentajes columna y porcentajes fila, podemos suponer a partir de estos datos, que, si vamos a una oficina del INEM, en la cola veremos a la misma proporción de hombres y mujeres (el perfil de los parados), pero de ello para nada podemos inferir que el sexo no está relacionado con el paro, pues en el conjunto de la población hay más hombres que mujeres económicamente activos; esta información es la que podemos establecer claramente a partir de la Tabla 6 (porcentajes columna), y de forma un poco más indirecta a partir de la Tabla 5 (porcentajes totales). La ventaja de la Tabla 6 es que gra-cias al cálculo de porcentajes a partir de los marginales de las categorías de la variable indepen-diente, simulamos disponer de la misma cantidad de hombres y mujeres (100), facilitando por tanto la comparación entre los dos grupos.

Los porcentajes calculados en el sentido de la variable dependiente, como es el caso del porcenta-je fila en nuestro eporcenta-jemplo, son de gran utilidad cuando el interés de la investigación consiste en conocer las características de un colectivo, siendo secundario averiguar a qué se deben estas ca-racterísticas específicas. En el caso que hemos puesto, supongamos que el interés de quien encar-ga el estudio es simplemente para saber la proporción de hombres y mujeres parados, para de esta forma saber qué servicios se van a emplear con más intensidad, si los masculinos o los femeninos. Otra situación en la que se aprecia este tipo de interés, es para definir audiencias de programas televisivos, para que los anunciantes conozcan mejor qué tipo de público ve el programa, y de esta forma orientar el tipo de publicidad que puede intercalarse en dicho programa. Supongamos por ejemplo, que la mayor parte del público que ve un programa es juvenil, aunque el programa guste más a las personas de mayor edad; el dato que interesa al anunciante es que si introduce un anun-cio en ese programa, lo verán mayoritariamente jóvenes.

Se puede resumir cómo interpretar los porcentajes de una tabla de contingencia para estudiar la relación entre variable independiente (posible causa) y dependiente (efecto) en unas pocas pala-bras, que se conocen como Regla de Zeisel:

(8)

Los porcentajes de una tabla de contingencia deben calcularse en el sentido de la variable in-dependiente y compararse en el sentido de la variable in-dependiente.

Resumen

Recapitulando, hemos visto que en una tabla de contingencia representamos la relación entre dos variables, de tipo nominal u ordinal con pocos valores (categorías). Informa de cuántos casos hay para cada posible combinación de valores de las variables. A partir de esta información, podemos saber cuántos casos tiene cada categoría de cada variable (su frecuencia), que llamamos margina-les; los marginales de la variable en columnas se colocan en la última fila de la tabla y los margi-nales de la variable en filas, se colocan en la última columna (también podría ser en la primera en cada caso, pero no es tan habitual). El marginal de una variable es, por tanto, su distribución de frecuencias univariada. Según los marginales que empleemos, a partir de las frecuencias conjuntas absolutas de una tabla de contingencia podemos calcular tres tipos de porcentajes:

-Total (o distribución conjunta relativa): dividimos la frecuencia de cada casilla entre el total de casos de todas las combinaciones entre las dos variables, y multiplicamos por cien. Este porcentaje nos proporciona información sobre el peso de cada categoría en el conjunto de la po-blación, pero dificulta la comparación entre categorías, debido a que los marginales son distintos para cada variable y para distintas tablas.

-Columna o vertical (o distribución condicionada a la variable en columna): dividimos la frecuencia de cada casilla por el marginal de su columna y multiplicamos por cien. Esto nos per-mite comparar las proporciones de cada fila.

-Fila u horizontal (o distribución condicionada a la variable en fila): dividimos la frecuen-cia de cada casilla por el marginal de su fila, para poder comparar las proporciones de cada co-lumna.

Los porcentajes que se calculan en el sentido de la variable independiente nos ayudan a explicar el fenómeno que estemos estudiando, mientras que los porcentajes calculados en el sentido de la variable dependiente nos ayudan a definir los perfiles de las categorías de las variables dependien-tes.

Figure

Actualización...

Referencias

Actualización...

Related subjects :