6 Introducción a la Estadística
6.2 Matriz de datos
En Sociología y según el Paradigma Cuantitativo, una de las técnicas de investigación más utilizada es la Encuesta y el principal instrumento de obtención de datos es el Cuestionario en sus diferentes modalidades. El trabajo de campo consiste básicamente en aplicar el cuestionario a las unidades de observación, (Manzano, 1996; Alvira, 2004; García Ferrando, 2005: 167-202). A partir de los cuestionarios recogidos en campo y que se han rellenado con la información facilitada por los objetos o unidades de observación, se procede a crear la Matriz de Datos (Tabla 14) sobre la que posteriormente se aplicarán los procedimientos estadísticos y gráficos, a través de un programa estadístico.
Tabla 14 Matriz de datos.
La matriz de datos es una matriz rectangular de dos dimensiones de casos por variables. Los casos definen las filas de la matriz y equivalen a las unidades de observación u objetos y cada una de las filas es un cuestionario de los que se recogió anteriormente (más adelante se tratan las matrices de más de dos dimensiones). Las columnas están definidas por las variables que se obtienen por la implementación u operacionalización de las preguntas, en una relación de uno-a-uno (a una pregunta le corresponde una variable) o de uno-a-muchos(a una pregunta le corresponde más de una variable). La cuadrícula o casilla que se define por el cruce de cada caso con cada variable se denomina celda. Cada celda contiene un valor, característica o atributo de la unidad de observación, que se denomina dato, y genéricamente, el dato se considera de dos tipos: válidoyno válido.
Una variable toma un valor válido, cuando se corresponde con uno de los sucesos elementales de su espacio muestral. El no válido, es cualquier otro valor no contemplado en el espacio muestral de la variable. Son ejemplos de valores no válidos el no contestar o la respuesta “Ns/Nc” (No sabe/No contesta).
Una columna o variable es el conjunto de datos que se tiene para todos los casos, y deben ser de la misma unidad de medida y de la misma característica.52 De todos los datos de una variable, al menos uno, debe tener un valor distinto a los demás, porque si no, se denomina constante. Una fila es el conjunto de datos que se tiene para cada caso en todas las variables. Los valores de los datos serán del tipo y unidad de medida de la variable correspondiente.
Una variable (Ver Epígrafe 6.1) “es la característica medida u observada cuando se realiza un experimento o una observación. Las variables pueden ser no-numéricas
52 Si la variabl es el peso de las unidades de observación, la variable “peso” debe contener el peso de todas las unidades de observación y en la misma unidad de medida: kg, g, etc. No se puede, por ejemplo, grabar la estatura o el salario en la variable “peso”.
(categóricas) o numéricas. Desde una observación no-numérica siempre puede codificarse numéricamente, por lo que una variable, normalmente, siempre es numérica”53 (ver nota 3).
Los distintos valores, atributos o categorías de una variable constituyen su espacio muestral y los denominaremos sucesos elementales del espacio muestral de la variable. El espacio muestral es “el conjunto de todos los resultados posibles de un experimento u observación. El concepto se introdujo por von Mises en 1931”54 (ver nota 3). El espacio muestral se representa con las letras: :, S o E, y los posibles eventos o sucesos elementales por letras minúsculas (s1, s2, s3, ... sn) (Ver Epígrafe 6.1).
Ejemplo 1:
El espacio muestral de tirar un dado de seis caras tiene seis elementos o sucesos elementales: E = (s1, s2, s3, s4, s5, s6)
De tal manera que el s1 = 1; el s2 = 2; s3 = 3; s4 = 4; s5 = 5, y s6 = 6. Así que el espacio muestral de tirar un dado
es:
E = (1, 2, 3, 4, 5, 6)
Los si de este E se consideran exhaustivos y excluyentes. Exhaustivos porque son todos los resultados posibles
y son conocidos y excluyentes porque en cada ocasión sólo se puede obtener uno de los resultados posibles.
Ejemplo 2:
El E de género en cuanto a sexo tendrá dos elementos: E = (s1, s2)
De tal manera que el s1 = Varón y el s2 = Mujer. Así que el E de sexo es:
E = (Varón, Mujer)
Los si de este E se consideran exhaustivos y excluyentes. Exhaustivos porque son todos los resultados posibles
y son conocidos, y excluyentes porque en cada ocasión sólo se puede obtener uno de los resultados posibles.
Ejemplo 3:
El E de Estado Civil, se puede considerar que tiene 6 elementos: E = (s1, s2, s3, s4, s5, s6)
De tal manera que el s1 = Soltero; el s2 = Casado; s3 = Pareja; s4 = Separado; s5 = Divorciado, y s6 = Viudo. Así
que el E de estado civil es:
E = (Soltero, Casado, Pareja, Separado, Divorciado, Viudo)
Los si de este E se consideran exhaustivos y excluyentes. Exhaustivos porque son todos los resultados posibles
y son conocidos y excluyentes porque en cada ocasión sólo se puede obtener uno de los resultados posibles.
53 "variable" A Dictionary of Statistics. Graham Upton and Ian Cook. Oxford University Press, 2006. Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 17 July 2008 http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t106.e1703.
54 "sample space" A Dictionary of Statistics. Graham Upton and Ian Cook. Oxford University Press, 2006. Oxford Reference Online. Oxford University Press. Universidad Complutense de Madrid. 17 July 2008 http://www.oxfordreference.com/views/ENTRY.html?subview=Main&entry=t106.e1433.
6.2.1 La codificación
Se denomina codificación, a la asignación de valores o códigos numéricos a las categorías, características o atributos de las variables categóricas (nominales y ordinales) y a las escalares o de intervalo. Esta asignación como no tiene ningún significado, es arbitraria y aleatoria. En las variables ordinales que indican orden, y en las escalares que indican orden y distancia, una vez establecido el origen, los códigos deben mantener un orden y en las escalares, además, distancia.
Ejemplo 1:
La variable “sexo” tiene dos características o atributos: Varón y Mujer. La asignación de códigos puede ser: Varón = 1; Mujer = 2.
Ejemplo 2:
La variable “estado civil” tiene seis características o atributos: Soltero, Casado, Pareja, Separado, Divorciado y Viudo. La asignación de códigos puede ser: Soltero = 1, Casado = 2, Pareja = 3, Separado = 4, Divorciado = 5 y Viudo = 6.
Al grabar o escribir en la matriz de datos, los datos que se ponen en cada celda son las características, atributos o valores de las variables que se corresponden con las respuestas a las preguntas. Con la codificación, todos los datos son estrictamente valores numéricos o códigos.
En la Tabla 15 se presenta un modelo de cuestionario, aplicado a un grupo de jóvenes, que servirá de ejemplo para la aplicación de los estadísticos posteriores. Este grupo se utiliza a modo de ejemplo y no tiene ninguna representatividad.
Tabla 15 Cuestionario.
La Tabla 16 es la grabación de las respuestas a las preguntas del cuestionario, en las variables correspondientes y codificadas.
Tabla 16 Matriz de datos codificada. id p1 p2 p3 P4_1 p4_2 p4_3 p5 p6 p7 id p1 p2 p3 p4_1 p4_2 p4_3 p5 p6 p7 1 1 1 1 63 1,63 21 7 7 9 50 2 2 3 55 1,74 27 8 6 10 2 1 1 1 63 1,63 21 7 7 9 51 2 1 3 67 1,7 20 5 5 9 3 1 1 1 68 1,75 23 8 5 9 52 1 1 3 77 1,87 19 7 3 8 4 1 1 1 80 1,75 19 7 4 7 53 1 1 3 77 1,87 19 7 3 8 5 1 1 3 73 1,82 24 8 4 9 54 2 1 2 52 1,67 19 8 3 8 6 1 1 3 73 1,82 24 8 4 9 55 1 1 3 78 1,85 21 8 3 10 7 2 1 3 45 1,6 19 5 0 5 56 2 3 3 50 1,67 20 7 5 10 8 2 1 . 60 1,6 20 7 3 8 57 1 1 3 66 1,78 18 5 4 6 9 2 1 . 60 1,72 22 7 5 10 58 1 1 . 65 1,73 19 0 5 6 10 2 1 3 55 1,63 18 9 5 10 59 2 3 3 58 1,63 21 2 1 6 11 1 6 1 85 1,85 20 10 3 9 60 2 1 3 70 1,68 21 7 3 8 12 1 6 1 75 1,75 19 5 5 5 61 1 3 1 70 1,6 20 9 1 9 13 1 6 1 75 1,75 19 5 5 5 62 2 1 2 65 1,77 18 7 5 9 14 2 3 2 53 1,66 18 3 1 99 63 2 1 3 73 1,71 26 8 7 9 15 2 1 2 . . . 5 3 6 64 2 1 3 58 1,75 19 8 10 7 16 2 1 1 52 1,66 17 8 6 9 65 2 1 3 75 1,58 18 6 6 8 17 2 2 3 55 1,74 27 8 6 10 66 1 1 3 76 1,9 28 10 5 2 18 2 1 3 67 1,7 20 5 5 9 67 1 1 1 63 1,63 21 7 7 9 19 1 1 3 77 1,87 19 7 3 8 68 2 1 1 52 1,63 25 9 6 9 20 1 1 3 77 1,87 19 7 3 8 69 1 1 1 68 1,75 23 8 5 9 21 2 1 2 52 1,67 19 8 3 8 70 1 1 1 80 1,75 19 7 4 7 22 1 1 3 78 1,85 21 8 3 10 71 1 1 3 73 1,82 24 8 4 9 23 1 1 3 78 1,85 21 8 3 10 72 2 1 1 55 1,6 24 8 6 9 24 1 1 3 66 1,78 18 5 4 6 73 2 1 3 45 1,6 19 5 0 5 25 1 1 . 65 1,73 19 0 5 6 74 2 1 . 60 1,6 20 7 3 8 26 1 1 . 65 1,73 19 0 5 6 75 2 1 . 60 1,72 22 7 5 10 27 2 1 3 70 1,68 21 7 3 8 76 2 1 3 55 1,63 18 9 5 10 28 1 3 1 70 1,6 20 9 1 9 77 1 6 1 85 1,85 20 10 3 9 29 1 3 1 70 1,6 20 9 1 9 78 1 6 1 75 1,75 19 5 5 5 30 2 1 3 73 1,71 26 8 7 9 79 2 1 3 58 1,63 19 6 7 5 31 2 1 3 58 1,75 19 8 10 7 80 2 3 2 53 1,66 18 3 1 99 32 2 1 3 75 1,58 18 6 6 8 81 2 1 2 . . . 5 3 6 33 1 1 3 76 1,9 28 10 5 2 82 2 1 1 52 1,66 17 8 6 9 34 1 1 1 63 1,63 21 7 7 9 83 2 2 3 55 1,74 27 8 6 10 35 1 1 1 63 1,63 21 7 7 9 84 1 1 3 66 1,78 18 5 4 6 36 1 1 1 68 1,75 23 8 5 9 85 1 1 3 77 1,87 19 7 3 8 37 1 1 1 80 1,75 19 7 4 7 86 2 1 3 . 1,65 20 6 3 8 38 1 1 3 73 1,82 24 8 4 9 87 2 1 2 52 1,67 19 8 3 8 39 2 1 1 55 1,6 24 8 6 9 88 1 1 3 78 1,85 21 8 3 10 40 2 1 3 45 1,6 19 5 0 5 89 2 3 3 50 1,67 20 7 5 10 41 2 1 . 60 1,6 20 7 3 8 90 1 1 3 66 1,78 18 5 4 6 42 2 1 . 60 1,72 22 7 5 10 91 1 1 . 65 1,73 19 0 5 6 43 2 1 3 55 1,63 18 9 5 10 92 1 3 1 70 1,6 20 9 1 9 44 1 6 1 85 1,85 20 10 3 9 93 2 1 3 70 1,68 21 7 3 8 45 1 6 1 75 1,75 19 5 5 5 94 1 3 1 70 1,6 20 9 1 9 46 1 6 1 75 1,75 19 5 5 5 95 1 1 3 76 1,9 28 10 5 2 47 2 3 2 53 1,66 18 3 1 99 96 2 1 3 73 1,71 26 8 7 9 48 2 1 2 . . . 5 3 6 97 2 1 3 58 1,75 19 8 10 7 49 2 1 1 52 1,66 17 8 6 9 98 2 1 3 75 1,58 18 6 6 8 99 1 1 3 76 1,9 28 10 5 2
En la Tabla 17 se muestra como ejemplo la grabación de los cuestionarios: 1, 7 y 18 sin codificar.
Tabla 17 Matriz de datos sin codificar (tres casos).
id p1 p2 p3 p4_1 p4_2 p4_3 p5 p6 p7
1 Varón Soltero Cultural 63 1,63 21 7 7 9
7 Mujer Soltera Recreativo 45 1,6 19 5 0 5
18 Mujer Soltera Recreativo 67 1,7 20 5 5 9
Las características o atributos de las variables categóricas (nominal y ordinal), generalmente, son datos de tipo “texto” y su grabación presenta diferencias respecto de las variables numéricas (escalas y razón). Para que todas las variables sean numéricas, es necesario aplicar la codificación, que consiste en asignar códigos o valores numéricos a las características o atributos de las variables categóricas de forma aleatoria y arbitraria, sin ningún significado. Entonces la codificación de la variable “sexo” podría ser: Varón = 12,36 y
Mujer: = 14,58. Aunque esta asignación puede ser válida, no cumple algunas de las reglas de la codificación. Para cumplir las reglas y de forma razonable, ya que es aleatorio y arbitrario, se codifica: Varón = 1 y Mujer = 2 ó Varón = 0 y Mujer = 1 ó Varón = 1 y Mujer = 3 ó Varón = 2 y Mujer = 4.
Las reglas que presenta la codificación son en parte obligatorias y en parte convencionales por opcionales, pero se van a tratar todas como obligatorias. Estas reglas se muestran en la Tabla 18.
Tabla 18 Reglas de la codificación. x Evitan algunos errores.
Explicación:
Los atributos o características se pueden escribir de diferentes maneras: con mayúsculas, minúsculas, ambas, con acentos, sin acentos, etc. Así que sería diferentes tipos de “varón” los siguientes.
Varon z varon z Varón z varón z VARON z VARÓN.
Si se codifica con un valor, por ejemplo el 1, éste sólo puede ser escrito de una manera. x Ahorran tiempo en la grabación.
Explicación:
Esta regla se deriva de la anterior, ya que se tarda menos en escribir 1 que en poner Varón. El 1 tiene una única pulsación, mientras que Varón tiene 6 pulsaciones. En un celda el tiempo es imperceptible, pero si consideramos que en Sociología las matrices de datos pueden tener millones de casos y miles de variables, puede suponer muchas horas de trabajo/persona. Los lectores pueden hacer un cálculo de ejemplo con un millón de casos.
x Ahorran espacio en el soporte magnético. Explicación:
El sistema binario de almacenamiento de la información en un ordenador precisa para cada carácter un “byte”, pero con ese mismo “byte” se pueden representar hasta 256 valores distintos (255 más el 0).
La categoría Varón ocuparía 5 “byte”, mientras que el código 1 ocuparía 1 “byte”. Sugerimos a los lectores que realicen el mismo cálculo de antes para comprobar la diferencia de espacio requerido para el almacenamiento de un millón de casos.
NOTA: es diferente el número 1 que el carácter “1”, de la misma manera que es diferente el código o número 255 que los caracteres “255”. El número 1 ocupa un “byte” el carácter “1” ocupa un “byte”. El número 255 ocupa 1 “byte” pero los caracteres “255” ocupan 3 “byte”.
x Ahorran tiempo de proceso. Explicación:
El procesador de un ordenador procesa más deprisa la información numérica que la información de caracteres. El programa estadístico (realmente es el microprocesador del ordenador) trata matemáticamente los valores numéricos, pero los caracteres tienen un proceso distinto y más elaborado que supone más tiempo.
x Algunos procedimientos estadísticos precisan que las variables categóricas estén codificadas con números enteros y más concretamente naturales.
Explicación:
Los procedimientos de SPSS: T-test, Análisis de Varianza, Regresión binomial, regresión polinomial, tienen este requerimiento, y no es probable ni deseable que cambie en versiones futuras.