Estadistica Aplicada Con Spss

(1)

1

Los derechos de autor de la versión digital e impresa protegidos por ley. El uso de alguna parte de este libro debe anotar esta fuente

ESTADÍSTICA

APLICADA (I)

CON SPSS

(2)

2

REVISADO HASTA PÁGINA 27

Los derechos de autor sobre esta obra en sus versiones digital e impresa están protegidos por ley

(3)

3

PREFACIO

Éste es el Primer Módulo de “Estadística Aplicada” de tres que conforman el curso total. Está dirigido, principalmente, a los profesionales, estudiantes y hombres de negocios que necesiten un instrumento valioso aplicable en todas las áreas del conocimiento. En particular, a econo-mistas, administradores de empresas, psicólogos, sociólogos y, en general, a todas las personas que deseen contar con una disciplina expresada en una versión ágil y oportuna para recopilar, organizar, manipular e interpretar datos para convertirlos en información adecuada al proceso de tomar decisiones.

En los primeros capítulos de esta primera versión analizaremos algunos conceptos fundamenta-les en la estructura de la disciplina estadística, para ir consolidando el uso de los mismos a me-dida que ingresemos en etapas más avanzadas. Este primer módulo, que es el básico, consta de 13 capítulos, cada uno estructurado de una manera que resultará muy asequible a todos los participantes. El método es muy sencillo: en cada capítulo se explicará, con los detalles necesa-rios, el significado de los conceptos estadísticos correspondientes a ese capítulo, la manera de usarlo, su utilidad y su interpretación. Todo esto, con la ayuda del programa estadístico SPSS, siglas en inglés de su nombre completo: Scientific Program for Social Sciences, que es el más co-nocido y usado de todos los paquetes estadísticos modernos. Así, haremos algo que generalmen-te requiere dos cursos diferengeneralmen-tes: aprenderemos Estadística Aplicada, aprendiendo el SPSS. To-dos los pasos mostrarán la conexión unitaria entre el aprendizaje de la Estadística y el uso de los programas del SPSS para resolver cada tipo de problemas.

En la actualidad, las principales empresas terciarizan los trabajos de investigación de datos; pa-ra cumplir esa tarea, sólo necesitamos conocer la esencia de los conceptos estadísticos, opepa-rar el SPSS e interpretar sus resultados. Los otros módulos del curso completo, en sentido ascen-dente, son las siguientes: Estadística Intermedia, Estadística Media y Estadística Avanzada, las cuales se irán concatenando entre sí, a medida que los participantes lo requieran.

La Metodología

La parte teórica del curso ofrecerá los conceptos principales y desplegará algunos ejemplos muy sencillos para mostrar lo que hará la computadora por nosotros. Esto es, cuando le pidamos re-sultados sobre el análisis de datos reales. En virtud de que se trata de un curso de Estadística Aplicada orientado a resolver los problemas prácticos que se presentan todos los días, no habrá demostraciones matemáticas. Los cálculos y toda la operatividad serán realizados por el SPSS, cuyos programas sí han sido estructurados sobre la base de las fórmulas matemáticas requeri-das.

Por lo general, el aprendizaje de la estadística en los cursos universitarios se hace innecesaria-mente artificial y difícil, pues se asume que todos serán Estadísticos Teóricos. Las demostracio-nes teóricas de las fórmulas ocupan la mayor parte de los capítulos en los textos tradicionales y los participantes pierden el rumbo, confundiendo el concepto cualitativo con la el proceso de la demostración.

(4)

4

Este curso, en sus cuatro versiones, está diseñado para brindar al participante un instrumento ágil y operativo que le sirva para resolver problemas reales en entornos reales.

De ahí el nombre: Estadística Aplicada (I) con el SPSS

Los pasajes sobre la historia de la Estadística y los personajes vienen del estudio “Figures from

the History of Probability and Statistics”, John Aldrich, University of Southampton, Southampton, UK. También he acudido a otros sitios e Internet para hacer que el material de este curso sea

ameno y se complemente con datos de gran interés.

Por último, me gustaría referirme al modo expositivo que caracteriza el desarrollo del curso; he tratado de que sea conciso y claro.

He puesto especial énfasis en que nada esté por demás ni por de menos.

(5)

5

GRANDES ESTADÍSTICOS Y MATEMÁTICOS

EN LA HISTORIA

Blaise Pascal (1623-1662)

Fue un gran matemático como también afamado filósofo, educado por su padre el que, a su vez, también fue un notable matemático. La correspon-dencia espistolar con otro matemático de gran calibre, Fermat, dio lugar al tratamiento matemático las investigaciones sobre los índices de morta-lidad, muy útiles a las compañías de seguro de nuestra época. También dieron origen a los primeros análisis sobre las probabilidades aplicadas a los juegos de azar, algunos de cuyos resultados fueron dados a conocer en la obra póstuma de Pascal Tratado del triángulo aritmético que tiene aplicaciones de la teoría de las probabilidades, con las que argumentó el problema “la ruina del jugador”, obra que es considerada como pionera del análisis moderno sobre el proceso de tomar decisiones, aunque los aportes no están en sus trabajos matemáticos sino en su obra Pensamientos, que son reflexio-nes sobre la religión.

1 CONCEPTOS FUNDAMENTALES

Primer esbozo de la Historia de la Estadística

Los eruditos, esos señores que tienen la mitad del conocimiento en sus bibliotecas y la otra mi-tad en sus cerebros, dicen que la Esmi-tadística surgió como un instrumento de análisis en Egipto, por el celo de las autoridades en conocer la población, la cantidad de tierra disponible, los re-partos de esa tierra y la riqueza que poseían; pero, sobre todo, para obtener la información ne-cesaria al cálculo de los impuestos. Los chinos ya conocían sobre la técnica de levantar censos y los griegos no se quedaban atrás. Los romanos asimilaron el conocimiento anterior al que le sumaron sus propios descubrimientos en la tarea periódica de levantar censos, en los que se incluía datos sobre las cabezas de ganado, los recursos naturales, como también, los matrimo-nios, nacimientos y defunciones. La Edad Media no trajo nada nuevo, pero el Renacimiento sí, fue una época en la que se dio gran importancia a las técnicas de recopilar, ordenas e interpre-tar datos, que es la médula de la Estadística. En la primera mitad del siglo XVI, los alemanes hicieron una recopilación sobre los recursos naturales, la población y otros similares. Por aque-llas épocas había una creencia muy difundida en sentido de que en los años terminados en 7, el número de muertos era mucho mayor que en los demás. Gaspar Neumann, un científico de gran voluntad y conocimiento se dio a la tarea de revisar las partidas parroquiales para compa-rar el número de nacimientos y defunciones de decenas de años. Su investigación le permitió negar la fatídica sombra de los años terminados en 7.

Como sucede con todo descubrimiento útil a la ciencia, los métodos usados por Neumann se expandieron. Un astrónomo inglés los leyó con gran atención, los interpretó debidamente y los

(6)

6

enriqueció con sus propias e ideas. Todo eso le permitió que el actual cometa Halley llevara su nombre. Además, usó de los métodos estadísticos para sentar las bases que sustentan la es-tructura de lo que ahora se denominan “Tablas de Mortalidad”, médula espinal de las compa-ñías de seguros.

En Grecia, la primera referencia con relación a la futura disciplina estadística podría ser la que se incluye en el Libro II de Tucidides sobre la Guerra del Peloponeso entre espartanos y ate-nienses. En el texto se anota conceptos propios de lo que ahora llamamos Muestreo. El proble-ma, al parecer, fue el siguiente.

El ejército debe asaltar una muralla y los jefes militares han decidido que es preciso contar con una torre móvil que permita a los soldados tomar la ciudadela, minimizando el riesgo. La tarea exige conocer la altura de la muralla. En un despliegue de observación científica, los sabios de-ciden estimar la altura de la muralla para calcular la altura de la torre. Saben que la muralla está construida con ladrillos de dimensiones iguales; por ello, solicitan que se envíe una peque-ña partida de soldados para recopilar datos aproximados sobre la altura del bastión, contando, desde una prudente distancia, el número de ladrillos. Cumplida la misión, los soldados regresan para informar sobre sus observaciones.

Pero surge un inconveniente: cada soldado da una cifra distinta del número de ladrillos que cree haber contado y muy pocos de ellos coinciden entre sí. Para resolver el problema, los sabios de-ciden tomar como indicador los datos que más se repiten en la visión de los soldados; esto es, convienen en usar una medida de tendencia central, que será analizada en esta obra, a la que se denomina la Moda (No; nada que ver con Christian Dior)

Variable

Es una magnitud que varía pero que puede ser medida, manipulada o controlada. Suelen estar relacionadas con otras variables y cambiar en concordancia.

Desde esta óptica, las variables se clasifican en dependientes e independientes.

Una variable será considerada Dependiente, en el marco de un estudio concreto, si su magnitud cambia debido a los cambios de otra u otras variables.

Por ejemplo, el consumo es una variable que está relacionada al ingreso; si el ingreso aumenta, el consumo de un bien también aumentará

Aunque todavía no podemos saber en cuánto; más adelante lo sabremos.

Establecer en cuánto se modificará una variable dependiente como efecto del cambio de otra, es una de las más importantes fases de la Estadística.

Es decir, su capacidad de pronóstico.

En este caso, en la relación Ingreso-Consumo, el Ingreso sería la variable Independiente, pues cambia sin estar ligado al cambio de otra en el análisis concreto.

Los modelos de simulación sirven para diseñar experimentos manipulando las variables inde-pendientes y determinar la reacción de la variable dependiente.

(7)

7

Después de varios intentos, el diseñador lo aplicará a un estudio concreto de la realidad, estu-dio que es monitoreado por los responsables.

Tipos de variables

Las variables se dividen en tres grandes grupos: Cuantitativas, Categóricas y de Intervalo.

Variables cuantitativas

Las conocemos como variables numéricas; este tipo de variables son las más comunes en los estudios estadísticos, pues varían en su magnitud.

Variables categóricas

Son las variables cualitativas y se dividen, a su vez, en dos grandes ramas: las variables nomi-nales y las variables ordinomi-nales.

Variables Nominales

Son aquéllas que no pueden ser clasificadas ni en una magnitud cuantitativa ni en una magni-tud de jerarquía.

Por ejemplo, las categorías de género; varón, mujer, son variables de ese tipo.

Variables Ordinales

Las que aceptan una jerarquización de importancia.

El grado de Educación de las personas, por ejemplo, es una variable nominal, puesto que puede ser calificado de acuerdo a un orden, v.g, descendente.

Variables de intervalo

Nos permiten expandir el radio de las variables numéricas.

Ejemplo, el promedio del ingreso semanal de un grupo de estudiantes puede encontrarse entre $3 y 25, intervalo que a veces es más útil que el dato único que nos brinda la media.

Relación de las variables

Desde el punto de vista de la relación, hay tres clases de variables.

Variables dependientes

Lo dijimos ya, lo formalizamos ahora: son las que cambian debido a que otra variable o varia-bles han cambiado, de acuerdo con un tipo de relación dada entre ambas.

Variables Independientes

Las que cambian sin depender del cambio de otras o también se las considera independientes si pueden ser manipuladas para un ejercicio de simulación.

Una de las principales tareas del estadístico es determinar cuáles serán las variables indepen-dientes y cuáles las depenindepen-dientes en el análisis que debe realizar.

En otros capítulos veremos que una variable Y puede cambiar de magnitud si la variable X, cambia y, al mismo tiempo, ésta puede cambiar cuando cambia la primera

(8)

8

Variables neutras

Son las que no están relacionadas con ninguna otra.

Desde el punto de vista “espacial” las variables pueden ser

Variables Discretas

Las que entre dos valores aproximados entre sí, toman, a su vez, un número finito de valores; ejemplos: 4 personas, 5 asientos

Variables Continuas

Son las que en un intervalo dado pueden tomar un número de valores muy grande. Ejemplo, la hora, la temperatura, la distancia, la velocidad….

Hay dos requerimientos que la Estadística exige sobre la relación entre variables.

Primero, que obedezcan a una teoría pre establecida o a una hipótesis racional y lógica Por otra parte, que el grado de relación entre ellas sea suficientemente sólido.

Por ejemplo, puede suceder que los precios en España cambien en relación directa con los na-cimientos de niñas en Corea; esta aparente relación no es aceptable.

No lo es, puesto que no hay ninguna teoría científica que le otorgue su aval; en cambio la rela-ción entre el consumo y el ingreso es una relarela-ción que proviene de alguna teoría.

Una vez que aceptamos teóricamente la relación entre dos variables, nos toca establecer el gra-do en que ambas están relacionadas entre sí.

El valor “p”

Estima el grado en que la relación entre dos fenómenos es real y no se debe al azar. Cuantifica la probabilidad del error que cometemos al interpretar una relación. El Nivel de Significancia

La cuantificación de la probabilidad del error está directamente relacionada con el grado de con-fianza que deseamos asegurar en cada caso.

Por lo general aceptamos un error del 5% en el grado de relación de las variables. El valor p será el que determine si los resultados están o no dentro de ese margen.

El 5%, que escribimos como 0.05, nos hace saber que de 100 casos observados, corremos el riesgo de que tomemos por ciertos 5 casos que son errados.

El Nivel de Confianza

Es el complemento del Nivel de Significación.

Si el Nivel de Significación es del 5%, entonces el Nivel de Confianza será del 95%. El concepto del valor p se asentará a medida que lo vayamos usando.

Todos estos datos son computados por el SPSS. La Muestra

Más adelante formalizaremos la definición de lo que es una Muestra; mientras tanto, digamos que la Estadística se basa principalmente en los datos provenientes de muestras.

(9)

9

Las muestras son tomadas de lo que los estadísticos llaman Población.

Podemos adelantar que mientras más numerosa es la muestra en la que trabajemos, más explí-cita se hará la relación o neutralidad de las variables.

Veremos que los elementos de una población, de la que tomamos la muestra, están distribuidos de diferentes maneras, pero que habrá una que nos interesará en particular.

Ese tipo de distribución se llama Distribución Normal, y es la que se apega más a la forma en que los sucesos, procesos y fenómenos se distribuyen en la realidad.

Por otra parte, la Estadística se divide en dos grandes dimensiones: Estadística Descriptiva e

In-ferencia Estadística.

La Estadística Descriptiva

Usa gráficas, tablas y diagramas para conocer las características más importantes de los datos que nos interesan; es con el estudio de esta dimensión que empezamos el curso.

Esta rama de la Estadística nos ilustra sobre las medidas denominadas de tendencia central, tales como: la media aritmética, la mediana, la moda.

También se ocupa de mostrar las medidas de dispersión: la varianza, la desviación típica, las diferentes distribuciones de cada conjunto de datos… y otros parecidos.

Muy pronto, cuando hayamos logrado consolidar los conceptos fundamentales de cada uno y el manipuleo del SPSS, nos haremos expertos en estos y otros temas

Finalmente, terminaremos este primer curso con el tema de “test de hipótesis” material para el que se reserva la Inferencia Estadística.

La Inferencia Estadística

Es la rama que se ocupa de inferir las características de la población por medio del análisis de una muestra debidamente diseñada.

Toda tarea estadística empieza con el lanzamiento de alguna hipótesis sobre algún aspecto de la realidad; la hipótesis debe ser verificada.

La Estadística es la que hace de verificadora; los resultados que obtengamos de los datos deci-dirán si la hipótesis es o no aceptable.

Ahora bien la primera actividad operativa es la recolección de datos. La Recolección de datos

Si no hubiera una base de datos disponible, se diseñará una encuesta orientada a lograrlos, la primera lección en el SPSS se refiere a cómo diseñar y codificar una encuesta.

Datos

(10)

10

Información, Los datos por sí solos nada nos dicen

Para que sean útiles es preciso que los agrupemos y sistematicemos de la manera adecuada; es decir, que los convirtamos en información.

Las fuentes de datos pueden provenir de registros que tienen otras instituciones o de la recopi-lación directa que realizamos; en este caso, usamos la encuesta.

La información así obtenida nos permitirá deducir aspectos relativos sobre las causas y los efec-tos de los fenómenos que deseamos analizar.

También nos sirve para establecer tendencias sobre los comportamientos de las personas y de los procesos, pues nos orientan para obrar adecuadamente.

Por ejemplo, supongamos que deseamos realizar un estudio sobre las preferencias del consumi-dor por nuestros productos y el comportamiento de la competencia.

Para averiguar lo que sucede, debemos acudir a las técnicas estadísticas y deducir de los resul-tados las medidas que consideremos necesarias.

El concepto de Población

La Población es el total de los elementos potencialmente observables; v.g. el número de familias que existe en una ciudad determinada.

El levantamiento de estos datos, los que cubren a todas las familias que viven en una ciudad, se realiza por medio del diseño y la ejecución de un censo.

En la disciplina estadística muy raras veces se usa la Población, pues es muy difícil llegar a ella; además, es cara; más bien, usamos la Muestra.

La Muestra

Es una parte de la Población, la que, utilizando las técnicas que aprenderemos en este curso, representa adecuadamente todas las características que tiene la Población.

El Tamaño Muestral

Es el número de elementos que conforman una muestra.

Los datos ordenados pueden ser representados gráficamente por barras, tortas o varias otras formas visuales que facilitan la percepción primera del análisis.

Cuando ingresemos al tema de la distribución de frecuencias aprenderemos a elaborarlos, iden-tificarlos, distinguirlos de los demás e interpretarlos.

Hay varias maneras de lograr los datos que necesitamos en una muestra. Para nuestros fines usaremos la encuesta.

La Encuesta

Es la recopilación sistematizada de datos que logramos de una población determinada y que luego transformaremos en información útil.

(11)

11

En vez de enseñar primero el manejo del SPSS y luego empezar con los temas del curso, más bien iremos aprendiendo ambos sobre la marcha. Esto es, Aprenderemos haciendo.

Prueba “a la vista”

El gerente de la empresa quiere probar “a la vista” nuestros conocimientos sobre la elaboración de hojas de encuesta por métodos computarizados.

Desconfiados como son los gerentes, el de nuestra empresa quiere estar seguro de que vamos a incluir diferentes clases de variables y sus significados.

Aquí empezamos a explayarnos sobre la materia.

Acudimos a nuestro irremplazable amigo, el SPSS, el que nos acompañará a lo largo de éste y los otros cursos y, claro, de otras pruebas “a la vista”.

El gerente, al pedirnos que realicemos una tarea como ésa, nos da una gran oportunidad para explicarle, paso a paso, lo que estaremos haciendo para cumplirla.

Diseño del Formulario de Encuesta

Hacemos click en el nombre del programa, el que debe estar en la sección “archivos” con el nombre de IBM SPSS Statistics, versión 19.

Al hacer el click, aparecerán dos archivos.

Escogeremos el segundo de ellos: IBM SPSS Statistics 19.

Luego de la espera, cuya duración dependerá de la potencia del equipo que se tiene, aparecerá una hoja de diálogo conformada por filas y columnas.

En esa hoja habrá una pregunta en el lado izquierdo: ¿Qué desea hacer? En el lado derecho aparecerán cuatro opciones.

En esta oportunidad, haremos click en la segunda opción: introducir los datos. Una vez escogida la opción, pulsamos Aceptar.

De inmediato se muestra ante nosotros una hoja con celdas constituidas por columnas y filas; esa hoja se llama el Editor de Pantalla o Pantalla de Datos.

En ella veremos que hay columnas y filas; en la parte superior de cada una de las columnas se lee la misma palabra: var, que es la abreviación de variable.

Es una invitación para que pongamos los nombres de las variables deseadas; bajamos la vista y vemos que en la parte inferior izquierda de la hoja hay dos casillas

Una, con la leyenda Vista de datos y la otra: Vista de Variables Nuestra primera tarea será poner nombres a las columnas.

Cada columna representa alguna característica de la variable que deseamos analizar. Pulsemos Vista de Variables; el SPSS nos trasladará a una nueva pantalla.

(12)

12

Esta nueva hoja sí tiene nombres en las columnas, las que usaremos de inmediato Nuestra primera variable se llamará sexo para definir el género de las personas.

En la primera casilla de la izquierda de Vista de Variables, anotamos la palabra sexo; las demás casillas horizontales de la misma fila se llenan por defecto.

Recordemos que la variable sexo no es una variable cuantitativa, sino, cualitativa, El SPSS la va a codificar, asignando un número a cada uno de los dos sexos.

Antes, vamos a darle al SPSS las características de la primera variables; llevamos el mouse a la primera, Numérico que está debajo de la segunda columna, Tipo.

Al pulsar Numérico, aparece una pequeña fila de 3 puntos suspensivos. Pulsamos esa pequeña fila y se nos presente un cuadro de diálogo. Allí hay opciones para los tipos de variables que vamos a necesitar. En este caso, deseamos que la variable sexo.

La variable sexo es cualitativa, pero se codifica por medio de un número, por lo tanto pulsamos el botón Numérico y aceptamos.

La tercera columna de la pantalla dice Anchura.

El rótulo nos indica cuán ancho ha de ser el espacio que ocupará el nombre de la variable sexo; por defecto aparece 8, pero nosotros queremos cambiar a 6.

Pulsamos en 8 y se nos aparecen dos flechas.

La de arriba para aumentar el ancho y la de abajo, para reducirlo.

Como la palabra sexo es más corta, pulsamos la inferior, hasta que aparezca 6.

Hacemos exactamente lo mismo para los decimales, con la diferencia de que no los necesitamos, presionamos hasta 0.

Seguimos en la fila y llegamos a la casilla Etiqueta, la que debe ser explicada

La palabra sexo, que ya consta en la primera casilla es una variable de trabajo, en cambio, el mismo nombre en la casilla bajo el rótulo Etiqueta es forma.

Será el nombre que aparecerá cuando demos nuestro informe sobre los resultados de la encues-ta; por eso tendrá que ser formal.

En la casilla debajo de Etiqueta escribimos Sexo (la primera con mayúscula)

Una vez realizada estas operaciones nos encontramos con la casilla Valores, que es en la que convertiremos la variable sexo, que es cualitativa, en una cuantitativa

Antes, debemos decidir qué número vamos a asignar a cada sexo.

(13)

13

Para convertir la variable cualitativa sexo en una variable cuantitativa, pulsamos el click en la casilla ninguna, que se encuentra debajo de la columna Valores.

Aparecerán tres puntos suspensivos en fila.

Hacemos click en ello; al hacerlo, veremos un cuadro de diálogo.

En la casilla donde dice Valor inscribimos 1; en la casilla donde dice Etiqueta, registramos la pa-labra mujer; y pulsamos Añadir.

En el cuadro inferior aparece “1 = mujer”; aceptamos. La casilla Valor aparece otra vez vacía.

Inscribimos en ella el número 3, y en la casilla Etiqueta registramos la palabra hombre. Pulsamos Añadir y en el cuadro aparecerá “3 = Hombre”. Aceptamos.

(Este aparente error tiene un fin, como veremos)

El SPSS identificará con esos números el sexo de las personas encuestadas Vamos a la pantalla Vista de datos, pulsando la casilla, al pie de la hoja.

La primera columna ya tiene un nombre: sexo; si queremos constatar el nombre que irá en el Informe Final, la apuntamos con el cursor por unos segundos.

Aparecerá la palaba Sexo, con mayúscula, que es el nombre formal de la casilla. El gerente general quiere constatar las características de esa variable.

Vamos a Vista de variables, que está al final de la hoja y le mostramos lo que nos pide; el nom-bre de la variable es sexo; el tipo es numérico

La anchura es de 6 espacios y tiene 0 decimales

Hacemos click en la siguiente casilla, lo que nos lleva al cuadro de diálogo que ya conocemos: el número 0 identifica a mujer y el 3 (¡!) se reserva para hombre.

Pero nosotros habíamos decidido que el número codificado para hombre sería 1.

Habrá necesidad de modificar el registro.

Hacemos click en el dato “3 = hombre” en el cuadro inferior

Se activará la casilla Eliminar; hacemos clic en ella, el dato equivocado se elimina y lo cambia-mos por 1 siguiendo el mismo procedimiento usado para mujer.

El gerente se percata de que sabemos identificar un error y rectificarlo. Ahora nos toca registrar las particularidades de la variable Edad.

Este procedimiento es mucho más fácil, porque la Edad es una variable cuantitativa y discreta, no hay necesidad de hacer ninguna modificación.

(14)

14

Allí anotamos: edad; horizontalmente dejamos la palabra que ya está allí Numérico. Escogemos 4 y en la siguiente casilla anotamos 0 para el número de decimales

En Etiqueta anotamos Edad en años cumplidos y dejamos Ninguna en la casilla de Valores pues-to que la variable es cuantitativa y no necesita ser codificada.

Ya tenemos registrada la segunda variable.

Vamos a Vista de datos; pulsamos unos segundos con el cursor en la casilla edad y aparece el nombre formal, Edad en años cumplidos que irá en el informe final.

La tercera variable de la encuesta virtual que estamos haciendo, será Estado Civil. Consideramos que hay 5 categorías:

Soltero, Casado, Divorciado, Viudo, Conviviente.

Cada una de estas variables, al igual que sexo, es cualitativa, por lo que realizamos las mismas operaciones que hicimos para sexo.

Vamos a Vista de variables, pulsamos en la casilla que está debajo de edad; allí anotamos la si-guiente palabra: estci, que es una abreviación de Estado Civil

La razón por la que recurrimos a la abreviación se debe a que para ciertas operaciones, las va-riables de trabajo son modificadas por medio del aumento de letras.

Vamos a suponer los cinco estados civiles siguientes, en ese orden: Soltero, casado, divorciado, viudo y conviviente

La variable estci será numérica con 6 espacios, 2 decimales La Etiqueta: Estado Civil.

Llegamos a Valores; pulsamos la casilla correspondiente donde dice Ninguna. Aparecen los tres puntos, hacemos clic y tenemos acceso al cuadro de diálogo.

Tal como hicimos antes, en la casilla Valor escribimos 1 y en la casilla Etiqueta, registramos

sol-tero, para luego pulsar Añadir y aceptar.

Procedemos a llenar la casilla Valor con el número 2 y la casilla Etiqueta con la palabra casado; pulsamos Añadir y aceptamos.

Seguimos con el mismo procedimiento, hasta que tengamos los 5 estados civiles debidamente registrados

Ahora nos toca estructurar la variable idiomas.

Observemos que la variable sexo nos permite una sola opción: mujer u hombre. La de estado civil también nos permite una sola opción de cinco posibles.

En cambio, la variable idiomas nos brinda más de una opción, pues alguien puede hablar dos o hasta tres idiomas.

(15)

15

En razón de que tenemos más de una opción, cada idioma tendrá su columna por separado; es decir, ahora se trata realmente de cinco variables, no de una.

Establezcamos los siguientes idiomas: Español, Inglés, Alemán y Francés.

Empezamos con Español; esp, numérico, 8, 0, espanol (sin la ñ) Lo mismo para todos los demás idiomas.

Ahora vamos a realizar una pequeña prueba para ver si el diseño de la hoja de encuesta que hemos estructurado es correcto;

Vamos a la hoja de Vista de datos y llenamos cinco filas con datos supuestos; recordemos que cada fila es una hoja de encuesta con todos los datos solicitados.

Así, llenamos la primera fila con los datos inventados, en el caso de las variables, como Idiomas, si alguien habla español se anota simplemente 1.

Lo mismo para los demás, el hecho de que hable un idioma se registra con 1

Este “1” no significa que el idioma está codificado, más bien muestra que se lo habla.

Registrados los datos supuestos, archivamos el ejercicio en el archivo que hemos abierto; en es-te caso el nombre del archivo que hemos habilitado es:

Estadística aplicada I ejercicio 1.sav

Ahora bien, una vez que el gerente ha visto que podemos usar el SPSS, nos confía la tarea de analizar las características principales del personal de la empresa.

Esas características incluyen estimar el sexo, la edad la experiencia y las medidas De tendencia central: media aritmética de los sueldos, la mediana, la varianza…

Añadimos la debida probabilidad de error; para hacer ese ejercicio acudiremos a un archivo de datos que viene adjunto con el paquete del SPSS.

Todo eso lo hará la computadora.

Pero nosotros tenemos que conocer los conceptos de lo que se nos pide y, claro, manipular los comandos e interpretar los resultados que el SPSS nos brinde.

La Estadística no siempre ha recibido un aval de confianza por parte de al-gunos hombres conocidos en la historia

Mark Twain, el autor de Tom Sawyer decía que había tres clases de menti-rosos: los normales, los compulsivos y los estadísticos.

Lenín mostraba su desdén por los estadísticos poniendo el siguiente ejem-plo. Supongamos dos sobrevivientes en una isla; hay un solo pollo, el más fuerte se come el pollo entero y el más débil se muere de hambre, los esta-dísticos dirán que cada uno se comió medio pollo

(16)

16

elpuercoespin.com.ar

(17)

17

GRANDES ESTADÍSTICOS Y MATEMÁTICOS

EN LA HISTORIA

Christian Huygens

(1629-1694)

Fue otro gran matemático y, además, físico. Sus padres querían que fuera diplomático, pero él eligió la ciencia en la que tuvo la oportunidad de hacer significativos aportes en las áreas de la matemática, de la física y de la as-tronomía. Estuvo 14 años en la Academia de Ciencias de París. Escribió una obra titulada El Valor del azar en los juegos de fortuna. Gran parte de su obra está orientada a calcular el valor de las expectativas en un juego de azar. Este libro fue muy conocido en su época y estructuró la primera parte de la obra de otro gran matemático en la historia de la Estadística: Jakob Bernoulli. También conoció a Pascal y a Fermat.

2 MEDIDAS DE TENDENCIA

CENTRAL

La Estadística, como disciplina formal tiene sus bases entre los años 1650 y 1700, era de la Re-volución Científica, con nombres ilustres como los que vemos en los retratos.

Una Medida de Tendencia Central es el punto medio de una distribución de frecuencias. Ahora estudiaremos las características de las más importantes medidas con breves ejemplos manuales, haciendo uso del SPSS.

La Media Aritmética

La conocemos como el promedio de una serie de datos.

Supongamos que deseamos saber el promedio de la edad de 6 personas que están en un consul-torio médico, haciendo un tratamiento especial.

Para sacar ese promedio, sumamos las edades de todos y cada uno; luego dividimos el resultado entre 6, que es el número de personas que nos interesa.

Media aritmética = (40 + 34 +28 + 10 + 23 + 50)/6 = 30.83

La media aritmética o promedio de las edades de las seis personas es 30.83 años.

Si queremos saber el ingreso promedio de 5 amigos que desean ir a tomar un café, pregunta-mos a cada uno cuanto tiene y luego hacepregunta-mos lo mismo que en el caso anterior.

(18)

18

Los datos que obtenemos de los cinco son los siguientes: El primer amigo tiene $4

El segundo, $20 El tercero, $12 El cuarto, $9 El quinto, $13

Media aritmética = (4 + 20 + 12 + 9 + 13)/5 = 11,60

El resultado dirá que, en promedio, cada uno tiene 11 dólares con 60 centavos, idependiente-mente de la suma que cada uno tenga en la realidad.

Ese es el concepto fundamental de la media aritmética; luego veremos porqué es tan útil. No importa cuán pequeña o grande pueda ser el conjunto de datos que se nos presente, la me-dia aritmética siempre tendrá la misma definición:

Será la suma de todos los valores, dividida entre el número de casos. Usando símbolos, tendremos: X* = ΣXi/n

X* es la media aritmética de la muestra que hemos tomado; Xi, representa a cada uno de los valores que serán sumados; n es el número de observaciones.

La misteriosa Σ indica que todos los valores Xi deben ser sumados. Tomemos otro ejemplo cualquiera

X* = (9 +7 + 7 + 6+ 4+ 4 + 2)/7 = 5.6

En este conjunto hay dos valores repetidos (el 7) pero eso no importa, el SPSS lo toma en cuenta como cualquiera de los demás valores.

En los libros de Estadística se pone ejemplos sobre las formas de estimar la media aritmética cuando los datos están ordenados o están desordenados.

Esto no tiene importancia para el SPSS; después, cuando ya sepamos desenvolvernos mejor, aprenderemos a usar los rangos.

Ventajas y desventajas de la media aritmética

Ventajas, un solo número representa a un conjunto de datos, concepto con el cual todos

esta-mos familiarizados.

Nos permite realizar comparaciones entre varios conjuntos de datos; por otra parte, cada con-junto de datos tiene una sola media.

Desventajas; puede haber valores extremos que no son representativos del conjunto de los

da-tos que estamos tomando en cuenta.

Para probarlo, tomemos la media aritmética de los siguientes datos, los que representan los in-gresos mensuales de 7 personas que trabajan en una empresa.

(19)

19

2400, 3200, 2580, 3260, 2500, 2840, 19000 La media aritmética sería:

X* = (2400 + 3200 + 2580 + 3260 + 2500 + 2840 + 19000)/7 = 5111

Pero nos damos cuenta de que la media está muy sesgada por el ingreso de 19000

Hagamos la prueba, eliminemos el valor extremo de 19000, que es el sueldo del gerente general: 2400, 3200, 2580, 3260, 2500, 2840)/6 = 2796.67

Éste es un valor más representativo de los ingresos mensuales que perciben los empleados; en este caso, será más útil calcular la media anulando el valor extremo

La Media Aritmética Ponderada

El siguiente ejemplo es del libro “Estadística para Administradores” Levin y Rubin

El costo por producto incluye diferentes grados de calificación de la mano de obra; si utilizamos la media aritmética simple, tendríamos que el salario promedio sería:

X* = (5 + 7 + 9)/3 = $7 Este sería el costo en una jornada normal de 8 horas de trabajo

Tabla 2.1

Tipos de trabajo y salarios

Tipo de trabajo Salario por hora Sillas Mesas No calificado Semicalificado Calificado 5 7 9 1 2 5 4 3 3

En la tabla 2.1 vemos que la producción de sillas toma 1 hora de trabajo no calificado; 2 horas de trabajo semicalificado y 5 horas de trabajo calificado

Si estimamos el promedio salarial de $7 por hora sin ponderarlos, tendríamos: El costo de producir sillas: 7(1 + 2 + 5) = $56

El costo de producir mesas: 7(4 + 3 + 3) = $70

Estos resultados no serían reales, puesto que el número de hs. de cada categoría de trabajo va-ría en la producción de cada item, y con ello, en el costo respectivo

El costo promedio correcto de la producción de sillas resulta de la ponderación de del tipo de trabajo, pues cada uno tiene un salario diferente.

(20)

20

Una hora de trabajo no calificado, cuyo salario es de $5 por hora; dos horas de trabajo semicali-ficado y el salario de $7por hora;

5 horas de trabajo calificado, y un salario de 9 por hora; ahora sí, estimamos el costo correcto de sillas y mesas; es decir, el costo ponderado.

El costo correcto de las sillas: (5 x 1) + (7 x 2) + (9 x 5) = $64 El costo correcto de las mesas: (5 x 4) + (7 x 3) + (9 x 3) = $68

A continuación calcularemos el costo promedio por hora para la producción de las sillas y, apar-te, para la producción de las mesas

La fabricación de sillas tomó un total de 8 horas de trabajo (1+2+5)

El costo promedio de las horas de trabajo usado en las sillas será 64/8 = 8

En el ejemplo de las mesas, como se invirtieron 10 horas de trabajo en su producción, el pro-medio salarial será: 68/10 = $6.8 por hora de trabajo.

La distinción entre los conceptos de promedio simple y promedio ponderado es muy importante y requiere diferentes modos de estimarlos; el SPSS lo hace sin dificultad.

La Media Geométrica

Se usa, principalmente, para estimar los promedios de cantidades que cambian con el tiempo; tomemos el ejemplo de una cuenta de ahorro que paga intereses.

Si dejamos el dinero depositado por algunos años, sin retirarlo, a una tasa de interés anual de-terminada, el depósito inicial se irá acumulando año tras año.

El interés se irá sumando al capital cada año; cada nuevo monto sumará los intereses y así su-cesivamente.

Ejemplo: Interés compuesto

Supongamos que al comienzo del año depositamos $ 1000 en una caja de ahorros que nos ofre-ce un interés anual de 10%.

La condición es que el depósito continúe por 4 años seguidos sin hacer retiros. Deseamos saber la cantidad que recibiremos al final del cuarto año.

Al final del primer año tendremos 1100; los 1000 originales más el 10%, que es $100; los 100 dólares de interés ganados en el primer año, se suman a los 1000 originales.

Para el siguiente periodo nuestro depósito original se habrá convertido en $1100. Al final del segundo año, tendremos una ganancia del 10% de $1100, ya no de 1000.

Nuestra cuenta acumulada a fines del segundo año será 1100 x 0.10 = 110, los que sumados a los 1100 que ya teníamos, nos dará un total de 1210 y así sucesivamente

La fórmula concreta para estimar las tasas de interés compuesto en este caso particular, viene estructurada de la siguiente manera

(21)

21 Depósito original = 1000

Tasa de interés anual = 10%

Número de años que dura el depósito sin retirar fondos = 4

Total del dinero que tendremos al final de cuarto año: 1000 (1+0,10)4_{= 1000(1.1)}4

Total = 1000(1,4641) = 1464.10

Los 1000 dólares originalmente depositados se han convertido en 1464.10.

Este tipo de problemas se vuelven muy complicados cuando las cantidades y el número de años es mucho mayor, algo que no es ningún problema para el SPSS.

Pero quedan todavía otros estadísticos de tendencia central, cuyos conceptos debemos conocer, distinguir e interpretar, antes de recurrir al SPSS.

La Mediana

Valor que está más al centro de un conjunto de datos ordenados de menor a mayor Conjunto de observaciones impar

Registramos los siguientes datos que representan los ingresos semanales de 11 personas toma-das al azar como una muestra y los ordenemos de menor a mayor:

120, 140, 200, 240, 260, 380,450, 500, 630, 700, 750

De acuerdo con la definición dada, la Mediana será $380, pues ese monto está exactamente al medio del conjunto de datos de la muestra.

El número de observaciones nos indica que hay cinco a la izquierda de la Mediana y cinco a la derecha; esa simetría se debe a que el número total de observaciones es impar

Conjunto de observaciones par

Si agregamos un dato más a la muestra, v.g. 780, tendremos:

120, 140, 200, 240, 260, 380, 390, 450, 630, 700, 750, 780

El número de datos de la muestra es par (12) por lo que nos encontramos con dos datos centra-les: 380 y 390, pero no podemos escoger uno de ellos arbitrariamente.

Para calcular la Mediana calcularemos la media aritmética de los dos valores centrales, de la manera que hemos aprendido: (380 + 390)/2 = $385

El SPSS calculará inmediatamente la Mediana de series de cualquier tamaño y tipo. Ventajas de la Mediana

La mediana no está influida por valores extremos, como está la media aritmética. La Moda

Es el valor que más se repite en el conjunto de datos y que los griegos que deseaban fabricar una torre para desbaratar la ciudad sitiada utilizaron como indicador.

(22)

22

Tomemos los datos utilizados en la mediana, pero lo transformemos de tal manera que el valor 260 se repite tres veces; en ese caso la Moda será 260.

120, 140, 200, 240, 260, 260, 260, 380, 390, 450, 630, 700, 750, 780 La Moda se aplica en el caso de que haya varios valores repetidos en la muestra.

Cuando lleguemos al capítulo de las distribuciones, usaremos una gráfica de distribución para comparar la media aritmética, la mediana y la moda, entre sí.

Mientras tanto, diremos que no hay reglas generales que nos permitan escoger alguna de ellas; pero la media aritmética es la más utilizada.

Tales son las medidas de tendencia central más importantes. Medidas de dispersión

Vimos que las medidas de tendencia central identifican un valor que se acerca más al centro de una serie de datos o de elementos.

Las medidas de dispersión nos muestran el grado en que se alejan del centro. La primera medida de dispersión, la más simple, es el rango

El Rango

Es la diferencia entre el valor más alto y el más pequeño de los datos.

Acudamos otra vez a las serie de datos utilizados para calcular la Mediana: 120, 140, 200, 240, 260, 260, 380, 390, 450, 630, 700, 750, 780 El Rango será 780 – 120 = 660

El SPSS ordenará cualquier conjunto de datos que no estén ordenados.

El Rango nos da una primera percepción sobre las diferencia extremas que median en una serie de datos, digamos, en un registro de salarios.

Medidas de desviación promedio

Calcula la desviación promedio entre los valores de una serie de datos y una medida de tenden-cia central; el SPSS las calcula; aquí nos interesa el concepto.

La Varianza

Es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística; la varianza de la muestra se representa por S2

Para aclarar el concepto, tomemos los siguientes datos: 2, 4, 6, 8, 10 La media aritmética será: (2 + 4 + 6 + 8 + 10)/5 = 30/5 = 6

Con ese dato, analicemos los valores originales

El valor 2 se desvía en - 4 de la media aritmética (2 - 6 = - 4) El valor 4 se desvía en - 2 unidades: (4 - 6 = - 2)

(23)

23

El valor 8 sí se desvía en 2 (8 – 6 = 2) que es una desviación positiva.

Lo mismo sucede con el valor de 10, su desviación positiva es 4 (10 – 4 = 6)

Si deseáramos sacar la media aritmética de estas desviaciones nos encontraríamos que su valor sería 0, pues los valores positivos anularían a los negativos.

Para eliminar este problema no tomamos en cuenta la desviación simple de cada observación con la media aritmética; más bien elevamos cada desviación al cuadrado

Lo hacemos así, porque una cantidad elevada el cuadrado, ya sea positiva o negativa, siempre nos dará un resultado positivo, que es lo que se busca.

La suma de los cuadrados de esas diferencias será dividida por el número de observaciones, que es 5, al que le restaremos 1.

Así lo determinaron los grandes matemáticos. El denominador será 5 – 1 S2 _{= [(2 – 6)}2 _{+ (4 – 6)}2 _{(6 – 6)}2 _{+ (8 – 6)}2 _{+ (10 – 6)}2]_{]/(5 – 1)}

S2_{= [(-4)}2 _{+ (-2)}2_{+ (0)}2 _{+ (2)}2_{+ (4)}2_]4_{= [(16 + 4 + 4 + 16)]/4 = 40/4= 10}

En consecuencia diremos que la varianza de la Muestra es 10. La Desviación Típica de la Muestra = s

Para estimar la Varianza tuvimos que elevar las diferencias al cuadrado. Ahora hacemos la operación inversa y sacamos la raíz cuadrada de S2_.

De esa manera definimos la Desviación Típica de la Muestra = s s = raíz cuadrada de S2_{(Raíz cuadrada de la Varianza)}

En este caso, s = raíz cuadrada de 10 = 3.16 El Coeficiente de Variación

Es la relación entre la desviación típica y la media de la muestra: s/X*

Las medidas de tendencia central y de dispersión son los estadísticos básicos de la Estadística; por supuesto, son también los más usados en todos los niveles.

Este ejercicio complica cuando la muestra tiene, digamos, 20000 observaciones Pero, calcular una muestra para esos valores es una tarea rutinaria del SPSS. El Uso del SPSS

Una vez definidas conceptualmente las medidas de tendencia central y las medidas de disper-sión, vamos al SPSS para aprender cómo las obtenemos.

Supongamos que deseamos saber las medidas de tendencia central y de dispersión de los suel-dos actuales que reciben los empleasuel-dos de la empresa.

Abrimos el SPSS, pulsamos la tecla registrar datos del cuadro de diálogo. Una vez que tenemos el editor de datos, pulsamos archivo

(24)

24

Abrimos Employee data.sav del archivo que viene incluido en el SPSS 19.

En la pantalla de datos colocamos el cursor en cada uno de los títulos de las columnas para sa-ber en cual columna están los salarios actuales de los empleados

Apuntamos el cursor en la columna salary, por unos segundos para ver el nombre formal y para instruir al SPSS que calcule los estadísticos deseados.

Sin embargo, de entrada vemos que hay un problema.

Los salarios están registrados con el signo $ = dólar; para calcular los indicadores que desea-mos, tenemos que cambiar los datos al tipo Numérico.

Vamos a Vista de Variables; encontramos la fila donde dice salary y su nombre formal es

Cu-rrent Salary, que es el que luego nos interesará

El título de la segunda columna dice Tipo, debajo de ella los datos registrados tienen el signo $; hacemos doble click en la casilla que dice Dólar en la columna Tipo.

Ingresamos al cuadro de diálogo y allí vemos que, la variable “salary” está expresada en Dólares; ponemos el cursor en el botón Numérico y aceptamos.

Volvemos a Vista de datos y vemos que el signo Dólar ($) ha desaparecido.

Ahora podemos instruirle al SPSS que nos calcule los indicadores que deseamos sobre la varia-ble salary; en el menú superior pulsamos en Analizar.

Se nos presentará un cuadro de opciones; pulsamos Estadísticos Descriptivos A la derecha aparecerá otro cuadro, del cual escogemos Descriptivos

Se nos presentará un cuadro con las variables de Employee data.sa a la izquierda, de inmediato nos damos cuenta que las variables están registradas con sus nombres formales.

También vemos un cuadro en blanco a la derecha.

Pulsamos en Current salary en el cuadro de la izquierda y la flecha que apunta a ese cuadro; la variable Current Salary ya está en el cuadro blanco.

Pulsamos options y en el cuadro que aparece, escogemos: Rango, Salario Mínimo, Salario

Máxi-mo, Media Aritmética, Desviación Típica y Varianza

Volvemos al anterior cuadro de diálogo.

Allí pulsamos aceptar; se nos presentará el Editor con los datos; si el SPSS no nos lleva direc-tamente al cuadro de resultados, lo hacemos manualmente.

En el menú superior del Editor encontramos la casilla Ventana y hacemos click. Aparecen dos líneas.

(25)

25

Escogemos la primera que dice Resultados; así nos trasladamos hasta la hoja de resultados en la que vemos una pequeña tabla, la que se muestra a continuación.

La trasladamos a esta página, simplemente copiándola de la hoja de resultados. Tabla 2.2

Estadísticos descriptivos N Rango

Mí-nimo Máximo Media Desv. típ.

Varian-za Current Salary 474 119250 15750 135000 34419,5 7 17075,66 1 2,916E8 N válido (según lista) 474

“N” significa el número de observaciones, en este caso nos dice que en la empresa hay 474 em-pleados y que el SPSS los ha tomado a todos.

El Rango, es decir, la diferencia entre el salario mayor y el menor, es $473 El Salario Mínimo es $15740 al año; el máximo es $135000.

La Media aritmética o el promedio de los salarios es $34419.57 La desviación típica es 17075.661

La Varianza registra un valor de 2,916E8, en notación científica.

La notación científica se usa para ahorrar espacio; en este caso, el número 8 nos dice que des-pués del 2 debe haber 8 dígitos, esto es: 29160000.

A la izquierda de la hoja de resultados hay un menú que registra los rubros y la información que tenemos en la pantalla blanca.

Una vez que un ejercicio haya sido terminado y debidamente archivado, hacemos click en al-guno de los rubros de ese menú para borrar los resultados que ya no necesitemos.

Nos encontramos en el Cuadro de Resultados, deseamos volver a la pantalla de datos. Para ello pulsamos Ventana en el menú superior y escogemos Employee data.save

Supongamos que deseamos saber los mismos estadísticos pero para los salarios que los em-pleados ganaban al momento de ser contratados por la empresa; es decir, salbegin.

Las operaciones serán las mismas que las que realizamos en el anterior ejercicio: lo primero que nos fijamos es que los registros tienen el signo del dólar ($) debemos anularlo.

Vamos a la pantalla Vista de Variables para ubicar dónde está la variable que buscamos; está en la fila 7; la casilla de la derecha, bajo la columna Tipo registra la palabra Dólar.

Pulsamos en la palabra Dólar; aparecen tres puntos suspensivos; pulsamos el mouse en esos puntos y en el cuadro de diálogo hacemos click en el botón Numérico; aceptamos.

(26)

26

Antes de salir de ese cuadro notamos que la Etiqueta de salbegin la registra con el nombre de

Beginning Salary; tomamos nota de ello para la operación siguiente.

Este es un buen momento para recurrir a un proceso más ágil.

Vamos a usar el símbolo → para mostrar el encadenamiento de operaciones.

Analizar → Estadísticos Descriptivos →Descriptivos

En la parte izquierda de la pantalla blanca vemos la lista de variables completa, cada una escri-ta con el nombre formal

Allí nos encontramos con que en el cuadro derecho aún está la variable Current Salary, la que habíamos analizado anteriormente; ahora debemos sacarla del cuadro blanco.

Hacemos click en la variable Current Salary pulsamos la flecha, la que ahora indica la dirección opuesta, y la variable Current Salary vuelve al cuadro izquierdo.

Pulsamos la columna en salbegin que tiene el nombre formal de Beginning Salary y luego la fle-cha de dirección y la introducimos en la pequeña pantalla blanca de la derefle-cha.

Hacemos click en Opciones y escogemos los estadísticos que nos interesan:

Rango, Salario Mínimo, Salario Máximo, Media Aritmética, Desviación Típica y Varianza

Continuar → Aceptar

El SPSS nos lleva al cuadro de resultados al que copiamos para analizarlo aquí. La tabla de resultados estará estructurada del siguiente modo.

Si comparamos los promedios entre los salarios actuales y los que se recibían al comienzo, ve-remos la diferencia: 34419 para los primeros y 17016 para los otros.

Tabla 2.3

Estadísticos Descriptivos

N Rango Mínimo Máximo Media Desv. típ. Varianza Beginning Salary 474 70980 9000 79980 17016,09 7870,638 61946944,959

N válido 474

A medida que avancemos, podremos establecer si la diferencia de dos promedios es o no signifi-cativa, determinación que es muy útil en una investigación de tipo estadístico. Una vez termi-nado el ejercicio volvemos a Vista de Datos, vamos al menú para archivarlo con el nombre que ustedes deseen, en cada caso.

Borrar información de la Pantalla de Resultados

Cada vez que deseamos tener una nueva pantalla de resultados, borramos las que ya no necesi-tamos; llevando el cursor a la izquierda y pulsando el botón de Resultado.

(27)

27

El SPSS borrará todos los elementos que constan en la pantalla.

Si se prefiere borrar de ítem en ítem, se ejecutará el mismo procedimiento. El Coeficiente de Variación

Vimos que es la relación entre la desviación típica y la media de la muestra: s/X*

Tomemos la desviación típica de la tabla de Begining salary que es 7870 y la media, 17016; el coeficiente de variación será 7870/17016 = 0,462

Con esto terminamos el análisis de las medidas de tendencia central y de las medidas de dis-persión, tanto en su percepción conceptual como en la parte operativa.

En fases ya más avanzadas veremos que estos conceptos son la base misma de la disciplina es-tadística, en todas sus ramas; por eso es importante tenerlos en mente.

GRANDES ESTADÍSTICOS Y MATEMÁTICOS

EN LA HISTORIA

Jakob (James) Bernoulli

(1654-1705) Matemático

Los eruditos nos hacen saber que ocho miembros de la familia Bernoulli tienen biografías separadas por sus contribuciones a la ciencia. De los ocho, ahora nos interesa, Jakob y luego Daniel, des-pués de Moivre.

Jakob estudió filosofía, pero aprendió matemáticas por su cuenta; inclusive, fue catedrático de matemáticas en la Universidad de Basel. Su obra más conocida, Ars Conjectandi, fue publicada después de su muerte y ejerció una gran influencia en esa época como lo es hasta ahora. Fue el primero en introducir los conceptos de combinaciones y permutaciones, temas que serán abarcados en esta obra.

Usó los término A priori (antes de la experiencia) y a posteriori (después de la experiencia) para mostrar que si se conocen las probabilidades dadas por la experiencia, podemos afirmar a priori el resultado de un proceso, con un riesgo de error predeterminado. Por ejemplo, si arrojamos mil veces una moneda, la probabilidad de que salga cara o cruz se irá acercando a la probabili-dad teórica del 50% para cada uno de los resultados. Aquí está implícita su teoría de la Ley de

los grandes números, una de sus más conocidos aportes; es en esta dimensión en la que se

con-cretan las probabilidades teóricas. El otro aporte, que también es usado al presente se refiere a un tipo de distribución conocida como la Distribución Binomial, el que será analizado en este ca-pítulo, junto a otras clases de distribución

(28)

28

3 DISTRIBUCIÓN DE FRECUENCIAS

Concepto

Una distribución de frecuencias es una tabla en la que organizamos los datos dividiéndolos en Clases o grupos que describen alguna característica de los datos que usaremos.

Si no dividimos los datos en grupos, entonces, cuando pidamos, v.g, las frecuencias de los sala-rios, el SPSS nos dará un cuadro con el salario de cada uno de los empleados.

Si la fábrica tiene 2000 empleados, tendremos un cuadro de 2000 salarios.

Sin embargo, cuando necesitamos las medidas de tendencia central o cualquier otra, el SPSS acudirá a los datos originales, no a los grupos.

A no ser que, por alguna razón, necesitemos la media u otro estadístico de los grupos.

Una distribución de frecuencias muestra el número de observaciones del conjunto de datos que caen en cada una de las clases en las que hemos dividido los datos originales.

Para hacerlo, utilizaremos el SPSS y el archivo Employee data.sav vamos a construir el cuadro de frecuencias del salario actual (Current Salary) de los empleados de la empresa.

Menú Principal → Transformar → Recodificar en distintas variables.

Abierto ya el cuadro de diálogo vemos dos pantallas.

La pantalla de la izquierda contiene todas las variables; escogemos Current Salary y la trasla-damos a la pantalla de la derecha, haciendo click en la flecha de dirección.

En la casilla, Current Salary ha cambiado a salary, que es el nombre que aparece al comienzo de la columna respectiva, mientras que Current Salary, es la etiqueta formal.

En el cuadro aparece un signo de interrogación después de salary, eso significa que el SPSS nos pide dar un nuevo nombre a la variable que vamos a recodificar.

En la parte derecha hay dos casillas: una que dice nombre y la otra etiqueta.

Entramos a nombre y registramos el nombre que deseamos ponerle a la nueva variable: rsalary (Podría ser cualquier otro)

En la casilla Etiqueta ponemos el nombre formal Salario Actual; pulsamos Cambiar La variable rsalary ocupa el lugar donde estaba el signo de interrogación.

Así, hemos estructurado una nueva variable, rsalary, sobre la base de la variable salary. Desde este momento, el SPSS tratará a la nueva variable como independiente.

(29)

29

Pulsamos en la casilla de la parte inferior: Valores antiguos y nuevos; vemos un cuadro de diálo-go; éste cuadro es el que nos ayudará a dividir nuestros datos en clases.

Lo que vamos a hacer es codificar las clases, como codificamos la variable sexo

Vamos a dividir los datos en cuatro clases; para ello pulsamos el botón que dice: rango, en la parte izquierda del cuadro; al hacerlo, se habilitarán dos casillas en blanco.

En la primera registramos 15000 (el valor mínimo de los salarios) en la casilla de abajo, escri-bimos 45000; vamos a la parte superior derecha → valor y en la casilla anotamos 1.

Click en Añadir y en la casilla inferior aparece 15000 trhu 45000 → 1.

La primera de nuestras clases incluirán todos los valores desde 15000 hasta 45000. Otra vez vamos a la izquierda click → “rango” y anotamos 45001 en la casilla de abajo. Vamos a la casilla inferior, donde dice “hasta” y anotamos 75000.

Nos trasladamos al lado derecho → “Valor”, anotamos 2 en la casilla respectiva → click en

Aña-dir; en la pantalla inferior aparecerá un nuevo registro después del anterior.

Esta vez con la leyenda que dice: 45001 thru 75000 → 2.

Para la tercera clase; anotamos 75001 en la casilla rango y 105000 en la que dice thru Al lado derecho →valor, anotamos 3 → Añadir; la tercera clase aparece en la parte de abajo: 105001 thru 135000 anotamos 4 → Continuar

Si el SPSS nos lleva a la pantalla de resultados, tendremos que salir de allí

Nos vamos a Vista de Datos para ver que en la última columna de aparecerán los intervalos co-dificados 1, 2, 3 y 4, de acuerdo con los valores de cada rango salarial.

Pero, lo que deseamos es que en la Pantalla de Datos aparezcan, textualmente, los intervalos, tales como 15000 – 45000 para todos los rangos que hemos recodificado.

Vamos a Vista de Variables, ubicamos la variable rsalary En la columna Valores, aparece el rótulo Ninguna

Click en los puntos y se nos abre un cuadro de diálogo.

En la casilla Valor anotamos 1 y en la que dice Etiqueta registramos 15000 – 45000, pulsamos

Añadir y esta primera clase aparece registrada en la pantalla

Hacemos lo mismo con 45001 – 75000; seguimos dando los mismos intervalos anteriores

Estamos recodificando la nueva variable “rsalary”, cuyo nombre formal Salario Actual incluimos en la casilla correspondiente a la columna Etiqueta.

Continuamos del mismo modo, variando las clases de 75001 en 105000 hasta llegar a la última, la clase número que será 105001 – 135000

(30)

30

Aceptamos y en la pantalla de datos tendremos los intervalos, ya no como números 1, 2, 3, 4, cada uno de los cuales representaba un intervalo, sino como los intervalos reales

La primera clase 15000 – 25000 ha sido registrada sin ninguna variación, pero la siguiente em-pieza con 25001, para no repetir el valor de 25000; lo mismo con las demás.

Ahora nos corresponde saber cuántas observaciones hay en cada clase. Frecuencias

En la pantalla de Vista de datos, vamos al menú superior y pulsamos Analizar; se abrirá el cua-dro de opciones; de allí escogemos Estadísticos Descriptivos → Frecuencias.

Se abre el cuadro en el que la lista de variables está a la izquierda.

Hacemos click en la nueva variable RCurrent Salary y con la flecha de dirección la llevamos a la derecha; aceptamos.

En la pantalla de Resultados aparece el cuadro de frecuencias con las clases respectivas; Es el cuadro que nos servirá para diseñar nuestra primera distribución de frecuencias.

Estructurar una Distribución de Frecuencias

El cuadro que aparece en la pantalla de resultados nos muestra el número total de casos, 474, y las clases salariales que habíamos estructurado.

La clasificación de los salarios en clases, con los rangos determinados, nos permite saber cuán-tas personas hay en cada clase y graficar con mayor claridad los datos

Hacemos click en el cuadro, pulsamos el botón derecho del mouse y escogemos copy, y postea-mos en la presente página, para realizar las modificaciones necesarias.

Tabla 3.1

Para formular el cuadro de distribución de frecuencias, reemplazamos el título “Porcentaje váli-do” por “Probabilidad” y anulamos la última columna, operando desde el Word.

Hacemos click con el botón derecho del mouse → Delete Cells

En las opciones click en Delete Entire Colum; ponemos el título “Distribución de Frecuencias de los salarios”; la tabla 3.1 queda estructurada.

Salario Actual

Frecuen-cia Porcentaje % válido

% acumu-lado Válidos 15000 - 45000 391 82,5 82,5 82,5 45001 - 75000 66 13,9 13,9 96,4 75001 - 105000 15 3,2 3,2 99,6 105001-135000 2 ,4 0,4 100,0 Total 474 100,0 100,0

(31)

31

El cuadro de probabilidad resulta de la división entre 100 de todos y cada uno de los datos que aparecen como porcentaje en la tabla anterior.

Los datos de la nueva tabla se interpretan de la siguiente manera

En la empresa hay 391 empleados que ganan un salario comprendido entre 15000 – 45000; lo que representa una porcentaje del 82.5%.

La probabilidad de que escojamos a uno de ellos, de entre todos los empleados, es 0,825 La lectura de los datos del cuadro nos permite saber lo siguiente:

Hay 66 empleados que perciben un salario comprendido entre 45001–75000 y constituyen el 13,9% del total; la probabilidad de que escojamos a uno de ellos es 0,139

Esos datos transformados quedan registrados en la tabla 3.2 Tabla 3.2

Distribución de Probabilidades de los Salarios

El total de las probabilidades suma 1, tal como se ve en la tabla; cada probabilidad se obtiene dividiendo el porcentaje respectivo entre 100; para los decimales se usa la coma.

Gráficas de las distribuciones de frecuencias: El Histograma

Es una gráfica que consiste en una serie de rectángulos, el ancho de cada uno mide la distancia que existe entre las cantidades que estructuran una clase estratificada.

La distancia vertical nos da los valores para esa clase.

Para obtener el Histograma respectivo vamos al Menú Principal → Gráficas → Cuadros de

diálo-gos antiguos → Histograma.

Click en la casilla Títulos, que está en la parte superior derecha la casilla

En la primera línea escribimos RCurrent Salary; en la segunda, Niveles Salariales Estratificados

→ Continuar → Aceptar

El SPSS nos da la siguiente gráfica.

La clase 1 (15000–45000) está representada por la base del primer rectángulo; la altura de cada rectángulo señala el número de frecuencias que se encuentran en ese intervalo. A la derecha se muestra la media, la desviación típica y el número total de empleados

Clase _Frecuencia _Porcentaje _Probabilidad

15000 - 45000 391 82,5 0,825

45001 - 75000 66 13,9 0,139

75001 - 105000 15 3,2 0,032

105001 - 135000 2 ,4 0,004

(32)

32

El histograma es útil para el técnico, pero no es muy claro para los ejecutivos. Gráfica 3.1

El Histograma es de gran ayuda, especialmente cuando queremos comprobar si la distribución de una variable se aproxima a la distribución normal, tal como veremos después.

Así, las clases simplemente están representadas por números, los que no dicen mucho cuando deseamos presentar un informe a los ejecutivos de la empresa.

Para llevar un informe más claro a los ejecutivos, recurrimos a la gráfica de barras. El SPSS nos presenta varias opciones, las que serán utilizadas en su oportunidad

Serán usadas a medida que aprendamos más de Estadística y el manejo del SPSS. Gráfica 3.2

(33)

33 Gráficas de barras y Pie

Podemos lograr un resultado más completo en el Menú Gráficas – Generador de Gráficas

Para obtener las barras de frecuencias, pulsamos Gráficas en el Menú Principal; elegimos

Cua-dros de diálogos antiguos → Barras → Simple → Definir → No. De Casos

Introducimos RCurrent Salary en la casilla que dice Eje de Categorías

En la parte superior derecha hacemos click en Títulos; allí escribimos: Current Salary en la Pri-mera Línea y RCurrent Salary.

Copiamos la gráfica y vemos que nos ha dado los intervalos y las frecuencias de cada uno anotando el intervalo concreto en cada caso; no sólo como categorías 1, 2, ….

Si se quiere cambiar las características del gráfico: el color, la textura, la letra…hacemos doble click en la gráfica de barras; aparecerá un nuevo menú

En este menú escogemos editar y allí elegimos la opción que nos parezca más adecuada. Gráfico de Sectores (Pie)

La misma información podemos lograr con la gráfica de Sectores o Pie. Gráfica 3.3

Gráficas → Cuadros de diálogos antiguos → Sectores → Definir → definir sectores por

Es a esa casilla que traemos la variable: RCurrent Salary →Títulos

La gráfica que aparece en el cuadro de resultados muestra los datos que le habíamos pedido; la traemos a la presente página a través de Copy.

(34)

34

Con esto concluimos la primera parte del uso de gráficas; más adelante recurriremos a éstas y otras con diferentes significados y grados complementarios de utilidad

Hagamos una breve pausa para observar cómo vamos aprendiendo Estadística y, al mismo tiempo, el uso del SPSS. Me pareció más conveniente este método de “aprender sobre la mar-cha” en vez de dar un curso completo de cada dimensión, una a la vez, por separado. Cuando terminemos el curso de Estadístico, en sus cuatro niveles, éste es el primero de ellos, habremos concluido también con el aprendizaje del SPSS.

GRANDES ESTADÍSTICOS Y MATEMÁTICOS

EN LA HISTORIA

Abraham de Moivre (1667-1754)

Fue a Inglaterra buscando refugio, pues era perseguido en Francia. Fue reconocido como un gran matemático y nom-brado miembro de la Socie-dad Real, aunque nunca obtuvo un título académico.Había leído la obra de Huygen y su primer ensayo sobre Probabilidad fue publicado en 1711. Un año después publicaría “Un Método de calcular la Pro-babilidad de los Eventos en el Juego”. Su tercera obra apa-reció en 1933 con una defini-ción sólida de Probabilidad. Obtuvo una aproximadefini-ción normal a la distri-bución bino-mial, lo que constituye un gran adelanto en el Teorema del Límite Central, que analizaremos luego. Tambien diseñó la Distribución de Poisson. Sus innovaciones técnicas incluín las funciones de generación de probabilidad, principio que usó para encontrar la distribución de la suma de variables uniformes. De Moivre también escribió sobre la matemática referida a los seguros de vida, v.g, la función de sobreviven cia. Todhunter dijo de él, poniendo de relieve la contribu-ción de De Moivre: “no habrá duda alguna que la Teoría de la Probabilidad debe más a él que a cualquier otro matemático, con la excepción de Laplace.

4 PROBABILIDAD

Introducción

Aunque para resolver todos los problemas que se nos presenten acudiremos al SPSS, sin em-bargo, es necesario conocer los conceptos de la clase de problemas a solucionar.

Los principales precursores del cálculo de probabilidades fueron Jacob Bernoulli (1674-1705) Thoma Bayes (1702-1761) Joseph Lagrange (1736-1813) y Carl Friedrich Gauss.

La teoría de la probabilidad es la base es la base de las investigaciones estadísticas en las inves-tigaciones de las ciencias sociales y en la toma de decisiones.