1
I.
INTRODUCCIÓN
Hasta ahora ha habido muchos adelantos científicos logrados mediante la investigación, la experimentación y también muchos inventos tecnológicos. En todos ellos se ha empleado el método científico, que es el procedimiento que se aplica al ciclo completo de la investigación, desde la detección del problema hasta la interpretación de los resultados.
Más aún, el desarrollo actual de la administración moderna requiere cada vez más respaldar las decisiones que se toman permanentemente con información sólida y validada científicamente, pues los costos de los errores son muy grandes.
Las etapas del método científico pueden establecerse como:
1. Detección y enunciado del problema. La detección dependerá tanto de los juicios de valor del investigador como de las condiciones en que se encuentre en ese momento el desarrollo de la ciencia.
2. Desarrollo de una teoría que procure explicar o resolver el problema.
3. Formulación de las hipótesis que se desprenden de la teoría y que deberán ser contrastadas con la realidad mediante observaciones rigurosas y experimentos.
4. Factibilidad de las hipótesis a fin de que los conceptos involucrados puedan ser medidos de acuerdo a reglas precisas, válidas y confiables
5. Contrastación de las hipótesis, con hechos observados o experimentos elaborados especialmente para poner a prueba las hipótesis, de tal forma que si resultan falseadas, entonces se pueda concluir que la teoría que las originó está mal elaborada.
6. Interpretación de los resultados (conclusión), en el sentido de aceptar o no la la teoría que procuraba explicar el problema, con el propósito de reelaborar la teoría si resulta rechazada, o de preparar nuevos experimentos para ponerla otra vez a prueba.
II. CLASIFICACION DE VARIABLES.
Los estadísticos denominan como "variable" a las características cualitativas y cuantitativas de los elementos de una población (unidades de observación). Por ejemplo, en una población humana, características importantes son la edad, el sexo, el estado civil, el nivel educacional, etc.; características que suelen variar de un individuo a otro.
Como los datos a manejar en una investigación son de distinta naturaleza, la clasificación de las variables en estudio se hace necesaria para decidir el método adecuado de análisis estadístico que se empleará.
La característica específica de una unidad de observación de la población es el valor de la variable para ese elemento. Por ejemplo, para la variable sexo, un individuo puede ser hombre o mujer; es decir la variable puede tomar dos valores: 1. Hombre ó 2. Mujer.
2
II.1 CLASIFICACION BASICA.Básicamente hay dos tipos de variables: las cualitativas y las cuantitativas.
Una variable es cualitativa cuando es no-numérica y se expresa en categorías. Por ejemplo: el sexo se expresa en las categorías femenino y masculino; la religión se expresa en las categorías católica, bautista, presbiteriana, anglicana, etc.
Una variable es cuantitativa cuando puede ser expresada en forma numérica. Por ejemplo: edad en años; duración en horas de la batería de un teléfono celular; ingreso mensual en pesos de una familia, etc.
II.2 CLASIFICACION SEGUN NIVELES O ESCALAS DE MEDICION
Para describir un objeto, un individuo u otra identidad hacemos referencia a las propiedades o atributos que posee, estos atributos pueden expresarse en escalas de diferente nivel de medición.
1. Escala Nominal.
Este es el nivel de medición más débil que sólo permite distinguir las distintas clases, asignándoles números o símbolos a las unidades para identificar a la clase que pertenecen.
Ejemplos de variables en esta escala: Número de cédula de identidad, sexo, número de la camiseta en los jugadores de fútbol, religión, etc.
2. Escala Ordinal o de Rangos.
En esta escala el número asignado además de nombre indica jerarquía entre todas las clases. Esta relación de jerarquía es irreflexiva, asimétrica y transitiva, por lo que el único tipo de transformación que acepta es monótona, es decir, aquella que mantiene el orden de los objetos.
Ejemplos: los grupos socioeconómicos, los grados en el ejército, el tamaño de cierto elemento (pequeño, mediano, grande, extragrande), etc.
3. Escala de Intervalos.
En este caso el número indica nombre, jerarquía y tiene sentido la diferencia con cualquier otro número de la escala, pero donde el cero es arbitrario.
En este nivel cualquier cambio en los números asociados con las posiciones de los objetos debe conservar el orden y las diferencias relativas entre los objetos, es decir, la escala de intervalos es única hasta una transformación lineal; como ocurre por ejemplo entre las escalas Celsius y Farenheit para medir temperatura.
4. Escala de Razón.
En este caso el número indica lo mismo que en la escala de intervalos (nombre jerarquía y valor), pero con el cero real.
En este nivel de medición cualquier operación aritmética es aplicable (con una interpretación válida).
3
II.3 CLASIFICACION DE ACUERDO AL RECORRIDO.Según los valores numéricos que asuma una variable, ésta puede ser:
1. Discreta.
Una variable se clasifica como discreta, si los valores que asume son finitos o infinitos numerables (contables). Ejemplo: Cantidad de hijos, número de personas en una fila, valores de los billetes, etc.
2. Continua.
Una variable es continua si tiene un recorrido infinito no numerable, o bien, si entre dos valores cualesquiera siempre existe la posibilidad de que se encuentre otro valor observable. Ejemplo: duración de una batería, edad, resistencia a la tensión, temperatura, etc.
En algunos casos en que la variable asume dos valores (presencia o ausencia de una característica) se clasifican como dicotómicas. Por ejemplo, para indicar si una persona fuma o no, se asigna 1 a fuma y 0 a no fuma.
II.4 CLASIFICACION SEGUN LA ORIENTACION DESCRIPTIVA DE LAS VARIABLES.
Las variables pueden clasificarse según si ellas describen o son descritas por otras variables, clasificación que depende de los objetivos del estudio y no de la estructura matemática de las variables. Esta clasificación puede ser en:
1. Independiente, variable que es fijada (o manejada) por el investigador.
2. Dependiente, variable que el investigador no puede manejar, sino a través de cambios en la variable independiente.
Ejemplo: Ingreso (independiente) y gasto (dependiente).
III. PRESENTACIÓN DE DATOS UNIDIMENSIONALES.
Las técnicas visuales para presentar los datos, que son suficientemente numerosos, en forma ordenada y resumida son las tablas de frecuencia y los gráficos.
III.1 TABLAS DE FRECUENCIAS UNIDIMENSIONALES.
Una tabla de frecuencias es un cuadro numérico que permite la clasificación de los datos en categorías. Una tabla de frecuencias se dice que es unidimensional si se refiere al estudio de una variable, bidimensional si se refiere a la presentación en forma conjunta de dos variables y multidimensional cuando se refiere a la presentación de información conjunta de dos o más variables.
Estas tablas son útiles cuando se necesita resumir los datos para posteriormente analizar la información registrada para cada una de las variables.
4
El formato general de este tipo de tablas para una variable es el siguiente:TITULO DE LA TABLA
Nombre de lavariable
Tipo de frecuencia
Categorías de la variable
Frecuencias observadas
FUENTE:
El título de la tabla debe indicar por lo menos qué información se presenta, dónde fueron registrados los datos y cuándo se obtuvo la información.
El nombre de la variable puede utilizarse completo, con sus respectivas unidades de medida, o bien, alguna sigla previamente definida.
Las categorías que tendrá la variable van a depender del tipo de variable según nivel de medición o recorrido. De acuerdo a esto veremos la construcción de distintos tipos de tablas.
TIPOS DE FRECUENCIA:
1. FRECUENCIA ABSOLUTA o simplemente FRECUENCIA es el número de veces que se presenta un valor o una categoría de una variable. Se acostumbra a denotar por ni, que indica la frecuencia en la clase o
categoría i de la variable. En toda tabla, siempre
n
1
n
2
n
3
...
..
n
i
n
, donde n es elnúmero total de observaciones de la variable.
2. FRECUENCIA RELATIVA es la proporción del total de datos que se presenta en un valor o una categoría de una variable. Se acostumbra a denotar por
h
i (también se usaf
io
p
i) a la proporción de elementos deltotal que está en el valor o categoría i, valor que se obtiene por
n
n
h
i1
, con
h
i
1
. Esta frecuenciaresulta ser en la mayoría de los casos más clara e informativa, sobretodo si se desea comparar conjuntos de datos con distinto número (n) de observaciones. Por lo general, en la presentación de una tabla esta frecuencia se muestra como porcentaje, es decir
h
i
100
.Tanto la frecuencia absoluta como la frecuencia relativa se pueden usar en todo tipo de variables. Cuando las variables son de un nivel de medición al menos ordinal, podría ser de utilidad usar alguna de las dos siguientes frecuencias.
3. FRECUENCIA ABSOLUTA ACUMULADA es el número de datos que se presenta hasta un valor o una categoría de una variable. Se acostumbra a denotar por
N
i al número de observaciones hasta la clase i entre el total de datos.5
EJEMPLO 1En una encuesta efectuada a 20 empleados de una empresa, se obtiene la siguiente información, respecto de la variable: “Nº de cargas familiares”
Xi
i
n
h
iN
iH
i0 2 2/20 2 2/20
1 4 4/20 6 6/20
2 8 8/20 14 14/20
3 3 3/20 17 17/20
4 2 2/20 19 19/20
5 1 1/20 20 1
Interpretando algunos de los datos nos queda
8
3
n
Indica que hay 8 trabajadores con 2 cargas familiares0
1
n
Indica que hay 2 empleados sin cargas6
2
N
Indica que hay 6 empleados que tiene 1 carga o menos17
4
N
Indica que hay 17 empleados que tienen 3 cargas o menos20
/
3
4
h
Indica que hay 3/20 empleados tienen 3 cargas, multiplicando por 100, el 15% de los empleados tiene 3 cargas familiares20
/
6
2
H
Indica que hay 6/20 empleados con a lo más 1 carga, multiplicando por 100, el 30% de los empleados tiene a lo más 1 carga familiar.CONSTRUCCION DE TABLAS UNIDIMENSIONALES.
1. Variable en nivel de medición nominal.
En este caso cada valor que asume la variable pasa a ser una categoría y se disponen en un orden arbitrario en la tabla.
EJEMPLO.
Los siguientes datos corresponden al sexo de un grupo de personas en estudio:
M - M - F - M - F - M - M - F - F - M - F - M - F - F - M - F - F - M - M - M - F - M - F - M - F - M - M - F - F - F - M - M .
La tabla de frecuencias para este caso es como sigue:
DISTRIBUCIÓN DE LAS PERSONAS DE ACUERDO A SU SEXO.
SEXO
Cantidad de personas (ni)
Porcentaje de
personas (hi100)
Femenino 15 46,875
Masculino 17 53,125
TOTAL 32 100,000
FUENTE: Elaboración propia.
6
2. Variable en nivel de medición al menos ordinal y discreta con una cantidad pequeña de valores distintos (alrededor de 20). En este caso cada valor que asume la variable pasa a ser una categoría y se disponen según el orden implícito de la variable.EJEMPLOS.
a) Construir la tabla de frecuencias para los siguientes datos corresponden al número de días ausentes en un semestre de los alumnos a la clase de Estadística:
1 - 3 - 2 - 7 - 4 - 0 - 1 - 2 - 0 - 5 - 5 - 4 - 2 - 7 - 0 - 1 - 3 - 2 0 - 1 - 2 - 0 - 4 - 3 - 0- 2 - 3 - 2 - 1 - 1 - 1 - 0 - 1 - 3 - 2 - 2
Como la variable es discreta con un número de valores que va desde 0 hasta 7, cada valor pasa a ser una categoría, quedando la tabla como sigue:
DISTRIBUCION DE LOS ALUMNOS DEL CURSO DE ACUERDO A SUS AUSENCIAS DURANTE EL SEMESTRE.
DIAS AUSENTES
Cantidad de alumnos
(ni)
Cantidad Acumulada de alumnos
(Ni)
Proporción de alumnos
(hi)
Proporción Acumulada de alumnos
(Hi)
0 7 7 0,1944 0,1944
1 8 15 0,2222 0,4167
2 9 24 0,2500 0,6667
3 5 29 0,1389 0,8056
4 3 32 0,0833 0,8889
5 2 34 0,0556 0,9444
6 0 34 0,0000 0,9444
7 2 36 0,0556 1,0000
TOTAL 36 1,0000
b) La siguiente tabla resume las respuestas de 30 dueñas de casa a la pregunta ¿Es usted quien hace las compras en el supermercado?
DISTRIBUCIÓN DE LAS DUEÑAS DE CASA DE ACUERDO A SUS HÁBITOS DE COMPRAS
RESPUESTA
Cantidad de amas de casa
Porcentaje de amas de casa
Siempre 12 0,4000
Casi siempre 10 0,3333
A veces 4 0,1333
Casi nunca 3 0,1000
Nunca 1 0,0333
Total 30 1,0000
Fuente: Elaboración propia.
3. Variable en nivel al menos de intervalos y continua, o bien, variable discreta que asume demasiados valores distintos (>21).
En esta tabla se pierde información, ya que las clases estarán formadas por intervalos de valores, cuyos puntos medios se denominan marcas de clase y se denotan por xi (para la variable X). A veces se
7
Los pasos para la construcción de estas tablas con intervalos de igual amplitud son:- Determinar el rango o recorrido R de la variable: R = máx - mín.
- Establecer el número k de intervalos a usar. En caso de no tener una buena idea de cuantos usar se puede recurrir a una de las fórmulas empíricas existentes, como la regla de Sturges que establece una buena aproximación de k como la parte entera de [1+ 3,3 log n].
- Determinar la amplitud c de cada clase, es decir la diferencia entre el límite superior (LS) de una clase y su límite inferior (LI). Para ello se divide R por k y el resultado se aproxima al valor siguiente con la misma cantidad de cifras decimales que los datos, si esta división resulta con más decimales; si la división resulta tener igual o menor cantidad de decimales que los datos se conserva ese mismo resultado como valor de c.
- Si el valor de c se ha obtenido por aproximación, se procede a multiplicarlo por k, obteniendo como resultado el rango R' que tendrán los datos en la tabla. Para no sesgar demasiado los datos en la tabla respecto de los reales conviene hacer la diferencia entre R' y R repartiendo ésta en partes lo más equitativas posibles entre el mínimo y el máximo. Al mínimo se le resta aproximadamente la mitad de la diferencia y al máximo se le suma el resto, conservando siempre el número de cifras decimales de los datos para lograr una visión clara de ellos.
Si el valor de c no se ha obtenido por aproximación, el recorrido R de los datos será el mismo que el de la tabla.
- Construir la tabla comenzando por el mínimo obtenido en el paso anterior y agregar en cada intervalo el valor c de la amplitud., empleando el mismo valor en el límite superior de una clase y en el límite inferior de la clase siguiente, sólo que para colocar las frecuencias se debe tener presente que la convención en los límites de los intervalos es que los límites inferiores son siempre cerrados y los límites superiores abiertos, exceptuando el último límite superior que siempre es cerrado.
8
EJEMPLO:Los siguientes datos corresponden a los tiempos, en minutos, requeridos para atender a 50 clientes en una caja de supermercado, obtenidos en un control de eficiencia de éste:
2,6 - 1,4 - 3,2 - 3,5 - 1,8 - 2,3 - 0,7 - 5,2 - 0,9 - 0,9 - 0,9 - 3,0 - 1,1 - 1,2 - 2,3 - 1,7 - 3,2 1,7 - 0,7 - 1,8 - 1,3 - 1,5 - 2, 5 - 0,3 - 0,7 - 1,6 - 5,9 - 4,5 - 5, 9 - 6,0 - 3,2 - 1,4 - 1,6 - 1,1 0,5 - 2,4 - 1,6 - 0,9 - 1,3 - 0,7 - 0, 9 - 1,0 - 1,5 - 0,4 - 0,5 - 1,2 - 1,5 - 0,8 - 0,4 - 0,3.
Construir la tabla de frecuencias, con todas las frecuencias incluyendo la marca de clase.
Solución:
'
6
6
1
1
95
,
0
6
50
log
3
,
3
1
7
,
5
3
,
0
0
,
6
R
pero
c
k
R
k
X
X
R
máx mín
R' - R = 0,3, cifra que repartimos lo más iguales posibles conservando un decimal, entre el mínimo y el máximo. En este caso procederemos a restar 0,1 al mínimo y a sumar 0,2 al máximo (0,1 + 0,2 = 0,3).
Por tanto, nuestra tabla comenzará con el valor 0,2 y terminará con el valor 6,2; teniendo cada intervalo una amplitud igual a 1.
DISTRIBUCIÓN DE LOS CLIENTES SEGÚN EL TIEMPO DE ATENCIÓN EN LA CAJA.
TIEMPO (minutos) [ LI - LS [
Tiempo promedio
(Xi )
Cantidad de clientes (ni )
Proporción de clientes
(hi )
Cantidad Acumulada de
clientes (Ni )
Proporción Acumulada de clientes
(Hi )
0,2 - 1,2 0,7 19 0,38 19 0,38
1,2 - 2,2 1,7 16 0,32 35 0,70
2,2 - 3,2 2,7 6 0,12 41 0,82
3,2 - 4,2 3,7 4 0,08 45 0,90
4,2 - 5,2 4,7 1 0,02 46 0,92
5,2 - 6,2 5,7 4 0,08 50 1,00
Total 50 1,00
Fuente: Elaboración propia con base en los resultados de la medición de eficiencia.
Nota: Algunas interpretaciones en esta tabla son: h4 indica que el 8% de los clientes demoran en ser
atendidos entre 3,2 y 4,2 minutos; N5 indica que 46 clientes demoraron menos de 5,2 minutos.
9
III.2 REPRESENTACION GRAFICA DE DATOS UNIDIMENSIONALES.Una gráfica es una forma ilustrada de representar y resumir datos; de modo de hacer evidentes visualmente ciertas características de los datos, son una alternativa a las tablas de frecuencia, incluso a veces representa mejor sus características que las tablas de frecuencias.
Al construir un gráfico se debe tener presente los siguientes puntos:
- Sencillez y autoexplicación.
- Evitar distorsiones por mala elección de escala.
- Elección apropiada del tipo de gráfico, según los objetivos del estudio y el nivel de medición de las variables.
III.2.1 PICTOGRAMA.
Son representaciones de la información mediante dibujos de los objetos que son motivo de estudio, con un formato que dé una rápida idea visual de la distribución de frecuencia. Este tipo de gráficas es una de las más antiguas en uso y son especialmente útiles para fines publicitarios por ser atractivos y de fácil comprensión.
EJEMPLO:
El siguiente pictograma muestra la cantidad de dinero circulante en tres países fronterizos:
País A B C
III.2.2 DIAGRAMA DE TALLO Y HOJAS O HISTOGRAMA DIGITAL.
Este es un diagrama semigráfico en forma de árbol que tiene la ventaja de presentar todas las observaciones y por tanto no se pierde información como en una tabla de frecuencias en intervalos y resulta especialmente útil cuando el número total de datos es pequeño (<50). Los principios para la realización del diagrama son los siguientes:
- Redondear los datos a dos o tres cifras significativas.
- Disponer los datos en dos columnas separadas por una línea vertical de tal forma que para los datos con dos dígitos la cifra de las decenas se encuentre a la izquierda de la línea vertical (tallo del diagrama), y a la derecha las unidades (hojas o ramas del diagrama). Para datos con tres dígitos, el tallo estará formado por los dígitos de las centenas y las decenas, que se escribirán a la izquierda de la línea vertical y las hojas estarán formadas por el dígito de las unidades, que se escribirá a la derecha de la línea vertical.
10
EJEMPLO:Construir el diagrama de tallo y hojas para los datos de tiempo de espera en el ejemplo de la página 15.
Solución.
Recordemos que los datos eran:
2,6 - 1,4 - 3,2 - 3,5 - 1,8 - 2,3 - 0,7 - 5,2 - 0,9 - 0,9 - 0,9 - 3,0 - 1,1 - 1,2 - 2,3 - 1,7 - 3,2 1,7 - 0,7 - 1,8 - 1,3 - 1,5 - 2, 5 - 0,3 - 0,7 - 1,6 - 5,9 - 4,5 - 5, 9 - 6,0 - 3,2 - 1,4 - 1,6 - 1,1 0,5 - 2,4 - 1,6 - 0,9 - 1,3 - 0,7 - 0, 9 - 1,0 - 1,5 - 0,4 - 0,5 - 1,2 - 1,5 - 0,8 - 0,4 - 0,3.
Luego, el diagrama de tallo y hoja es:
0 3 3 4 4 5 5 7 7 7 7 8 9 9 9 9 9 1 0 1 1 2 2 3 3 4 4 5 5 5 6 6 6 7 7 8 8
2 3 3 4 5 6
3 0 2 2 2 5
4 5
5 2 9 9
6 0
III.2.3 GRAFICOS SECTORIALES, DE TORTA O DE PIE.
Corresponden a la representación circular de las frecuencias, en forma proporcional a los 360° de una circunferencia, en que las categorías se identifican como sectores de la circunferencia. Son útiles para estudiar la distribución de frecuencias de datos categóricos y nominales con pocas categorías.
EJEMPLO:
La representación de los datos de la tabla III.1.3 sería como sigue:
III.2.4 GRAFICOS DE BARRAS SEPARADAS.
Se utilizan para representar la distribución de frecuencias (absolutas o relativas) de una variable discreta; en que cada categoría se representa por una barra cuyo alto (o largo) indica la frecuencia de observaciones en dicha categoría.
Siempre 41%
Casi siempre 33% A veces
13%
Casi nunca 10%
11
0 10 20 30 40
0 - 1 1 - 2 2 - 3 3 - 4 4 - 5 >=5
Antigüedad
P
o
rc
e
n
ta
je
d
e
e
m
p
le
a
d
o
s
Hombres Mujeres
EJEMPLO:
La siguiente tabla corresponde a la distribución porcentual de un grupo de familias según la cantidad de hijos: Cantidad de hijos Porcentaje de familias
0 15
1 22
2 28
3 19
4 10
5 6
El correspondiente gráfico de barras para esta tabla es el siguiente:
III.2.5 GRAFICOS DE BARRAS AGRUPADAS.
Se usan para comparar dos o más grupos de datos en un nivel de medición nominal u ordinal.
EJEMPLO:
La siguiente tabla muestra las distribuciones de los empleados y empleadas de cierta empresa clasificados según antigüedad en la empresa, en años.
III.2.6 GRAFICOS DE BARRAS DIVIDIDAS.
Son similares a los anteriores, es decir, son útiles para estudiar la distribución de frecuencias de una variable discreta dentro de diferentes niveles de otra variable discreta, de manera de poder establecer comparaciones entre tales niveles.
Antigüedad (años)
Porcentaje de empleados
Porcentaje de empleadas
0 - 1 12 10
1 - 2 24 16
2 - 3 36 32
3 - 4 14 24
4 - 5 10 12
5 4 6
0 5 10 15 20 25 30
0 1 2 3 4 5
Cantidad de hijos
P
o
rc
e
n
ta
je
d
e
f
a
m
il
ia
12
EJEMPLO:Para los datos del ejemplo anterior, el gráfico de barras divididas que denota los porcentajes de las antigüedades para hombres y mujeres, quedaría como sigue:
III.2.7 HISTOGRAMA Y POLIGONO DE FRECUENCIAS.
Ambos gráficos se usan para representar las frecuencias (absolutas o relativas) de variables en un nivel de medición de intervalos o de razón y continuas; también se pueden usar con variables discretas con un gran número de valores distintos.
El histograma consiste en una serie de rectángulos adyacentes cuyas áreas son proporcionales a la frecuencia del intervalo sobre el cual se ubican. Si los intervalos son de igual amplitud, los rectángulos tendrán una altura proporcional a la frecuencia correspondiente; en todo caso si la amplitud del intervalo es
c
i, su frecuencia ni y si k esuna constante cualquiera, idéntica para cada intervalo, la altura de la barra
h
i debe satisfacer la siguiente igualdad:i i i
c
n
k
h
El polígono de frecuencias es un gráfico de líneas trazado sobre las marcas de clase sucesivas, a la altura de la frecuencia (absoluta o relativa) de cada intervalo y en el que se deben crear dos marcas de clase ficticias, una antes del primer intervalo y otra después del último, para cerrar el polígono.
EJEMPLO:
El volumen de ventas diario que realiza un vendedor de una tienda que se dedica al rubro electrónico, se resume en el siguiente cuadro:
Ventas Venta promedio Cantidad de días (miles de $) (miles de $)
900 - 1.000 950 6 1.000 - 1.100 1.050 12 1.100 - 1.200 1.150 18 1.200 - 1.300 1.250 10 1.300 - 1.400 1.350 4 0%
20% 40% 60% 80% 100%
Hombres Mujeres
>=5
4 - 5 3 - 4
2 - 3 1 - 2
13
El histograma y polígono de frecuencias para estos datos están en el siguiente gráfico de rectángulos dibujado con los límites de clase y el gráfico de líneas trazado sobre las marcas de clase, respectivamente.Cantidad de días
18
12
10 6 4
4
Ventas 850 950 1.050 1.150 1.250 1.350 1.450 [m$]
III.2.8 GRAFICO ESCALONADO
Es el gráfico de la distribución acumulada (absoluta o relativa) de una variable discreta. En éste, las frecuencias acumuladas se van presentando en forma de escalera, en que el punto inicial del peldaño incluye al valor en la escala de la variable y el punto final excluye al punto en la escala de la variable; con un salto entre clases consecutivas y en que las distancias entre los distintos escalones representan las frecuencias de cada clase.
EJEMPLO:
La siguiente tabla muestra la distribución acumulada del número de habitaciones desocupadas durante los últimos cien días en el hotel "X".
Cantidad de habitaciones Porcentaje acumulado de días
0 10
1 26
2 26
3 44
4 68
5 82
6 92
7 100
Su correspondiente gráfica es:
Porcentaje Acumulado de días
100
92 82
68
44
26
10
N° de 0 1 2 3 4 5 6 7 8 9
Incluye al 6
14
III.2.9 OJIVA.Es el gráfico de la distribución de frecuencias acumulada (absoluta o relativa) de una variable continua. Es un gráfico de líneas que une las frecuencias acumuladas en los límites inferiores (y superiores) de cada intervalo.
EJEMPLO:
Usando los datos usados para el histograma y polígono de frecuencias dibujar la ojiva.
Solución.
La tabla de frecuencias acumuladas es como sigue:
Ventas Cantidad Acumulada
(miles de $) de días
900 - 1.000 6 1.000 - 1.100 18 1.100 - 1.200 36 1.200 - 1.300 46 1.300 - 1.400 50
La ojiva es:
DISTRIBUCIÓN ACUMULADA DE LAS VENTAS DIARIAS
Nº acumulado
de días
50
46
36
18
6
Ventas
0
15
IV MEDIDAS DESCRIPTIVAS PARA UNA VARIABLE.Los conjuntos de datos tienen distintas características que los hace diferenciarse de otros conjuntos de datos. Estas características se denominan medidas descriptivas y se clasifican en: medidas de posición, medidas de dispersión y medidas de forma.
Estas medidas descriptivas se pueden obtener tanto en la muestra como en la población. Cuando los datos corresponden a una muestra, las medidas se denominan estadígrafos y cuando los datos son de la población, las medidas se denominan parámetros.
IV.1 MEDIDAS DE POSICION
Por lo general, las medidas de posición tienen como objetivo resumir el conjunto de datos de forma de tener un panorama general de ellos, de manera que sirva como representante de la globalidad de la información. La mayoría de las medidas de posición indican donde se ubica el centro de la distribución, por lo que se les llama medidas de tendencia central.
Las medidas de tendencia central son: la media aritmética, la mediana, la moda, la media geométrica y la media armónica. Las medidas de posición son las cuantilas (cuartiles, quintiles, octiles, deciles, percentiles).
IV.1.1 LA MEDIA O PROMEDIO ARITMETICO (M ó ó x).
DEFINICION: La media aritmética se define como la suma de todos los valores observados dividida por el número de datos.
Si los datos son los valores X1, X2,…, XN de la población de tamaño N (finito), la media se denota por y la definición
dice que:
N X
N
i i
1
; si los datos corresponden a una muestra x1, x2, …, xn de la población, la media aritmética
se denota por x, o bien, M(x) y la aplicación de la definición es:
n x x
n i
i
1 .
Si los datos de una muestra están ordenados en una tabla de frecuencias, entonces la definición se transforma en:
i i k
i i i
h x n
n x
x 1 ; donde xi es el valor de la variable o marca de clase si los datos son de una variable X
discreta o continua, respectivamente.
EJEMPLO:
La siguiente tabla muestra la distribución del saldo de 120 cuentas de crédito, en miles de $, que maneja en sus archivos la empresa XX.
Saldo Cantidad de cuentas (miles de $)
0 – 30 10
30 – 60 25
60 – 90 40
90 – 120 20
120 – 150 15
150 – 180 10
16
Obtener la media aritméticaSolución.
Para obtener la media aritmética, se deben calcular las marcas de clase xi, según se describe en el siguiente
cuadro:
Saldo promedio(xi) Cantidad de cuentas
(miles de $)
15 10
45 25
75 40
105 20
135 15
165 10
La media aritmética está dada por:
75 , 83 120
10 165 15 135 20 105 40 75 25 45 10
15
x [miles de $], lo que se interpreta como "el saldo
promedio de las cuentas de crédito de la empresa XX sería de $83.750".
Propiedades de la media.
La media aritmética tiene la gran desventaja de que se ve muy influenciada por los valores extremos, pero aún así es la medida de tendencia central que más se usa, ya que posee las siguientes propiedades:
1. La media aritmética de una constante k es igual a la misma constante, es decir, M(k)=k.
2. La media del producto de una constante a por una variable X, es igual al producto de la constante por la media de la variable, es decir, M(a X) = a M(X).
3. La media del producto de una constante a por una variable X más otra constante, digamos b, es igual a la constante a por la media de la variable X más la constante b, es decir, M(a X + b) = a M(X) + b.
4. La media de la suma de dos variables X e Y, es igual a suma de las medias de cada una de esas variables, es decir, M ( X + Y ) = M( X ) + M( Y ).
5. xmín x xmáx.
6. En toda distribución
n
i
i x
x
1
0 ) ( .
7. En toda distribución
n
i
i a
x
1
2
)
( es mínimo para a = x.
Usos de la media aritmética.
17
IV.1.2 LA MEDIANA (Me óμ~ó~x).DEFINICION: La mediana es el valor que está justo al centro del conjunto de datos ordenados según magnitud; es decir es la observación que supera a no más del 50% de los datos y es superado por no más del 50% de las observaciones.
Obtención de la mediana:
. intervalos con s frecuencia de tabla una en ordenados están datos los si n N 2 n c LI par es n si 2 x x par es n si x Me(X) k 1 k k k 1 2 n 2 n 2 1 n im
donde: x(i) indica la observación que está en el lugar i del conjunto de datos ordenados.
LIkes el límite real inferior del intervalo que contiene a la mediana.
El intervalo que contiene a la mediana es aquél cuya frecuencia absoluta acumulada alcanza el valor 2 n
, o bien, su
frecuencia relativa acumulada alcanza el valor 0,5.
EJEMPLOS:
1) Sea el siguiente número impar de datos: 2 - 5 - 6 - 6 - 7 - 7 - 7- 8 - 9 - 9 -10.
Solución.
El valor mediano de estos datos ordenados es 7. Su interpretación es que el 50% de las observaciones es al menos igual a 7 y el resto a lo más igual a 7.
2) Sea el siguiente número par de datos: 2 - 2 - 3 - 4 - 4 - 5 - 6 - 6 - 7 - 8.
Solución.
Su mediana es (4+5)/2 = 4,5.
3) La siguiente tabla muestra la distribución de un grupo de familias clasificadas según el número de hijos:
Nº de hijos Nº de familias
0 12
1 18
2 24
3 32
4 22
5 12
18
Para obtener la mediana en este caso debemos obtener las frecuencias acumuladas.Nº de hijos Nº acumulado de familias
0 12
1 30
2 54
3 86
4 108
5 120
6 122
Por ser un número par de datos, la mediana es el promedio de las observaciones centrales, que están en la posición 61 y 62, lo que corresponde a 3 hijos; esto significa que el 50% de las familias tiene a lo menos tres hijos y el otro 50% tiene a lo más tres hijos.
4) Obtener la mediana en la tabla de frecuencias del ejemplo de la media, de las 120 cuentas.
Solución.
Primero se debe calcular el valor
2
n
y obtener las frecuencias acumuladas.
Saldo Cantidad de cuentas Cantidad acumulada
(miles de $) de cuentas
0 – 30 10 10
30 – 60 25 35
60 – 90 40 75
90 – 120 20 95
120 – 150 15 110
150 – 180 10 120
2
n
= 60 El intervalo que contiene a la mediana es el tercero.
Me(x) = 60 + 30
40 35 60
= 78,75 [m$], esto significa que el 50% de las cuentas tendrían un saldo de a lo
más $78.750 y el 50% restante un saldo de a lo menos $78.750.
Propiedades de la mediana:
1. El cálculo de la mediana se ve afectado por el número de observaciones y no por la magnitud de cualesquiera de los extremos, pero no utiliza toda la información como la media.
2. Cualquier observación seleccionada al azar es igual de fácil que supere a la mediana o que la mediana supere a la observación.
3. La suma de las diferencias absolutas en torno a la mediana es un mínimo, es decir,
Me a si Mínimo a
x
n
i
i
1.
19
IV.1.3 LA MODA O MODO (Mo).DEFINICION: Es el valor más común observado en un conjunto de datos.
Esta es la única medida descriptiva que se puede utilizar en datos medidos en una escala nominal. Si la variable es continua, la moda (o las modas) corresponden a aquellos valores de la variable en los cuales la función alcanza un máximo local y habrá tantas modas como máximos locales; pero si el máximo es global, la moda es única y se habla de distribución unimodal y si la función es uniforme, entonces no tiene moda.
Obtención de la moda:
- Si los datos están sin agrupar, o bien, si corresponden a una variable discreta ordenada en una tabla de frecuencias, se aplica la definición para obtenerla.
- Si los datos corresponden a una variable continua agrupada en intervalos, sólo se puede calcular la moda si los intervalos son de igual amplitud y el intervalo con mayor frecuencia se denomina clase modal y el valor modal está dado por:
1 k k 1 k k 1 k k kn
n
n
n
n
n
c
LI
Mo(x)
,donde, el subíndice k denota al intervalo que contiene la moda, c denota la amplitud de los intervalos y las nj se refieren a las frecuencias absolutas o relativas.
IV.1.4 LAS CUANTILAS.
Las cuantilas son medidas de posición que dividen el conjunto de datos ordenados en un número determinado de partes iguales. Una de estas medidas es la mediana que divide en dos partes iguales. Cuando el conjunto ordenado de datos se divide en cuatro partes iguales, los puntos de división se llaman cuartiles (Qi) y cuando el conjunto
ordenado de datos se divide en cinco partes iguales, los puntos de división se llaman quintiles (Fi); se podría seguir
mencionando otras medidas, pero son los percentiles (Pi) los puntos que denotan la mayor cantidad de divisiones en
partes iguales, dividen el conjunto ordenado en cien partes iguales. Es la partición más fina de los datos. Como es posible establecer una equivalencia entre los percentiles y cualquier otra cuantila, como por ejemplo, P50 = Q2 = Me y
P20 = F1, será a los percentiles a quienes estudiaremos en detalle.
El percentil Pk puede definirse como el valor en que el k % de las observaciones es igual o inferior a él y el (100 - k)%
de las observaciones es igual o superior a él.
Obtención de los percentiles:
.
intervalos
con
s
frecuencia
de
tabla
una
en
ordenados
están
datos
los
si
n
N
100
n
k
c
LI
tabulado).
han
se
(no
ordenado
han
se
sólo
datos
los
si
100
n
k
si
x
100
n
k
si
2
x
x
P
k 1 k k k 1 100 n k 1 100 n k 100 n k k20
Para obtener el resto de las cuantilas, sólo se debe cambiar en la expresión:100
n k
, el divisor 100 por el número de
partes en que divide los datos la cuantila.
EJEMPLO:
Los trabajadores de una empresa clasificados según su rendimiento mensual, cuantificado en cientos de miles de $, dan origen a la distribución presentada en la tabla siguiente.
Rendimiento Cantidad de trabajadores
50 - 70 18
70 - 90 27
90 - 110 20
110 - 130 12
130 - 150 11
150 - 170 9
170 - 190 3
a) Obtenga e interprete P20.
b) ¿Qué porcentaje de trabajadores supera a $11.700.000 en rendimiento?
Solución.
a) Para obtener P20 primero se debe obtener el valor
100
n k
y compararlo con las frecuencias
acumuladas.
Rendimiento Cantidad de trabajadores Cantidad Acumulada de trabajadores
50 - 70 18 18
70 - 90 27 45
90 - 110 20 65
110 - 130 12 77
130 - 150 11 88
150 - 170 9 97
170 - 190 3 100
20 100
100 20 100
n
k
El intervalo que contiene al valor P20 es el 2º.
cientosdemilesde$
71,48 27
18 20 20 70
P20
, es decir, el 20% de los trabajadores tiene un
rendimiento de a lo más $7.148.000.
b) Se desea obtener el valor de 100- k tal que Pk = 117.
% 2 , 69 12
65 20 110
21
Existen, además otras medidas de tendencia central pero que son de uso más específico, ellas son la media geométrica y la media armónica.IV.1.5 LA MEDIA GEOMETRICA (MG).
DEFINICION: n
n
x x x
MG 1 2
La media geométrica se utiliza en el cálculo de promedios de tasas de variación y en la elaboración de números índices; con el inconveniente que no se puede calcular cuando hay algún valor igual o inferior a cero.
EJEMPLO:
El PNB de cierto país ha aumentado de 550 u.m. a 1200 u.m. en 10 años, ¿Cuál ha sido la tasa media de crecimiento?
Solución.
0811 , 1 550 1200
10 La tasa media de crecimiento anual fue de 8,11%.
IV.1.6 LA MEDIA ARMONICA (MH).
DEFINICION:
i i
y n n
X 1 M
1 MH
La media armónica se usa para obtener un valor representativo de un conjunto de datos expresados en forma de tasas, esto es, tantas unidades de un tipo por cada unidad de otra especie.
EJEMPLO: Una persona conduce su vehículos a 60 km/hora los primeros 40 km y a 100 km/hora los siguientes 60 km. ¿Cuál fue la velocidad media en todo el trayecto?
Solución. 78,95
100 60 60 40
60 40
MH
km/hora.
NOTA: En cualquier distribución se cumple que: MH<MG<M.
IV.2 MEDIDAS DE DISPERSION.
Son medidas que describen la variabilidad de los datos.
IV.2.1 EL RANGO, AMPLITUD O RECORRIDO(R ó Rx).
DEFINICION: Es la diferencia entre el mayor valor y el menor valor de una serie de datos, es decir, Rx =
xmáx - xmín
Esta es la medida de dispersión más simple de calcular y entender, que sólo tiene sentido calcularla cuando los datos están en un nivel de medición intervalar o de razón.
22
IV.2.2 RANGO INTERCUARTILICO O AMPLITUD INTERCUARTILICA (Q).DEFINICION: Es la diferencia entre el cuartil tres y el cuartil uno, es decir, QQ3Q1. Esto se interpreta como
la mayor diferencia entre los valores del 50% de las observaciones centrales en los datos ordenados.
A pesar de ser más adecuada que la anterior, ya que elimina la influencia de los valores extremos, no permite hacer una interpretación precisa de un valor dentro de la distribución. Al igual que el rango, se usa bastante en Control de Calidad.
IV.2.3 LA VARIANZA Y LA DESVIACION ESTANDAR.
DEFINICION: La varianza poblacional, que se denota por 2 (sigma cuadrado), se define como el promedio de las desviaciones cuadráticas de los valores de la distribución y su media. Es decir:
N μ x σ N 1 i 2 i 2
De todas las medidas descriptivas, esta es la única en que es distinta la fórmula poblacional de la muestral. La varianza muestral, que se denota por s2, está dada por:
1 n x n x 1 n x x s n 1 2 2 i n 1 i 2 i 2
iLa última igualdad corresponde al desarrollo de la
sumatoria, con lo que se logra una fórmula más fácil para el cálculo. En caso que los datos estén en tablas de
frecuencia la varianza muestral se obtiene por:
1 n x n x s n 1 2 2 i 2
ii
n
, donde xi es la marca de clase o valor de la
clase i y ni corresponde a la frecuencia absoluta de la clase i.
El valor numérico de la varianza cuantifica el grado de dispersión de los valores observados de la variable respecto de su media aritmética, de manera que mientras mayor es la dispersión de las observaciones, mayor es la magnitud de sus desviaciones respecto a la media aritmética y por lo tanto, más alto es el valor numérico de la varianza.
Las unidades de medición de la varianza son iguales al cuadrado de las unidades con que se mide la variable. El valor de la varianza nunca será negativo y como las unidades cuadráticas son de difícil comprensión es que se usa la desviación estándar, que corresponde a la raíz cuadrada positiva de la varianza, es decir:
2
σ
σ corresponde a la desviación estándar poblacional y s s2 corresponde a la desviación estándar muestral. Las unidades de medición de la desviación estándar son las mismas con que se mide a la variable.
Para tener una idea de si el valor obtenido en la desviación estándar indica que la dispersión de los datos es grande
o pequeña, podemos usar el teorema de Chebyshev, que establece que la expresión 1 12
k
representa la
proporción mínima de los datos que dista no más de k desviaciones estándar de la media si k 1; expresado en
otros téminos la siguiente afirmación equivale al teorema de Chebyshev: A lo más 100 k
1
2
% de los datos de
23
Propiedades de la varianza:Para presentar las propiedades tanto de la varianza poblacional como de la varianza muestral, se denotará con la letra V a la varianza.
1. La varianza de una constante es cero. V(a) = 0, si a es constante.
2. La varianza del producto de una constante por una variable es igual a la constante al cuadrado multiplicada por la varianza de la variable. V(bX) = b2 V(X).
3. De 1. y 2. podemos concluir lo siguiente:
a) V(a + bX) = b2 V(X) b) V(a - bX) = b2 V(X)
(Las demostraciones de estas propiedades se pueden obtener fácilmente aplicando la definición y las propiedades de la sumatoria y de la media aritmética).
EJEMPLO:
Usando los datos del ejemplo de la media, que se refería a la distribución del saldo de 120 cuentas de crédito,
a) Obtenga la desviación estándar.
b) Si se sabe que por las condiciones económicas los saldos han aumentado un 20%, determine la nueva desviación estándar.
Solución.
a) Recordemos que los datos para los cálculos son:
Saldo promedio(xi) Cantidad de cuentas
(miles de $)
15 10
45 25
75 40
105 20
135 15
165 10
Suponiendo que los datos son de una muestra, la desviación estándar muestral se calcularía como sigue:
23 , 41 119
75 , 83 120 ) 10 165 ... 10 15
( 2 2 2
s [miles de $]
b) Sea X: saldo antiguo e Y: saldo nuevo Y = X + 0,2 X = 1,2 X
Aplicando propiedades se tiene que s y = 1,2 s x = 49,48 [miles de $]
Usos de la varianza.
La varianza (o la desviación estándar) se usa como medida de dispersión cuando se ha utilizado la media aritmética como medida de tendencia central.
24
comparación de la dispersión del rendimiento de la gasolina de dos vehículos si uno está medido en Km por litro y el otro en millas por galón.Cuando las distribuciones tienen distinta media aritmética o están en unidades diferentes, se usa una medida de dispersión relativa, como es el coeficiente de variación.
IV.2.4. EL COEFICIENTE DE VARIACIÓN (CV(x) ó CVx).
DEFINICION: Es el cuociente entre la desviación estándar y la media aritmética. Es decir,
x x
μ σ CV(X) para
datos poblacionales y
x s
CV(X) x para datos muestrales.
Se interpreta como la proporción de variabilidad con respecto a la media. Indica cuán homogénea o heterogénea es una distribución. Es una medida sin unidades, que multiplicada por 100 indica la dispersión en términos porcentuales. Las propiedades matemáticas del coeficiente de variabilidad se obtienen de la aplicación de las respectivas propiedades en la desviación estándar y la media.
Así como se tiene una medida de dispersión relativa, también existe una medida de posición relativa, que se llama puntaje típico o estándar.
EJEMPLO:
Con los datos del ejemplo anterior obtener e interpretar el coeficiente de variación.
Solución.
0,4923 83,75
41,23