UNIVERSIDAD DE SONORA

(1)

UNIVERSIDAD DE SONORA

División de Ciencias Exactas y Naturales

Departamento de Matemáticas

Estadística Aplicada a las Licenciaturas:

Administración, Contaduría e Informática

Administrativa.

Fascículo II:

Estadística Descriptiva

Semestre 2017-1.

(2)

Departamento de Matemáticas 2 Universidad de Sonora.

Prólogo

.

Este es el segundo fascículo que surge como fruto de las actividades generadas en el proyecto

“Elaboración de herramientas de aprendizaje de estadística para dispositivos móviles” que

actualmente se encuentra en su cuarta etapa. Este fascículo está diseñado para que el alumno pueda

consultarlos por medio de su teléfono celular, ya sea en línea o bajándolos desde mi página Web

(

http://www.mat.uson.mx/~ftapia/

), que conjuntamente, con otras herramientas de aprendizaje que

se encuentran en la página mencionada tales como videos de menos de 10 minutos, aplicaciones

tecnológicas para realizar cálculos estadísticos que se encuentran en la página Web alterna

http://www.mat.uson.mx/~ftapia/objetos

, le son útiles para optimizar su proceso de aprendizaje de la

materia arriba mencionada

Este es el segundo folleto correspondiente al Tema II de Estadística Aplicada a las Licenciaturas: Negocios y Comercio Internacionales, Administración, Contaduría e Informática Administrativa que se ofrecen de la Universidad de Sonora. Los temas presentados aquí son congruentes con el programa vigente de la materia de Estadística I del área económico- administrativo.

En el segundo tema del programa titulado Estadística descriptiva, el alumno conocerá y utilizará adecuadamente las herramientas de la estadística descriptiva para recopilar, organizar y analizar adecuadamente la información, construirá e interpretará correctamente información gráfica y tabular (ver secciones 2.1-2.5).

Calculará e interpretará adecuadamente las medidas estadísticas de localización y dispersión; utilizará adecuadamente las medidas de tendencia central ante diversas situaciones presentadas; integrará las medidas de localización y dispersión en problemas relacionados con la toma de decisiones; conocerá, utilizará e interpretará un diagrama de dispersión y sobre la base del mismo, podrá decir si dos variables están correlacionadas o no (ver secciones 2.6-2.8).

Calculará el coeficiente de correlación lineal simple y la recta de regresión en variables correlacionadas e Interpretará, sobre la base del problema a analizar, el significado del análisis efectuado (ver sección 2.9). Nuestro propósito al elaborar este segundo folleto, es dotar al alumno de las herramientas necesarias, apegada al programa vigente, para que el alumno por sí mismo, recopile, organice, represente de manera gráfica, analice e interprete la información recabada ya sea por medio de una muestra o de un censo, y la utilice para la realización de toma de decisiones. Además, de estudiar, explorar y cuantificar la relación entre variables cuantitativas para desarrollar una ecuación lineal simple con fines predictivos.

Este trabajo se sitúa en el marco de un esfuerzo colectivo realizado por el Departamento de Matemáticas por dotar al alumno del material didáctico necesario para que éste optimice su proceso de enseñanza/aprendizaje/formación de las matemáticas.

Hermosillo, Sonora, México. Enero de 2017.

(3)

Tema

Pag.

Tema II. Estadística Descriptiva.

5 2.1. Introducción.

5 2.2. Clases de datos.

5 2.3. Agrupamiento en intervalos.

6 2.4. Descripción de datos de una variable.

6

2.4.1. Tabulación y representación gráfica.

7

Tablas de frecuencias.

7

Datos Agrupados.

8 2.5. Representaciones Gráficas

9

Diagramas de frecuencia mediante puntos.

9

Gráficas de línea.

Diagrama de barras.

10

Histogramas.

10

Polígono de frecuencias.

11

Diagramas de tallo y hojas.

12

Diagramas de pastel o circulares.

12

Otras distribuciones de frecuencias y otros gráficos.

13

Distribuciones acumulativas y polígonos acumulativos.

13

Polígonos acumulativos u Ojivas.

14

Diagramas de caja.

15 2.6. Medidas descriptivas de localización y distribución.

16 2.6.1 Medidas de posición o centralización.

16

La media aritmética.

17

La mediana.

18

Cuantiles.

20

Cálculo de los cuartiles

20

a) Para datos agrupados.

20

b) Para datos no agrupados.

21

Cálculo de Deciles

21

b) Para datos no agrupados

22

Cálculo de percentiles. a) Para datos agrupados.

b)Para datos no agrupados La moda.

(4)

2.6.2. Relación entre la Media, la Mediana y la moda.

24 2.7. Medidas de Dispersión.

25

Coeficiente de variación.

2.8. Medidas de forma.

29

Coeficiente de disimetría de Pearson.

30

Coeficiente de Asimetría de Fisher.

30

Curtosis o apuntamiento.

31

Coeficiente de curtosis de Fisher.

32 2.9. Análisis de regresión y correlación lineal simple.

33 2.9.1. Introducción al análisis de regresión y correlación lineal.

33

Regresión lineal. Correlación lineal.

2.9.2. Gráficos de dispersión.

34

2.9.3. Coeficiente de correlación lineal.

36

2.9.4. Modelo de regresión lineal simple.

38 2.10. Ejercicios teóricos.

39 2.11. Ejercicios prácticos.

40 2.12. Lecturas recomendadas.

43 2.13. Bibliografía recomendada para reforzar este tema.

43

(5)

Tema II.

Estadística Descriptiva.

2.1. Introducción.

Habitualmente el propósito de la Estadística Aplicada es el de sacar conclusiones de una población en estudio, examinando solamente una parte de ella denominada muestra. Este proceso, denominado Inferencia

Estadística, suele venir precedido de otro, denominado Estadística Descriptiva (ver el folleto 1), en el que los

datos son ordenados, resumidos y clasificados con objeto de tener una visión más precisa y conjunta de las observaciones, intentando descubrir de esta manera posibles relaciones entre los datos, viendo cuales toman valores parecidos, cuales difieren grandemente del resto, destacando hechos de posible interés, etc. Al hablar de estadística descriptiva, uno se refiere a cualquier tratamiento de datos que esté diseñado para resumir o describir algunas de sus características más importantes sin intentar deducir nada que escape al alcance de los datos.

También, entre los objetivos de la Estadística Descriptiva, está el presentar los datos de tal modo que permitan sugerir o aventurar cuestiones a analizar en mayor profundidad, así como estudiar si pueden mantenerse algunas suposiciones necesarias en determinadas inferencias como la de simetría, normalidad, homocedasticidad (propiedad fundamental del modelo de regresión lineal), etc.

El propósito de este tema es el de ofrecer los conceptos de la estadística descriptiva y explicar las técnicas que permitan realizar ambos procesos a los cuales, de forma conjunta, se les suele denominar Análisis de

Datos.

2.2. Clases de datos.

Como se mencionó en el tema I (ver folleto 1), es habitual denominar a los caracteres variables estadísticas o simplemente variables, calificándolas de cualitativas o cuantitativas según sea el correspondiente carácter, y hablar de los valores de la variable al referirnos a sus modalidades, aunque de hecho solamente tendremos verdaderos valores numéricos cuando analicemos variables cuantitativas. En ocasiones, con objeto de facilitar la toma de los datos, el investigador los agrupa en intervalos. Así por ejemplo, resulta más sencillo averiguar cuántos individuos hay en una muestra con una estatura, por ejemplo, entre 1.70 y 1.80 metros que medirlos a todos, en especial si tenemos marcas en la pared cada 10 cm. Note que siempre se producirá una pérdida de información al agrupar los datos en intervalos y, dado que hoy en día la utilización de la computadora suele ser de uso común, un agrupamiento en intervalos es en general no aconsejable. Sin embargo, por razones docentes admitiremos esta posibilidad, ya que precisamente el agrupamiento en intervalos traerá complicaciones adicionales en el cálculo de algunas medidas representativas de los datos. En este tema consideraremos, por tanto, tres tipos posibles de datos: 1) Datos correspondientes a un carácter cualitativo2) Datos sin agrupar correspondientes a un carácter cuantitativo y 3) Datos agrupados en intervalos correspondientes a un carácter cuantitativo.

(6)

2.3. Agrupamiento en intervalos.

Si tenemos la opción de poder agrupar los datos en intervalos, lo primero que debemos plantearnos (independientemente de lo que más arriba comentábamos) es la cuestión de cuántos y cuáles intervalos elegir. Previamente daremos algunas definiciones importantes. Si los intervalos que a menudo se le denominan

clases, son:



x

0

,

x

1



,



x

1

,

x

2



,



,



x

j-1

,

x

j



,



,



x

k-1

,

x

k



.

Llamaremos amplitud del intervalo j-ésimo a

x

_j

-x

_j-₁, j1,,k, hablando de intervalos de amplitud constante o variable, según tengan o no todos la misma amplitud. Llamaremos extremos de la clase j-ésima a

1

j-x

y a

x

_j, y por último, llamaremos centro o marca de clase correspondiente al intervalo j-ésimo al punto medio del intervalo, es decir, a





2

1 j-j j

x

c





.

En todo este sección, consideraremos que el dato

x

_j pertenece al intervalo j1, j1,... ,k-1 , siendo el k

x

el k-ésimo dato. Hacemos notar también, que el primer intervalo y el último generalmente tienen, respectivamente, el extremo inferior y el extremo superior indeterminados con el propósito de incluir observaciones poco frecuentes.

Respecto a la cuestión que nos planteábamos al comienzo de este apartado, podemos considerar como regla general la de construir, siempre que sea posible, intervalos de amplitud constante o igual, sugiriendo sobre el número k de intervalos a considerar el propuesto por Sturges

 

n

log 3.322 1 k 

siendon el número total de datos. Una vez determinado el número k de intervalos a considerar, y si es posible tomarlos de igual amplitud, esta será:

k X X

Amplitud (n) (1)

en donde

x

(n)es el dato mayor y

x

(1)el menor.

2.4. Descripción de datos de una variable.

Durante el proceso de un experimento estadístico, por lo regular obtenemos una sucesión de observaciones o datos (normalmente números) los cuales anotamos en el orden en que aparecen. Por ejemplo, las ventas realizadas por la tienda departamental Mazón los sábados y domingos durante el año pasado. Estos datos representan un ejemplo de una muestra tomada de una población de los montos de todas las ventas realizadas durante el año. La muestra consiste de 31 montos de ventas diferentes, llamados valores de la

(7)

Antes de entrar en detalle, es importante mencionar que si en un experimento estadístico observamos al mismo tiempo dos cantidades, por ejemplo las ventas realizadas durante el día y el número de personas que visitó la tienda durante ese día o, el peso y la estatura de las personas adultas, obtendremos una muestra en la que cada valor de la misma es una pareja ordenada de números. De la misma manera, si observamos o medimos tres cantidades, se obtendrán muestras que consisten de ternas ordenadas de números, generalizándose esta situación para más de tres cantidades. Cuando se tiene un experimento estadístico donde existe una sola variable de interés para ser observada, decimos que este experimento es uni-variado. Si en el experimento se tiene interés en observar más de una variable, decimos que el experimento es multi-variado. En esta sección manejaremos sólo experimentos en donde se involucra una sola variable para ser observada.

2.4.1. Tabulación y representación gráfica.

En esta sección se discuten algunos métodos para obtener representaciones tabulares y gráficas de una serie de datos. Se muestra como grandes cantidades de datos pueden ser organizados y presentados de manera más eficaz en formas de tablas y diagramas con el propósito de intensificar el análisis e interpretación de los datos, aspectos claves en la toma de decisiones. Además, se dan a conocer los conceptos de frecuencias absoluta, relativa y porcentual.

Tablas de frecuencias.

El primer paso al recopilar los datos, es determinar el número de veces con que se presentan los valores en la muestra y, resumirlos en una tabla llamada tabla de frecuencias o distribución de frecuencias de tal manera que podamos identificar su comportamiento. Al número de veces que se presenta un valor recibe el nombre de frecuencia absoluta o, más brevemente frecuencia.

Ejemplo 2.1 En una sucursal bancaria de la localidad, se ha tomado el tiempo de atención en ventanilla a 20

clientes, durante sus operaciones bancarias. Los registros de los tiempos y el número de cliente en el orden en que éste llegó aparecen en la Tabla 2.1.

TABLA 2.1.TIEMPOS DE ESPERA DE 20 CLIENTES EN UNA SUCURSAL BANCARIA.

Cliente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Minutos 3 2 5 3 1 5 3 3 2 4 6 2 5 4 7 5 3 6 3 4

Podemos resumir los datos de la Tabla 2.1 como se muestran en la Tabla 2.2.

TABLA 2.2.DISTRIBUCIÓN DE FRECUENCIAS ABSOLUTAS.

Minutos 1 2 3 4 5 6 7 Frecuencia 1 3 6 3 4 2 1

Si dividimos la frecuencia entre el tamaño de la muestra n, obtenemos la frecuencia relativa para esta cantidad observada en la muestra. Obtener las frecuencias relativas es muy útil cuando la cantidad de los datos observados es muy grande. Formalmente podemos definir la frecuencia relativa de un valor dado, como la proporción de ese valor.

Ejemplo 2.2 En la Tabla 2.3 aparecen las frecuencias relativas para cada uno de los valores observados del

(8)

TABLA 2.3. DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS.

Minutos 1 2 3 4 5 6 7 Frecuencia Relativa ₂₀ 005 1 .  015 20 3 .  030 20 6 .  015 20 3 .  020 20 4 .  010 20 2 .  005 20 1 . 

Si las frecuencias relativas se multiplican por 100% se obtienen las frecuencias porcentuales para cada uno de los valores observados.

Ejemplo 2.3 Las frecuencias porcentuales de los valores observados en el Ejemplo 2.2 aparecen en la Tabla

2.4.

TABLA 2.4. DISTRIBUCIÓN DE FRECUENCIAS PORCENTUALES

Minutos 1 2 3 4 5 6 7

Frecuencia

Porcentual 5% 15% 30% 15% 20% 10% 5%

Datos Agrupados.

Cuando en una muestra se tienen demasiados datos es recomendable juntarlos en grupos o clases. A los datos resultantes se les llama datos agrupados. Cada grupo recibe el nombre de clase o intervalo de clase y la selección de estas clases es regularmente arbitraria además, su elección debe ajustarse a la exigencia de que no existan clases vacías, de que cada observación caiga en una y sólo una clase y que su longitud o amplitud sea igual. Existen fórmulas para determinar el número recomendable de clases el cual depende del tamaño de la muestra.

Ejemplo 2.4. La Tabla 2.5 presenta la cantidad de dinero gastada en electricidad durante el mes de julio de

2010, de 30 familias de bajos recursos de una colonia situada al sur de la ciudad de Hermosillo.

TABLA 2.5. CANTIDAD DE DINERO GASTADA EN ELECTRICIDAD ($)

96 171 202 178 147 102 153 197 127 82

157 185 90 116 172 111 148 213 130 165

141 149 206 175 123 128 144 168 109 167

Utilizaremos estos datos para construir una tabla de frecuencias con clases o intervalos adecuados.

Como se tiene una muestra con pocos datos podemos elegir pocas clases. Por ejemplo, 5. Podemos observar de la Tabla 2.5 que:1) el monto menor es de $82 y 2) el monto mayor es de $213. Si realizamos la diferencia entre estos dos montos obtenemos la amplitud o rango de los datos dados. Así, el rango = 213-82 = 131 pesos; como se desean 5 clases, dividimos el rango entre 5 y obtenemos que la amplitud de cada clase debe de ser de 2620

5 131

.

 pesos. Podemos escoger clases de $27 de amplitud y elegir el valor mínimo de $80 con el propósito de que el valor menor, y el valor mayor observados, no queden en el extremo de su respectiva clase. Así, las clases con sus respectivas frecuencias son las que se muestran en la Tabla 2.6.

(9)

TABLA 2.6. DISTRIBUCIÓN DE FRECUENCIAS PARA LOS DATOS DE LA TABLA 2.5.

Clase o Intervalo de clase Marcas de clase Frecuencia Absoluta Frecuencia Relativa Frecuencia Porcentual De $80 a menos de 107 93.5 4 0.13 13% De107 a menos de 134 120.5 7 0.23 23% De 134 a menos de 161 _147.5 ₇ _0.23 _23% De 161 a menos de 188 174.5 8 0.27 27% De 188 a menos de $215 201.5 4 0.14 14% TOTALES 30 1.00 100%

Note que cada monto observado cae en una sola clase, y que las clases tienen la misma amplitud.

2.5. Representaciones Gráficas

Como se pudo observar en la sección anterior, las tablas de frecuencia son útiles para la presentación de los datos. Las gráficas que de ellas surgen lo son aún más, ya que en ellas es muy fácil observar la distribución de la información. Existen varias formas de representar gráficamente las muestras y es suficiente presentar estos métodos en términos de los ejemplos usados en la sección 2.4.

Diagramas de frecuencia mediante puntos.

La Figura 2.1 presenta el diagrama de puntos para la tabla de frecuencia del Ejemplo2.1. Este diagrama da una mejor idea del comportamiento de los datos obtenidos en la muestra.

Figura2.1 Diagrama de puntos de la muestra dada en la Tabla 2.1

Gráficas de línea.

La Figura 2.2 presenta la gráfica de línea para los datos de la Tabla 2.2.Estos dos tipos de gráficas nos sirven para echar un vistazo rápido a los datos, con el propósito de observar su tendencia. Cuando se requiere una gráfica más detallada y formal uno echa mano de los diagramas de barras y de los histogramas.

0 1 2 3 4 5 6 7 8 0 5 10 15 20 25 M in u to s Número de cliente

(10)

Figura 2.2. Diagrama de línea de los datos de la Tabla 2.2

Diagrama de barras.

En los diagramas de barras se utilizan rectángulos para representar gráficamente los datos. La base de cada rectángulo del diagrama de barras representa una característica de los datos obtenidos en la muestra y la altura del rectángulo significa la frecuencia con que se dio esta característica. Para dibujar un diagrama de barras, se marca en el eje horizontal las distintas características que se encontraron en los datos obtenidos y en el eje vertical se marca la frecuencia con que se dio esa observación y se trazan rectángulos separados por cada valor con la altura correspondiente a cada frecuencia. En el diagrama de la Figura 2.3 podemos observar, por ejemplo, que un 20% de los clientes fueron atendidos en 2 minutos o menos, o que el 50% de los clientes realizaron sus operaciones en 4 minutos o más.

Figura 2.3. Diagrama de barras para los datos de la Tabla 2.4.

Histogramas.

Al igual que en los diagramas de barras, en un histograma la base de cada rectángulo representa una clase o intervalo de clase de los datos agrupados y la altura del rectángulo representa la frecuencia o número de datos agrupados en esa clase. La única diferencia existente entre estas dos gráficas es que en el diagrama de barras los rectángulos están separados mientras que en el histograma los rectángulos se unen. Los histogramas son

0 2 4 6 8 10 1 2 3 4 5 Núm er o de client es Minutos de atención

Tiempo de atención a clientes

0% 5% 10% 15% 20% 25% 30% 1 2 3 4 5 Porcentaje de clientes M inu to s de a tenció n

(11)

usados frecuentemente cuando se trata de datos agrupados, y su presentación puede variar un poco ya que el eje horizontal se puede marcar con los puntos extremos de cada una de las clases tal como se muestra en la Figura 2.4 o bien con los puntos medios de cada una de las clases como se puede ver en la Figura 2.5.

Figura 2.4. Histograma para los datos de la Tabla 2.6.

Note que tanto el histograma con frecuencias absolutas como el de frecuencias relativas tienen la misma forma, esto se debe a que las frecuencias relativas son proporcionales a las frecuencias absolutas y la elección de una u otra forma depende esencialmente del gusto personal. La diferencia entre gráficas de barras e

histogramas se basa en distinguir entre variables cuantitativas y cualitativas mencionadas en la sección

3.2 del Folleto 1.

Figura 2.5. Histograma con frecuencias relativas para los datos de la Tabla 2.6.

Polígono de frecuencias.

Un polígono de frecuencia es el gráfico lineal de una tabla de frecuencias. Los ejes de este gráfico son similares a los del histograma excepto que el punto medio de cada clase se identifica de manera característica a lo largo del eje horizontal (ver Tabla 2.6). El número de observaciones o frecuencia de cada clase es representado por un punto arriba del punto medio de esa clase y estos puntos son unidos por una serie de segmentos de línea para formar un polígono. En la Figura 2.6 se muestra el polígono de frecuencias porcentuales para los datos dados en la Tabla 2.4.

0 0.05 0.1 0.15 0.2 0.25 0.3 $80-107 107-134 134-161 161-188 188-$215 P o rc ent a a je de fa m ilia s

Cantidad de dinero en consumo

Consumo de electricidad

0 0.05 0.1 0.15 0.2 0.25 0.3 $80-107 107-134 134-161 161-188 188-$215 F re cuencia s re la tiv a s

(12)

Figura 2.6. Polígono de frecuencias porcentuales para los datos de la Tabla 2.6.

Diagramas de tallo y hojas.

Un diagrama de tallo y hojas es un ingenioso artificio el cual ofrece una representación parecida a un histograma. La ventaja de estos diagramas es que no sólo revelan las frecuencias, sino que contienen los datos reales. En la Figura 2.7 aparece el diagrama de tallo y hojas para los datos de la Tabla 2.5.

Tallo Hojas 8 2 9 6 0 10 2 9 11 6 1 12 7 3 8 13 0 14 7 8 1 9 4 15 3 7 16 5 8 7 17 1 8 2 5 18 5 19 7 20 2 6 21 3

Figura 2.7. Diagrama de tallo y hojas para los datos de la Tabla 2.5.

Este diagrama podría hacerse un poco más claro si se ordenan los datos de menor a menor pero, cuando este mecanismo se hace a mano puede resultar demasiado tedioso dependiendo del tamaño de la muestra.

Diagramas de pastel o circulares.

Cuando en una tabla de frecuencia, los datos están separados en categorías o por cualidades, frecuentemente se utiliza un diagrama circular conocido como diagrama de pastel el cual consiste de un círculo dividido en sectores que son proporcionales en tamaño a las frecuencias o porcentajes correspondientes. Para construir un diagrama de pastel se utilizan las frecuencias porcentuales. La Figura 2.6 muestra un diagrama de pastel para los datos de la Tabla 2.4.

0% 5% 10% 15% 20% 25% 30% 66.5 93.5 120.5 147.5 201.5 228.5 P o rc ent a je de fa m ilia s

(13)

Figura 2.7. Diagrama de pastel para los datos de la Tabla 2.4.

Otras distribuciones de frecuencias y otros gráficos.

Otros dos métodos útiles para representar datos, los cuales facilitan el análisis y la interpretación, son las tablas de distribución acumulativas y los diagramas de polígonos acumulativos mejor conocidos como ojivas. Estos gráficos los podemos generar a partir de las tablas de distribución de frecuencias:1) absolutas, 2) relativas,o3) porcentuales, mencionadas en la sección 2.4.

Distribuciones acumulativas y polígonos acumulativos.

Para construir una tabla de distribución de frecuencia acumulada, primeramente decidimos si se desea construirla con frecuencias absolutas, o con proporciones, o bien con porcentajes. Después escogemos el tipo de distribución acumulativa, ya sea la "menor que" o la distribución acumulativa "mayor que" y por último, nos basamos en la tabla de frecuencias para ir determinando la frecuencia acumulada de cada clase tal como lo indica el Ejemplo 2.4.

Ejemplo 2.4. En la Tabla 2.8 aparece la distribución acumulada "menor que" con frecuencias relativas

usando los datos de la Tabla 2.6.

TABLA 2.8.DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS ACUMULATIVA "MENOR QUE"

Clase o Intervalo

Frecuencia Relativa

Frecuencia Relativa Acumulada "menor que"

Operación efectuada menos de $107 0.13 0 ninguna menos de 134 0.23 0.13 0 + 0.13 menos de 161 0.23 0.36 0 + 0.13 + 0.23 menos de 188 0.27 0.59 0 + 0.13 + 0.23 + 0.23 menos de 215 0.14 0.86 0 + 0.13 + 0.23 + 0.23 +0.27 menos de 242 0 1.00 0 + 0.13 + 0.23 + 0.23 +0.27 +0.14

Como se puede observar, esta tabla se construyó registrando primero los límites inferiores de cada clase a partir de la distribución de frecuencias relativas, luego se insertó un límite extra al final. Se calcularon las

1 minuto, 5% 2 minutos, 15% 3 minutos, 30% 4 minutos, 15% 5 minutos, 20% 6 minutos, 10% 7 minuto, 5%

(14)

frecuencias relativas acumulativas en la columna "menor que" determinando la frecuencia relativa de observaciones menores que de cada uno de los valores de los límites establecidos. Es decir, tomamos en cuenta primero sólo datos menores de $80, después sólo datos menores de $107 y así sucesivamente hasta llegar al último límite inferior.

Ejemplo 2.5 Similarmente se puede construir una tabla acumulativa "mayor que" determinando la frecuencia

relativa de observaciones mayores que de cada uno de los valores de los límites inferiores establecidos. Es decir, tomamos en cuenta primero sólo datos mayores de $80, después sólo datos mayores que $107 y así sucesivamente hasta llegar al último límite inferior. Operando de esta forma obtenemos la tabla de distribución acumulativa siguiente.

TABLA 2.9.DISTRIBUCIÓN DE FRECUENCIAS ACUMULATIVA PORCENTUAL "MAYOR QUE" DE LOS DATOS DE LA TABLA 2.4.6

Clase o Intervalo Frecuencia porcentual Frecuencia Acumulada "mayor que" Operación efectuada

mayor que $107 13% 100% Ninguna

mayor que 134 23% 87% 100 – 13 mayor que 161 23% 64% 100 –(13 + 23) mayor que 188 27% 41% 100 –(13 + 23 + 23) mayor que 215 14% 14% 100 –(13 + 23 + 23 + 27) mayor que 242 0% 0% 100 –(13 + 23 + 23 + 27 + 14) .

Note que se insertó el límite inferior de la séptima clase con el propósito de indicar en la gráfica, la ausencia de observaciones en esa clase y en las clases siguientes.

Polígonos acumulativos u Ojivas.

Para construir un polígono acumulativo u ojiva se colocan los límites inferiores de clase en el eje horizontal y las frecuencias acumulativas (absolutas, relativas o porcentuales) en el eje vertical. En la Figura 2.8 aparece la ojiva "menor que" basándose en los datos obtenidos en la Tabla 2.8.

Figura 2.8. Ojiva "menor que" de los datos de la Tabla 2.8.

La ojiva "mayor que" surgida a partir de los datos obtenidos en la Tabla 2.9 se muestra en la Figura 2.9. 0 0.2 0.4 0.6 0.8 1 1.2 menor que $107 menor que 134 menor que 161 menor que 188 menor que 215 menor que $242 F re cuencia re la tiv a a cum ula da

(15)

Figura 2.9. Ojiva “mayor que” de los datos de la Tabla 2.9.

Diagramas de caja.

Los diagramas de caja es un medio muy útil para representar datos. En dicho diagrama, los valores mínimo y máximo, los cuartiles inferior (primer 25%de todos los datos) y superior (tercer 25% de todos los datos (también llamados percentiles 25 y 75) respectivamente, y la mediana (primer 50% de todos los datos o percentil 50) se representan en una caja rectangular alineada ya sea horizontal o verticalmente. La caja se extiende del cuartil inferior al superior, y es atravesada de un lado al otro por la mediana. A partir de los extremos de la caja se extienden líneas (“bigotes”) hasta los valores mínimo y máximo. Por ejemplo, un gerente de ventas está interesado en comparar las ventas mensuales realizadas en el año 2008 con las ventas mensuales realizadas en el año 2009. El gerente ha recolectado las 12 observaciones de cada año. Los datos aparecen en la Tabla 2.10

TABLA 2.10. VENTAS MENSUALES DE LOS AÑOS 2008 Y 2009.

Mes Venta realizada en el año 2008. (miles de pesos) Venta realizada en el año 2009 (miles de pesos) Enero 18.85 17.50 Febrero 16.40 17.63 Marzo 15.21 18.25 Abril 16.35 18.00 Mayo 13.52 17.86 Junio 17.04 15.20 Julio 16.96 10.59 Agosto 12.15 17.89 Septiembre 14.59 19.56 Octubre 16.57 14.00 Noviembre 18.22 15.69 Diciembre 20.25 19.90

La mediana de las ventas realizadas en el año 2008 es 16.485 2 57 . 16 4 . 16  _

mientras que los percentiles 25 y 75 son respectivamente 14.59 y 18.22. La mediana de las ventas realizadas en el año 2009 es

0% 20% 40% 60% 80% 100% 120% mayor que $107 mayor que 134 mayor que 161 mayor que 188 mayor que 215 mayor que $242 F re cuencia a cum ula da po rc ent ua l

(16)

Departamento de Matemáticas 16 Universidad de Sonora. 745 . 17 2 86 . 17 63 . 17  _

y los percentiles 25 y 75 son 15.20 y 18.25 respectivamente. La venta mínima mensual en el año 2008 fue de 12.15 miles de pesos y la máxima de 20.25, mientras que la venta mensual mínima realizada en el año 2009 fue de 10.59 miles de pesos y la venta mensual máxima fue de 19.9 miles de pesos. En la Figura 2.10 se muestran los diagramas de caja para las ventas realizadas en los dos años.

Figura 2.10. Diagramas de caja para las ventas mensuales de los años 2008 y 2009.

La representación de la Figura 2.10 revela claramente la diferencia en las ventas entre los dos años. También indica que ambos años producen distribuciones razonablemente simétricas de ventas mensuales con similar variabilidad o dispersión.

2.6. Medidas descriptivas de localización y distribución.

En la sección anterior, los datos en bruto se recopilaron y se resumieron en forma apropiada en tablas y gráficas. En esta sección se desarrollará una amplia variedad de medidas de resumen descriptivas, las cuales son útiles para analizar e interpretar datos cuantitativos, ya sea recolectados en forma bruta (datos no agrupados) o resumidos en distribuciones de frecuencia (datos agrupados). Para ambos casos, se desarrollarán fórmulas similares para obtener estas medidas de resumen descriptivas y cuando sea posible se mostrará un planteamiento gráfico utilizando las gráficas construidas en las secciones anteriores. En orden descendente de importancia, las tres propiedades o características mayores que describen un conjunto de datos pertenecientes a alguna variable numérica o a un fenómeno de interés son: 1) Posición, 2) Dispersión y 3) Forma. En cualquier análisis o interpretación de datos numéricos, se puede utilizar una gran variedad de medidas descriptivas que representan las propiedades de posición, dispersión y forma, para esquematizar y resumir las características salientes del conjunto de datos. Si estas medidas de resumen descriptivas se calculan con una muestra de datos se llaman estadísticos; si estas medidas descriptivas se calculan a partir de toda la población de datos se llaman parámetros.

2.6.1 Medidas de posición o centralización.

La característica más importante que describe o resume un grupo de datos es su posición. La mayor parte de los datos muestran una tendencia definida a reunirse en torno de un cierto punto. Existen tres medidas

$ 20.25 19.90 18.25 18.22 17.745 16.485 18.25 14.59 12.15 10.59 Año Año 2008 2009 25 20 15 10 V e n t a s e n m i l e s

(17)

primarias de posición o de tendencia central estas son en orden de importancia, la media aritmética, la mediana y la moda.

La media aritmética.

La media aritmética mejor conocida como promedio es la medida de tendencia central más conocida y de mayor uso. Esta medida es muy fácil de calcular a partir de los datos ya sea recopilados en forma bruta o distribuidos en una tabla. Esta medida de tendencia central se indica mediante el símbolo X y se calcula sumando todos los datos de la muestra y, se dividen entre el número total de datos recopilados en la muestra. Así, si X1,X2,X3,Xn son los datos recopilados en la muestra, entonces,

.

1 3 2 1

n

X

n

X

n i i n

_











(2.1)

En donde: X es la media aritmética o promedio de la muestra, n es el tamaño de la muestra,

i

X es el dato número i de la muestra tomada,

Ejemplo 2.6. La media aritmética para los datos de la Tabla 2.4.1 es:

minutos. 8 . 3 20 76 20 4 3 6 3 5 7 4 5 2 6 4 2 3 3 5 1 3 5 2 3                   _ _  X

Si los datos se encuentran resumidos como los de la Tabla 2.2 entonces utilizamos la fórmula (2.2)

. 1 1 3 2 1 3 3 2 2 1 1



            _k i i k i i i k k k f X f f f f f X f X f X f X f X   (2.2)

En donde: X es la media aritmética o promedio de la muestra,

i

X es el dato número i de la muestra tomada,

i

f es la frecuencia con que se repite el dato Xi.

k es el número de datos diferentes que aparecen en la muestra.

Ejemplo 2.7. La media aritmética para los datos de la Tabla 2.2 es:

minutos. 8 . 3 20 76 1 2 4 3 6 3 1 ) 7 )( 1 ( ) 6 )( 2 ( ) 5 )( 4 ( ) 4 )( 3 ( ) 3 )( 6 ( ) 2 )( 3 ( ) 1 )( 1 (                X

Como se puede observar en los ejercicios anteriores el número 3.8 obtenido, no pertenece a la muestra pero, podemos observar que en la muestra existen 10 valores menores que 3.8 y 10 valores mayores que 3.8. Por lo tanto, la media actúa como un punto de equilibrio o como una balanza, de tal manera que las observaciones que son mayores equilibran a las que son menores.

De una manera similar se puede calcular la media aritmética para los datos que aparecen en las Tablas 2.3 y 2.4.Si los datos de la muestra fueron agrupados en una tabla de distribución, para calcular la media utilizamos la fórmula (2.3).

(18)

Departamento de Matemáticas 18 Universidad de Sonora. . 1 1 3 2 1 3 3 2 2 1 1



            _k i i k i i i k k k f m f f f f f m f m f m f m f X   (2.3)

En donde: X es la media aritmética o promedio de la muestra,

i

m es el punto medio o marca de clase de la clase i de la distribución de frecuencia,

i

f es la frecuencia de la clase i de la distribución

k es el número de marcas de clase en la distribución.

 significa aproximadamente igual.

Ejemplo 2.8. Para calcular la media aritmética de los datos de la Tabla 2.4.6, primeramente debemos calcular

los puntos medios o marcas de clase de la distribución, colocarlos en una tabla (ver tabla 2.11.) acompañados con sus respectivas frecuencias y se aplica la fórmula (2.3).

TABLA 2.11. TABLA PARA CALCULAR LA MEDIA A PARTIR DE UNA TABLA DATOS AGRUPADOS

Puntos Medios 93.5 120.5 147.5 174.5 201.5 Frecuencias absolutas 4 7 7 8 4 . 5 . 148 $ 4 8 7 7 4 ) 5 . 201 )( 4 ( ) 5 . 174 )( 8 ( ) 5 . 147 )( 7 ( ) 5 . 120 )( 7 ( ) 5 . 93 )( 4 ( _          X

La media aritmética para los datos no agrupados de la Tabla 2.5 es 148.4 30

4452  

X observe la similitud del valor calculado para los datos agrupados. Además, en los datos no agrupados, existen 15 datos de la muestra que son menores que la media calculada y 15 valores mayores que la media. Si el valor calculado de la media para los datos agrupados lo marcamos en el histograma o en el polígono de frecuencias, este valor será el centro de gravedad de estos gráficos. Es decir, un eje que pase por el valor representativo de la media aritmética dividirá al histograma o al polígono de frecuencias en dos partes, cada una conteniendo aproximadamente el mismo número de observaciones.

La mediana.

La mediana es la segunda medida de tendencia central en importancia después de la media aritmética y es utilizada cuando el (o los) valor(es) extremo(s) en un conjunto de datos afecta tanto a la media aritmética que ésta no es una buena medida de tendencia central en esas circunstancias. Por eso cuando uno de los valores extremos (o ambos) afecta considerablemente, es más apropiado utilizar la mediana como medida de tendencia central, la mediana no se afecta con cualquiera valores extremos en un conjunto de datos. La mediana es una medida de tendencia central que aparece en el medio de la serie de datos ordenada. Es decir, la mitad de las observaciones en el conjunto de datos son menores que ella y la otra mitad son mayores que ella.

Para calcular la mediana de un conjunto de datos los cuales se encuentran en su forma bruta, primeramente los ordenamos ya sea de menor a mayor o bien de mayor a menor. Si el número de observaciones es impar se toma el valor que esté en la mitad de los datos ordenados. Si el número de datos es par, se toma la media aritmética de los dos datos intermedios.

(19)

Ejemplo 2.9. Para calcular la mediana de los datos que aparecen en la Tabla 2.5, primeramente los

ordenamos en forma creciente (pueden ordenarse también en forma decreciente) tal como se muestra en la Tabla 2.1.

TABLA 2.12. DATOS ORDENADOS DE MENOR A MAYOR DE LA TABLA2.5

82 90 96 102 109 111 116 123 127 128 130 141 144 147 148 149 153 157 165 167 168 171 172 175 178 185 197 202 206 213

Como el número de datos es par, n30, localizamos las dos observaciones intermedias, en este caso las observaciones que se encuentran en el lugar 15 y 16. Esto es, la última observación de la primera mitad y la primera observación de la segunda mitad en los datos ordenados. Así,

Mediana = $148.5 2

149 148 _

Si los datos observados en la muestra están resumidos en una tabla de distribución, el valor aproximado de la mediana se puede calcular mediante la fórmula (2.4).

) . ( i f f n B Mediana M B M M 4 2 2               

En donde, B_M fronterainferior delintervalodeclasequecontienealamediana. mediana. la a contiene que clase de intervalo el en nes observacio de número  M f

mediana.

la

a

contiene

que

clase

de

intervalo

del

antes

nes

observacio

de

total

número



M B

f

mediana. la a contiene que clase de intervalo del ancho  i mediana. n observació

2 

n

Ejemplo 2.10. Para los datos resumidos en la Tabla 2.5, se tiene que el intervalo de clase que contiene a la

mediana es el intervalo de clase que contiene al dato número 15 2 30

2 

n

. Este intervalo es "De 134 a menos de 161", su frontera inferior es 134, el número de observaciones que tiene este intervalo son 7, el número de observaciones antes de este intervalo son 11 y el ancho de este intervalo es 134-107 = 27. Así, se tiene que:

; 134  M B f_M 7;



11 ;

M B

f

i



2

7

y 15 2 30 2   n

Sustituyendo estos valores en la fórmula (2.4) obtenemos:

4286 149 36 17 134 27 7 11 15 134 2 _i _. _. f f n B Mediana M B M M                           

(20)

Se puede concluir que 15 de las 30 familias muestreadas tuvieron montos menores de $139.43 y las otras 15 familias tuvieron montos mayores que $139.43.

Cuantiles.

Los cuantiles son medidas de posición que se determinan mediante un método que determina la ubicación de los valores que dividen un conjunto de observaciones en partes iguales. Cuando se trata de datos agrupados en una distribución de frecuencias, los cuantiles son los valores de la distribución que la dividen en partes iguales, es decir, en intervalos que comprenden el mismo número de valores. Cuando la distribución contiene un número alto de intervalos o de marcas y se requiere obtener un promedio de una parte de ella, se puede dividir la distribución en cuatro, en diez o en cien partes iguales. Los cuantiles más usados son los cuartiles, cuando dividen la distribución en cuatro partes; los deciles, cuando dividen la distribución en diez partes y los percentiles o porcentiles, cuando dividen la distribución en cien partes. Los cuartiles, como los deciles y los percentiles, son en cierta forma una extensión de la mediana.

Cálculo de los cuartiles a) Para datos agrupados.

Para calcular los Cuartiles Q1, Q2, Q3 y Q4 desde una tabla de distribución de frecuencias, se aplica la fórmula

(2.5). 𝑄𝑘 = ( 𝑘∗𝑛 4 − 𝐹𝑄𝑘 𝑓𝑄𝑘 ) ∗ 𝑤 + 𝐿𝑄_𝑘 (2.5) Donde,

𝑄𝑘 =k-ésimo cuartil de la muestra, k = 1, 2, 3, 4

n = tamaño de la muestra

𝐹𝑄_𝑘 = suma de todas las frecuencias de clase hasta, pero sin incluir la clase del k-ésimo cuartil. 𝑓𝑄𝑘 =frecuencia de la clase que contiene al k-esimo cuartil.

w = ancho del intervalo de clase.

𝐿𝑄_𝑘 =límite inferior del intervalo de la clase que contiene al k-esimo cuartil.

b) Para datos no agrupados.

Si se tienen una serie de valores X1, X2, X3,...,Xn, los cuartiles se localizan mediante las fórmulas(2.6)y(2.7),

dependiendo de si el número de datos, n, es par o impar, respectivamente.

𝑄𝑘 = 𝑘 ∙ 𝑛 4 (2.6) 𝑄𝑘= 𝑘 ∙ (𝑛 + 1) 4 (2.7) Siendo k el número del cuartil deseado; (k = 1, 2, 3, 4).

Nota importante: El resultado que se obtiene al aplicar la fórmula (2.6) o (2.7), nos indica el número de dato

en la tabla de datos ordenados, donde se encuentra el cuartil deseado. Por lo tanto, una vez aplicada una de las fórmulas, debemos identificar al dato que representa a dicho cuartil. Si el resultado que se obtiene al aplicar

(21)

la fórmula contiene decimales, debemos calcular la parte proporcional usando la diferencia entre los dos números enteros consecutivos de la tabla de datos ordenados y sumársela al dato menor. Ver ejemplo 2.12.

Cálculo de Deciles

Para calcular los DecilesD1, D2, D3,… , D10 desde una tabla de distribución de frecuencias, se aplica la

fórmula (2.8). 𝐷𝑘= ( 𝑘∗𝑛 10 − 𝐹𝐷𝑘 𝑓𝐷𝑘 ) ∗ 𝑤 + 𝐿𝐷_𝑘 (2.8) Donde, 𝐷𝑘 =k-ésimodecil de la muestra, k = 1, 2, 3, 4, …, 10 n = tamaño de la muestra

𝐹𝐷_𝑘 = suma de todas las frecuencias de clase hasta, pero sin incluir la clase del k-ésimodecil.

𝑓𝐷𝑘=frecuencia de la clase que contiene al k-ésimodecil.

𝐿𝐷𝑘 =límite inferior del intervalo de la clase que contiene al k-ésimodecil.

Si se tienen una muestraX1, X2, X3 ...,Xnde valores, los deciles pueden ser localizadosusando las

fórmulas(2.9)y(2.10), dependiendo de si el número de datos de la muestra, n, es par o impar, respectivamente.

𝐷𝑘 =𝑘 ∙ 𝑛

10 (2.9)

𝐷𝑘 =𝑘 ∙ (𝑛 + 1)

10 (2.10) Dondek el número del decil deseado; (k = 1, 2, …, 10).

en la tabla de datos ordenados, donde se encuentra el decil deseado. Por lo tanto, una vez aplicada una de las fórmulas, debemos identificar al dato que representa a dicho decil. Si el resultado que se obtiene al aplicar la fórmula contiene decimales, debemos calcular la parte proporcional usando la diferencia entre los dos números enteros consecutivos de la tabla de datos ordenados y sumársela al dato menor. Ver ejemplo 2.12.

Cálculo de percentiles.

Para calcular los percentiles P1, P2, …, P100 desde una tabla de distribución de frecuencias, se aplica la

fórmula (2.11). 𝑃𝑘 = ( 𝑘∗𝑛 100− 𝐹𝑃𝑘 𝑓𝑃𝑘 ) ∗ 𝑤 + 𝐿𝑃_𝑘 (2.11) Donde,

(22)

n = tamaño de la muestra

𝐹𝑃_𝑘 = suma de todas las frecuencias de clase hasta, pero sin incluir la clase del k-ésimo percentil. 𝑓𝑃𝑘 =frecuencia de la clase que contiene al k-esimo percentil.

𝐿𝑃_𝑘 =límite inferior del intervalo de la clase que contiene al k-esimo percentil.

Si se tienen una muestra de valores X1, X2, ...,Xn, los percentiles pueden ser calculados por medio de las

(2.12)y(2.13), dependiendo de si el número de datos de la muestra, n, es par o impar, respectivamente.

𝑃𝑘 = 𝑘 ∙ 𝑛 100 (2.12) 𝑃𝑘 = 𝑘 ∙ (𝑛 + 1) 100 (2.13) donde k el número del percentil deseado; (k = 1, 2, …, 100).

en la tabla de datos ordenados, donde se encuentra el percentil deseado. Por lo tanto, una vez aplicada una de las fórmulas, debemos identificar al dato que representa a dicho percentil. Si el resultado que se obtiene al aplicar la fórmula contiene decimales, debemos calcular la parte proporcional usando la diferencia entre los dos números enteros consecutivos de la tabla de datos ordenados y sumársela al dato menor. Ver ejemplo 2.12.

Es fácil observar que: el primer cuartil coincide con el percentil 25; el segundo cuartil con el decil 5; el percentil 50 y el tercer cuartil con el percentil 75.

Ejemplo 2.11. Para los datos agrupados de la Tabla 2.6, el tercer cuartil se calcula usando la fórmula (2.5),

donde k = 3; n = 30; puesto que el 75% de los datos de la muestra se encuentra en la cuarta clase, 𝐹𝑄𝑘 =4 + 7

+ 7 = 18; 𝑓𝑄_𝑘 = 8;w = (188 – 161) = 27 y 𝐿𝑄_𝑘 = 161. Sustituyendo estos valores en la fórmula mencionada arriba se tiene que:

𝑄3= ( (3∗30

4 ) − (18)

8 ) ∗ 27 + 161 = 176.1875

Para calcular los cuantiles de datos no agrupados, primero debemos ordenar los datos de la muestra de menor a mayor y después aplicar las fórmulas (2.6) o (2.7); (2.9) o (2.10); (2.12) o (2.13) para cuartiles, deciles y percentiles respectivamente, según sea el caso del tamaño de la muestra (par o impar).

Ejemplo 2.12.

Para los datos no agrupados y ordenados de menor a mayor de la Tabla 2.12, el séptimo decil se calcula usando la fórmula (2.9) ya que n es par, con k = 7. Así:

(23)

𝐷7=

(7)∙ (30) 10 = 21

El resultado obtenido desde la fórmula (2.9) nos indica que el decil 7 se encuentra en el dato 168. Similarmente, para calcular el percentil 85 usamos la fórmula (2.12) ya que n es par, con k = 65. Así,

𝑃85=(85)∙ (30)

100 = 25.5

El resultado obtenido desde la fórmula, nos indica que el percentil 85 se encuentra en la mitad de los datos25 y 26 de la Tabla 2.12. Los datos requeridos para realizar la ponderación son respectivamente, 178 y 185. Ahora calculamos la parte proporcional de la diferencia entre estos dos números(Es decir, la parte decimal del resultado obtenido en la fórmula). Esto es:

(0.5) ∙ (185 − 178) = 3.5 Por lo tanto, el percentil 85 es 178 + 3.5 = 181.5.

La moda.

La moda es la tercera medida de centralización en importancia, es el valor que ocurre con más frecuencia en un conjunto de observaciones. Si en una muestra de valores existe un solo valor que se repite un número determinado de veces, se dice que esa muestra es unimodal. Cuando dos valores no adjuntos son casi iguales al tener frecuencias máximas asociadas a ellos, la distribución se describe como bimodal. Las distribuciones de mediciones con varias modas se denominan multimodales. Si en una muestra pequeña no se repiten valores observados, no hay moda.

Ejemplo 2.13. Para los datos que aparecen en la Tabla 2.1 se observa que esta muestra es unimodal y que su

moda es 3 ya que el 3 es el número que aparece con mayor frecuencia en la muestra tomada. Esto significa que regularmente, el mayor número de personas que sean atendidas en las ventanillas de ese banco tendrán un tiempo de atención de 3 minutos.

Para los datos agrupados en una distribución de frecuencias con intervalos de clase iguales, primeramente se determina la clase que contiene a la moda, identificando la clase con el número mayor de observaciones. En algunos textos designan la moda como el punto medio de la clase modal. Sin embargo en la mayor parte de los textos se realiza una interpolación dentro de la clase modal basándose en la fórmula (2.14).

) 14 . 2 ( 2 1 1 _i d d d B Moda _M _        

En donde BM  fronterainferior delaclasequecontienealamoda.

anterior. clase la en frecuencia la y modal clase la en frecuencia la entre diferencia 1  d siguiente. clase la en frecuencia la y modal clase la en frecuencia la entre diferencia 2  d

clase.

de

intervalo

del

amaño

t



i

Ejemplo 2.14. Refiriéndose a la distribución de frecuencia de la Tabla 2.6. La clase modal es la clase con

límites de clase $161 a menos de $188 debido a que de todas las clases en la distribución, ésta es la que tiene mayor frecuencia. Así,

(24)

.

27

161

188 ;

4

8 ;

1

7

8 ;

161

2 1















d

i

B

_M y, 75 . 167 27 4 1 161          Moda

El valor encontrado de 167.75 es el valor representativo que ofrece la fórmula y puede ser propuesto como el dato que ocurrirá con mayor frecuencia. Es evidente que este dato no se encuentra en la muestra obtenida pero sería una buena aproximación en caso de que los datos tuvieran una moda. Por {ultimo, si marcamos el valor encontrado de la moda en el histograma o en el polígono de frecuencias, este valor indicará la cantidad que aparece con mayor frecuencia. Una distribución de frecuencias puede carecer de moda o bien tener varias modas.

2.6.2. Relación entre la Media, la Mediana y la moda.

Las diferentes medidas de centralización, tienen ventajas y desventajas una con respecto de las otras, depende mucho de la forma en que estén distribuidos los datos y el propósito de la información que se obtenga. El único caso en que se puede asegurar que las tres medidas coinciden es cuando la moda existe y es única y, además, los valores de la muestra están distribuidos simétricamente alrededor de un punto como lo muestra la Figura 2.11.

Figura 2.11. Una distribución simétrica donde las medidas de centralización son iguales.

Puede darse el caso en que la distribución sea simétrica con respecto a un punto y las medidas de centralización sean distintas como se puede observar en la Figura 2.12. En esta distribución, se da el caso en que la Media y la Mediana son iguales pero existen 2 o más Modas.

La situación más común se presenta cuando la distribución de valores de la muestra es asimétrica o disimétrica. Puede presentarse una distribución que sea disimétrica positiva o disimétrica negativa tales como las que se pueden observar en la Figuras 2.13. a) y 2.13. b).

Fre cu en cia X Fre cu en cia X

Figura 2.12. Una distribución simétrica donde las medidas de centralización son diferentes.

(25)

a) Distribución Asimétrica Positiva b) Distribución Asimétrica Negativa.

Figura 2.13. Distribuciones asimétricas o disimétricas.

Basándose en las medidas de centralización Media, Mediana y Moda,podemos saber el tipo de distribución de frecuencias de acuerdo a las relaciones que aparecen la Tabla 2.13.

TABLA 2.13. RELACIÓN ENTRE LA MEDIA, MEDIANA Y MODA.

Condiciones Tipo de distribución

Si Media = Mediana = Moda Simétrica

Si Media  Mediana  Moda Disimétrica negativa Si Moda  Mediana  Media Disimétrica positiva

2.7. Medidas de Dispersión.

Como se mencionó en la sección 2.6, la segunda característica que describe un conjunto de datos es la dispersión. La dispersión es la cantidad de variación o de diseminación de los datos. Existen varias formas para medir el grado de dispersión en los conjuntos de datos. En esta sección se describen las más importantes, éstas son la Varianza, la Desviación estándar y el Coeficiente de Variación.

Varianza y Desviación Estándar.

Dos medidas que tienen en cuenta cómo se distribuyen todas las observaciones en los datos, son la varianza y la raíz cuadrada positiva de ésta, llamada desviación estándar. Su cálculo varía dependiendo de si se trata de la población o de una muestra de ésta. Para una población, la varianza se representa por la letra griega minúscula_2_{la cual se lee "sigma cuadrado", la fórmula para su cálculo es:}





N

X

N i i









1 2 2





(2.15)

en donde



es la media poblacional, N es el tamaño y Xi es cada uno de las observaciones de la población.

Cuando se calcula la varianza para una muestra, resulta que regularmente no es exactamente equivalente a la varianza para la población de donde se tomó la muestra, esto se debe a factores de sesgo, lo cual se explicará en secciones posteriores. Para el cálculo de la varianza de la muestra, se incluye un factor de corrección ya

Fr ec u en ci a X Fr ec u en ci a X

(26)

que la varianza de la muestra, es un estimador no sesgado de la varianza de la población. La varianza de la muestra se representa por

s

2, su fórmula es:





1

1 2 2









n

X

s

N i i (2.16)

en donde

X

es la media, n es el tamaño y Xi es cada uno de las observaciones de la muestra.

Interpretar el significado del valor de la varianza, resulta regularmente difícil porque las unidades en que se expresa no son las mismas de las observaciones del conjunto de datos. Por este motivo, la raíz cuadrada de la varianza, la cual se representa por la letra griega  o por s si se trata de una muestra y, llamada desviación estándar, se utiliza con mayor frecuencia y las fórmulas para calcularla son:





N X N i i



   1 2





(2.17) para la población y,





1 1 2   



 n X X s n i i (2.18) para la muestra.

Esta desviación estándar será particularmente muy útil para el desarrollo del tema de distribuciones de

probabilidad.

Ejemplo 2.15. Para los datos no agrupados de la Tabla 2.1, la media aritmética resultó ser 3.8 minutos (ver

ejemplo 2.6). Considerando que estos datos fueron extraídos de una población infinita, la desviación estándar se calcula mediante la fórmula (2.18). Los cálculos aparecen en la Tabla 2.14:

TABLA 2.14. TABLA PARA CALCULAR DE LA DESVIACIÓN ESTÁNDAR DE DATOS NO AGRUPADOS.

i X Xi X (Xi X)2 3 -0.8 0.64 2 -1.8 3.24 5 1.2 1.44 3 -0.8 0.64 1 -2.8 7.84 5 1.2 1.44 3 -0.8 0.64 3 -0.8 0.64 2 -1.8 3.24 4 0.2 0.04 6 2.2 4.84 2 -1.8 3.24 5 1.2 1.44 4 0.2 0.04 7 3.2 10.24 5 1.2 1.44 3 -0.8 0.64 6 2.2 4.84 3 -0.8 0.64 4 0.2 0.04 Total 47.2

(27)

Departamento de Matemáticas 27 Universidad de Sonora. Así,





minutos. 576 . 1 19 2 . 47 1 1 2     



 n X X s n i i

Este resultado indica el promedio de las distancias entre los datos dados en la Tabla 2.1 y la media

de estos datos.

Para calcular la varianza y desviación estándar para datos agrupados, se toma el punto medio de cada clase para representar todas las observaciones incluidas en esa clase. De acuerdo con lo anterior, las fórmulas para la población agrupada y para los datos obtenidos de una muestra son:

Para la varianza de la población:





N

m

f

N i i i









1 2 2





(2.19)

Para la varianza de la muestra:





1

1 2 2









n

X

m

f

s

n i i i (2.20)

Para la desviación estándar de la población:





N m f N i i i



   1 2





(2.21)

Para la desviación estándar de la muestra:





1 1 2   



 n X m f s n i i i (2.22)

Ejemplo 2.16. Para los datos agrupados de la Tabla 2.6, la media fue 148.5 (ver ejemplo 2.8) podemos

realizar los cálculos en una tabla de la manera siguiente:

TABLA 2.15. TABLA PARA CALCULAR LA DESVIACIÓN ESTANDAR DE DATOS AGRUPADOS.

Clase o intervalo de clase Punto Medio de clase (mi) Frecuencia

_m

_X

i



2

)

(

m

_i



X

f

(

m

_i



X

)

2 De 80 a menos de 107 93.5 4 -55 3,025 12,100 De107a menos de 134 120.5 7 -28 784 5,488 De 134a menos de 161 147.5 7 -1 1 7 De 161a menos de 188 174.5 8 26 676 5,408 De 188a menos de $215 201.5 4 53 2,809 11,236

(28)

Departamento de Matemáticas 28 Universidad de Sonora. Total 34,239 Así,





783 . 33 $ 29 239 , 34 1 1 2     



 n X m f s n i i i

Este resultado indica el promedio de las distancias entre las marcas de clase de los datos dados en la

Tabla 2.6 y la media de los datos de la Tabla antes mencionada.

La desviación estándar es la medida de dispersión más importante debido a que se utiliza junto con una cantidad de métodos de inferencia estadística, algunos de ellos se analizan en folletos posteriores y otros quedan fuera del propósito de este curso. Sin embargo, como ejemplo del uso de la desviación estándar, consideremos una distribución simétrica como la de la Figura 2.11, en el análisis estadístico, una curva de frecuencia de ese tipo se le llama curva normal. Para una distribución que está normalmente distribuida, se sabe que:

 Aproximadamente el 68% de los datos observados se encuentran situadas dentro de una desviación estándar alrededor de la media. Esto significa que este conjunto de datos se encuentra contenido en el intervalo  

 Casi el 95% de las mediciones se encuentran contenidas dentro de dos desviaciones estándar alrededor de la media. Es decir, se encuentra dentro del intervalo 2

 Cerca del 99% de los datos observados se encuentran situadas dentro de tres desviaciones estándar alrededor de la media. Esto es, se encuentra dentro del intervalo 3

Además, sin importar como se distribuyan los datos con respecto a la media, el porcentaje de observaciones que están contenidas dentro de  desviaciones estándar alrededor de la media deben ser por lo menos, k

% 100 1 1 ₂       k

Esto lo aseguraron los matemáticos Bienaymé y Chebyshev, al realizar estudios por separado de esta propiedad el siglo XVIII [1]. Así, los datos de polígonos que adoptan cualquier forma, cuando menos un

 75% de las observaciones caerán dentro del intervalo 2

 88.89% de las mediciones estarán contenidas dentro del intervalo 3

 93.75% de los datos observados estarán dentro del intervalo 4

Coeficiente de variación.

A diferencia de la varianza y de la desviación estándar, el coeficiente de variación es una media relativa, es decir, se expresa como un porcentaje en lugar de en términos de las unidades de los datos observados. Es de gran utilidad al comparar la variabilidad de dos o más conjuntos de datos o distribuciones que se expresan en diferentes unidades de medida. Por ejemplo, un investigador podría estar interesado en medir la variabilidad existente en las ventas diarias de diferentes compañías. No obstante, de que se podría tratar de la venta de