PROBABILIDAD Y ESTADÍSTICA DESCRIPTIVA

(1)

PROBABILIDAD Y

ESTADÍSTICA DESCRIPTIVA

Patricia Salazar

(2)

UNIDAD I. ESTADÍSTICA DESCRIPTIVA

1.1. Introducción, notación sumatoria 1.2. Datos no agrupados

1.2.1. Medidas de tendencia central y de posición 1.2.2. Medidas de dispersión

1.2.3. Aplicaciones 1.3. Datos agrupados

1.3.1. Tablas de frecuencias

1.3.2. Medidas de tendencia central y de posición 1.3.3. Medidas de dispersión

1.3.4. Aplicaciones

1.4. A partir de un conjunto de datos, representarlos mediante un histograma, polígono de frecuencias, etc.

1.5. Revisar otras graficas: diagramas de puntos, diagrama de pareto, diagrama de caja.

(3)

UNIDAD I

“ESTADÍSTICA DESCRIPTIVA” 1.1- INTRODUCCIÓN Y DEFINICIONES

ESTADÍSTICA

La estadística es una rama de la ciencia encargada del diseño de experimentos, o procedimientos de muestreo, del análisis de datos y los procedimientos para inferir acerca de una población de mediciones con base en la información contenida en una muestra.

¿CUÁLES SON LOS TIPOS DE ESTADÍSTICA? ESTADÍSTICA PARAMÉTRICA

La estadística paramétrica es aquella que está relacionada con los parámetros poblacionales (medidas descriptivas de la población).

ESTADÍSTICA NO PARAMÉTRICA

La estadística no paramétrica es útil cuando los datos utilizados en el experimento manifiestan orden o posición, así como también diferencias direccionales.

Dentro de la estadística paramétrica se pueden hacer 2 clasificaciones de la estadística, que son Estadística Descriptiva y Estadística Inductiva o Inferencial.

ESTADÍSTICA

PARAMÉTRICA

(4)

La estadística descriptiva incluye las técnicas que se relacionan con el resumen y la descripción de datos o variables. (Por ejemplo, edad de una población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc.).

La estadística inductiva o inferencial comprende aquellas técnicas por medio de las cuales se toman decisiones sobre una población estadística basada en una muestra.

Los datos o variables pueden ser de dos tipos:

Datos o variables cualitativas o atributos: no se pueden medir

numéricamente, son características de los elementos que se están estudiando. Estos datos cualitativos se clasifican como Datos Nominales y Datos Jerarquizados; los nominales indican las características de los elementos en estudio (Por ejemplo, color de ojos, nacionalidad, sexo, etc.). Los jerarquizados denotan orden o posición (Por ejemplo, posición en una carrera o en un concurso, lugar en una fila, etc.).

Datos o variables cuantitativas: tienen valor numérico y se clasifican en Datos

Discretos y Datos Continuos. Los datos discretos toman únicamente valores enteros, son elementos que se pueden contar (Por ejemplo, número de defectos, número de hombres, número de aprobados, número de asistentes, etc.). Los datos continuos son aquellos que toman un valor real dentro de un intervalo de valores definido; es decir, deben ser medidos (Por ejemplo, temperatura, peso, presión, estatura, resistencia, etc.).

Las variables también se pueden clasificar en:

Variables unidimensionales: ya que sólo recogen información sobre una

característica (por ejemplo: edad de los alumnos de una clase). ESTADÍSTICA

PARAMÉTRICA

ESTADÍSTICA DESCRIPTIVA

ESTADÍSTICA INDUCTIVA O INFERENCIAL

(5)

Variables bidimensionales: recogen información sobre dos características de

la población (por ejemplo: edad y altura de los alumnos de una clase).

Variables pluridimensionales: recogen información sobre tres o más

características (por ejemplo: edad, altura y peso de los alumnos de una clase). Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes conceptos:

Individuo: cualquier elemento que porte información sobre el fenómeno que se

estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo.

Población: conjunto de todos los individuos (personas, objetos, animales, etc.)

que porten información sobre el fenómeno que se estudia. Por ejemplo, si estudiamos el precio de la vivienda en una ciudad, la población será el total de las viviendas de dicha ciudad.

Muestra: subconjunto que seleccionamos de la población. Así, si se estudia el

precio de la vivienda de una ciudad, lo normal será no recoger información sobre todas las viviendas de la ciudad (sería una labor muy compleja), sino que se suele seleccionar un subgrupo (muestra) que se entienda que es suficientemente representativo.

1.2.- DATOS NO AGRUPADOS.

Los datos estadísticos se pueden representar de dos formas, puede ser utilizando métodos gráficos (agrupándolos en una tabla de distribución de frecuencias ó representándolos en un diagrama, en un histograma, etc.) o bien métodos numéricos (que representan la tendencia central y la variabilidad del conjunto de datos).

1.2.1.-MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN.

Las medidas de centralización nos facilitan información sobre la serie de datos que estamos analizando, nos indican la tendencia del conjunto de datos. Las más utilizadas son:

Ø la media

Ø la mediana y

Ø la moda

(6)

1.- Media Aritmética: Indica la tendencia central del conjunto de datos y se

obtiene haciendo la suma de todos los datos divididos entre el número de ellos. Esto es:

O bien: dividiendo la suma del producto de cada valor por el número de veces que se repite entre el total de elementos (tamaño de muestra) a este

procedimiento se le llama media ponderada y su forma de cálculo es:

xi= es el i-ésimo valor de la variable X

fi= es la frecuencia con que se repite el i-ésimo valor de X n f n i i = ∑ =1 es el tamaño de la muestra

Algunas ventajas y desventajas de la media son las siguientes: Ventajas:

a) Puede ser calculada en distribuciones con escala relativa e intervalar. b) Todos los valores son incluidos en el cálculo de la media.

c) Una serie de datos solo tiene una media.

d) Es una medida muy útil para comparar dos o más poblaciones.

e) Es la única medida de tendencia central donde la suma de las desviaciones

de cada valor respecto a la media es igual a cero. Por lo tanto podemos considerar a la media como el punto de balance de una serie de datos.

Desventajas:

a) Si alguno de los valores es extremadamente grande o extremadamente pequeño, la media no es el promedio apropiado para representar la serie de datos.

b) No se puede determinar si en una distribución de frecuencias hay intervalos de clase abiertos.

2.- La Mediana: es el valor de la serie de datos que se sitúa justamente en el

centro de la muestra (un 50% de valores son inferiores y otro 50% son superiores); y se calcula como sigue:

n x n x x x x X n i i n ₌

∑

= + + + + = 1 2 3 ... 1 ∑ ∑ × = + + + × + + × + × = = = k i i k i i i k k k f f x f f f f x f x f x X 1 1 2 1 2 2 1 1 ... ) ( ... ) ( ) (

(7)

Se ordenan los datos según su magnitud, y si el número de datos (n) es impar entonces la mediana es el valor que está ubicado al centro de los datos.

Si el número de datos es par, entonces la mediana es el promedio de los dos valores centrales.

La mediana no presenta el problema de estar influida por los valores extremos, pero en cambio no utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor por el número de veces que se ha repetido).

Otra forma de obtener la mediana es encontrando la posición del valor, a través de la siguiente fórmula; esta se puede aplicar a conjuntos de datos pares e impares:

3.- Moda: es él o los valores que más se repiten en la muestra, la moda puede

no existir; y si existe, puede no ser la única, y se representa como sigue:

ALGUNAS MEDIDAS DE POSICIÓN:

Las medidas de posición se utilizan para identificar algún punto específico dentro del conjunto de datos, y se utilizan para dividir el conjunto de datos en varias partes iguales; Algunas de estas medidas son:

1. La mediana.- Es un punto que divide al conjunto de datos en 2 partes

iguales.

2. Los cuartiles.- Son 3 puntos que dividen el conjunto de datos en 4 partes

iguales.

3. Los deciles.- Son 9 valores que dividen el conjunto de datos en 10 partes

iguales. 2 ) 1 ( ~ + = X n X 2 ~ ( 1)₂ 2+ + = n n X X X X⌢ ) 1 ( 5 . 0 ~ + = n X

(8)

4. Los percentiles.- Son 99 valores que dividen el conjunto de datos en 100

partes iguales.

En todas las medidas de posición mencionadas, es requisito indispensable ordenar de acuerdo a su magnitud el conjunto de datos; y una vez, que ya estan acomodados, se obtiene la posición del valor que nos interesa, de acuerdo a los siguientes procedimientos:

Para la mediana:

𝑋 = 𝑛 + 1

2 = 0.5×(𝑛 + 1) Para los cuartiles:

𝑄_! =𝑘(𝑛 + 1)

4 ∴ 𝑘 = 1,2,3 Para los deciles:

𝐷_! =𝑘 𝑛 + 1

10 ∴ 𝑘 = 1,2, ⋯ 9 Para los percentiles:

𝑃_! =𝑘 𝑛 + 1

𝑘 ∴ 𝑘 = 1,2, ⋯ 99

Es importante recalcar que; al aplicar cualquiera de estos procedimientos; lo que se obtiene sólo es la posición de la medida de interés; por ejemplo; si el resultado es un valor entero ; por ejemplo 8; esto indicará que la medida de posición de interés está ubicada en la posición 8.

Si el resultado de la aplicación de cualquiera de las fórmulas es decimal, entonces se identifican los elementos anterior y posterior a la posición entera arrojada; se obtiene la diferencia entre dichos elementos, se multiplica por el decimal obtenido en la fórmula aplicada; y el resultado obtenido se suma al elemento anterior a la posición entera indicada en la fórmula lo que resulte será la medida de posición que nos interesa.

EJEMPLO:

Los siguientes datos, ordenados según su magnitud, representan los montos en ventas en una cafeteria en una escuela primaria; para una muestra aleatoria de 15 estudiantes.

(9)

Posición 𝑥_! 𝑥_! 𝑥_! 𝑥_! 𝑥_! 𝑥_! 𝑥_! 𝑥_! 𝑥_! 𝑥_!" 𝑥_!! 𝑥_!" 𝑥_!" 𝑥_!" 𝑥_!" Ventas 1 1 2.5 2.5 2.5 3.5 4 5.3 9 12.5 13.5 24.5 27.1 30.9 41.0 a) Obtener el cuartil 2 Aplicamos: 𝑄_! =2(15 + 1) 4 = 8

el resultado anterior indica que el cuartil 2 es el elemento ubicado en la posición 8; en este caso es el valor 5.3

b) Obtener el decil 7. Aplicamos:

𝐷! =

7 15 + 1

10 = 11.2

Esto indica que el decil 7 está en un punto entre la posición 11 y la posición 12; por esto entonces identificamos los valores de las posiciones 11 y 12:

𝑥!!= 13.5 𝑥!"= 24.5 Obtenemos la diferencia entre ellos:

𝑥_!"− 𝑥_!! = 24.5 − 13.5 = 11

Multiplicamos este resultado por el decimal obtenido en la fórmula de obtención del decil que estamos obteniendo:

0.2×11 = 2.2

finalmente; para obtener el decil 7 sumamos el producto obtenido al elemento ubicado en la posición inferior, de acuerdo a lo obtenido en la fórmula.

𝐷_! = 13.5 + 2.2 = 15.7 el decil es; por lo tanto el valor de 15.7

(10)

Las medidas de dispersión o de variabilidad nos indican el grado de dispersión que tienen los elementos del conjunto de datos. Algunas de estas medidas son:

Ø el rango

Ø la varianza y

Ø la desviación estándar

Las medidas de dispersión son:

1.- El rango: es la diferencia entre el valor máximo y el valor mínimo del

conjunto de datos; esto es:

2.- La varianza y la desviación estándar: La varianza y la desviación estándar

están basadas en las desviaciones (diferencias) de cada valor con respecto a la media.

La Varianza. Es la media aritmética de las desviaciones cuadradas de los datos

respecto a la media.

La Desviación estándar. Es la raíz cuadrada de la varianza.

Cuando se obtiene la varianza y la desviación estándar, es necesario hacer la diferencia sobre si se está trabajando a partir de una población o una muestra, ya que el procedimiento de obtención cambia dependiendo del tipo de grupo de datos que se maneja. Este cambio se da en el denominador, ya que para la población el denominador es N y para la muestra es n−1. Esta diferencia se muestra a continuación:

Es importante recordar que en las investigaciones que se realizan en cualquier área, no siempre se trabaja con la población completa; ya sea porque

POBLACION MUESTRA Varianza N x N i i ∑ − = =1 2 2 ( µ) σ 1 ) ( 1 2 2 − ∑ − = = n x x s n i i Estándar Desviación N x N i i ∑ − = =1 2 ) ( µ σ 1 ) ( 1 2 − ∑ − = = n x x s n i i mín máx X X R= −

(11)

no se conoce, o bien; porque no es posible utilizar todos los elementos de la población.

En la siguiente tabla representamos las medidas de centralización y dispersión más utilizadas tanto en una población como en una muestra. Es conveniente recalcar que el procedimiento de cálculo es prácticamente el mismo tanto para población como para muestra. Lo único que varía es la simbología; ya que para datos muestrales se utilizan letras latinas y en datos poblacionales se utilizan letras griegas.

MEDIDAS DESCRIPTIVAS POBLACIÓN MUESTRA

Media µ x Mediana µ~ x~ Moda µˆ xˆ Varianza 2 σ s 2 Desv. Estándar σ s Tamaño de: N N 1.3.- DATOS AGRUPADOS.-

1.3.1.-TABLAS DE DISTRIBUCIÓN DE FRECUENCIA.

Una distribución de frecuencias es una tabla en la cual se agrupan en clases o categorías los valores posibles para una variable y se registra el número de valores observados que corresponden a cada clase.

Elaboración de una tabla de distribución de frecuencia

Una distribución de frecuencias del tipo “y menor que” se construye de la siguiente manera:

1. Se determina la amplitud de variación de los datos, detectando el valor más grande y el más pequeño del conjunto y calculando su diferencia.

Donde: = max

X Es el valor más grande del conjunto

=

min

X

Es el valor más pequeño del conjunto

min

max X

X Av= −

(12)

2. Determinar el número de clases o categorías a utilizar, redondeando al entero más cercano.

Donde: =

n Es el tamaño de muestra

3. Determinar el ancho de cada clase o categoría, redondeando al valor más conveniente.

4. Establecer los límites de cada categoría. El límite inferior de la primera categoría (LI1) debe ser un poco más pequeño que el valor mínimo. El

límite superior (LS1) de esta categoría se calcula de la siguiente manera:

LS1 = LI1 + C

Luego, el límite inferior de la segunda categoría (LI2)será el LS1 y el límite

superior de ésta segunda categoría será:

LS2 = LI2 + C

De manera general, entonces; el límite inferior de cualquier categoría a partir de de la segunda será el límite superior de la categoría anterior; esto es:

𝐿𝐼! = 𝐿𝑆!!! ∴ 𝑖 = 2,3, ⋯ 𝑘

Igualmente, el límite superior de la i-ésima categoría sería:

LSi = LIi + C ∴ i= 1 2, ,....k

Es importante que los valores máximo y mínimo de la muestra caigan dentro de los límites inferior y superior de la primera y última categoría respectivamente, y que además estén centrados, es decir; que haya la misma distancia del LI1 al X y del LS_min k al X_max., por ejemplo:

X X n K = K Av C =

(13)

1 LI KC LS_K = +

Puesto que los límites se calculan utilizando un procedimiento de ensayo y error, se sugiere utilizar la siguiente fórmula para calcular el límite superior de la última categoría, y así determinar cuál sería la mejor combinación de valores de ancho de clase, y límite inferior:

5. Una vez que están centrados los límites, se empiezan a registrar los datos en la categoría que corresponden, haciendo una marca por cada dato en la categoría que le corresponde, tomando el criterio de registrar un dato en la categoría 1 por ejemplo si éste es< 𝐿𝑆_! , o registrar un dato en la categoría 2 solo si es < 𝐿𝑆_! y así sucesivamente.

6. Construir la tabla de distribución de frecuencias que contenga:

ð

Número de clases

ð

Categoría o clase

ð

Punto medio

ð

Conteo

ð

Frecuencia real

ð

Frecuencia relativa Ejemplo:

Considere la resistencia a la tensión de 80 muestras de aleación de aluminio-litio: 105 221 183 186 121 181 180 143 97 154 153 174 120 168 167 141 245 228 174 199 181 158 176 110 163 131 154 115 160 208 158 133 207 180 190 193 194 133 156 123 134 178 76 167 184 135 229 146 218 157 101 171 165 172 158 169 199 151 142 163 145 171 148 158 160 175 149 87 160 237 150 135 196 201 200 176 150 170 118 149

(14)

Con estos datos, la tabla de distribución de frecuencias se elabora como sigue;

1. La amplitud de variación es: Av= X_max −X_min = 245 – 76 = 169

2. El número de clases a utilizar es: K = n = 80 = 8.944≅ 9

3. La amplitud de clase es: = = =18.77≅ 9

169

K Av

C 19

4. Para calcular los límites es necesario que se haga a manera de ensayo y error, por lo que a veces será necesario calcularlos varias veces, y sólo con la práctica se podrá eficientar este paso. Entonces los límites en una primera aproximación serán: LI1=75 LS1=94 LI2=94 LS2=113 LI3=113 LS3=132 LI4=132 LS4=151 LI5=151 LS5=170 LI6=170 LS6=189 LI7=189 LS7=208 LI8=208 LS8=227 LI9=227 LS9=246

Como se puede observar, los límites cubren los valores extremos, el máximo y el mínimo, teniendo una diferencia de 1 unidad del valor mínimo al límite inferior y 1 unidad de diferencia del valor máximo al límite superior.

Esto se puede observar en la siguiente gráfica:

El que haya la misma diferencia entre valores máximo y mínimo y límites inferior y superior, indica que la distribución está centrada, por lo que se puede proceder a construir la tabla con los siguientes elementos:

Ø Número de intervalo Ø Intervalo o clase

Ø Punto medio se obtiene como: 𝑃. 𝑀. =!"!!"_! Ø Conteo (marcas de clase)

(15)

Ø Frecuencia relativa se obtiene como: 𝑓𝑟𝑒𝑐. 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 =!"#$.!"#$_! Ø La tabla de distribución de frecuencias se muestra a continuación:

NUM. DE CLASE INTERVALO DE CLASE PUNTO MEDIO CONTEO FREC. REAL FREC. RELATIVA 1 75-94 84.5 II 2 .025 2 94-113 103.5 IIII 4 0.05 3 113-132 122.5 IIIII I 6 .075

4 132-151 141.5 IIIII IIIII IIIII I 16 .2

5 151-170 160.5 IIIII IIIII IIIII IIIII 20 .25

6 170-189 179.5 IIIII IIIII IIIII 15 .1875

7 189-208 198.5 IIIII IIIII 10 .10

8 208-227 217.5 II 2 .025

9 227-246 236.5 IIII 4 .05

80 1

Al construir la tabla se debe cuidar el detalle de que la suma de todas las frecuencias reales deben ser igual al tamaño de la muestra y la suma de las frecuencias relativas debe ser igual o aproximadamente igual a 1.

El comportamiento de las marcas de clase indican la tendencia de los datos, y como se podrá observar en este ejercicio, la tendencia de los datos en la tabla es muy similar al comportamiento de los datos en el diagrama de tallo-hoja, sólo que en dicho diagrama la representación de los datos se hace de manera muy detallada, representando todos y cada uno de los datos en su respectivo tallo, sin perder la información de ningún elemento.

En cambio; aquí en la tabla de distribución de frecuencias, la representación se hace de forma individual también; pero sin indicar los valores individuales de de cada uno de los datos y únicamente se realiza una marca por cada dato en la categoría correspondiente, esto hace que al tener la tabla completa se pierda algo de información, considerando que la información que se podrá obtener es en relación al número de elementos que están el cualquiera de las categorías, pero sin saber que datos están exactamente en ellas.

1.3.2.- MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN.

Hay que recordar que todas las medidas de tendencia central y de dispersión obtenidas a partir de una tabla de distribución de frecuencias, no son medidas exactas, ya que se generan a partir de un conjunto de datos ya

(16)

n M P f X k i i

∑

= × = 1 .

( )

_c f f n LI X aA ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ ₋ + = 2 ~

procesados, por lo que tienen una ligera pérdida de información con respecto a las medidas obtenidas directamente a partir del grupo de datos sin procesar, en el cual se toman en cuenta todos los datos del conjunto para obtener estas medidas.

MEDIA

Esta medida de tendencia central basada en la distribución de frecuencias se obtiene aplicando la siguiente fórmula de cálculo:

fi= Frecuencia real de la i-ésima clase o categoría

P.Mi = punto medio de la i-ésima categoría

k= número de categorías n= total de datos en la muestra

MEDIANA

Esta medida divide en dos partes iguales al conjunto de datos, sin embargo, al obtenerla a partir de la tabla de distribución de frecuencias, la exactitud en la división se pierde, y de manera aproximada se calcula la división. Para obtener esta medida es necesario primero encontrar la clase mediana; esta es aquella cuya frecuenta acumulada real es igual o mayor que la mitad del conjunto de datos. Una vez identificada esta clase mediana se aplica la siguiente fórmula de cálculo:

LI= límite inferior de la clase mediana

(17)

M P X Cˆ = . c d d d LI X I _⎥ ⎦ ⎤ ⎢ ⎣ ⎡ + + = 2 1 1 ˆ

f= Frecuencia real de la clase mediana c= amplitud da clase

nota: la clase mediana es aquella cuya frecuencia real acumulada iguala o excede a la mitad del total de las observaciones.

MODA

La moda puede no existir, y si existe, puede que no sea la única, para obtenerla a partir de una tabla de distribución de frecuencias se puede utilizar cualquiera de los procedimientos, que se muestran a continuación:

MODA CRUDA

X

C ˆ= Es la moda cruda, y es el Punto Medio de la categoría con más alta frecuencia

MODA POR INTERPOLACIÓN

X

I ˆ= Moda por interpolación

LI = Límite inferior de la clase modal (la clase de mayor frecuencia)

d1 = diferencia entre la clase modal y la clase anterior a la modal

d2 = diferencia entre la clase modal y la clase

c= amplitud de clase

ALGUNAS MEDIDAS DE POSICIÓN:

A igual que en los conjuntos pequeños de datos, en los conjuntos grandes tambien se pueden obtener las medidas de posición; sólo que es recomendable obtenerlas a partir de los datos agrupados, y puesto que ordenarlos es requisito para obtener cualquier medida de posición(mediana, cuartiles, deciles o percentiles); utilizar las tablas de distribución de frecuencia es una buena opción.

(18)

CUARTILES PARA DATOS AGRUPADOS.- 𝑄_! = 𝐿𝐼 + 𝑘𝑛 4 − 𝑓!!! 𝑓_! 𝐶 ∴ 𝑘 = 1, 2, 3 𝐿𝐼 = 𝐿í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑑𝑜𝑛𝑑𝑒 𝑠𝑒 𝑢𝑏𝑖𝑐𝑎 𝑒𝑙 𝑐𝑢𝑎𝑟𝑡𝑖𝑙 𝑘 𝑛 = 𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑓_(!!!)= 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑑𝑒𝑙 𝑐𝑢𝑎𝑟𝑡𝑖𝑙 𝑘 𝑓_! = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑞𝑢𝑒 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑎𝑙 𝑐𝑢𝑎𝑟𝑡𝑖𝑙 𝑘 𝐶 = 𝐴𝑛𝑐ℎ𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒

Para poder utilizar la fórmula anterior es necesario ubicar primero la clase que contiene la frecuencia acumulada real correspondiente al cuartil 𝑘 de interés; y esto se hace a través de la aplicación de la siguiente fórmula: !"_! para 𝑘 = 1, 2, 3.

DECILES PARA DATOS AGRUPADOS.-

𝐷_! = 𝐿𝐼 + 𝑘𝑛 10 − 𝑓!!! 𝑓_! 𝐶 ∴ 𝑘 = 1, 2, 3, 4, 5, 6, 7, 8, 9 𝐿𝐼 = 𝐿í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑑𝑜𝑛𝑑𝑒 𝑠𝑒 𝑢𝑏𝑖𝑐𝑎 𝑒𝑙 𝑑𝑒𝑐𝑖𝑙 𝑘 𝑛 = 𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑓_(!!!)= 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑑𝑒𝑙 𝑑𝑒𝑐𝑖𝑙 𝑘 𝑓! = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑞𝑢𝑒 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑎𝑙 𝑑𝑒𝑐𝑖𝑙 𝑘 𝐶 = 𝐴𝑛𝑐ℎ𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒

Como en los cuartiles; para poder utilizar la fórmula anterior es necesario ubicar primero la clase que contiene la frecuencia acumulada real

(19)

min

max X

X Av= −

correspondiente al decil 𝑘 de interés; y esto se hace a través de la aplicación de la siguiente fórmula: !"_!" , en el entendido que se puede hacer para 𝑘 = 1, 2, 3, ⋯ 9. PERCENTILES PARA DATOS AGRUPADOS.-

𝑃_! = 𝐿𝐼 + 𝑘𝑛 100 − 𝑓!!! 𝑓_! 𝐶 ∴ 𝑘 = 1, 2, 3, ⋯ ,99 𝐿𝐼 = 𝐿í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑑𝑜𝑛𝑑𝑒 𝑠𝑒 𝑢𝑏𝑖𝑐𝑎 𝑒𝑙 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 𝑘 𝑛 = 𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑓_(!!!)= 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑑𝑒𝑙 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 𝑘 𝑓! = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑞𝑢𝑒 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑎𝑙 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 𝑘 𝐶 = 𝐴𝑛𝑐ℎ𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒

Como en los cuartiles y deciles; para poder utilizar la fórmula anterior es necesario ubicar primero la clase que contiene la frecuencia acumulada real correspondiente ahora al percentil 𝑘 de interés; y esto se hace a través de la aplicación de la siguiente fórmula: !"_!" , en el entendido de que 𝑘 puede tomar cualquiera de los valores 𝑘 = 1, 2, 3, ⋯ 99.

1.3.3.- MEDIDAS DE DISPERSIÓN

Las medidas de dispersión más comunes en un conjunto de datos a partir de una tabla de distribución de frecuencias son:

RANGO

Es la diferencia entre el valor más grande y el más pequeño del conjunto de datos. En una distribución de frecuencias se conoce como amplitud de variación, y se obtiene de la siguiente manera:

(20)

1 . . ) . . ( 1 2 1 2 2 − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ × − × =

∑

= = n n f M P f M P s k i k i i i i i

A partir de una tabla de distribución de frecuencias y considerando que ésta fue construida a partir de una muestra, la varianza y la desviación estándar se obtienen como sigue:

VARIANZA:

P.Mi = Punto Medio de la i-ésima categoría

fi = Frecuencia real de la i-ésima categoría

n = tamaño de muestra

DESVIACIÓN ESTÁNDAR: Se sigue considerando como la raíz cuadrada positiva de la varianza; esto es:

𝑠 = 𝑃. 𝑀.! !_×𝑓 ! ! !!! − 𝑃. 𝑀.!×𝑓! ! !!! ! 𝑛 𝑛 − 1 Simplificado es: 𝑠 = 𝑠! 1.4.- REPRESENTACIONES GRÁFICAS

1.4.1.-DIAGRAMA DE TALLO- HOJA

Este diagrama proporciona una buena representación visual e informativa del conjunto de datos, donde cada dato está formado por al menos 2 dígitos. Para construir este diagrama, los datos se dividen en dos partes: un tallo formado por uno o más de los dígitos principales y una hoja, la cual contiene el resto de los dígitos.

Debe escogerse un número relativamente pequeño de tallos en comparación con el número de observaciones (generalmente se seleccionan de 5 a 20 tallos). Una vez elegido el conjunto de tallos, estos se registran en la parte izquierda del diagrama, y al lado derecho de cada tallo se enlistan las

(21)

hojas correspondientes a cada valor observado, ordenándolos tal y como se encuentran en el conjunto de datos.

La distribución de las hojas nos da una idea de cual es el comportamiento del conjunto de datos, hacia donde tiende la mayoría y cuales son los que menos frecuencia tienen.

También nos proporciona información sobre qué porcentaje de datos se encuentran por encima o por debajo de cierto valor, o entre ciertos límites.

Considerando los datos del ejemplo para la resistencia a la tensión para las muestras de litio; construiremos el diagrama de tallo-hoja; Puesto que la mayoría de los datos del conjunto son de tres dígitos, y solo unos cuantos de dos dígitos, vamos a considerarlos todos como si tuvieran tres dígitos, agregando un cero a la izquierda a los datos que solo tienen dos dígitos, de esta manera uniformizaremos al conjunto en cuanto a número de dígitos.

Para elegir los tallos, consideramos el o los dígitos principales, en nuestro conjunto observamos que el digito principal sería el correspondiente a la primera posición (el de las centenas) y podemos observar también que si eligiéramos como tallo solo a las centenas; tendríamos muy pocos tallos, solo 3; para demasiada información (80 datos). Así, entonces podemos considerar como tallos los primeros 2 dígitos de los datos, y como hojas el dígito restante (las unidades).

El diagrama quedaría de la siguiente manera:

(22)

Un histograma es la gráfica de barras de una distribución de frecuencias, y en su construcción se colocan sobre el eje horizontal de la gráfica los límites de exactos de clase, en tanto que sobre el eje vertical se coloca el número o porcentaje de observaciones correspondientes a cada clase.

Un polígono de frecuencias es la gráfica lineal de una distribución de frecuencias, los dos ejes de esta gráfica son similares a los del histograma, excepto que, se coloca el punto medio de cada clase sobre el eje horizontal. El número de observaciones en cada clase se representa por un punto en el punto medio de la clase y estos puntos están unidos por una serie de segmentos de línea para formar una “figura de varios lados” o polígono.

1.4.3.- GRÁFICA DE PASTEL.

Una gráfica de pastel es especialmente apropiada para ilustrar las divisiones de una cantidad total, por ejemplo la distribución de ingresos o egresos en una compañía. Para construir este tipo de gráfica es necesario multiplicar la frecuencia relativa de cada categoría por 360! _{, para determinar el} tamaño de cada sección. Por ejemplo:

La siguiente tabla se basa en los datos publicados en los Indicadores Económicos del Banco de México. Y son datos preliminares correspondientes a Diciembre de 1988.

CATEGORIA CANTIDAD FREC. RELATIVA TAMAÑO DE SECTOR EN GRADOS Petrolera $560.1 0.33 118.8 Agropecuarias $143.0 0.08 28.8 Extractivas $49.9 0.03 10.8 Manufactureras $951.1 0.56 201.6 TOTAL $1704.1 1 360

La gráfica de pastel es la siguiente:

HISTOGRAMA DE FRECUENCIA RELATIVA 0 0.05 0.1 0.15 0.2 0.25 0.3 RESISTENCIA A LA TENSION FR E C . R E LA TI V A % 75-94 94-113 113-132 132-151 151-170 170-189 189-208 208-227 227-246 HISTOGRAMA DE FRECUENCIA REAL 0 5 10 15 20 25 RESISTENCIA A LA TENSION FREC. REAL 75-94 94-113 113-132 132-151 151-170 170-189 189-208 208-227 227-246

(23)

1.5.- OTRAS GRÁFICAS.

1.5.1.- DIAGRAMA DE PUNTOS

Un diagrama de puntos se parece a un histograma en que representa de manera gráfica la distribución de los valores de los datos; la diferencia es que los valores se grafican de forma individual, en vez de agruparse por categorías o clases. Estos diagramas son útiles para representar conjuntos pequeños de datos que no requieren ser agrupados en categorías; además son especialmente útiles en la comparación de dos conjuntos de datos o dos subgrupos de un mismos conjunto de datos.

1.5.2.- DIAGRAMA DE PARETO

Un diagrama de pareto es similar a un histograma; es una gráfica de barras para una variable cualitativa y no para datos cuantitativos agrupados en clases. Las barras del diagrama que pueden representar frecuencias reales o relativas (porcentajes), se ordenan en forma decreciente de izquierda a derecha. Los diagramas de pareto se utilizan en el control de procesos para tabular las causas relacionadas con las variaciones asignables a la calidad del producto del proceso de producción.

1.5.3.- DIAGRAMA DE CAJA

La gráfica de caja es muy útil para reflejar propiedades de una muestra, ofrece una representación visual del conjunto de datos basada en el resumen de cinco números: el valor mínimo del conjunto

₍

X_min_.

₎

, el cuart1l inferior

_{( )}

Q₁ , la mediana del conjunto de datos, el cuartil superior

_{( )}

Q y el valor máximo del ₃

conjunto

₍

X_max_.

₎

. Construida de esta manera la grafica de caja; contiene el 50% de los datos dentro de la caja considerando el rango intercuartílico, el 25% de los datos fuera de la caja con respecto al valor mínimo

₍

X_min_.

₎

y el otro 25% con respecto al valor máximo

₍

X_max_.

₎

. Estos porcentajes de datos fuera de la caja se representan a través de una línea recta a cada lado denominada bigote o extensión. La longitud de los bigotes indicaría si la distribución de los datos es asimétrica o no; y si lo es, nos diría también el tipo de asimetría.

EXPORTACIONES MEXICANAS EN DICIEMBRE DE 1988 (EN MILLONES DE

DOLARES) Extractivas 49.9, 3% Agropecuarias 143, 8% Petrolera $560.10 , 33% Manuf actureras 951.1, 56%

(24)

1.6.- APLICACIONES.

INSTRUCCIONES:

Para los siguientes problemas encuentre:

a. la media

b. mediana

c. moda

d. el rango

e. la varianza y la desviación estándar.

f. Los cuartiles 1 y 3

g. Los deciles 5 y 7

h. Los percentiles 25, 50 y 75

i. El diagrama de puntos correspondiente PROBLEMA 1.-

Las siguientes mediciones corresponden a las temperaturas de un horno, registradas en lotes sucesivos de un proceso de fabricación de semiconductores (las unidades son O

F

_).

953 950 948

955 951 949

957 954 955

PROBLEMA 2.-

La contaminación de una pastilla de silicio puede afectar de manera importante la calidad de la producción de circuitos integrados. De una muestra de 10 pastillas se obtienen las siguientes concentraciones de oxigeno.

3.15 2.68 4.31 2.09 .3.82

2.94 3.47 3.39 2.81 3.61

INSTRUCCIONES:

En los siguientes problemas, a partir de la tabla de distribución de frecuencias, encuentre:

a) La media y la desviación estándar b) La mediana

c) La moda cruda y por interpolación d) El cuartil 1 y 3

e) El decil 5

(25)

g) Construya el histograma y polígono de frecuencia real h) Construya un diagrama de pastel

PROBLEMA 1.-

El número de horas que se ve TV en casa y los principales horarios en que se ve, son 2 factores que influyen en el ingreso por ventas de publicidad en las televisoras. Una muestra de 30 casas en un área particular observada; produjeron las siguientes estimaciones de horas que se ve la TV por casa:

3 6 7.5 15 12 6.5 8 4 5.5 6 5 12 1 3.5 3 7.5 5 10 8 3.5 9 2 6.5 1 5 4.5 8.5 7 11 5 PROBLEMA 2.-

Psicólogos investigadores están interesados en averiguar si los patrones respiratorios de una persona son afectados por un tratamiento experimental particular. Para determinar los patrones respiratorios generales de 30 personas en el estudio, los investigadores reunieron algunas mediciones de referencia –la ventilación total en litros de aire por minuto ajustada para el tamaño del cuerpo- para cada persona del tratamiento. Los datos se muestran a continuación:

5.23 4.79 5.83 5.37 4.35 5.54 6.04 5.48 6.58 4.82 5.92 5.38 6.34 5.12 5.14 4.72 5.17 4.99 4.51 5.70 4.67 5.77 5.84 6.19 5.58 5.72 5.16 5.32 4.96 5.63 INSTRUCCIONES:

En los siguientes problemas construya una gráfica de sectores o de pastel y un diagrama de pareto; además responda las siguientes preguntas para cada problema:

a) Defina la variable que se está midiendo. b) ¿La variable es cuantitativa o cualitativa?

(26)

PROBLEMA 1.-

Un fabricante de jeans tiene plantas en California, Arizona y Texas, se selecciona al azar una muestra de 25 jeans de la base de datos computarizada y se registra el estado en que se produjo cada uno.

CA AZ AZ TX CA CA CA TX TX TX AZ AZ CA AZ TX CA AZ TX TX TX CA AZ AZ CA CA PROBLEMA 2.-

La generación de la década de los 60 nunca fue tan radical como se retrató. De acuerdo con una encuesta de opinión en The American Enterprise cuando se le pidió a un grupo de personas de 30 a 40 años de edad que describieran sus puntos de vista políticos en la década de los 60 y principios de los 70, sus respuestas fueron las siguientes:

Conservador 28% Moderado 35% Liberal 31%