Estadística y Probabilidad

(1)

Reiman Acuña

Jorge Chinchilla

Estadística y Probabilidad

para asesores de matemática

Escuela de Matemática

Instituto Tecnológico de Costa Rica

(2)

Reiman Y. Acuña & Jorge L. Chinchilla.

Compilación

Estadística y Probabilidad

para Asesores de Matemática

(3)

Índice general

1

Estadística . . . 5

1.1 Medidas de Tendencia Central 5 1.1.1 La media . . . 6

1.1.2 Media ponderada. . . 7

1.1.3 La media para frecuencias simples. . . 7

1.1.4 La mediana . . . 9

1.1.5 La moda . . . 10

1.1.6 Media, mediana y moda de subgrupos combinados . . . 11

1.2 Comparación de las Medidas de Tendencia Central 11 1.3 Medidas de variabilidad 15 1.3.1 Recorrido o amplitud. . . 16

1.3.2 Desviación estándar y varianza . . . 17

1.3.3 Coeficiente de variación . . . 20

2

Probabilidad . . . 23

2.1 La enseñanza de la probabilidad en secundaria 23 2.1.1 El azar: situaciones aleatorias y deterministas. . . 24

2.2 Introducción 25

2.3 La ley de los Grandes Números 29 2.4 Axiomas de Probabilidad 29

(4)

(5)

1 — Estadística

1.1 Medidas de Tendencia Central

Las medidas de tendencia central se utilizan con bastante frecuencia para resumir un conjunto de cantidades o datos numéricos a fin de describir los datos cuantitativos que los forman.

En nuestra vida diaria, constantemente nos encontramos de manera más común con un concepto esta-dístico, el “promedio” . Continuamente estamos expuestos a reportes de promedios: salario promedio, nota promedio, peso promedio,hasta gol promedio. Sin embargo el promedio es una idea ambigua. Cuando se explora un conjunto desordenado de calificaciones de un examen de matemáticas, por ejemplo, para ver si su calificación es alta o baja o por encima o por debajo del promedio, está buscando información estadística relevante que le permitirá interpretar y evaluar si desempeño con más precisión y significado. Las medidas de tendencia central son también frecuentemente usadas para comparar un grupo de datos con otro, por ejemplo: el promedio de ventas obtenido por un grupo de vendedores de una zona comparado con el promedio de ventas otro grupo de vendedores de otra zona, el promedio de reclamos de clientes de una sucursal, comparado con el promedio de reclamos de otra sucursal. Otras características generales de las medidas de tendencia central son las siguientes:

Características

1 Permiten apreciar qué tanto se parecen lo grupos entre sí.

2 Son valores que se calculan para un grupo de datos y que se utiliza para describirlos de

alguna manera.

3 Normalmente se desea que el valor sea representativo de todos los valores incluidos en

(6)

4 Es el valor más representativo o típico de un grupo de datos, no es el valor más pequeño

o el más grande, sino un valor que está en algún punto intermedio del grupo, más exactamente, se acerca a estar al centro de todos los valores, por ello se les llama medidas de tendencia central.

5 _{Se utilizan como mecanismo para resumir una característica de un grupo de datos en}

particular.

6 _{También para comparar un grupo de datos contra otro.}

Sin embargo, una medida de tendencia central o localización media de los conjuntos de datos está lejos y por mucho del tipo de índice estadístico más ampliamente utilizado.

Las dos medidas de posición más usadas son la media aritmética, o promedio, y la mediana; en menor medida se usa la moda. Los cálculos se pueden hacer para datos simples, para datos ponderados o para datos agrupados en clases.

1.1.1 La media

La media, llamada también media aritmética, es la medida de tendencia central conocida popular-mente como “promedio”. Se define como la suma de todos esos valores dividida por el número de ellos. La media aritmética puede ser simple o ponderada.

Definición 1.1 (Media aritmética simple)

Sean X1, X2, X3, . . . , Xn−1, Xnlos n valores observados para una variable cuantitativa X .

Enton-ces la media aritmética o promedio de la variable X , que se denota con una barra encima de X , es:

X= X1+ X2+ X3+ . . . + Xn−1+ Xn n

En notación de sumatoria, la media aritmética se escribe: X=1 n n

∑

i=1 Xi 1.1

Suponga que se tienen las notas obtenidas por un grupo de 20 estudiantes en un examen universitario y que sus valores (ordenados de menor a mayor) son: 15, 45, 47, 53, 58, 58, 60, 62, 67, 74, 75, 78, 80, 80, 81, 85, 85, 85, 90, 92

(7)

1.1 Medidas de Tendencia Central 7 Entonces la media es:

X=15 + 45 + 47 + 53 + 58 + 58 + 60 + · · · + 75 + 78 + 80 + 80 + 81 + 85 + 85 + 85 + 90 + 92 20

es decir,

X=1370 20 Por lo tanto, la nota promedio es 68,50.

1.1.2 Media ponderada

A veces interesa dar diferentes pesos o ponderaciones a los diferentes valores de la variable, de acuerdo con su importancia. Ante esto, tenemos la siguiente definición

Definición 1.2 (Media ponderada simple)

Sean X1, X2, X3, . . . , Xn−1, Xn los n valores observados para una variable cuantitativa X,

donde los datos están ponderados por los p1, p2, p3, . . . , pn, es decir, estos valores pidan la

importancia relativa que tiene cada unidad estadística en el estudio. Entonces la media ponderada de la variable X es :

X = p1X1+ p2X2+ p3X3+ . . . + pnXn p1+ p2+ . . . + pn

En notación de sumatoria, la media ponderada es:

X=∑

n i=1 piXi

∑ni=1 pi

1.2

Supóngase que un estudiante tiene las siguientes notas en cuatro cursos matriculados un cuatrimestre: 67, 82, 90, 71. El número de créditos que vale cada curso es, respectivamente: 3, 2, 2, 4. Entonces la media ponderada de las notas será:

X=(3 × 67) + (3 × 82) + (2 × 90) + (4 × 71)

3 + 2 + 2 + 4 =

829

11 = 75,36

1.1.3 La media para frecuencias simples

Cuando los datos recolectados han sido organizados en una tabla de distribución de frecuencias simples, la media, para poblaciones como para muestras, se puede calcular por medio de la fórmula

x= ∑ f x n

(8)

en donde

x = media o promedio

∑

f x = suma de las frecuencias por su correspondiente dato nominal.

n = suma de todas las frecuen-cias (número de datos reco-lectados) Calificaciones x f 0 2 1 3 2 3 3 6 4 8 5 9 6 17 7 22 8 10 9 6 10 5 Total 91 1.3

Las calificaciones de Matemáticas de los grupos ”A” y ”B” se muestran en la tabla de la derecha. Calcular el promedio (la media) obtenido por esos grupos.

Solución: Debe añadirse a la tabla original una columna encabezada por f x en donde se anotarán los resultados correspondientes a las multiplicaciones de cada valor nominal x por su frecuencia f respectiva.

Por ejemplo, para la primera fila de la tabla: f x = 2 × 0 = 0 La tabla completa con las tres columnas

queda como se muestra a la derecha. La suma de los valores de la columna f x es 544, de manera que utilizando la fórmu-la para el promedio,recordando que n es la suma de todas las f , se obtiene:

x = 544 91 x = 5,97 Calificaciones x f f x 0 2 0 1 3 3 2 3 6 3 6 18 4 8 32 5 9 45 6 17 102 7 22 154 8 10 80 9 6 54 10 5 50 Total 91 544

(9)

1.1 Medidas de Tendencia Central 9

1.1.4 La mediana

La mediana es el valor que esta en el “centro” de todos los valores, si éstos se ordenan. Es decir, es un valor tal que no más de la mitad de las observaciones son mayores que él y que no más de la mitad son menores que él. La mediana se denota Me. Esto es

Definición 1.3 (Mediana)

Supóngase que se tienen las observaciones X X1, X2, X3, . . . , Xn−1, Xn de una variable

cuantitativa y que estas observaciones están ordenadas. Entonces el valor de la mediana dependerá de si el número n de datos es par o impar:

I Si n es impar, entonces la mediana se encuentra en la posición (n + 1) ÷ 2, que es

exactamente la posición que separa los datos en dos grupos de igual cantidad: Me=X(n+1)

2

II Si n es par, entonces la mediana estará entre la posición n/2 y la posición n/2 + 1, para

que los datos se dividan en dos grupos de n/2 valores cada uno.

Es usual entonces tomar la mediana como la media aritmética entre los datos Xn/2 +

Xn/2 + 1, es decir:

Me= (Xn/2 + Xn/2 + 1) ÷ 2

(Observe que ambos valores pueden coincidir).

1.4

Supóngase que se tienen los siguientes datos ordenados de una variable cuantitativa: −3, −3, −2, 0, 0, 1, 3 , 3, 5, 8, 8, 10, 10. Como hay n = 13 datos, que es un número impar, entonces la mediana está en la posición (n + 1) ÷ 2 = (13 + 1) ÷ 2 = 7 , es decir, que Me = 3. Esto significa que el 50 % de los datos son mayores o iguales que 3 y el otro 50 % de los datos on menores que 3. Nótese que a partir de la fórmula se obtiene la posición de la mediana y no el valor de ésta.

1.5

Consideremos las notas obtenidas por un grupo de 20 estudiantes universitarios: 15, 45, 47, 53, 58, 58, 60, 62, 67, 74 , 75 , 78, 80, 80, 81, 85, 85, 85, 90, 92

Como el número de datos es 20, que es par, entonces la mediana será la media aritmética entre los datos que están en la posición n/2 = 10 y la posición n/2 + 1 = 11. Estos datos son: 74 y 75. Entonces la mediana es:

(10)

Me= (74 + 75) ÷ 2 = 74,5

1.1.5 La moda

La moda es la medida de posición más simple de definir:

Definición 1.4 (Moda)

dada una serie de observaciones para una variable cuantitativa, entonces la moda, denotada MO, es el valor más frecuente (si existe), o los valores más frecuentes (si son varios).

Si un grupo de datos presenta una sola moda, diremos que es unimodal. Si presenta dos modas, diremos que es bimodal.

La moda es la medida de posición que menos se usa por una sencilla razón: en muchas ocasiones no existe. Peor aún, cuando existe, frecuentemente no es única, sino que existen muchas modas para una misma serie de datos. Por lo tanto, advertimos al estudiante acerca de su uso y su interpretación.

1.6

Consideremos de nuevo la siguiente serie de datos, correspondiente a las notas de un grupo de estudiantes:

15, 45, 47, 53, 58, 58, 60, 62, 67, 74, 75, 78, 80, 80, 81, 85, 85, 85, 90, 92 Entonces la moda es 85, que tiene frecuencia 3. O sea, que la nota más frecuente es 85.

1.7

Supóngase que se tienen observadas las siguientes estaturas de 10 personas, en centímetros: 168, 162, 181, 180, 169, 171, 175, 159, 173, 160

Como no hay ningún valor que sea más frecuente que los demás, entonces la moda no existe.

1.8

En una pequeña empresa familiar, se tienen los siguientes salarios mensuales de los empleados, en miles de colones:

30, 35, 35, 35, 40, 90, 120, 120, 120, 150 Entonces hay dos modas: 35 y 120, ambas con frecuencia 3.

(11)

1.2 Comparación de las Medidas de Tendencia Central 11

1.1.6 Media, mediana y moda de subgrupos combinados

Suponga que s e conocen la media, la mediana y la moda de calificaciones de examen para cada una de tres escuelas por separado (subgrupos), pero deseamos encontrar las tres medidas de tendencia central para el grupo compuesto (es decir, las tres escuelas combinadas en un grupo grande). Das las medidas de los tres subgrupos y sus respectivas n, podemos calcular la media compuesta (llamada media mayorsimbolizada por X . ), mediante la ecuación:

X. =∑ X1+ ∑ X2+ . . . + ∑ Xj n₁+ n2+ . . . nj

N Advertencia:

A La media mayor no sólo es la media de las medias de los subgrupos a menos que los tamaños de las muestras de los subgrupos sean idénticas. La media mayor (X ) de grupos medida diferente se calcula dividiendo la suma de las sumas de los subgrupos entre la suma de las n del grupo, como esta implícito en la ecuación anterior.

B Las modas o medianas del conjunto de datos compuesto no puede calcularse a partir de las modas o medianas de los subgrupos. Para la moda y mediana , debemos tener los datos originales a la mano y formar una distribución de frecuencias combinada simple antes de que la moda o la mediana de los datos agregados pueda encontrarse.

C Con muestras de subgrupos pequeños, la media, moda y mediana del grupo compuesto son simples de determinar. Si embargo, en el caso de conjuntos grandes de datos que están involucrados, solo la media mayor es razonablemente simple de calcular. Sólo la media se define algebraicamente por la ecuación

X=

_∑

X/n .

1.2 Comparación de las Medidas de Tendencia Central

El propósito de las medidas de posición ( tendencia central) es resumir o representar un conjunto de datos. Dichas medidas se complementan y en conjunto, permiten una mejor descripción de las características de la distribución de los datos. El problema reside en escoger cuál de las medidas representa mejor dicho conjunto de datos, para ello es necesario tener una idea acerca de la forma de su distribución.

Las ventajas y limitaciones de usar la media, la moda y la mediana para describir un conjunto de datos depende estrictamente de la forma (tipo) de la distribución de datos. Siempre que se pueda usar, en general se prefiere la media para describir la tendencia central, aunque algunas distribuciones se describen mejor por medio de la moda y la mediana. A continuación evaluaremos la aplicabilidad de nuestros tres “promedios” a diferentes tipos de distribuciones.

(12)

Comparaciones

1 En una distribución normal (simétrica), la media, moda y mediana tienen un valor

idéntico (Figura 1). Esto en realidad es evidente, dado que una distribución normal es perfectamente simétrica, y la curva tiene un sólo punto máximo (moda) que también se encuentra en el centro. Así, la media debe ser nuestra medida preferida de tendencia central para los conjuntos de datos que se distribuyen normalmente, puesto que es más fácil de calcular y de usar en forma matemática.

Figura 1

2 Una distribución bimodal tiene dos puntos máximos (Figura 2). Esto hace que la media

y la mediana no sean de utilidad, puesto que sus valores estarán en algún lugar entre los dos puntos máximos y distorsionarán enormemente la descripción de la distribución. La moda, y observe que en este caso hay dos modas, pasa a ser la única medida útil de tendencia central. Sin embargo, una distribución bimodal es poco común y en general podemos decir que consta de dos distribuciones que se pueden analizar en forma independiente.

Si hay mucha asimetría, se debe evitar usar la media, ya que ésta es muy sen-sible a la presencia de valores extremos.

3 Cuando se describen distribuciones asimétricas (sesgadas) positivas o negativas, la

media no es la mejor medida de tendencia central disponible. Mientras mayor sea la asimetría o sesgo de los datos, mayor utilidad tendrá la mediana (y más engañosa será la media), porque la mediana estará más cerca del “valor promedio” real de las observaciones. Por ejemplo, en el caso de una distribución asimétrica positiva, la media se encuentra “inflada” por la minoría de las observaciones que tienen un valor mayor. Esto sucede, por ejemplo, con el ingreso percápita, puesto que las distribuciones del ingreso son asimétricas positivas. En las siguientes figuras se muestran las posiciones relativas de la media, la moda y la mediana en cuatro distribuciones asimétricas.

(13)

1.2 Comparación de las Medidas de Tendencia Central 13

Figura 2

Observe que cuando la distribución es asimétrica “positiva”, (es decir, el extremo más largo de la distribución apunta hacia el este o hacia su derecha), la moda está a la izquierda de la mediana, y a su vez, la mediana está a la izquierda del promedio. Sucede lo contrario cuando la distribución es asimétrica negativa o sesgada negativamente. Esto nos lleva a una consideración final: si una distribución es asimétrica, es decir, notoriamente sesgada, la mediana será mejor que la media (promedio aritmético) para describir la tendencia central de la distribución de los datos. Observe las figuras anteriores. Note que en todas las distribuciones asimétricas, la mediana efectivamente se acerca más que la media al valor “promedio” o “normal” de las observaciones o, en otras palabras, refleja mejor la existencia de un sesgo en los datos.

Para elegir una medida de posición en un grupo de datos, las siguientes consideraciones pueden ser de utilidad:

Consideraciones

1 La media de un conjunto de datos es la medida que conlleva mayores cálculos

aritméticos y su valor está afectado por los valores individuales de todos los datos, mientras que la mediana y la moda pueden no ser afectadas por todos los valores. Por ejemplo, véase el siguiente conjunto de datos, en el que el último valor es aumentado:

(14)

Datos Media Mediana Moda

1, 2, 4, 4, 4, 6, 7, 8 36 ÷ 8 = 4,5 4 4

1, 2, 4, 4, 4, 6, 7, 26 54 ÷ 8 = 6,75 4 4

Puede observarse que la media cambia (es sensible al valor extremo 26), mientras que la moda y la mediana permanecen iguales.

2 En grupos pequeños, la moda puede ser muy inestable o puede no existir.

3 _{La mediana no se afecta por el tamaño de los valores por encima o por debajo de ella.}

4 La media es influida por el tamaño de cada valor en el grupo de datos.

5 Algunos grupos de datos simplemente no manifiestan una posición en forma

significativa, siendo en este caso engañoso calcular una medida de posición.

6 La posición de grupos de datos con valores extremos se mide probablemente mejor por

la mediana, si las observaciones son unimodales. Sin embargo, si lo que se quiere es que la medida utilizada refleje el efecto de los valores extremos, entonces es conveniente utilizar la media.

7 La media aritmética es muy útil para estimar la suma total de las observaciones si se

conoce el número de observaciones.

Ejercicios 1.1

1.1 Los 16 ejecutivos de una empresa ganaron los siguientes salarios para un mes determina-do:

170000 170000 170000 170000 185000 190000

205000 215000 250000 250000 280000 280000

190000 200000 300000 300000

a.) Calcule la media, la mediana y la moda e interprételas desde el punto de vista del problema

b.) ¿Qué tipo de asimetría tiene la distribución? ¿Por qué?

1.2 En un curso se han hecho 6 exámenes cortos (quices), y tres estudiantes obtuvieron las siguientes notas:

Estudiantes Notas

A 90 85 83 12 75 90

B 77 78 82 83 77 85

(15)

1.3 Medidas de variabilidad 15

a.) Calcule todas las medidas de posición.

b.) Si usted fuera el estudiante A, ¿qué medida de posición escogería para tener la nota máxima?

c.) Si usted fuera el estudiante B, ¿qué medida de posición escogería? d.) Si usted fuera el estudiante C, ¿qué medida de posición escogería?

1.3 Medidas de variabilidad

En el apartado anterior se estudiaron las medidas de tendencia central, que son un indicador de cómo los datos se agrupan o concentran en una parte central del conjunto. Sin embargo, para una información completa de dicho conjunto de datos hace falta saber el comportamiento opuesto, es decir, de qué manera se dispersan o se alejan algunos datos de esa parte central. Para tener una idea de ello, es necesario medir el grado de variabilidad o dispersión de los datos.

Las medidas de variabilidad, también llamadas medidas de dispersión, miden qué tan concentrados está los datos de una variable cuantitativa alrededor de la medida de posición. Es decir, la variabilidad o dispersión nos indica si esas puntuaciones o valores están próximas entre sí o si por el contrario están o muy dispersas.

Si el valor de la medida de variabilidad es pequeño, entonces los datos se parecen mucho entre sí. En el caso contrario, hay muchos datos diferentes o están muy dispersos.

Hay varias razones para analizar la variabilidad en una serie de datos. Primero, al aplicar una medida de variabilidad podemos evaluar la medida de tendencia central utilizada. Una medida de variabilidad pequeña indica que los datos están agrupados muy cerca, digamos, de la media. La media, por lo tanto es considerada bastante representativa de la serie de datos. Inversamente, una gran medida de variabilidad indica que la media no es muy representativa de los datos.

Una segunda razón para estudiar la variabilidad de una serie de datos es para comparar como están esparcidos los datos en dos o más distribuciones.

Por ejemplo, al tomar las temperaturas en una región “A” durante diferentes épocas del año y a distintas horas del día, se registraron los datos que se muestran en la columna “A” ; por su parte, las de otra región diferente “B”, son las de la columna “B” .

(16)

A B 19,3◦ −3◦ 20◦ 0◦ 20,2◦ 6◦ 20,4◦ 22◦ 21◦ 31,5◦ 21,3◦ 34◦ 21,3◦ 36◦ 22◦ 39◦ Promedio 20,68◦ 20,68◦

Al obtener la media, en ambos casos resultó que la temperatura promedio fue de 20,68, cuya inter-pretación podría ser que en torno, al rededor o cerca a 20,68 fluctúan los demás valores.

Como puede verse, eso es bastante aproximado para los datos de la columna “A”, no así para los de la “B”. Los datos más alejados en “A” son 19.3º y 22º, que realmente están próximos a 20.68º; en cambio, los datos más alejados en “B” son -3º y 39º, que están muy distantes del promedio. ¿Por qué si en ambos casos se tiene igual promedio, no se puede afirmar lo mismo de los valores que están a su alrededor?. La respuesta está en que no se ha tomado en cuenta la dispersión, es decir, la manera en que se disgregan los datos respecto de la media, pues en “A” casi no se dispersan mientras que en “B” sí, .Cabría decir que el conjunto de datos “A” es bastante compacto mientras que el “B” es muy dilatado.

Las medidas de variabilidad más usadas son la amplitud o recorrido, la desviación estándar, la varianza y el coeficiente de variación. Al igual que las medidas de posición pueden calcularse para datos simples o datos agrupados en clases.

1.3.1 Recorrido o amplitud

Definición 1.5 (Recorrido o Amplitud)

El recorrido o amplitud de una serie de datos es la diferencia entre el valor máximo (M) y el valor mínimo (m) de esa serie. También se conoce como rango y se denota como A.

Luego,

A= M − m

Cuanto mayor sea la amplitud, mayor será la dispersión de los datos de una distribución. A pesar de lo simple de su cálculo, el recorrido no es muy usado debido a que presenta la dificultad de que su valor depende de los valores extremos del conjunto de observaciones a que se refiere. En efecto, como sólo se utilizan dos observaciones para su cálculo, puede suceder que todos los valores de las observaciones sean muy homogéneos, excepto los dos extremos, el mayor y el menor, que son precisamente los dos casos que se usan para calcular el recorrido. Por otra parte, la introducción de nuevas observaciones puede afectar su valor ya que entre las nuevas observaciones puede haber valores mayores que M o valores menores que m, por lo que el valor de A se aumentaría.

(17)

1.3 Medidas de variabilidad 17 En los casos de las temperaturas del ejemplo anterior, el rango de “A” esR = 22 − 19,3 = 2,7, en cambio, el de “B” es B = 39 − (−3) = 42.

1.3.2 Desviación estándar y varianza

Definición 1.6 (Desviación Estándar)

La desviación estándar es el promedio de desviación o diferencia de las observaciones con respecto a la media aritmética. Se denota como s. Cuanto mayor es la dispersión de los datos alrededor de la media aritmética, mayor es la desviación estándar.

La desviación estándar es:

s= r

∑ni=1(Xi− X)2

n− 1 donde : Xison los datos

Xes la media

nnúmero total de datos

la fórmula anterior se puede simplificar como:

s= s 1 n− 1 n

∑

i=1 X_i2− n n− 1(X ) 2 Definición 1.7 (Varianza)

La varianza es una medida muy importante para la inferencia estadística, es el cuadrado de la desviación estándar y se denota s2. O, lo que es lo mismo, la desviación estándar es la raíz cuadrada positiva de la varianza.

1.9

Consideremos el ejemplo de las notas obtenidas por un grupo de 20 estudiantes en un examen universitario:

15, 45, 47, 53, 58, 58, 60, 62, 67, 74, 75, 78, 80, 80, 81, 85, 85, 85, 90, 92

(18)

la suma de los cuadrados de los datos:

20

∑

i=1

= 152+ 452+ 472+ . . . + 902+ 922= 100714 Entonces la varianza (de la muestra) es:

s2=100714

19 −

20 19(68,5)

2_{= 361,53}

Luego, la desviación estándar (de la muestra) es:

s=p361,53 = 19,01

La desviación estándar se interpreta como “cuánto se desvía -en promedio- con respecto a la media aritmética, un conjunto de observaciones”. En el ejemplo, las notas de los estudiantes se desvían -en promedio-en 19.01 puntos con respecto a la media aritmética. El lector debe observar que las unidades de medida de la varianza son el cuadrado de las unidades de medida de la variable observada, por lo que su interpretación práctica debe ser cuidadosa. Para una comparación con la media o con los datos, debe usarse la desviación estándar.

1.10

Tú y tus amigos han medido las alturas de tus perros (en milímetros):

Figura 3

Las alturas (de los hombros) son: 600mm, 470mm, 170mm, 430mm y 300mm. Calcula la media, la varianza y la desviación estándar.

X=600 + 470 + 170 + 430 + 300

5 = 394

(19)

1.3 Medidas de variabilidad 19

Figura 4

Ahora calculamos la diferencia de cada altura con la media:

Figura 5 Para calcular la varianza:

s2= (206)

2_{+ (76)}2_{+ (−224)}2_{+ 36}2_{+ (−94)}2

4 = 27130

Así que la varianza es 21 130.

Y la desviación estándar es la raíz de la varianza, así que:

s=√21130 = 145,36 ahora veremos qué alturas están a distancia menos de la desviación estándar (145mm) de la media:

Figura 6

Así que usando la desviación estándar tenemos una manera “estándar” de saber qué es normal, o extra grande o extra pequeño.

Los Rottweilers son perros grandes. Y los Dachsunds son un poco menudos... Nota: ¿por qué al cuadrado?

(20)

Elevar cada diferencia al cuadrado hace que todos los números sean positivos (para evitar que los números negativos reduzcan la varianza)

1.3.3 Coeficiente de variación

Las medidas de variabilidad que se han mencionado están afectadas por la unidad de medida en que se expresa la variable. Con frecuencia interesa comparar dos o más series de observaciones en cuanto a su dispersión y para ello se requiere eliminar el efecto de las unidades de medida y de la magnitud general de los datos que se consideran.

Definición 1.8

El coeficiente de variaciónmide la variabilidad porcentual o relativa de un conjunto de datos respecto a su media. Se denota CV :

CV = s

X × 100

El coeficiente de variación sirve para comparar la variabilidad de diferentes conjuntos de datos, y es particularmente útil cuando:

Utilidad

1 Los datos están en unidades diferentes.

2 Los datos están en las mismas unidades, pero las medias son muy diferentes.

1.11

Dos empresas de la industria electrónica, A y B, tienen en el mercado de valores acciones comunes. El precio medio de cierre en el mercado de valores durante un mes fue, para la acción A, deg15000, con desviación estándar de g500. Para la acción B, el precio medio fue de g5000, con desviación estándar deg300. Haciendo una comparación absoluta, resultó ser superior la variabilidad en el precio de la acción A debido a que muestra una mayor desviación estándar. Pero, con respecto al nivel de precios, deben compararse los respectivos coeficientes de variación: CV(A) = sA XA × 100 = (500/15000) × 100 = 3 % CV(B) = sB XB × 100 = (300/5000) × 100 = 6 %

(21)

1.3 Medidas de variabilidad 21 el precio de la acción A (con respecto al precio medio para cada una de las dos acciones).

Ejercicios 1.2

1.3 Calcule la desviación estándar para los datos que se refieren a los salarios de 16 ejecutivos de una empresa del ejemplo ya realizado.

1.4 Considere las notas de tres estudiantes del ejercicio visto en este documento. ¿De cuál de los tres estudiantes podría decirse que tuvo notas más homogéneas?

1.5 En una empresa, una muestra de 20 trabajadores calificados tienen un salario mensual medio deg55000, con una desviación estándar de g67970. En la misma empresa, el salario mensual medio de una muestra de supervisores es deg146150, con una desviación estándar deg91040. Compare la variabilidad de los salarios de los trabajadores de la empresa.

(22)

(23)

2 — Probabilidad

2.1 La enseñanza de la probabilidad en secundaria

De acuerdo con el enfoque propuesto por el Ministerio de Educación Pública, se enfatiza la ense-ñanza basada en la experimentación y desarrollo de temas con fuerte apego a la contextualización del educando, por lo que la labor del docente no debe ser vista como el de “resolver” todos los problemas y ejercicios planteados en el salón de clase.

De acuerdo con Batanero(2013), la enseñanza de la probabilidad en el nivel no universitario debe de estar marcado bajo una metodolía experimental, en donde se plantea a los estudiantes situaciones probabilísticas bajo contextos prácticos y cercanos a su entorno. Se espera que ellos anoten lo que sucede a medida que realizan la actividad e ir descubriendo progresivamente que puede saberse “cuando un suceso es más probable” y “cuánto más probable es”.

Esta autora señala que no debe abordarse el conocimiento de las fórmulas, ni que los estudiantes realicen cálculos probabilísticos desvinculados de la realidad, al contrario, se busca que ellos explo-ren sucesos y situaciones acordes a su entorno.

La propuesta del Ministerio de Educación procura que los estudiantes logren mediante actividades concretas alcanzar ciertas nociones básicas de probabilidad,mediante orientaciones y actividades sobre su utilidad en diversos contextos (no sólo juegos de azar), posibilitando el desarrollo de problemas interesantes respecto a la toma de decisión y previsión, relacionados con problemas a los que tendrán que enfrentarse a lo largo de la vida.

En este sentido, Batanero(2013) nos recuerda tener presente que el azar está en la vida cotidiana de muchos contextos en los que aparecen nociones de incertidumbre, riesgo y probabilidad. Hay situaciones en la vida diaria en las que no podemos saber qué resultado va a salir, pero sí sabemos los posibles resultados; son situaciones que dependen del azar.

(24)

Al lanzar una moneda al aire no sabemos si saldrá escudo o corona, pero sí conocemos los posibles resultados. Cuando lanzamos un dado no sabemos el número que saldrá, pero sabemos que hay seis posibles resultados. El próximo partido de la Selección Nacional, no sabemos el marcador, pero sabe-mos que hay tres posibles resultados, así como el pronóstico del tiempo, diagnóstico médico, estudio de la posibilidad de tomar un seguro de vida o efectuar una inversión, evaluación de un estudiante, etc. Así pues, consideramos importante que antes de iniciar este tema en nuestros salones de clase en los distintos colegios del país, es necesario dedicar un tiempo a investigar aspectos relacionados con el tema en estudio, que puedan resultar motivadores tanto para nosotros mismos como para los alumnos, de manera que logremos desarrollar el interés y la predisposición a la exploración en el tema de probabilidad.

Sin embargo, debemos señalar que la Probabilidad por su parte, además de ser una disciplina íntima-mente ligada a la Estadística ya que justifica su desarrollo formal y ha aumentado el alcance de sus aplicaciones, tiene la enorme cualidad, en sí misma, de ser capaz de representar adecuadamente la realidad de muchos procesos sociales y naturales. Su conocimiento es fundamental para la formación de un individuo capaz de comprender el mundo en que vivimos.

A continuación algunos aspectos importantes...

2.1.1 El azar: situaciones aleatorias y deterministas

“¿Qué sentido tiene todo esto, Watson? -dijo Holmes solemnemente al concluir la lectura-. ¿Qué objetivo persigue este círculo vicioso de sufrimiento, violencia y miedo? Tiene que existir alguna finalidad, pues de lo contrario significaría que el universo se rige por el azar, lo cual es inconcebible. Pero ¿cuál puede ser esa finalidad? He aquí el eterno gran problema que la razón humana se encuentra tan incapaz como siempre de resolver”

La Caja de cartón. Las aventuras imprescindibles de Sherlock Holmes. Dacunha, citado por Jiménes et al (s.f.) señala en su libro “Chemins de L‘Aleatorie. Le hasard et le risque dans la société moderne.”, que el azar ha sido un recurso que han utilizado algunas sociedades para resolver diversas situaciones y que en nuestra época hasta se ha intentado utilizar en la asignación de empleos.

De hecho, argumenta que hay que aprender a dudar, a reconocer la incertidumbre, a saber que ella es parte del ejercicio de la ciudadanía. Los ciudadanos deberían integrar a su juicio la dimensión de lo aleatorio, cuando se trata tanto de su responsabilidad individual como de la responsabilidad del estado.

En este sentido, Pérez et al, (2000) indica que: “La probabilidad tiene la enorme cualidad de representar adecuadamente la realidad de muchos procesos sociales y naturales, y, por lo tanto, su

(25)

2.2 Introducción 25 conocimiento permite comprender y predecir mucho mejor el mundo en que vivimos”Es conocido que un papel fundamental que se le atribuye a la matemática sirve para modelar fenómenos que son parte de nuestra vida cotidiana, siendo para ello un instrumento esencial en diversas ciencias como la física, química, estadística, entre otras, así como su rol en los nuevos sistemas de comunicación y lenguajes de programación.

Sin embargo, en ese proceso de modelar los fenómenos de nuestro entorno, nos encontramos con situaciones que obedecen a un modelo determinista y otras que en cambio obedecen a un modelo aleatorio.

A los fenómenos que de antemano se conoce su resultado se les llama deterministas.

2.1

1 Si se lanza una pelota hacia arriba, sabemos que tendrá que caer.

2 Si se deja un trozo de hielo en el agua, sabemos que se derretirá.

3 _{Si el agua se calienta a 100° C sabemos que se evaporará.}

4 El décimo dígito de la sucesión binaria 101101110... Resultado: es un 1.

Por su parte, se les llama aleatorios a los fenómenos que tienen varios resultados posibles y no se puede asegurar cuál de ellos ocurrirá.

2.2

1 Al lanzar al aire una moneda puede caer escudo o corona. 2 Al lanzar un dado puede caer 1, 2, 3, 4, 5 o 6.

3 El último dígito del número que saldrá premiado en la lotería puede ser 1, 2, 3, 4, 5, 6,

7, 8, 9 y 0.

Otros ejemplos de fenómenos aleatorios son: los ganadores de los próximos juegos olímpicos, el marcador del próximo juego de la selección costarricense de futbol.

2.2 Introducción

Al considerar la probabilidad, tratamos con diversos procedimientos, como por ejemplo, realizar una prueba de polígrafo, arrojar un dado, contestar una pregunta de opción múltiple en un examen, o ser sometido a una prueba de consumo de drogas; que de una u otra forma producen resultados. La idea, bajo este aspecto, es desarrollar una buena comprensión de los valores de probabilidad que permiten rechazar las explicaciones basadas en probabilidades bajas de un evento y generar inferencias a partir

(26)

de los sucesos cuando un patrón se percibe en la realidad. De esta forma tenemos los siguientes conceptos

Definición 2.1 (Evento)

Un evento es cualquier conjunto de resultados o consecuencias de un procedimiento.

Definición 2.2 (Evento Simple)

Un evento simple es un resultado o un evento que ya no puede desglosarse en componentes más simples

Definición 2.3 (Espacio Muestral)

El espacio muestral de un procedimiento se compone de los eventos simples posibles. Es decir, el espacio muestral está formado por todos los resultados que ya no pueden desglosarse más.

Veamos un ejemplo donde se implementas estas definiciones

2.3

En la siguiente presentación se utiliza la f para indicar que se rata de un niña y una m para indicar que se trata de un varón.

Procedimiento Ejemplo de Evento Espacio muestral completo

Un solo nacimiento Una niña (evento simple)

{ f , m}

3 nacimientos 2 niñas y un niño

se pueden represen-tar por f f m, f m f , m f f, los cuales son eventos simples.

{ f f f , f f m, f m f , f mm, m f f , m f m, mm f, mmm}

Cuadro 2.1: Clarificación de las definiciones

Con un solo nacimiento, el hecho de que se trate de una niña es un evento simple, porque no se puede desglosar en eventos más simples. Con tres nacimientos, el evento de “2 niñas y un niño” no es un evento simple, porque se puede desglosar en eventos más simples. Con tres nacimientos el espacio muestral consiste en los 8 eventos simples mencionados antes.

Para iniciar, presentamos una lista de algunas notaciones básicas, y luego explicaremos tres formas diferentes para calcular la probabilidad de un evento.

(27)

2.2 Introducción 27

Notación de probabilidades

1 Pdenota una probabilidad.

2 A, B y C denotan eventos específicos.

3 P(A) denota la probabilidad de que ocurra el evento A

1. Aproximación de la probabilidad por frecuencias relativas. Esto es, realice u observe un procedimiento y cuente el número de veces que el evento A ocurre en la realidad. Con base en estos resultados reales, P(A) se estima de la siguiente forma

P(A) = número de veces que ocurrió A

número de veces que se repitió el procedimiento

2.4

La probabilidad de que un automóvil sufra un accidente se puede aproximar con la probabilidad de frecuencias relativas. Por ejemplo, en un año reciente, de un total de 135670000 automóviles registrados en Estados Unidos (según datos de Statistical Abstract of the United Sates), 6511000 se accidentaron. Ahora, con base en el método anterior tendremos

P(accidente) =número de automóviles accidentados número total de automóviles =

6511000

135670000= 0,0480 Advierta que no es posible utilizar el método clásico, ya que los dos resultados (acci-dente, ausencia de accidente) no son igualmente probables.

2. Método clásico de la probabilidad (requiere resultados igualmente probables). Suponga que un procedimiento dado tiene n eventos simples distintos y que cada uno de esos eventos tiene la misma posibilidad de ocurrir. Si el evento A puede ocurrir en s de estas n formas, entonces

P(A) = número de formas en que puede ocurrir A número de eventos simples diferentes =

1 n

N Advertencia: Cuando utilice el método clásico, siempre verifique que los resultados

sean igualmente probables

2.5

Si una urna contiene 10 esferas blancas, 15 azules y 5 rojas, la probabilidad de extraer al azar una esfera blanca, es:

P(B) = 10 30 =

1 3

(28)

Nota: Esta probabilidad se basa en razonamientos abstractos y no depende de la experiencia, lo cual permite estimar probabilidades sin realizar una gran cantidad de experimentos.

3. Probabilidades subjetivas P(A), la probabilidad del evento A, se estima con base en el conocimiento de las circunstancias relevantes.

2.6

¿Cuál es la probabilidad de quedar atrapado en un ascensor?

En ausencia de datos históricos sobre fallas de elevadores, no podemos usar el método de frecuencias relativas. Hay dos posibles resultados (quedar atrapado o no quedar atrapado), pero no son igualmente probables, por lo que no podemos usar el método clásico. Esto nos deja con una estimación subjetiva. En este caso, la experiencia sugiere que la probabilidad en cuestión es muy pequeña. Estimemos que sea, 0,0001 (equivalente a 1 en 10000). Esta estimación subjetiva, basada en nuestro conocimiento general, puede encontrarse en el campo general de la probabilidad real.

Veamos algunos ejemplos más

2.7

En una bolsa tenemos 7 bolas rojas, 9 bolas azules y 4 verdes. Extraemos una bola, calcula la probabilidad de que

1 _{No sea roja P(R) = 13/20 = 0, 65}

2 Sea roja o azul P(R ∪ A) = 16/20 = 0, 8 pues 7 + 9 = 16 rojas ó azules

2.8

De 70 alumnos que se matricularon en el curso de probabilidad del ITCR, en el semestre anterior. 15 no lo terminaron, 20 obtuvieron una calificación de PE y el resto lo aprobaron, ¿Cuál es la probabilidad de que un alumno gane esta materia? La respuesta es

P(A) =35 70 =

1 2

Es muy importante señalar que el método clásico requiere resultados igualmente probables. Si los resultados no son igualmente probables, debemos usar la estimación de frecuencias relativas o confiar en nuestro conocimiento de las circunstancias para hacer una conjetura adecuada.

(29)

2.3 La ley de los Grandes Números 29 Al calcular probabilidades con el método de frecuencias relativas, obtenemos una aproximación en vez de un valor exacto. Conforme el número total de observaciones se incrementa, las estimaciones correspondientes tienden a acercarse a la probabilidad real. Esta propiedad se enuncia en forma de teorema, el cual se conoce como la ley de los grandes números.

2.3 La ley de los Grandes Números

Jacob Bernoulli descubrió que las frecuencias observadas se acercaban al verdadero valor previo de su probabilidad al hacer crecer el número de repeticiones del experimento. Pero él quería encontrar una prueba científica que no sólo probara que al aumentar el número de observaciones de la muestra se podía estimar la probabilidad auténtica con el grado de precisión deseado en cada ocasión, sino que permitiera calcular explícitamente cuántas observaciones eran necesarias para garantizar esa precisión de que el resultado queda dentro de un intervalo predeterminado alrededor de la verdadera solución.

De esta forma el experimento que consiste repetir una prueba con la misma probabilidad de éxito un número grande de veces recibió el nombre de “experimento de Bernoulli”.

Bernoulli era consciente de que, en situaciones reales y cotidianas, la certeza absoluta, es de-cir, la probabilidad 1, es imposible de alcanzar. Por eso introdujo la idea de la “certeza moral”: para que un resultado fuese moralmente cierto, debía tener una probabilidad no menor que 0.999, mientras que un resultado con probabilidad no mayor que 0.001 se consideraría “moralmente imposible”. Fue para determinar la certeza moral de un suceso para lo que Bernoulli formuló su teorema, la ley de los grandes Números

2.4 Axiomas de Probabilidad

Los axiomas de la formulación moderna de la teoría de la probabilidad constituyen una base para deducir a partir de ellas un amplio número de resultados.

La letra P se utiliza para designar la probabilidad de un evento, siendo P(A) la probabilidad de ocurrencia de un evento A en un experimento. Ante ello, tenemos tres axiomas

Axioma 1

Si A es un evento de S, entonces la probabilidad del evento A es: 0 ≤ P(A) ≤ 1

Como no podemos obtener menos de cero éxitos ni más de n éxitos en n experimentos, la probabilidad de cualquier evento A, se representa mediante un valor que puede variar de 0 a 1.

(30)

Axioma 2

Si dos eventos son mutuamente excluyentes, la probabilidad de obtener A o B es igual a la probabilidad de obtener A más la probabilidad de obtener B

P(A ∪ B) = P(A) + P(B)

Excluirse mutuamente quiere decir que A y B no pueden ocurrir simultáneamente en el mismo experimento. Así, la probabilidad de obtener escudo o corona en la misma tirada de una moneda será:

P(A ∪ B) = P(A) + P(B)

P(A ∪ B) = 1/2 + 1/2 = 1.

En general podemos decir que la suma de las probabilidades de todos los posibles eventos mutua-mente excluyentes es igual a 1:

P(A1) + P(A2) + P(A3) + ... + P(An) = 1

Axioma 3

Si A es un evento cualquiera de un experimento aleatorio y A es el complemento de A, entonces: P(A) = 1 − P(A)

Es decir, la probabilidad de que el evento A no ocurra, es igual a 1 menos la probabilidad de que ocurra.

Finalmente, como hemos visto la frecuencia absoluta de un suceso es el número de veces que aparece cuando se repite un experimento aleatorio, y la frecuencia relativa es la frecuencia absoluta dividida por el número de veces, n, que se repite el experimento aleatorio.

Ejercicios 2.1

2.1 Genere un ejemplo donde la probabilidad de un evento sea 0

2.2 Genere un ejemplo que implemente el Axioma 2

2.3 Datos del FBI indican que el 62.4 % de los asesinatos se aclaran por medio de los arrestos. Podemos expresar la probabbilidad de que un asesinato sea calarado por un arresto como P(aclarado) = 0,624. Para un asesinato seleccionado al azar, calcule P( aclarado)

(31)

Bibliografía

[1] Barreras, Miguel (2008).¡AH!, EL AZAR? Recopilado el 14 de junio del 2013 de:

http://ocw.uniovi.es/file.php/66/Elazar.pdf

[2] Batanero, C. (2013).La comprensión de la probabilidad en los niños. ¿Qué podemos aprender de la investigación? En J. A. Fernandes, P. F. Correia, M. H. Martinho, & F. Viseu, (Eds..) (2013). Atas do III Encontro de Probabilidades e Estatística na Escola. Braga: Centro de Investigação em Educação. Universidade Do Minho.

[3] Hernández, José (2007). EStadística Administrativa I. Instituto

Tecnològi-co de ApizaTecnològi-co. MéxiTecnològi-co.ReTecnològi-copilado el 16 de junio del 2013 de: http:

//www.itapizaco.edu.mx/~joseluis/apuntes/estadistica/estadistica% 20administrativa%20I.pdf

[4] Hopkins, K.; Hopkins, B.; Glass, G.(1997).Estadística básica para las ciencias sociales y del comportamiento. Prentice-Hall Hispanoamericana, Naucalpán de Juarez. México. [5] Molina, M; Rodrigo, M. (2010). Estadísticos de dispersión. Universidad de Va-lencia. España. Recopilado el 20 de setiembre del 2014 de: http://ocw.uv.es/

ciencias-de-la-salud/pruebas-1/1-3/t_04.pdf

[6] Pajares, A.; Tomeo, V. (2009). Enseñanza de la Estadística y la Probabilidad en Secundaria: experimentos y materiales. En M. J. González; M. T. González y J. Mu-rillo (eds.), Investigación en Educación Matemática. Comunicaciones de los gru-pos de investigación. XIII Simgru-posio de la SEIEM. Santander.Recopilado el 16 de junio del 2013 de: http://estudiosestadisticos.ucm.es/data/cont/docs/

12-2013-02-06-CT03_2009.pdf

[7] Trejos, J.; Moya, E. (2012). Introducción a la Estadística Descriptiva.Ediciones el Roble. Costa Rica.

(32)

[8] Triolla, F.(2013). Estadística.Editorial Pearson. México.

[9] (s.a.). (2013) .Varianza y desviación estándar. La desviación sólo significa qué tan lejos de lo normal. Recopilado el 20 de setiembre del 2014 de: http://www.

(33)

Soluciones de los ejercicios

Soluciones del Capítulo 1

1.1 a.) Solución 1.1.1-1 b.) Solución 1.1.1-2 1.1 Fin Solución 1.1 1.2 a.) Solución 1.1.2-1 b.) Solución 1.1.2-2 c.) Solución 1.1.2-3 d.) Solución 1.1.2-4 1.2 Fin Solución 1.2 1.3 Fin Solución 1.3 1.4 Fin Solución 1.4 1.5 Fin Solución 1.5

Soluciones del Capítulo 2

2.1 Fin Solución 2.1 2.2 Fin Solución 2.2 2.3 Fin Solución 2.3