Estadística 1.-VARIABLES ALEATORIAS. 1. Conceptos previos. Dada una serie de números: x1,..xn se llama MEDIA ARITMÉTICA:

(1)

Apuntes estadística P á g i n a | 1

Estadística

1.-VARIABLES ALEATORIAS

1. Conceptos previos

Dada una serie de números: x1,……..xn se llama

 MEDIA ARITMÉTICA:

𝑥̅ = 𝑥1+⋯+𝑥𝑛

𝑛 =

∑𝑛1=1𝑥𝑖 𝑛

Se trata de una medida de centralización, que representa “el valor más característico “de la serie.

 VARIANZA 𝑠2 =(𝑥1 − 𝑥̅) 2_{+ ⋯ + (𝑥} 𝑛− 𝑥̅)2 𝑛 = ∑𝑛1=1(𝑥𝑖 − 𝑥̅)2 𝑛

Es una medida de dispersión, que muestra la agrupación de los datos en torno a la media.

 DESVIACIÓN TÍPICA

Es la raíz cuadrada de la varianza. s=√𝑠2

2. Variables aleatorias

DEF: Es una función definida en el espacio muestral de un

experimento aleatorio que asocia a cada elemento del espacio, un nº real.

DEF: Una variable aleatoria puede ser

(2)

 CONTINUA: si toma, al menos teóricamente un nº infinito de valores. P.ej : normal

NOTA: La probabilidad de una variable aleatoria se calcula mediante Función de probabilidad: En variables discretas .Se asocia a valores Función de densidad: En variables continuas .Se asocia a intervalos. 3. Distribución Binomial

Se asocia a experimentos en los que:

 Sólo hay dos posibles resultados: éxito o fracaso

 El resultado obtenido es independiente de los anteriores.

 La probabilidad es constante en todas las pruebas

Entonces , si :p : probabilidad éxito , q : probabilidad fracaso , n: nº pruebas y r : nº éxitos en n pruebas ,m la variable se llama binomial B(n,p) y la función de probabilidad es :

P( r éxitos ) = (𝑛_𝑟) 𝑝𝑟𝑞𝑛−𝑟

NOTA : La media de una variable aleatoria es = np , mientras que la varianza es 2_=npq=np(1-p)

4. Distribución normal

DEF: Se designa por N(siendosu mediaysu desviación típica. NOTA: Se designa así porque se creía que todas las variables aleatorias continuas eran de este tipo .

NOTA : La más importante y la única que se encuentra tabulada es la N(0,1) , que designa por Z ( normal estándar)

NOTA : La probabilidad se calcula mediante la función de densidad , que es : f(x) = 1

𝜎√2𝜋∙ 𝑒 −1

2( 𝑥−𝜇

𝜎 )., de modo que p(a<x<b)=∫ 𝑓(𝑥)𝑑𝑥𝑏 𝑎

(3)

NOTA: Como es imposible calcular la probabilidad en todos los casos posibles , obtendremos mediante un cambio de variable, el área equivalente en la normal N(0,1) .Este proceso se llama TIPIFICAR LA VARIABLE. El cambio a realizar es Z=𝑋−𝜇_𝜎

NOTA: Es muy importante reseñar que la función de densidad de la N(0,1) , es una gráfica simétrica respecto a OY , cuya área debajo de la curva de -∞ a ∞ es 1 .

5. Uso de la tabla de la normal N(0,1)

Una vez tipificada la variable, para averiguar la información deberemos , consultar la tabla . Se deben dominar dos procesos:

 BÚSQUEDA DIRECTA : En la que te dan un valor de la Z ( en intervalo ) y debes calcular la probabilidad :Distinguimos tres casos : a) p(Z≤a)

i) si a>0 →se busca en la tabla

EJEMPLO:Hallar la probabilidad p ( z ≤ 0,45 )

a. En la 1ª columna buscamos el valor de las unidades y las décimas.

b. En la 1ª fila el valor de las centésimas.

c. Basta buscar 0,4 en la columna y 0,05 en la fila. Su intersección nos da la probabilidad.

d. Leemos y nos da 0,6736. La probabilidad p ( z ≤ 0,45 ) = 0,6736

(4)

b) p(Z>a)

i) si a>0 →p(Z>a)=1-p(Z≤a)

ii) si a <0 →p(Z>a)=p(Z≤-a)

c) p(a≤Z≤b)=p(Z≤b)-p(Z≤a) y se aplican los casos anteriores deendiendo del signo de a y b

 BÚSQUEDA INVERSA : Especialmente útil para la obtención de intervalos de confianza en la que se te da un determinado valor de probabilidad y debes averiguar el valor de Z

(5)

EJEMPLO : P(Z≤k)=0,7019 →k=0,53

6. Aproximación de la binomial por la normal

Existen situaciones en los que, con valores altos de n el cálculo de la probabilidad de un valor en una distribución binomial resulta

particularmente difícil.

Por ello, el resultado obtenido por De Moivre resulta especialmente, útil. Consiste que en ciertas condiciones y con un nº de repeticiones alto, una binomial (variable discreta) se puede aproximar mediante una variable normal ( variable continua)

Teorema de De Moivre .

Si np≥5,nq≥5, una variable binomial B(n,p) se puede aproximar con un variable normal N(np,√𝑛𝑝𝑞)

NOTA: Pero esto tiene un problema , que es que la binomial es una variable discreta en la que todos los valores tienen probabilidad ( aunque sea poca ) y la normal es una variable continua , con lo que la probabilidad de un valor es 0 .

Esto se resuelve, haciendo la llamada corrección de Yates que se resume en estos tres puntos ( X es binomial y X´ es normal)

 P(X=a)=P(a-0,5≤X’≤a+0,5)

(6)

• P(X<a)= P(X’≤a-0,5) (para que no contenga al punto a)

EJERCICIOS

DISTRIBUCIÓN BINOMIAL

1) Se sabe que la tercera parte de los niños varones de 2º de ESO dan positivo en una prueba de agresividad. Escogida al azar una muestra de 10 chicos, halla las probabilidades de los siguientes sucesos:

a) Encontrar dos con inventario de agresividad. b) Más de tres.

c) A lo sumo, cinco.

d) Así mismo, halla la media y la desviación típica de esta distribución.

2) Un examen consta de 10 preguntas a las que hay que contestar SI o NO. Suponiendo que a las personas que se les aplica no saben contestar a ninguna de las preguntas, y en consecuencia contestan al azar, halla:

a) La probabilidad de obtener cinco aciertos. b) La probabilidad de obtener algún acierto.

c) La probabilidad de obtener al menos cinco aciertos.

3) La probabilidad de que un estudiante obtenga el título de licenciado en geografía e historia es 0’3. Halla la probabilidad de que un grupo de siete estudiantes matriculados en primer curso:

a) Ninguno de los siete finalice la carrera. b) La finalicen todos.

c) Al menos dos acaben la carrera.

5) Las tallas de los individuos de una población se distribuyen

normalmente con media igual a 175 cm y desviación típica igual a 8 cm. Calcula la probabilidad de que un individuo tenga una talla:

a) Mayor que 180 cm. b) Menor que 170 cm. c) Entre 170 y 180 cm.

6) Los opositores que se presentan a unas plazas de un organismo autonómico se distribuyen normalmente con una puntuación media igual a 70’5 y con una desviación típica igual a 9. ¿Cuántas plazas se adjudicarán en la oposición de este año, si el tribunal ha decidido de antemano dejar sin plaza a todos aquellos que obtengan una puntuación inferior a 80?.

7) En un examen de psicometría, la media de las calificaciones es 6 y la varianza 1,44. Calcula la probabilidad de que un alumno tenga una calificación:

a) Mayor que 7. b) Menor que 5. c) Entre 5,5 y 7.

8) Las edades del profesorado de Educación Especial se distribuye normalmente con media 38 años y desviación típica 6. De un total de 500 profesores, halla:

(8)

a) ¿Cuántos profesores hay con edades menores o iguales a 35 años?.

b) ¿Cuántos mayores de 55 años?.

9) El peso teórico de una tableta de aspirina es de 324 mg. Si suponemos que los pesos de las tabletas de aspirina siguen una normal de desviación típica 10 mg por tableta, calcula:

a) ¿Cuál será el porcentaje de tabletas con peso menor o igual a 310 mg?.

b) ¿Cuál será el porcentaje de tabletas con peso superior a 330 mg?.

10)La duración media de un televisor es de ocho años con una desviación típica de medio año. Si la vida útil del televisor se distribuye

normalmente, halla la probabilidad de que un televisor dure más de 9 años.

11)Por estudios realizados sobre una multitud de niñas al nacer, se ha determinado que la talla se distribuye según una normal de media 50 cm y desviación típica 1’8 cm.

a) Halla la probabilidad de que una niña al nacer tenga una talla superior a 54 cm.

b) Si durante un mes en una maternidad nacen 100 niñas, ¿cuántas tendrán al nacer una talla entre 48’2 y 51’8?.

12)En una distribución N(163,12),

a) ¿Dónde se sitúan el P10 y el P90?.

b) Halla el primer y tercer cuartil.

13)En una distribución, N(0,1) ¿entre qué valores está el 94% de los valores centrales?.

(9)

14)Se ha aplicado un test de fluidez verbal a 500 alumnos de un centro escolar. Se supone que las puntuaciones obtenidas se distribuyen según una normal de media 80 y desviación típica 12.

a) ¿Qué puntuación separa el 25% de los alumnos con menor fluidez verbal?.

b) ¿A partir de qué puntuación se encuentra el 25% de alumnos con mayor fluidez verbal?.

APROXIMACIÓN DE LA BINOMIAL POR LA NORMAL 15)El 2.5%. de los tornillos fabricados por una maquina presentan

defectos. Si tenemos un lote de 200 tornillos, ¿cual es la probabilidad de que haya más de 20 defectuosos?

16) Si lanzamos un dado 1,000 veces, ¿cuál es la probabilidad de que el número tres se haya obtenido menos de 100 veces?

17) Un saco que contiene 400 monedas es vaciado sobre una mesa. Calcula la probabilidad de que:

1. Aparezcan más de 210 caras.

2. De que el número de caras sea menor que 180.

3. De que el número de caras este comprendido entre 190 y 210 ambos inclusive.

18)Después de realizar varios sondeos sobre una población con escasa cultura, se ha conseguido averiguar que únicamente el 15 % de la misma es favorable a los tratamientos de psicoterapia. Elegida al azar una muestra de 50 personas de dicha población, se desea

saber:

A) La probabilidad de que haya más de 5 personas favorables a dichos tratamientos.

(10)

2.Teoría de muestras

1.- Primeras definiciones

DEF: Se llama POBLACIÖN al conjunto de elementos que poseen una determinada característica. Supondremos que la población es muy grande DEF: Se llama MUESTRA a cualquier subconjunto de la población y MUERSTREO al proceso mediante el cual se escoge una muestra . NOTA : Aunque existen varios tipos de muestreo , nosotros

supondremos que usamos un muestreo aleatorio simple , en el que todos los elementos de la población tienen la misma probabilidad de ser

elegidos.

2.- Distribución en el muestreo de una proporción

 La variable aleatoria 𝑃̂ tiene como media p y como desviación

√𝑝(1−𝑝)

𝑛 siendo p el porcentaje .

 A medida que n crece la distribución de 𝑃̂ se aproxima a la normal siempre que p no se acerque ni a 0 ni a 1

 Ejemplo: El 3% de las piezas producidas por una máquina son defectuosas. Se toma una muestra de 100 piezas . Hallar la probabilidad de que en la muestra haya menos de 28 piezas defectuosas.

• Como p=0,03 𝑃̂ se aproxima a una normal N(0,03 ,

3.- Distribución en el muestreo de la media

 La variable aleatoria 𝑋̅ tiene como media µ y como desviación 𝜎

√𝑛

(11)

 Si no se conoce  y n≥30 se puede sustituir por 𝑠̂

 Ejemplo : Se supone que la distribución de la temperatura del

cuerpo humano en la población sigue una ley normal de media 37º y de desviación típica 0,85. Se elige una muestra de tamaño 105.

Hallar la probabilidad de que la media sea menor o igual que 36,9º.

4.-Distribución de las sumas muestrales

 La variable aleatoria 𝑇 tiene como media nµ y como desviación

𝜎√𝑛

 A medida que n crece la distribución de 𝑋̅ se aproxima a la normal

5.- Distribución en el muestreo de la diferencia de medias

La variable aleatoria 𝑋̅₁− 𝑋̅₂ tiene como media µ1-µ2 y como desviación

típica √𝜎12 𝑛1−

𝜎22 𝑛2

A medida que n1 y n2 crecen , la distribución de 𝑋̅₁ − 𝑋̅₂ se aproxima a

una normal

6.- Teorema central del límite

 Toda variable que represente un parámetro de las muestras , se puede aproximar por una variable normal sea la variable de partida normal o no siempre que el tamaño de la muestra sea

suficientemente grande ( consideraremos n≥30) EJERCICIOS :

1)El cociente intelectual de unos universitarios se distribuye normalmente con media 100 y desviación típica 11.

a) Se elige una persona al azar. Halla la probabilidad de que si C.I esté entre 100 y 103.

b) Se elige al azar una muestra de 25 personas. Halla la probabilidad de que la media de sus cocientes intelectuales está entre 100 y 103.

(12)

3.-INTERVALOS DE CONFIANZA

NOTA PREVIA : En el epígrafe anterior , hemos obtenido

probabilidades asociadas a los elementos muestrales ( como media

,proporción....) a partir de datos de la población .Esto , es poco habitual , siéndolo mucho más la operación inversa , es decir obtener datos

poblacionales a partir de los parámetros muestrales . Como es lógico, cuanto mayor sea el tamaño de la muestra , mejor será la inferencia.

1. Estimación puntual

 DEF : Consiste en usar el estadístico para estimar el parámetro poblacional .

o P.ej : Usar 𝑋̅ ( media muestral ) para estimar µ ( media poblacional ) ó 𝑃̂ ( proporción muestral ) para estimar p ( proporción poblacional).

2. Estimación por intervalo .Definiciones

DEF: Consiste en dar un intervalo en el que podemos asegurar que el parámetro poblacional va a estar en un porcentaje alto de las veces. DEF: Se llama COEFICIENTE DE CONFIANZA a la probabilidad de que un estimador por intervalo cubra al verdadero valor del parámetro . ES 1-.

DEF: Se llama NIVEL DE SIGNIFICACIÓN a la diferencia entre la certeza (1) y el coeficiente de confianza .( 1-) .Por tanto .

DEF: Se llama VALOR CRÍTICO al valor de la abscisa que deja a su derecha un área igual a 𝛼₂.Se representa por 𝑍𝛼

(13)

Apuntes estadística P á g i n a | 13 1- 0,8 0,9 0,95 0,99  0,2 0,1 0,05 0,01 𝛼 2 0,1 0,05 0,025 0,005 𝑍𝛼 2 1,28 1,64 1,96 2,58

DEF : Se llama MARGEN DE ERROR o amplitud del intervalo a la diferencia entre el extremo superior e inferior del intervalo de confianza . Es 2E . siendo E el error cometido .

3. Intervalo de confianza para la media muestral .Modo de cálculo .

Sea una población de distribución N(𝜇, 𝜎) y queremos estimar mediante un intervalo el parámetro  .

Para ello , elegimos una muestra de tamaño n y calculamos la media muestral. Como ya se vio, 𝑋̅ se distribuye como una N(µ, 𝜎

√𝑛) .Se sabe además que : p(−𝑍𝛼 2 < 𝑍 ≤ 𝑍𝛼 2 ) = 1 − 𝛼 . Tipificando : Z=𝑋̅−𝜇𝜎 √𝑛 , con lo que : p(−𝑍𝛼 2 < 𝑋̅−𝜇 𝜎 √𝑛 ≤ 𝑍𝛼 2) = 1 − 𝛼 . p(−𝑍𝛼 2 ∙ 𝜎 √𝑛< 𝑋̅ − 𝜇 ≤ 𝑍𝛼2 ∙ 𝜎 √𝑛) = 1 − 𝛼 , . si despejamos : p( 𝑋̅ − 𝑍𝛼 2 ∙ 𝜎 √𝑛 < 𝜇 ≤ 𝑋̅ + 𝑍𝛼2 ∙ 𝜎 √𝑛) = 1 − 𝛼.

Como 𝑥̅ es un valor particular de 𝑋̅, obtenemos que :

El intervalo de confianza para el parámetro  de una población N(𝜇, 𝜎) al nivel de confianza 1-  viene dado por:

 (𝑥̅ − 𝑍𝛼 2

∙ 𝜎

√𝑛, 𝑥̅ + 𝑍𝛼2 ∙ 𝜎

(14)

Apuntes estadística P á g i n a | 14  (𝑥̅ − 𝑍𝛼 2 ∙ 𝑠̂ √𝑛, 𝑥̅ + 𝑍𝛼2 ∙ 𝑠̂ √𝑛) si  no es conocida siendo 𝑠̂ 2 ₌ ∑(𝑥_𝑖−𝑥̅)2

𝑛−1 , la cuasi varianza muestral .

4. Intervalo de confianza para la proporción poblacional .Modo de cálculo

Sea una población que se distribuye según una binomial B(n,p) .Si el parámetro poblacional p ( probabilidad éxito) , usaremos una muestra aleatoria de tamaño n .

 Sabemos que 𝑝̂ = 𝑥

𝑛 siendo x el nº de éxitos en las n pruebas de la

muestra .

 También sabemos que si n es suficientemente grande 𝑃̂ es una variable

aleatoria normal N(𝑝. √𝑝(1−𝑝) 𝑛 ) .

Si procedemos igual que en el apartado anterior se deduce que :

Si n es muy grande ( np≥5 , nq≥5 ) ,el intervalo de confianza para p viene dado por :(𝑝̂−𝑍𝛼 2 ∙ √𝑝(1−𝑝) 𝑛 , 𝑝̂+𝑍𝛼₂ ∙ √ 𝑝(1−𝑝) 𝑛 )

5. Intervalo de confianza para la diferencia de medias .Modo de cálculo

Sea dos poblaciones N(1,1) , N(2,2) , se hacen una muestra de cada

una de tamaños n1 y n2 Si 𝑥̅₁ es la media muestral de la primera oblación y

𝑥̅₂ la de la segunda el intervalo de confianza para el parámetro 1-2

viene dado por(𝑥̅₁ − 𝑥̅₂± 𝑍𝛼 2 ∙ √𝜎12 𝑛1− 𝜎22 𝑛2) 6. Tamaño de la muestra

Es evidente, que un procedimiento para aumentar la confianza del intervalo es aumentar el tamaño de la muestra

(15)

Veamos con un ejemplo cómo proceder :

El peso (en gramos) de las naranjas de un agricultor es aleatorio, con distribución normal de desviación típica igual a 30 gramos. Queremos construir un intervalo de confianza para la media del peso de las naranjas del agricultor.

Determinar el tamaño de la muestra para que el intervalo de confianza del 98% tenga una amplitud menor o igual que 10 gramos.

Respuesta : La amplitud viene dada por E = 𝑍𝛼 2

∙ 𝜎 √𝑛 .

Tenemos que del enunciado sabemos que : 𝜎 = 30 ,2𝐸 = 10 y al 98%

𝑍𝛼

2= 2,33

Despejamos n = (2,33∙30 10 )

2

= 48,86 por lo que el tamaño de la muestra debe ser 49 naranjas.