• No se han encontrado resultados

ESTADÍSTICA. Tema 2 Nociones elementales de inferencia estadística

N/A
N/A
Protected

Academic year: 2022

Share "ESTADÍSTICA. Tema 2 Nociones elementales de inferencia estadística"

Copied!
70
0
0

Texto completo

(1)

ESTAD´ISTICA

Grado en CC. de la Alimentaci´on

Tema 2

Nociones elementales de

inferencia estad´ıstica

(2)

Estructura de este tema

Conceptos b´asicos de probabilidad

Algunos modelos de probabilidad. La distribuci´on normal

Estimaci´on de una media poblacional

Estimaci´on de una proporci´on poblacional

Intervalos de confianza para una media y una proporci´on poblacional

(3)

Probabilidad

Tipos de fen´omenos:

I Deterministas: Se conoce desde el principio el resultado final.

I Aleatorios: Muchas situaciones finales posibles.

Unexperimento aleatoriopuede dar resultados diferentes aunque se repita bajo condiciones aparentemente id´enticas.

Lateor´ıa de la probabilidadestudia el comportamiento de los fen´omenos o experimentos aleatorios.

Unavariable aleatoria(v.a.) es el valor de una caracter´ıstica de inter´es en un fen´omeno aleatorio.

Las v.a.s se suelen denotan con letra may´uscula (X , Y , Z . . . ) y su valor observado con letras min´usculas (x , y , z, . . . ).

(4)

Ejemplo 2.1: Un encuestador selecciona aleatoriamente a una persona y le preguntar con qu´e frecuencia consume un producto alimentario espec´ıfico. Una variable aleatoria que representa el resultado es:

X =













Nunca

Una vez al a˜no Una vez al mes Todas las semanas Todos los d´ıas No contesta

Ejemplo 2.2: X = superficie dedicada a alimentos de producci´on ecol´ogica en un supermercado elegido al azar.

Ejemplo 2.3: X = N´umero de frutas pochas que cuelan en una barqueta de 1/2 kg del producto durante el proceso de envasado.

Ejemplo 2.4: X = Contenido de grasa, Y = Contenido proteico en una hamburguesa de un establecimiento de comida r´apida.

(5)

Elespacio muestralΩ de un experimento aleatorio es el conjunto de todos los resultados elementales que pueden obtenerse en dicho experimento.

Ejemplo 2.1 (cont.):

Ejemplo 2.2 (cont.):

Ejemplo 2.3 (cont.):

Ejemplo 2.4 (cont.):

Ejemplo 2.5: Sea X el n´umero de caras obtenidas al lanzar al aire una moneda 10 veces. El espacio muestral es

(6)

UnsucesoA es un subconjunto del espacio muestral Ω, A ⊂ Ω.

Ejemplo 2.5 (cont.): Consideremos el suceso A=“Obtener un n´umero par de caras”

Ejemplo 2.3 (cont.): A = “Que como mucho haya tres frutas en mal estado en una barqueta”

Ejemplo 2.4 (cont.): A = Contenido en grasa de una hamburguesa “basura”

(7)

Dado un experimento aleatorio, es importante cuantificar cu´al es la incertidumbre asociada a los posibles resultados finales. La

probabilidad se define como una medida de la incertidumbre asociada a cada suceso.

En muchas ocasiones, al repetirse muchas veces un experimento sus resultados (sucesos) presentan un comportamiento regular a largo plazo. Por ejemplo, al tirar muchas veces una moneda, la fracci´on de veces que sale cara se aproximar´a al 50 %.

Laprobabilidad de un sucesoes el valor al que converge la frecuencia relativa de veces que ocurre ese suceso al aumentar el n´umero de veces que se repite el experimento. En general, la probabilidad se puede considerar como la modelizaci´on en la poblaci´on de las frecuencias relativas.

Notaci´on: La probabilidad del suceso A se suele denotar P(A).

(8)

Propiedades b´asicas de la probabilidad:

• La probabilidad de un suceso siempre es un valor entre 0 y 1.

• La probabilidad de que un suceso no ocurra es 1 menos la probabilidad de que ocurra (P(Ac) = 1 − P(A)).

• Si dos sucesos son incompatibles (disjuntos), la probabilidad de que ocurra alguno de los dos es la suma de las dos probabilidades.

Si A ∩ B = ∅, entonces P(A ∪ B) = P(A) + P(B).

• Si un suceso est´a incluido en otro, la probabilidad del primero es menor o igual que la probabilidad del segundo.

Si A ⊂ B entonces P(A) ≤ P(B).

• Principio de inclusi´on-exclusi´on: Si A y B son dos sucesos cualesquiera (no necesariamente incompatibles), entonces

P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

(9)

Nos interesa conocer la probabilidad P de los sucesos

correspondientes a una variable aleatoria X , es decir, conocer la distribuci´on de probabilidadde la v.a. X .

Ejemplo 2.6: Sea X el resultado obtenido al lanzar al aire un dado. Entonces Ω = . La probabilidad de obtener un n´umero impar en un lanzamiento es

Ejemplo 2.4 (cont.): ¿Cu´al es la probabilidad de que una hamburguesa sea “basura” (por su alto contenido graso)?

Ejemplo 2.3 (cont.): ¿Cu´al es la probabilidad de que haya menos de tres frutas pochas en una barqueta?

¿Y la probabilidad de que haya al menos tres?

(10)

Los dos tipos m´as importantes de v.a.’s son: discretas y continuas.

Una v.a. X esdiscretasi s´olo toma un n´umero finito o numerable de valores.

La distribuci´on de probabilidad de una v.a. discreta X queda caracterizada por lafunci´on de masa de X :

P(x ) = P{X = x } para cualquier posible valor x de X . Ejemplo 2.6 (cont.):

Ejemplo 2.5 (cont.):

(11)

Ejemplo 2.3 (cont.): Sea X el n´umero de fresas pochas en una barqueta de 1/2 kg:

x 0 1 2 3 4 5 6

P(x ) 0,05 0,1 0,15 0,25 0,25 0,15 0,05

¿Cu´al es la probabilidad de que haya menos de tres fresas pochas en una barqueta?

¿Y la probabilidad de que haya al menos tres?

(12)

La esperanza de una v.a. es una medida de centralizaci´on, localizaci´on o posici´on de la variable.

La media poblacional o esperanza de una v.a. discreta X , que tiene como posibles valores x1, . . . , xn, . . ., es

µ = E (X ) =X

i

xiP(xi).

Ejemplo 2.3 (cont.):

Ejemplo 2.6 (cont.):

Interpretaci´on f´ısica: Si sobre cada punto se pone una masa igual a la probabilidad de que la v.a. tome ese valor, µ corresponde con el centro de masas o de gravedad de estos puntos.

(13)

Una medida de la dispersi´on de X en torno a su media µ es la varianza de X

σ2 = V (X ) = E [(X − µ)2] =X

i

(xi− µ)2P(xi).

Se cumple que σ2 = E (X2) − µ2=X

i

xi2P(xi) − µ2. Ejemplo 2.3 (cont.):

Ejemplo 2.6 (cont.):

La desviaci´on t´ıpica de X es σ =pV (X ). Es una medida de dispersi´on expresada en las mismas unidades que X .

(14)

Ejemplo 2.7: Calcular la media y la varianza de las siguientes v.a.s (a) X tiene distribuci´on

Valores 0 1

Probabilidades 0,25 0,75

(b) X tiene distribuci´on

Valores 0 1

Probabilidades 1 − p p

(15)

Una v.a.continuapuede tomar una cantidad infinita de valores.

Intuitivamente puede tomar cualquier valor de un intervalo.

Ejemplo 2.4 (cont.): X = % de grasa en una hamburguesa Ejemplo 2.8: X = Contenido de calcio (mg/100g) en un yogur.

Ejemplo: X = Peso (en g) de un calabac´ın de una huerta casera Para determinar la distribuci´on de una v.a. continua no se puede hacer una lista de todas las probabilidades ya que la variable puede tomar infinitos valores.

Se utiliza unafunci´on de densidad f : R −→ R, que satisface:

• f (x ) ≥ 0 para todo x ∈ R;

• Z

R

f (x )dx = 1.

(16)

La probabilidad de que la v.a. X tome valores en el intervalo (a, b), P(a < X < b), es el ´area por debajo de la funci´on de densidad.

f

P(a<X<b) b a

(17)

La densidad como l´ımite de histogramas:

n=10 n=100 n=10000

(18)

La media de X es el promedio de los valores que toma X ponderado por la probabilidad con la que los toma. En el caso continuo es necesario expresar este promedio como una integral. La esperanza de una v.a. continua X con densidad f se calcula as´ı

µ = E (X ) = Z

R

x f (x ) dx .

La varianza de X es la media de las desviaciones al cuadrado de los valores que toma X respecto a la media de X . Tambi´en puede expresarse como una integral:

σ2 = V (X ) = E [(X − µ)2] = Z

R

(x − µ)2f (x ) dx

= E (X2) − µ2 = Z

R

x2f (x ) dx − µ2

(19)

Densidades, media y varianza:

0 5 10 15

0.000.050.100.15

Varianza = 8

Densidad

0 5 10 15

0.000.040.08

Varianza = 16

Densidad

0 5 10 15

0.00.10.20.30.4

Varianza = 1

Densidad

(20)

Dos modelos de probabilidad: Bernoulli y normal

Distribuci´on de Bernoulli

Unaprueba de Bernoullies un experimento aleatorio con s´olo dos posibles resultados (excluyentes): ´exito (E) y fracaso (F), con P(E) = p y P(F) = 1 − p.

Ejemplo: Lanzamos una moneda al aire y tomamos E = Cara y F = Cruz.

Ejemplo: Un hombre y una mujer, cada uno con un gen recesivo (azul) y uno dominante (marr´on) para el color de los ojos, tienen un ni˜no. Se considera E = Ni˜no ojos azules y F = Marrones.

Ejemplo: En una campa˜na para detecci´on de diabetes se realizan an´alisis de sangre a voluntarios. Si el nivel de glucosa est´a por encima de 200 mg/dL, se realizan m´as pruebas para confirmar si la persona es diab´etica. Si no, se considera que el individuo est´a sano.

Tomamos E = Diab´etico potencial con P(E) = 0,03.

(21)

Una variable X tienedistribuci´on de Bernoullide par´ametro p si X =

 1 si en la prueba Bernoulli sale ´exito 0 si sale fracaso

Su distribuci´on de probabilidad es:

Valores 0 1

Probabilidades 1 − p p

Su esperanza y varianza son: E (X ) = y Var(X ) =

Siempre que examinamos a n individuos de una poblaci´on para ver si presentan o no cierta caracter´ıstica tenemos una muestra X1, . . . , Xn de variables de Bernoulli.

Las pruebas de Bernoulli dan lugar a otros modelos de probabilidad muy utilizados que no estudiaremos, como la distribuci´on binomial, la distribuci´on geom´etrica, la binomial negativa y la

hipergeom´etrica.

(22)

Distribuci´on normal

Muchos histogramas tienen la siguiente forma aproximada:

−3 −2 −1 0 1 2 3

0.00.10.20.30.4

x

Densidad

Sim´etrica alrededor de un valor central µ.

A medida que los valores se alejan del centro las frecuencias disminuyen r´apidamente.

La dispersi´on viene dada por la desviaci´on t´ıpica poblacional σ.

Los puntos de inflexi´on se sit´uan en los valores µ − σ y µ + σ.

(23)

La v.a. continua X sigue una distribuci´on N(µ, σ), normal de par´ametros µ y σ (−∞ < µ < ∞ y σ > 0), si su densidad es

f (x ) = 1 σ√

2πexp

"

−1 2

 x − µ σ

2#

para todo x ∈ R.

La funci´on de densidad normal depende de 2 par´ametros: µ y σ.

8.3. Distribución normal

σ=0,5

11

µ=0

σ=2 σ=1

(24)

La curva de densidad normal dependiendo de µ y σ:

8.3. Distribución normal

σ=0.5

µ=-1 µ=0 µ=1

12

σ=1

σ=2

(25)

Propiedades b´asicas de la normal N(µ, σ):

Media y varianza: E (X ) = µ, Var(X ) = σ2.

Simetr´ıa: f es una densidad sim´etrica respecto a µ.

Aprox. el 68 % de los datos est´a entre µ − σ y µ + σ.

Aprox. el 95 % de los datos est´a entre µ − 2σ y µ + 2σ.

M´as del 99 % de los datos est´a entre µ − 3σ y µ + 3σ.

Tipificaci´on o estandarizaci´on: Si una v.a. X tiene distribuci´on N(µ, σ), entonces la variable estandarizada

Z = X − µ σ

tiene distribuci´on N(0, 1) (normal est´andar).

(26)

Ejemplo 2.8: Sea X la v.a. que representa la cantidad de calcio (mg/100g) en un yogur natural. Se sabe que X es normal con media µ = 167 y desviaci´on t´ıpica σ = 5. Usando las propiedades anteriores da respuestas aproximadas a las preguntas siguientes:

• ¿Cu´al es la probabilidad de que X est´e entre 163 y 171 mg/100g?

• ¿Cu´al es la probabilidad de que X sea mayor que 171 mg/100g?

• ¿Cu´al es la probabilidad de que X sea mayor que 163 mg/100g?

• ¿Cu´al es la probabilidad de que X sea mayor que 167 mg/100g?

(27)

La distribuci´on normal o gaussiana es la distribuci´on de probabilidad m´as importante.

(1) Modeliza muchos fen´omenos aleatorios habituales como (entre otros): peso o altura de una persona o animal (datos

biom´etricos en general); contenido de un nutriente o elemento en un alimento; errores de medici´on; etc.

(2) Muchos estad´ısticos estudiados en este curso siguen distribuciones normales o aproximadamente normales.

(3) (1) y (2) son debidos (principalmente) a que se verifica un resultado importante, el Teorema Central del L´ımite (TCL).

(4) Para variables con densidad asim´etrica, se puede intentar transformar la variable a normal.

(28)

Inferencia estad´ıstica

La distribuci´on de probabilidad de la v.a. X de inter´es no suele ser conocida. Supondremos que sigue un modelo param´etrico: la distribuci´on tiene expresi´on matem´atica conocida y depende s´olo de unospar´ametros desconocidos. Entonces, especificando el valor de los par´ametros, determinamos totalmente la distribuci´on de X . Los par´ametros que nos van a interesar en este curso son:

• La media µ y la varianza σ2 de una variable X normal.

• La proporci´on p de individuos que presentan cierta caracter´ıstica.

Objetivo: Estimar los par´ametros desconocidos a partir del conocimiento de unamuestra aleatoriade la poblaci´on.

Una muestra aleatoria (simple) de tama˜no n de X es una colecci´on X1, . . . , Xn tal que

• cada Xi tiene la misma distribuci´on de probabilidad que X ;

• las v.a. X1, . . . , Xn son independientes entre s´ı.

(29)

Unestimadores una cantidad que se puede calcular a partir de la muestra y que aproxima el valor de un par´ametro de inter´es.

Unaestimaci´on (puntual) es el valor (num´erico) concreto que toma un estimador al ser aplicado a una realizaci´on muestral.

Estimadores naturales de la media y varianza poblacional son:

• Media muestral: ¯X = X1+ · · · + Xn

n = 1

n

n

X

i =1

Xi

• Varianza muestral: VX = 1 n

n

X

i =1

(Xi − ¯X )2= 1 n

n

X

i =1

Xi2− ¯X2

• Cuasi-varianza muestral: S2 = 1 n − 1

n

X

i =1

(Xi− ¯X )2

(30)

Determina en los ejemplos un par´ametro poblacional de inter´es, su correspondiente estimador y la estimaci´on con los datos obtenidos.

Ejemplo 2.9: En 2004 en Bolivia se seleccionaron aleatoriamente 35 quesos frescos (fabricados a partir de leche sin pasteurizar) y se analiz´o la presencia de Listeria monocitogenes en cada uno de ellos. La presencia de la bacteria se confirm´o en seis quesos.

Ejemplo 2.10: Se escogen uvas de la variedad Cannonau en diez lugares distintos de Cerde˜na y se mide su contenido en flavonoides (en mg/kg de uva fresca). La media observada es 51,6.

(31)

Antes de la observaci´on:

X1, . . . , Xn−→

 X¯ VX S2

son v.a.’s

Si tomo observaciones concretas de la poblaci´on:

x1, . . . , xn−→

¯ x vx s2

son n´umeros.

Si tomo nuevas observaciones de la poblaci´on:

˜

x1, . . . , ˜xn−→

¯˜ x

˜ vx

˜ s2

son otros n´umeros.

(32)

Ejemplo 2.10 (cont.): Los valores observados de flavonoides fueron:

57,6 39,9 52,9 71,3 41,7 41,5 35,0 63,7 44,4 68,4 .

¯

x = vx =

Se vuelve a los mismos vi˜nedos y se escogen uvas Cannonau de plantas diferentes a las de la muestra anterior, obteni´endose los siguientes contenidos en flavonoides:

58,2 36,7 54,1 68,0 45,3 42,8 34,6 65,2 43,5 70,1 .

¯

x = vx =

(33)

Para estimar la media de una poblaci´on, µ, el estimador m´as natural es la media muestral.

X =¯ X1+ · · · + Xn

n = 1

n

n

X

i =1

Xi

¿Cu´al es la calidad del estimador? ¿Son las estimaciones obtenidas con la media muestral precisas?

Un estimador es una variable aleatoria ya que su valor depende de la muestra concreta de la que se dispone y la selecci´on de la muestra es aleatoria.

La precisi´on de las estimaciones se mide analizando lo que ocurrir´ıa si dispusi´eramos de muchas muestras y pudi´eramos evaluar la media de cada una de ellas.

Tenemos que estudiar la distribuci´on de ¯X .

(34)

Distribuci´on de la media muestral

(35)

Distribuci´on de la media muestral

Población

Observaciones

Densidad

0 2 4 6 8 10

0.00.20.40.60.8

n=5

Medias

Frecuencia

0.0 0.5 1.0 1.5 2.0 2.5 3.0

050100150200

n=10

Medias

Frecuencia

0.5 1.0 1.5 2.0

050100150200250300

n=50

Medias

Frecuencia

0.6 0.8 1.0 1.2 1.4 1.6

050100150200250

n=100

Medias

Frecuencia

0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4

050100150200

●●

●●

●●

●●●

●●●●

●●●●●●●●

●●

●●

n=5 n=10 n=50 n=100

0.51.01.52.02.53.0

Comparación

(36)

Sea X una variable con con media µ y varianza σ2. La media muestral ¯X verifica:

• E ( ¯X ) = µ, Var( ¯X ) = σ2

n y p

Var( ¯X ) = σ

√n.

• Si X tiene distribuci´on normal, entonces la distribuci´on de los valores que toma ¯X es tambi´en normal.

Si X ∼ N(µ, σ) =⇒ X ∼ N¯

 µ, σ

√n

 .

• Teorema del l´ımite central (TCL): Si n es grande, la distribuci´on de ¯X es aproximadamente normal de media µ y desviaci´on t´ıpica σ/√

n, aunque X no sea normal.

Si n es grande =⇒ X¯ aprox∼ N

 µ, σ

√n

 .

(37)

Ejemplo 2.11: Un laboratorio determina el contenido de ´acido asc´orbico (en mg/100 ml) de zumos de naranja comerciales mediante cromatograf´ıa l´ıquida de alta resoluci´on. Las medidas tienen distribuci´on normal con media µ = 55 mg/100 ml y desviaci´on t´ıpica σ = 10 mg/100 ml.

(a) Se calcula la media de 3 medidas:

X =¯ X1+ X2+ X3

3 .

¿Cu´al es la distribuci´on de ¯X ?

(b) ¿Cu´al es la probabilidad de que ¯X diste de µ menos de 5 mg/100 ml?

(c) ¿Cu´al es la probabilidad de que una ´unica medida de vitamina C diste de µ menos de 5 mg/100 ml?

(38)

Ejemplo 2.12: El peso de los huevos producidos por una gallina tiene distribuci´on normal de media µ = 65 g. y desviaci´on t´ıpica σ = 5 g. ¿Cu´al es la probabilidad de que una docena de huevos pese entre 750 y 825 g.?

Ejemplo 2.13: De acuerdo con la Organizaci´on Mundial de la Salud un individuo tiene sobrepeso si su ´ındice de masa corporal (IMC) es superior a 25. Se sabe que el IMC de una poblaci´on es una variable con distribuci´on normal de media µ = 26 y desviaci´on t´ıpica σ = 6.

(a) Calcula la probabilidad de que un individuo seleccionado al azar en esta poblaci´on presente sobrepeso.

(b) Calcula el valor x tal que el IMC del 25 % de la poblaci´on es menor que x .

(c) Si se seleccionan aleatoriamente 100 individuos y se calcula la media de sus IMC, ¿cu´al es la probabilidad de que esta media sea superior a 25.5?

(39)

Elerror t´ıpicode un estimador es un estimador (o una estimaci´on) de su desviaci´on t´ıpica.

La desviaci´on t´ıpica de la media es σ/√

n, pero en la pr´actica σ es un par´ametro poblacional desconocido.

Resulta natural estimar σ2 con la cuasivarianza muestral:

s2 = (x1− ¯x )2+ · · · + (xn− ¯x )2

n − 1 .

Se divide por n − 1 ya que puede demostrarse que al dividir por n el estimador tiene una tendencia sistem´atica a infraestimar el verdadero valor de la varianza poblacional σ2.

Elerror t´ıpico de la media muestrales s

√n

(40)

Ejemplo con una poblaci´on peque˜na:

Poblaci´on: Los 12 alumnos de una clase.

Variable: Nota que un alumno obtiene en un examen

Estudiante 1 2 3 4 5 6 7 8 9 10 11 12

Nota 1 0 3 10 8 7 5 5 5 6 4 3

Notas

x

Density

0 2 4 6 8 10

0.000.050.100.15

(41)

Ejemplo con una poblaci´on peque˜na (cont.):

Media poblacional:

µ = 1 + 0 + 3 + 10 + 8 + 7 + 5 + 5 + 5 + 6 + 4 + 3

12 = 4,75

Varianza poblacional:

σ2 = (1 − 4,75)2+ (0 − 4,75)2+ · · · + (3 − 4,75)2

12 = 7,3542

Desviaci´on t´ıpica poblacional:

σ =p

7,3542 = 2,7119

(42)

Ejemplo con una poblaci´on peque˜na (cont.):

Una posible muestra de tama˜no 4 es:

Estudiante 1 2 3 4 5 6 7 8 9 10 11 12

Nota 1 0 3 10 8 7 5 5 5 6 4 3

x1 = 4, x2 = 3, x3= 5, x4= 6

A partir de estos datos, un estimador de µ (que ser´ıa ´util si no conoci´eramos µ) es:

ˆ

µ = ¯x = 4 + 3 + 5 + 6

4 = 4,5

¿C´omo se eval´ua la precisi´on de ¯x ,sin conocer µ?

(43)

Ejemplo con una poblaci´on peque˜na (cont.):

Extraemos 2000 muestras de tama˜no 4.

Todos los valores son equiprobables y se extraen con reemplazamiento (muestreo aleatorio simple).

Un histograma de las correspondientes 2000 medias muestrales:

Medias

Frecuencias

2 4 6 8

0.00.10.20.30.4

(44)

Ejemplo con una poblaci´on peque˜na (cont.):

Las propiedades de ¯X como estimador de µ se corresponden con las propiedades del histograma anterior.

La forma del histograma es la de una distribuci´on normal.

Los valores de ¯X se centran alrededor del verdadero valor de µ. El estimador es centrado o insesgado.

La desviaci´on t´ıpica de ¯X es menor que σ. Se puede demostrar que la desviaci´on t´ıpica de ¯X es:

√σ

n = 2,7119

2 ≈ 1,356.

(45)

Ejemplo con una poblaci´on peque˜na (cont.):

Como ¯X es insesgado, no hay tendencia sistem´atica a infraestimar o sobreestimar el valor de µ.

Como ¯X ∼= N(µ, σ/√

n), con probabilidad aproximada 0.95 el error cometido al estimar µ mediante ¯X es menor o igual que 2 × σ/√

n ≈ 2,7119

Es decir, que podemos tener bastante confianza en que el valor de µ se encuentra en el intervalo:

[4,75 ∓ 2,7119]

Como en la pr´actica σ2 es desconocida se usa s2 en su lugar:

s2= (4 − 4,5)2+ (3 − 4,5)2+ (5 − 4,5)2+ (6 − 4,5)2

3 = 1,666.

(46)

Varianza y cuasivarianza muestrales

Sea X1, . . . , Xn una muestra de X con varianza Var(X ) = σ2. La varianza muestral VX = 1

n

n

X

i =1

(Xi − ¯X )2= 1 n

n

X

i =1

Xi2− ¯X2

y la cuasi-varianza muestral S2= 1 n − 1

n

X

i =1

(Xi− ¯X )2 verifican:

• E (VX) = n − 1 n σ2.

• E (SX2) = σ2.

Esta es la raz´on por la que se divide por n − 1 para calcular la cuasi-varianza muestral. De esta forma se consigue un estimador insesgado de la varianza poblacional.

(47)

¿Por qu´e se divide por n − 1 en lugar de n?

Puede comprobarse que la varianza muestral (dividiendo por n) presenta una tendencia sistem´atica a infraestimar σ2.

Para corregir este sesgo se incrementa ligeramente el valor del estimador dividiendo por n − 1 en lugar de n.

Diagramas de cajas de las 2000 varianzas y cuasivarianzas muestrales. La l´ınea roja corresponde a σ2 = 7,3542.

Dividir por n Dividir por n−1

051015202530

(48)

Estimaci´on de una proporci´on poblacional

Queremos estimar la proporci´on p de explotaciones de cerdo de cebo en las que hay salmonelosis. Para ello, se examinan 232 explotaciones y definimos

Xi =

 0, si en la explotaci´on i no se detecta salmonelosis 1, si la explotaci´on i da positivo en salmonella, que es una v.a. Bernoulli de par´ametro p. Se detecta la

salmonelosis en 100 de las explotaciones. ¿Cu´al es el estimador m´as natural de p?

(49)

Distribuci´on de la proporci´on muestral

0 1

Población (p=0.1)

0.00.20.40.60.8

n=5

Medias

Frecuencia

0.0 0.2 0.4 0.6 0.8

0100200300400500600

n=10

Medias

Frecuencia

0.0 0.1 0.2 0.3 0.4 0.5

0100200300

n=50

Medias

Frecuencia

0.00 0.05 0.10 0.15 0.20 0.25

050100150200

n=100

Medias

Frecuencia

0.05 0.10 0.15 0.20

050100150200250

●●●

●●●●●●●

●●●●●

n=5 n=10 n=50 n=100

0.00.20.40.60.8

Comparación

(50)

Seg´un el TCL, ¿c´omo se distribuye aproximadamente la proporci´on muestral ˆp?

¿Cu´al es la desviaci´on t´ıpica de ˆp?

¿Cu´al es el error t´ıpico de ˆp?

Calcula el error t´ıpico de ˆp para los datos de la salmonelosis.

¿Cu´al es el m´aximo (m´ınimo) valor posible de este error t´ıpico?

¿En qu´e situaci´on se va a dar ese valor?

(51)

Intervalos de confianza

Laestimaci´on puntualnos proporciona un valor concreto como aproximaci´on de un par´ametro desconocido. Sin embargo, en general no se precisa la incertidumbre existente en dicha estimaci´on.

Laestimaci´on por intervalosnos proporciona un intervalo de valores donde el par´ametro se puede encontrar, junto con un nivel de exactitud o fiabilidad de la estimaci´on, el nivel de confianza.

(52)

Unintervalo de confianza (IC) para un par´ametro es un intervalo, calculado a partir de la muestra, que contiene al par´ametro con un alto grado de seguridad.

La f´ormula general de los intervalos que vamos a estudiar es:

IC =[Estimador ∓ Margen de error]

En general, el centro del intervalo es el estimador del par´ametro en el que estamos interesados.

Elmargen de errordepende

de la precisi´on del estimador utilizado,

del grado de seguridad con el que queremos que el intervalo contenga al par´ametro (el nivel de confianza).

(53)

IC para la media de una poblaci´on normal (varianza conocida)

Queremos estimar el contenido medio en grasas (en g/100 g) de la carne de cerdo, µ. Para ello disponemos de una muestra de 12 piezas de carne para la que el contenido medio es ¯x = 24,93.

Esto significa que µ ≈ 24,93. Por supuesto, µ 6= 24,93. Si tom´aramos otras 12 piezas distintas nos habr´ıa resultado una estimaci´on de µ diferente.

Un IC es una forma de precisar qu´e significa µ ≈ 24,93.

Suponemos que la poblaci´on es normal y que la desviaci´on t´ıpica de la poblaci´on es conocida y vale σ = 0,25.

Como ¯X ≡ N(µ, 0,25/√

12), sabemos qu´e valores podr´ıamos esperar si tom´aramos muchas muestras de tama˜no 12.

(54)

Aproximadamente para el 95 % de las muestras de tama˜no 12 se cumple:

−0,072 · 1,96 < ¯X − µ < 0,072 · 1,96.

Las desigualdades anteriores son equivalentes a:

¯

x − 0,072 · 1,96 < µ < ¯X + 0,072 · 1,96.

Aproximadamente para el 95 % de las muestras de tama˜no 12 se cumple que µ ∈ [ ¯X ∓ 0,1411].

Confiamos (con un nivel del 95 %) en que la ´unica muestra de la que disponemos sea una de las que verifican la condici´on.

Decimos que [24,93 ∓ 0,1411] es un IC para µ a un nivel de confianza del 95 %.

(55)

Cuestiones:

Con los mismos datos del ejemplo anterior calcula dos intervalos cuyos nivel de confianza sean 90 % y 99 %.

Se ha obtenido ¯x = 24,93 pero la muestra era de 36 piezas en lugar de 12. Calcula un intervalo de nivel 95 %.

Se ha obtenido ¯x = 24,93 con una muestra de 36 piezas pero σ = 1 en lugar de σ = 0,25. Calcula un intervalo de nivel 95 %.

F´ormula general: Un IC con nivel de confianza 1 − α para la media de una poblaci´on normal con σ conocida viene dado por:



¯

x ∓ zα/2 σ

√n



(56)



¯

x ∓ zα/2 σ

√n



Aparecen tres cantidades variables: la confianza, 1 − α; el tama˜no muestral, n; la semiamplitud o error, zα/2σn.

A mayor tama˜no muestral, n, se reduce el intervalo de confianza (se reduce el error).

A mayor confianza exigida, 1 − α, aumenta el intervalo de confianza (aumenta el error).

Cualesquiera dos de estas tres cantidades permiten determinar la otra tercera.

Fijado un nivel de confianza, podemos encontrar el tama˜no de la muestra necesario para que el error de la estimaci´on sea tan peque˜no como queramos.

Esto ocurre en el resto de los intervalos de confianza que veremos.

(57)

Interpretaci´on del nivel de confianza

Si tenemos muchas realizaciones muestrales para estimar un par´ametro, con cada realizaci´on obtendremos distintos intervalos de confianza. Entre ´estos algunos contendr´an el verdadero valor del par´ametro y otros no.

Al tomar muchos intervalos, la proporci´on de ellos que

contiene al par´ametro ser´a aproximadamente el (1 − α)100 %.

Ejemplo 2.14: Se extraen 100 muestras de tama˜no n = 20 de una poblaci´on normal con media µ = 0 y σ = 1.

Para cada muestra se calcula ¯x y el intervalo de confianza para µ de nivel 95 % (suponemos varianza poblacional conocida):

[¯x ∓ z0,025σ/√ n].

(58)

Se representa un histograma de las 100 medias obtenidas, as´ı como los 100 intervalos (en verde si contienen el valor 0 y en rojo si no).

Medias

Frecuencias

−0.4 −0.2 0.0 0.2 0.4 0.6

0510152025

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−3−2−10123

Intervalos

(59)

Poblaci´on normal con varianza desconocida

Cuando la poblaci´on es normal y σ no es conocida, es posible dar un IC exacto incluso cuando el tama˜no muestral es peque˜no.

Para ello, basta mirar en unas tablas distintas. En lugar de buscar zα/2 en las tablas de la normal, buscamos tn−1,α/2 en las tablas de la distribuci´on t de Student. La f´ormula del IC queda



¯

x ∓ tn−1;α/2 s

√n

 .

(60)

Distribuci´on t de Student

La distribuci´on t de Student con n − 1 grados de libertad (tn−1) es la distribuci´on de

X − µ¯ S /√

n en una poblaci´on normal.

La forma de la densidad de tn es similar a la de la normal. Es sim´etrica alrededor de cero.

Sin embargo, la distribuci´on tn da m´as probabilidad a valores lejanos al centro.

Si n es grande tn∼= N(0, 1).

(61)

Cuestiones:

Busca en las tablas de la distribuci´on t de Student un valor de c que verifique:

Si tenemos n = 15 datos, la probabilidad de X − µ¯

S /√ n > c es 0,025.

Si tenemos n = 15 datos, la probabilidad de X − µ¯

S /√ n < c es 0,75.

(62)

Ejemplo 2.15:

El envenenamiento por DDT causa temblores y convulsiones. En un estudio se ha administrado una dosis de DDT a 4 ratones y se ha medido posteriormente en cada uno el periodo absolutamente refractario, es decir, el tiempo que tardan sus nervios en

recuperarse tras un est´ımulo. Las 4 medidas en milisegundos son:

1,7 1,6 1,8 1,9

(a) Estima el periodo absolutamente refractario medio µ para toda la poblaci´on de ratones de la misma cepa sujeta al mismo tratamiento con DDT.

La estimaci´on de µ es la media muestral:

¯

x = 1,7 + 1,6 + 1,8 + 1,9

4 = 1,75.

(63)

(b) Calcula el error t´ıpico de la estimaci´on anterior.

Para calcular el error t´ıpico, primero hay que calcular la varianza muestral:

s2= (1,7 − 1,75)2+ (1,6 − 1,75)2+ (1,8 − 1,75)2+ (1,9 − 1,75)2 3

Por lo tanto s2 ≈ 0,017 y s =√

0,017 ≈ 0,13.

El error t´ıpico es s/√

n = 0,13/2 = 0,065.

(c) Calcula un intervalo de confianza para µ con nivel de confianza 90 %. (Se supone normalidad).

Como t3;0,05 = 2,353, un I.C. con nivel de confianza 1 − α = 0,90 es

[1,75 ∓ 2,353 × 0,065] = [1,597 , 1,903].

Podemos afirmar que 1,597 < µ < 1,903 con un nivel de confianza del 90 %.

(64)

(d) Calcula otro intervalo, pero ahora con un nivel del 95 %.

Como t3;0,025 = 3,182, un I.C. con nivel de confianza 1 − α = 0,95 es

[1,75 ∓ 3,182 × 0,065] = [1,543 , 1,957].

Podemos afirmar que 1,543 < µ < 1,957 con un nivel de confianza del 95 %.

(65)

Cuestiones

En un informe leemos que un intervalo de confianza para la puntuaci´on media de los estudiantes en un test de ingl´es es (267,8, 276,2).

(a) Verdadero o falso: El 95 % de los estudiantes han tenido puntuaciones entre 267.8 y 276.2

(b) ¿Cu´al fue la puntuaci´on media de los estudiantes de la muestra utilizada para calcular el intervalo?

(c) ¿Es correcto decir que la puntuaci´on media pertenece al intervalo (267,8, 276,2) con probabilidad 0.95?

(66)

IC para una proporci´on

La idea para construir un IC en este caso es que

aprox.∼ N(p,pp(1 − p)/n) para n grande y que pp(1 − p) se puede estimar mediantepˆp(1 − ˆp).

La f´ormula del intervalo queda:

"

ˆ p ∓ zα/2

rˆp(1 − ˆp) n

#

y es v´alida para n grande, ya que se basa en el TCL.

El margen de error en este caso es E = zα/2

rˆp(1 − ˆp)

n .

(67)

Ejemplo 2.15:

En una encuesta para estudiar la preocupaci´on de la poblaci´on por su alimentaci´on, se ha preguntado a 965 personas si han seguido alguna dieta en los ´ultimos 5 a˜nos. De ellas, 406 han respondido afirmativamente. Con esta informaci´on:

(a) Estima la proporci´on p de la poblaci´on que ha seguido alguna dieta en los ´ultimos 5 a˜nos.

El estimador de p a partir de los datos disponibles es la proporci´on muestral ˆp = 406/965 = 0, 421.

(b) Calcula el error t´ıpico del estimador anterior.

El error t´ıpico de este estimador es rˆp(1 − ˆp)

n =

r0, 421 × (1 − 0, 421)

965 = 0, 0159.

(68)

(c) Calcula un intervalo de confianza para p con un nivel de confianza del 95 %.

Como z0,025= 1,96, un I.C. con nivel de confianza 1 − α = 0,95 es

[0,421 ∓ 1,96 × 0,0159] = [0,39 , 0,45].

(d) Si para un nuevo estudio se desea estimar p con un margen de error de ∓1 % y un nivel de confianza del 95 %, ¿a cu´antas personas hay que entrevistar aproximadamente?

Para calcular n despejamos en la ecuaci´on:

1,96 ×

r0,421 × (1 − 0,421)

n = 0,01

De aqu´ı obtenemos:

n = 0,421 × (1 − 0,421) × 1,962

0,012 = 9364,246 ≈ 9365.

Referencias

Documento similar

Cedulario se inicia a mediados del siglo XVIL, por sus propias cédulas puede advertirse que no estaba totalmente conquistada la Nueva Gali- cia, ya que a fines del siglo xvn y en

No había pasado un día desde mi solemne entrada cuando, para que el recuerdo me sirviera de advertencia, alguien se encargó de decirme que sobre aquellas losas habían rodado

De acuerdo con Harold Bloom en The Anxiety of Influence (1973), el Libro de buen amor reescribe (y modifica) el Pamphihis, pero el Pamphilus era también una reescritura y

Abstract: This paper reviews the dialogue and controversies between the paratexts of a corpus of collections of short novels –and romances– publi- shed from 1624 to 1637:

[r]

SVP, EXECUTIVE CREATIVE DIRECTOR JACK MORTON

Where possible, the EU IG and more specifically the data fields and associated business rules present in Chapter 2 –Data elements for the electronic submission of information

The 'On-boarding of users to Substance, Product, Organisation and Referentials (SPOR) data services' document must be considered the reference guidance, as this document includes the