Tema 3: Estimaci´ on estad´ıstica de modelos probabilistas.
(primera parte)
Estructura de este tema:
1 T´ecnicas de muestreo y estimaci´on puntual.
2 Estimaci´on por intervalos de confianza.
3 Contrastes de hip´otesis.
Planteamiento del problema
Inconveniente: La distribuci´on de probabilidad de la v.a. X de inter´es suele serdesconocida.
Simplificaci´on del problema: Supondremos que la distribuci´on de probabilidad esconocida, pero que depende de unos par´ametros desconocidos. Entonces, especificando el valor de los par´ametros, determinamos totalmente la distribuci´on deX.
Los par´ametros que nos van a interesar en este curso son:
• Media y Varianza poblacional(µyσ2) cuando X ∼N(µ, σ).
• Proporci´on p de individuos de una poblaci´on que presentan cierta caracter´ıstica cuandoX ∼Bernoulli(p).
• Media poblacional(λ) cuando X ∼Pois(λ) ´o X ∼exp(1/λ) Objetivo: Estimar el valor de los par´ametros desconocidosa partir de unamuestra aleatoria simple de la poblaci´on,X1, . . . ,Xn:
• cadaXi tienela misma distribuci´onde probabilidad queX;
• las v.a. X1, . . . ,Xn sonindependientesentre s´ı.
Unestimador/estad´ıstico es una funci´on real de la muestra X1, . . . ,Xn (que, en general, se denota porT(X1, . . . ,Xn)) y que aproxima el valor de un par´ametro de inter´es.
Unaestimaci´on (puntual) es el valor (num´erico) concreto que toma un estimador al ser aplicado a una realizaci´on muestral y se denota utilizando el s´ımbolo: b(p.e. ˆµ, σ,ˆ p,ˆ λ) .ˆ
Estimadores naturales de la media y varianza poblacional son:
• Media muestral: X¯ = X1+· · ·+Xn
n = 1
n
n
X
i=1
Xi
• Varianza muestral: VX = 1 n
n
X
i=1
(Xi −X¯)2= 1 n
n
X
i=1
Xi2−X¯2
• Cuasi-varianza muestral: SX2 = 1 n−1
n
X
i=1
(Xi−X¯)2
Determina en los siguientes ejemplos el par´ametro poblacional de inter´es, su correspondiente estimador y la estimaci´on con los datos obtenidos.
Ejemplo 3.1: Se est´a estudiando el no de aver´ıas que se registran en las Centrales El´ectricas. En uno de los estudios se analizaron 35 muestras aleatorias y se observ´o que 6 de ellas sufrieron alg´un tipo de incidencia.
Ejemplo 3.2: Se contabiliza el tiempo (en milisegundos) de acceso a un registro de una base de datos. Debido a imprecisiones en los aparatos, las medidas tienen distribuci´on normal. Se toman 10 muestras aleatorias a la base de datos y se analizan. La media observada es 0,88.
Obs. Un mismo estimador puede tomar diferentes valores num´ericos, e.d. tenemos diferentes estimaciones, ya que su valor dependetotalmente de la muestra concreta que se ha utilizado.
Ejemplo 3.2 (cont.): Los tiempos observados fueron:
0,73 0,8 0,9 1,24 0,82 0,72 0,57 1,18 0,54 1,3
¯
x= vx = sx2 =
Se vuelve a la misma base y se recogen otras muestras diferentes, obteni´endose los siguientes tiempos:
1,56 1,22 1,32 1,39 1,33 1,54 1,04 2,25 1,49 1,28
¯
x= vx = sx2 =
Estimaci´ on puntual de par´ ametros
SeaX1, . . . ,Xn una muestra aleatoria de una poblaci´on X cuya distribuci´on de probabilidad es conocida pero depende de un par´ametro desconocidoθ= (θ1, . . . , θk).
Objetivos:
• Aproximar/estimar el valor de θmediante estimadores ˆθ.
• Estudiar m´etodos parahallar estimadores.
• Decidirqu´e estimadores son razonables.
SiX es una v.a. discreta, lafunci´on de masa de la muestra es:
P(x1, . . . ,xn) =P{X1=x1, . . . ,Xn=xn}=P(x1)· · ·P(xn) SiX escontinuacon densidad f,la funci´on de densidad de la muestraes:
f(x1, . . . ,xn) =f(x1)· · ·f(xn)
PRIMER M´ETODO: M´etodo de los Momentos
El estimador por elm´etodo de los momentos, que denotaremos por θˆ= ( ˆθ1, . . . ,θˆk), se obtiene al resolver el siguiente sistema
Eθ[X] = 1nPn i=1Xi, Eθ[X2] = 1nPn
i=1Xi2,
· · ·
Eθ[Xk] = 1nPn i=1Xik
Observaci´on: Presenta el inconvenientede que la soluci´on puede no pertenecer al espacio param´etrico.
SEGUNDO M´ETODO: Estimaci´on por el m´etodo de m´axima verosimilitud (EMV)
La funci´on de verosimilitud de la muestra observadax1, . . . ,xn es L(θ) =L(θ;x1, . . . ,xn) =
Pθ(x1)· · ·Pθ(xn) si X es discreta fθ(x1)· · ·fθ(xn) siX es continua Expresa lo veros´ımil que es el valor de un par´ametroθen base a la muestra observada.
El estimador dem´axima verosimilitud (EMV), ˆθ= ( ˆθ1, . . . ,θˆk), es el que maximiza la func. de verosimilitudL(θ).
Observaci´on: En la pr´actica, la forma m´as c´omoda de encontrar el EMV es considerar ln(L(θ)) en vez deL(θ):
∂ln(L(θ))
∂θ = 0
Sesgo y Error Cuadr´atico Medio
Una medida del comportamiento del estimador ˆθ es suerror cuadr´atico medio(ECM)
Eh
(ˆθ−θ)2i
=Vθ(ˆθ) + (Sesgo(ˆθ))2, siendo Sesgo(ˆθ) =E(ˆθ)−θ.
SiE(ˆθ) =θ se dice que el estimador ˆθ esinsesgado.
Sesgo
Sesgo(ˆθ) = E(ˆθ)−θ.
Un buen estimador debe ser insesgado o tener un sesgo peque˜no.
Estimador insesgado:
13.2. Insesgadez
Insesgadez
θ
θ θ Sesgo positivo:
13.2. Insesgadez
Insesgadez
θ
θ θ
Sesgo negativo:
13.2. Insesgadez
Insesgadez
θ
θ θ
Ejemplos importantes:
Distribuci´on Estimadores
X ∼Bernoulli(p) pˆ= ¯x X ∼Poisson(λ) λˆ= ¯x
X ∼exp(λ) λˆ= 1/¯x
X ∼N(µ, σ) µˆ= ¯x ˆ
σ2 =vx, sx2
¿C´omo de buenos son estos estimadores?, es decir ¿son insesgados?
Tenemos que estudiar la distribuci´on de X¯...
Propiedades de la media muestral X¯:
SeaX1, . . . ,Xn una muestra aleatoria de una v.a. X, la media muestral ¯X verifica:
• Si X tiene distribuci´on normal, entonces la distribuci´on de los valores que toma ¯X es tambi´en normal.
Si X ∼N(µ, σ) =⇒ X¯ ∼N
µ, σ
√n
.
• Teorema central del l´ımite (TCL): Sin es grande, la distribuci´on de ¯X esaproximadamente normal de mediaµy desviaci´on t´ıpica σ/√
n,aunque X no sea normal.
Sin es grande =⇒ X¯ aprox∼ N E(X),
pVar(X)
√n
! .
Distribuci´on de la media muestral
Conclusiones: Sea X1,· · · ,Xn una muestra aleatoria de una v.a.
X con media y varianza poblacional µyσ2 respectivamente
• La media muestral ¯X siempre es unestimador insesgado de la media de la poblaci´on: E( ¯X) =µ.
• La varianza muestralVX es unestimador no insesgado de la varianza de la poblaci´on: E(VX) = n−1
n σ2.
• La cuasivarianza muestral SX2 es un estimador insesgado de la varianza de la poblaci´on: E(SX2) =σ2.
Observaci´on: Se divide por n−1 ya que puede demostrarse que al dividir porn el estimador tiene una tendencia sistem´atica a
infraestimar el verdadero valor de la varianza poblacionalσ2. Esta es la raz´on por la que se usa la cuasi-varianza muestral y no la varianza muestral: estimador insesgado de la varianza poblacional.