• No se han encontrado resultados

05.1- Inferencia Estadística – Estimación de Parámetros

N/A
N/A
Protected

Academic year: 2020

Share "05.1- Inferencia Estadística – Estimación de Parámetros"

Copied!
9
0
0

Texto completo

(1)Facultad de Ciencias Naturales, UNSa Área de Estadística Material de apoyo didáctico elaborado por Silvia Sühring. INFERENCIA ESTADÍSTICA: ESTIMACIÓN DE PARÁMETROS La inferencia estadística es el procedimiento mediante el cual se llega a decisiones sobre una cuestión planteada respecto de la población a partir de los resultados obtenidos de una muestra. Inferir implica pasar de casos particulares (muestra) a lo general (población). La inferencia o generalización de los resultados trae aparejada incertidumbre. Si los resultados de una muestra se pueden relacionar con algún modelo probabilístico, entonces podremos medir en términos de probabilidad la incertidumbre, es decir el error que podemos cometer o la confianza que depositamos en nuestras decisiones. Que tipos de inferencia podemos hacer: − Estimar cuál es el rendimiento promedio esperado para cierta variedad de trigo en la provincia de Salta. − Estimar cuál es el porcentaje de deserción en las carreras de la UNSa. − Probar si la variable “peso de cerdos al nacer” tiene una distribución aproximadamente normal. − Probar si existe relación entre el tamaño de los frutos de cierta especie y el número de semillas que contiene. − Probar si el grupo sanguíneo es independiente del grado de afección de cierta enfermedad sanguínea. estimar un parámetro La inferencia estadística puede tener dos propósitos: probar una hipótesis. ESTIMACIÓN DE PARÁMETROS Consiste en calcular medidas descriptivas, utilizando las observaciones muestrales, que representen a los parámetros desconocidos. Puede hacerse una. *estimación puntual *estimación por intervalo de confianza. La estimación puntual consiste en asignar un único valor numérico al parámetro. No tiene asociada ninguna medida de la incertidumbre. La estimación por intervalos de confianza consiste en encontrar dos valores numéricos que definen un intervalo, el cual se considera que incluye al parámetro que se está estimando con un determinado grado de confianza.. Inferencia Estadística - 2016. 1.

(2) ESTIMACIÓN PUNTUAL La estimación puntual se realiza a través de estimadores o estadísticos. El estimador puntual es una regla que nos dice como calcular la estimación del parámetro, basándonos en la información contenida en la muestra y que pretendemos que represente lo más fielmente posible a un parámetro poblacional desconocido, que es el objeto de nuestro estudio. El estimador puntual es una función de las observaciones muestrales y generalmente se expresa mediante una fórmula. Por ejemplo la media muestral, que es un estimador de µ, depende de las observaciones muestrales, ya que para calcularla usamos todos los datos de la ∑ xi muestra: x = n Definición matemática de estimador puntual: Sea x1, x2, . . .,xn una muestra aleatoria tomada de la distribución f(x; θ), la función θˆ (x1, x2, . . .,xn) es una estimación de θ. La función correspondiente de las variables aleatorias x1, x2, . . .,xn, la cual es en si misma una variable aleatoria, es un estimador puntual del parámetro θ. Ejemplos de estimadores puntuales: x y Me estiman a µ; p estima a π, x estima a λ; S estima a σ. Para un parámetro pueden proponerse varios estimadores. Habrá “buenos” y “malos” estimadores. Los estimadores son números que varían entre una muestra y otra tomada de una misma población; por esta razón podemos construir una distribución de frecuencias y observar en qué forma se centra esta distribución alrededor del parámetro que nos interesa. A partir de esta distribución definimos las propiedades deseables de un estimador.. # PROPIEDADES DE UN BUEN ESTIMADOR 1 - INSESGABILIDAD Un estimador es insesgado si su esperanza es igual al parámetro. E( θˆ ) = θ Si por el contrario E( θˆ ) = θ + k , donde k es la magnitud del sesgo Cumplen con esta condición: x , p ∆ x y ∆p E( x ) = µ E(p) = π E(∆ x ) = ∆µ. E(∆p) = ∆π. ¿Qué pasa con S? La desviación típica calculada como la raíz cuadrada de la suma de cuadrados dividido los grados de libertad es un estimador insesgado de σ.. Inferencia Estadística - 2016. 2.

(3) 2 - EFICIENCIA Un estimador insesgado θˆ 1 del parámetro θ es más eficiente que otro estimador insesgado θˆ 2 del mismo parámetro si su varianza es menor. (Propiedad también llamada insesgabilidad de varianza mínima) Si E( θˆ 1) = E( θˆ 2) = θ y si V( θˆ 1) < V( θˆ 2), entonces θˆ 1 es mejor estimador que θˆ 2 3 - CONSISTENCIA Se dice que un estimador es consistente cuando se concentra en una zona más estrecha alrededor del parámetro que estima a medida que aumenta el tamaño de la muestra n. Su sesgo y su varianza tienden a cero en el límite. La diferencia entre el estimador y el parámetro se denomina error de estimación (ε):. ε = θˆ - θ Matemáticamente podemos decir que un estimador es consistente cuando la probabilidad de que el error de estimación sea mayor que una cantidad pequeña (ε) tiende a cero si se aumenta suficientemente el tamaño de la muestra. P { θˆ - θ > ε } → 0 cuando n → ∞ 4- SUFICIENCIA Un estimador es suficiente cuando usa toda la información que la muestra contiene para estimar al parámetro de interés. Se dice que un estimador es suficiente cuando no existe otro estimador que pueda dar más información acerca del parámetro, de manera que ni con otros estimadores ni con las observaciones muestrales podría obtenerse mayor información. 5- DISTRIBUCIÓN ASINTÓTICAMENTE NORMAL Se dice que un estimador es asintóticamente normal si, además de ser insesgado y consistente, tiene distribución normal al aumentar el tamaño de la muestra. Estimar es como tirar la blanco BLANCO = PARÁMETRO TIROS = ESTIMACIÓN. insesgado y muy preciso. insesgado y poco preciso. Inferencia Estadística - 2016. sesgado y muy preciso. sesgado y poco preciso. 3.

(4) # PRECISIÓN DEL ESTIMADOR PUNTUAL La precisión de un estimador se mide por el error estándar o error típico del estimador. σ θˆ . Se dice que cuanto menor es el error típico, mayor es la precisión. del estimador.. σ θ$ =. [. E θ$ − E (θ$ ). ]. 2. =. [. E θ$ − θ. ]. 2. si. θˆ. es un estimador insesgado de θ.. Por esta razón, al calcular un estimador puntual se debe acompañar la estimación obtenida con una medida de su error estándar.. ESTIMACIÓN POR INTERVALOS DE CONFIANZA Dada una muestra en particular donde se ha calculado el estimador ( θˆ ), se puede construir un intervalo (a;b) y establecer una cierta probabilidad (1 - α) de que el parámetro θ se encuentre contenido dentro de ese intervalo. La probabilidad mide la confianza que tenemos de que dicho intervalo incluya dentro de sus límites al parámetro. Podemos expresar un intervalo de la siguiente manera: P(a ≤ θ ≤ b) = 1- α 1- α : es la probabilidad de que el intervalo contenga al parámetro θ. Se denomina coeficiente o nivel de confianza. # Intervalo de Confianza para la MEDIA POBLACIONAL µ Al estudiar las distribuciones muestrales vimos que la media muestral, bajo ciertas condiciones, sigue una distribución aproximadamente normal con media µ y una desviación típica igual a σ x = σ /√n. La normal Z∼n (0;1) es la que se encuentra tabulada. Si queremos definir un intervalo de valores de x que contenga un área determinada de la curva (1 – α), entonces primero establecemos que valor corresponde a esa área en la distribución Z y luego lo des-estandarizamos. Fuera del intervalo el área tiene que ser igual a α, y como la curva es simétrica, en cada una de las ramas fuera del intervalo, tenemos un área de α/2. Llamaremos Zα /2 al valor de la distribución Z que separa esa área. El valor de Z podría des-estandarizarse para obtener los valores límite de x :. Zα = 2. x−µ. σx. ⇒ x = µ + Z α .σ x 2. El valor de Zα /2 para un intervalo que abarque el 95% de la distribución será Z0,05 = 1,96 en el extremo derecho y -1.96 en el izquierdo. Por lo tanto se puede decir que: P (µ - 1,96 . σ x ≤ µ ≤ µ + 1,96 . σ x ) = 0.95 Si se tiene una estimación puntual de µ ( x ), se podría construir un intervalo alrededor de esa estimación. Si se repite el cálculo para los diferentes valores de x , calculados a partir de muestras de tamaño n, tendríamos un número grande de Inferencia Estadística - 2016. 4.

(5) intervalos de la forma x ± 1.96 σ x todos con la misma amplitud. Aproximadamente el 95% de esos intervalos tendrán centros que caen dentro del intervalo µ ± 1.96 σ x ; cada uno de esos intervalos contendrá al valor µ . Entonces podemos decir que:. P( x - z α/2 .σ σ x ≤ µ ≤ x + z α/2 .σ σx ) = 1 - α El intervalo de confianza se expresa como: La probabilidad de que el intervalo calculado a partir de x contenga a µ es igual a (1 - α). La probabilidad de que el intervalo no contenga a µ es α. El error típico de la media (σ σ x ) se calculará de acuerdo al caso: -Si conocemos la varianza poblacional σ2, podemos calcular el error estándar si: la población es infinita. σx =. σ n. la población es finita, debemos aplicar el FCPF. σx =. σ 2 ( N − n) n. ⋅. ( N − 1). -Si no conocemos la varianza poblacional σ2, que es la situación más frecuente en la práctica, podemos utilizar su estimador S2 para calcular el error estándar: la población es infinita. S σx = n. la población es finita. S 2 ( N − n) σx = ⋅ n ( N − 1). En ese caso la distribución de la media muestral tiende a t de Student con (n – 1) grados de libertad, si y sólo si la muestra se extrajo de una población con distribución aproximadamente normal. La estimación por intervalos de confianza de µ cuando no conozco la varianza poblacional será:. P ( x - t δ, (αα/2) .σ σ x ≤ µ ≤ x + t δ, (αα/2) .σ σx ) = 1 - α. donde δ = (n – 1). Cuando el tamaño de la muestra de la cual se obtuvo la estimación de la media poblacional es grande (>30) la distribución t de Student converge a una normal y por eso para muestras grandes se puede utilizar la primera expresión para calcular el intervalo de confianza. Para otros estimadores con distribución normal o t de Student el Intervalo de confianza para el parámetro que estiman se puede calcular usando la fórmula general:. Inferencia Estadística - 2016. 5.

(6) EXPRESIÓN GENERAL DEL INTERVALO DE CONFIANZA. P (θ$ − k . σ θ$ ≤ θ ≤ θ$ + k . σ θ$ ) = 1 − α donde α : nivel de significación k : multiplicador de confianza (depende de la distribución que tiene θˆ ). θˆ - k . σθˆ : es el límite inferior del intervalo θˆ - k . σθˆ : es el límite superior del intervalo σθˆ : es el error típico del estimador Ejemplo intervalo de confianza para la media poblacional: Una compañía productora de semillas de maíz híbrido cultiva 36 parcelas con una nueva semilla para probar su rendimiento. Al momento de la cosecha obtiene un promedio de 90 kg de maíz por parcela, con una desviación típica de 12 kg /parcela. a) Calcular el intervalo de confianza del 95% para el rendimiento medio de la nueva semilla. b) Calcular el intervalo de confianza del 99% para el rendimiento medio de la nueva semilla. c) Calcular el intervalo de confianza del 95% utilizando los mismos datos pero suponiendo que provienen de un experimento en 50 parcelas. Datos: x = 90 kg. S = 12 kg. n = 36. σ x = 12 / √36 = 2 kg. a) P( x - z (α/2) σ x ≤ µ ≤ x + z (α/2) σ x ) = 1 - α P (90 - 1,96 . (12 / √36 ≤ µ ≤ 90 + 1,96 . 2) = 0,95 P (90 - 3,92 ≤ µ ≤ 90 + 3,92) = 0,95 µ [86,08; 93,92] 95% Precisión = 93,92 - 86,08 = 7,84 b) P (90 - 2,58 . 12 / √36 ≤ µ ≤ 90 + 2,58 . 2) = 0,99 P (90 - 5,16 ≤ µ ≤ 90 + 5,16) = 0,99 µ [84,84; 95,16] 99% Precisión = 95,16 - 84,84 = 10,32 c) P (90 - 1,96 . (12 / √50 ≤ µ ≤ 90 + 1,96 . 1,70) = 0,95 P (90 - 3,33 ≤ µ ≤ 90 + 3,33) = 0,95 µ [86,67; 93,33] 95% Precisión = 93,33 - 86,67 = 6,66 Inferencia Estadística - 2016. 6.

(7) Representación gráfica de intervalos de confianza (segmentos) a b c Kg de rendimiento. PRECISIÓN DEL INTERVALO DE CONFIANZA La precisión de un intervalo se mide calculando la diferencia entre su límite superior y su límite inferior (Ls - Li). Se dice que un intervalo es más preciso si tiene menor amplitud. La precisión del intervalo es: • directamente proporcional al tamaño de la muestra • inversamente proporcional a la desviación estándar de la variable • inversamente proporcional al coeficiente de confianza. # Intervalo de Confianza para la PROPORCIÓN POBLACIONAL π Tomando la expresión general del intervalo de confianza podemos construir uno para π, teniendo en cuenta que su estimador p tiene distribución normal si n es suficientemente grande, donde: π (1 − π ) E(p) = π σp = n la expresión del intervalo sería:. P ( p - Z (αα/2) . σ p ≤ π ≤ p + Z (αα/2).σ σ p) = 1- α Como π es desconocido, entonces el error estándar de p se calculará como:. σp =. p (1 − p ) n. , utilizando el FCPF cuando corresponda.. Ejemplo intervalo de confianza para la proporción poblacional: Para establecer el porcentaje de semillas viables que producen los tarcos, un investigador tomó una muestra de 120 semillas y las puso a germinar. Al cabo de un tiempo contó el número de semillas germinadas, obteniendo un valor de 83% para el porcentaje de semillas germinadas. Construya el intervalo de confianza del 95% para el porcentaje de semillas germinadas.. σp =. p (1 − p) 0,83.0,17 = = 0,0343 n 120. Inferencia Estadística - 2016. 7.

(8) P (p - z (α/2) σp ≤ π ≤ p + z (α/2) σp ) = 1 - α P (0,83 - 1,96 . 0,0343 ≤ π ≤ 0,83 + 1,96 .0,0343) = 0,95 P (0,83 - 0,067 ≤ π ≤ 0,83 + 0,067) = 0,95 π [0,763; 0,897] 95%. # Intervalo de Confianza para la DIFERENCIA DE PROPORCIONES (∆π) Dadas dos poblaciones, si p1 y p2 provienen de una muestra tomada al azar de cada población, y n1 y n2 son lo suficientemente grandes, la distribución de ∆p será aproximadamente normal, y podemos construir el I de C para ∆π π como:. P ( ∆p - Z (αα/2) . σ ∆p ≤ ∆π ≤ ∆p + Z (αα/2) . σ ∆p) = 1- α donde ∆p = (p1 - p2) y ∆π π = (π π1 - π2) Como π1 y π2 son desconocidos usamos sus estimadores puntuales para calcular el error típico de ∆p:. σ ∆p =. p1 (1 − p1 ) p2 (1 − p2 ) + n1 n2. Ejemplo intervalo de confianza para la diferencia de proporciones poblacionales: Se desea estimar, con una confianza del 95%, la diferencia en la proporción de plantas sanas entre dos poblaciones. Se tomó una muestra de 300 plantas de la población 1 y 260 de la población 2 y se registró el estado sanitario. Resultó que en la primera muestra 67 plantas de estaban sanas, mientras que en la segunda sólo 45. Se puede calcular:. σ ∆p =. p1 = 67/300 = 0.22. p1 (1 − p1 ) p 2 (1 − p 2 ) + = n1 n2. p2 = 45/250 = 0.18. 0.22(0.78) 0.18(0.82) + = 0.034 300 250. P ( ∆p - Z (α/2) . σ ∆p ≤ ∆π ≤ ∆p + Z (α/2) . σ ∆p) = 1- α P ( - 0.0266 ≤ ∆π ≤ 0.1066) = 0.95. # Intervalo de Confianza para la DIFERENCIA DE MEDIAS (∆µ) Dadas dos poblaciones (1 y 2), si se extrae una muestra de tamaño n1 de la población 1 y una muestra de tamaño n2 de la población 2, podemos calcular la diferencia de las medias muestrales ( x 1 - x 2), y utilizarla para estimar ∆µ utilizando la siguiente expresión:. Inferencia Estadística - 2016. 8.

(9) P ∆x − kα ⋅ σ ∆x ≤ ∆µ ≤ ∆x + kα ⋅ σ ∆x  = 1 − α 2 2   El multiplicador de confianza utilizado en la construcción del intervalo dependerá de la distribución que se espera que tenga ∆ x . La fórmula para calcular el error estándar de ∆ x y los grados de libertad (δ), si correspondiera, dependerá del caso. (Los casos se presentan en la teoría de distribuciones muestrales). # Intervalo de confianza para la VARIANZA POBLACIONAL (σ 2) 2. Si S es la varianza de una muestra de tamaño n tomada de una población con distribución normal, entonces el estadístico. X = 2. (n − 1).S 2. σ2. 2 tiene una distribución X con δ = (n - 1) grados de libertad.. Este estadístico se utiliza para realizar inferencias respecto de la varianza poblacional σ2. Para estimar la varianza poblacional se construye el intervalo de confianza de la siguiente forma: 2   (n − 1). S 2 ( − 1 ). n S 2  = (1 − α ) ≤σ ≤ 2 P  X δ2, α / 2 X δ , (1−α / 2 )  . donde δ = (n - 1). Ejemplo intervalo de confianza para la varianza poblacional: Se analizó una muestra de 41 plantas de tabaco de 2 meses de edad 2 determinando que la varianza es de 8,3 cm . Estime la variabilidad de la población con una confianza del 95%. Datos: S2 = 8,3. n = 41.  (n − 1). S 2 (n − 1). S 2  (41 − 1).8,3   (41 − 1).8,3 2 P ≤ σ ≤ P ≤σ 2 ≤  = 0,95 =0,95 → 2 2  X  X 59 , 34 24 , 43   δ ,α / 2 δ , (1 − α / 2 )   P (5,595 ≤ σ2 ≤ 13,590) = 0,95. Inferencia Estadística - 2016. 9.

(10)

Referencias

Documento similar

Entre nosotros anda un escritor de cosas de filología, paisano de Costa, que no deja de tener ingenio y garbo; pero cuyas obras tienen de todo menos de ciencia, y aun

Habiendo organizado un movimiento revolucionario en Valencia a principios de 1929 y persistido en las reuniones conspirativo-constitucionalistas desde entonces —cierto que a aquellas

The 'On-boarding of users to Substance, Product, Organisation and Referentials (SPOR) data services' document must be considered the reference guidance, as this document includes the

In medicinal products containing more than one manufactured item (e.g., contraceptive having different strengths and fixed dose combination as part of the same medicinal

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

Package Item (Container) Type : Vial (100000073563) Quantity Operator: equal to (100000000049) Package Item (Container) Quantity : 1 Material : Glass type I (200000003204)