Optimización de región de contraste mediante la prueba de hipótesis, utilizando p valores en el lema de Neyman Pearson
64
0
0
Texto completo
(2) “OPTIMIZACIÓN DE REGIÓN DE CONTRASTE MEDIANTE LA PRUEBA DE HIPÓTESIS, UTILIZANDO P-VALORES EN EL LEMA DE NEYMAN PEARSON”. Tesis presentada por:. Bach. Luisa Graciela Urure Tejada. JURADO: Dr. Eddy Augusto Gutiérrez Rodríguez:. ___________________________________. Mg. Roger Edwar Mestas Chávez:. ___________________________________. Dr. Daniel Octavio Roque Roque:. ___________________________________. Fecha de Aprobación: 20 de diciembre del 2018..
(3) DEDICATORIA Dedico esta tesis a Dios, a la Virgen María, quienes inspiraron mi espíritu para la conclusión de este trabajo. A mis padres Carlos y Nelida quienes me dieron vida, educación, apoyo y consejos para poder llegar a ser un profesional.. A mi hijo Gauthier Gabriel, por ser el motivo más grande de mi lucha constante, porque eres la razón de que me levante cada día esforzándome por el presente y el mañana, logrando dar lo mejor de mí día a día..
(4) AGRADECIMIENTOS A mis maestros quienes se han tomado el arduo trabajo de transmitirme sus diversos conocimientos. A mis hermanos y amigos, por su guía y consejos quienes sin su ayuda nunca hubiera podido hacer esta tesis. A mi asesor por el apoyo brindado durante la elaboración de mí tesis. A la Universidad Nacional de San Agustín por darme la oportunidad de estudiar y ser un profesional..
(5) ii. Resumen De una población se puede obtener varias muestras aleatorias, dependiendo si se relaciona con reemplazo o sin reemplazo y por definición un estimador es función de la muestra aleatoria. Para el estudio de distribución de confianza es suficiente una sola muestra aleatoria y, así podemos demostrar el lema de Neyman-Pearson en una primera parte en su forma clásica luego generalizar este lema usando el p-valor, para lo cual en el presente trabajo de tesis obtendremos una muestra aleatoria mediante la simulación utilizando el lenguaje R, para luego ejecutar una prueba de hipótesis y obtener al mismo tiempo intervalos de confianza. Palabras claves: Distribución de confianza, estimador, p-valor, simulación, lenguaje R..
(6) iii. Abstract Of a population you can be obtained several random samples, depending on whether it relates to replacement or without replacement and is by definition an estimator function in the random sample. For studying distribution of confidence is sufficient a single random sample and thus can demonstrate the Neyman-Pearson in a first part in its classical form then generalize this theme using the p-value, for which in this thesis we get a random sample by simulation using the R language, and then perform a hypothesis test and get at the same time confidence intervals. Keywords: Distribution of confidence, estimator, p-value, simulation, R language..
(7) iv. Introducción. En Análisis Estadístico cuando se desarrolla estimaciones de parámetros, la que mas se utiliza en la práctica es la estimación por intervalos, que consiste en calcular la probabilidad de que el parámetro estimado se encuentre dentro de un intervalo aleatorio, ésta probabilidad se conoce como nivel de confianza, sin embargo, para situaciones teóricas es importante desarrollar la estimación puntual y conocer las propiedades de los mismos. En el presente trabajo de tesis fundamentalmente se utilizará la propiedad de suficiencia de un estimador que consiste en utilizar toda la información de una muestra para estimar el parámetro deseado. Paralelamente al estudio de estimaciones se desarrolla lo concerniente a la prueba de hipótesis mas conocido en el campo de la inferencia estadística como contraste de hipótesis que consiste en especificar no solo la forma funcional de la distribución, sino también los valores de todos los parámetros de la población en estudio. La prueba de hipótesis se estudia en varias versiones, la mas utilizada por situaciones didácticas es utilizando un estadístico de prueba que permite encontrar un valor crítico que nos permite encontrar un intervalo de rechazo, este intervalo de rechazo nos puede generar una región que es igual área dada por el nivel significancia , este concepto de región nos lleva a otro concepto mas importante dentro de la estadística inferencial la razón de verosimilitud, que ha sido muy bien aprovechado por Neyman-Pearson para estudiar la prueba de hipótesis, de modo que generó el famoso lema de Neyman-Pearson, lo cual abrió las posibilidades de estudiar desde otro punto de vista, con mayor argumento matemático lo que significa la prueba de hipótesis. Posteriormente el lema de Neyman-Pearson se generaliza a la utilización de p-valor con mayor argumento matemático, ya que el p-valor es de mayor generalidad que el concepto de nivel de confianza. Por otro lado, el concepto de p-valor nos da mayor facilidad para el uso en casos computacionales tanto en el estudio de estimaciones como contraste de hipótesis, utilizando algún paquete estadístico o algún lenguaje de programación. En el presente trabajo de tesis se utilizará el lenguaje R por ser libre y de mayor accesibilidad para su propia instalación y muy cómodo para situaciones didácticas. En el presente trabajo de tesis se propone los siguientes objetivos específicos: 1. Demostrar analíticamente el lema clásico de Neyman-Pearson..
(8) v. 2. Utilizar en concepto de p-valor en el lema de Neyman-Pearson para una prueba de hipótesis. 3. Simular una muestra aleatoria mediante el lenguaje R para obtener estimación de parámetros y prueba de hipótesis. Asimismo, debo indicar, que la estructuración del presente trabajo de tesis es como sigue: en el capítulo 1 se desarrolla lo que significa estadística suficiente, familia exponencial, método de máxima verosimilitud, método de los momentos y estimación por intervalos. En el capítulo 2 se estudia la distribución de confianza, prueba de razón de verosimilitud, formulación de la prueba de hipótesis y el lema clásico de Neyman-Pearson. En el capítulo 3 se desarrolla el lema de Neyman-Pearson para p-valores, lema de Neyman-Pearson para distribuciones de confianza de confianza, luego simulación computacional de una muestra. Finalmente, las conclusiones. Luisa Graciela Urure Tejada..
(9) vi. Índice General Resumen .................................................................................................................................... ii Introducción ............................................................................................................................. iv Capítulo 1. Nociones generales y estimación puntual de parámetros.................................. 1 1.1. Estadística suficiente.................................................................................................... 1. 1.2. Familia Exponencial de distribuciones de probabilidad y densidades. ....................... 9. 1.3. Método de máximo verosimilitud. ............................................................................. 15. 1.4. Método de los momentos ........................................................................................... 18. 1.5. Estimación intervalar ................................................................................................. 20. 1.5.1 Cantidad pivotal ................................................................................................................... 21. Capítulo 2. Contraste de hipótesis ........................................................................................ 23 2.1. Introducción. .............................................................................................................. 23. 2.2. Distribución de confianza. ......................................................................................... 23. 2.3. Prueba de la razón de verosimilitud ........................................................................... 26. 2.4. Formulación de la prueba de hipótesis....................................................................... 32. 2.5. Pruebas de hipótesis e intervalos de confianza .......................................................... 37. 2.6. Lema clásico de Neyman-Pearson ............................................................................. 39. Capítulo 3. Lema de Neyman-Pearson para distribuciones de confianza ......................... 43 3.1. Lema de Neyman-Pearson para p-valores .................................................................. 43. 3.2. Estudio de simulación ................................................................................................ 50. Conclusiones............................................................................................................................ 54 Bibliografia.............................................................................................................................. 55.
(10) 1. Capítulo 1. Nociones generales y estimación puntual de parámetros. 1.1 Estadística suficiente En la estadística clásica se utiliza la inferencia estadística para probar conjeturas estadísticas. Una conjetura estadística es una afirmación que debe ser probada en dos partes: hipótesis nula e hipótesis alternativa, en la cual estamos interesados, a partir de informaciones obtenidas de una parte de la población denominada muestra. A nivel muestral se considera estadísticos y para poblaciones se utiliza el término parámetros, el concepto de parámetros son funciones de valores poblacionales, mientras que estadística son funciones de valores muestrales. En un primer caso se habla de estadísticos puntuales que son unos valores reales, por lo que, un buen estimador puntual tiene propiedades como insesgamiento, consistencia, eficiencia y suficiente. Se puede generar varias muestras del mismo tamaño a partir de los elementos de una población, que cada muestra da como resultado un estadístico, en ese contexto, para el presente trabajo de tesis es suficiente una de esas muestras. Sea X1, X2, …, Xn una muestra aleatoria de tamaño n de una población con función de densidad o probabilidad f(x, ), donde x es una variable aleatoria y el parámetro, de modo que; sea la función 𝑡: ℝ𝑛 → ℝ es un estadístico definido por: T = t(X1, X2, …,Xn) La estadística T conglomera el resumen de la muestra aleatoria X1, X2, …., Xn en una variable aleatoria simple, que viene hacer el estadístico, de modo que, tal resumen es una valor unidimensional que permitirá trabajar adecuadamente que con cantidades n-dimensionales. Para tal efecto, supongamos que ={(X1, X2, …, Xn) / Xi es una variable aleatoria para todo i = 1, 2,..,,n} un espacio muestral de observaciones, esto es, es el conjunto de vectores n-dimensionales cuyas componentes son variables aleatorias. Entonces la función 𝑡: ℝ𝑛 → ℝ definida por: T = t(X1, X2, …,Xn) = t0 A ℝ.
(11) 2. Esta definición induce una partición del espacio por la propia definición del estadístico, como veremos en el siguiente ejemplo. Ejemplo 1.1. Sea una población de valores 1, 2, 3 y 4. Dada una muestra de tamaño 2 sin reemplazo para obtener un estadístico dado. Sean las muestras (1; 2), (1; 3), (1; 4) (2; 1), (2; 3), (2; 4) (3; 1), (3; 2), (3; 4) (4; 1), (4; 2), (4; 3) Definimos una función 𝑡: ℝ2 → ℝ por T = t( X1; X2) =. 𝑋1 +𝑋2 2. En efecto, resulta 1,5; 2,0; 2,5 1,5; 2,5; 3,0 2,0; 2,5; 3,5 2,5; 3,0; 3,5 Estos valores generan una partición en el espacio muestral así. T = t(X1;X2) =. 𝑋1 +𝑋2 2. (el estadístico), definida en toma los valores: 1= {(1; 2), (2; 1)} entonces t{(1; 2}= t{(2; 1)} = 1,5. 2= {(1;3), (3;1)} entonces t{(1; 3)}=t{(3;1)}= 2. 3= {(1;4), (2;3), (3;2), (4;1)} entonces t{(1;4)}=t{(2; 3)}= t{(3; 2)} = t{(4; 1)} = 2,5. 4 = {(4; 2), (2; 4)} entonces t{(4;2)}= t{(2; 4) = 3. 5 = {(3; 4), (4; 3)} entonces t{(3; 4)} = t{(4; 3)} = 3,5. Es decir, los valores 1,5; 2; 2,5; 3; 3,5 Estos valores generan una partición mediante la aplicación t, que en espacio la partición estará formada por los siguientes sub-conjuntos..
(12) 3. {(1;2), (2;1)}, {(1;3), (3;1)}, {(1;4), (2;3), (3;2), (4;1)}, {(4;2), (2;4)}, {(3;4), (4;3)} Este hecho se visualiza en la siguiente gráfica, es decir, en lugar de tener 12 conjuntos se representa con 5 valores: ℝ2 t ℝ (1;2), (2;1). 3,5. (1;3), (3;1). 3 2,5. (1;4), (2;3), (3;2), (4;1) (4;2), (4;2). 2 1,5. (3;4), (4;3). Figura. 1.1. Partición según la estadística T. Definición 1.1. Sea X1, X2, …,Xn una muestra aleatoria extraída de una población con función de densidad o con función de probabilidad según sea el caso, continuo o discreto, f(x, ). Se dice que la estadística T = t(X1, X2,…,Xn) es suficiente para si y solo si la distribución condicional de (X1, X2,…,Xn) es dado por: T = t(X1, X2,…,Xn) es independiente de , para todo , en otras palabras, P[(X1, X2, …,Xn) = (x1, x2,…,xn) / T=t(X1, X2, …,Xn)] es independiente de . Con denotaremos el espacio de parámetros..
(13) 4. Ejemplo 1.2. Supongamos que tenemos ensayos o experimentos aleatorios que consisten únicamente de dos resultados, éxitos o fracaso, podemos realizar varios ensayos cuyos resultados de cada uno de ellos sean siempre éxito o fracaso, de los cuales solo nos interesa el número de éxitos, eso significaría que estamos en una población binomial cuyo modelo es: 𝑘 p(x) = ( )px(1-p)k-x ; x = 0, 1, 2,…,k 𝑥 Cuando X es de la población Binomial, denotamos X Bin(x; k, p) tiene dos parámetros, k número de ensayos y p es la probabilidad de éxitos en un ensayo dado. Sea X1, X2, …, Xn una muestra aleatoria de tamaño n de la población binomial, eso significa que cada Xi Bin(xi; k, p), i = 1, 2, …, n. Definimos T = ∑𝑛𝑖=1 𝑋𝑖 = t(X1, X2, …,Xn) y, probaremos que T es una estadística suficiente para p. En efecto. Para T = ∑𝑛𝑖=1 𝑋𝑖 𝑛 ocurren exactamente ( ) resultados favorables (éxitos), cada una con probabilidad éxito p en 𝑡 las n muestras, entonces T = ∑𝑛𝑖=1 𝑋𝑖 Bin(x; n, p) O sea, 𝑛 P[T = t] = ( )pt(1-p)n-t 𝑡 Luego,. P[(X1, X2, …,Xn)/T = t] =. 𝑃[𝑋1 =𝑥1 , 𝑋2 =𝑥2 ,…,𝑋𝑛 =𝑥𝑛 ,𝑇=𝑡] 𝑃[𝑇=𝑡]. =. 𝑃[𝑋1 =𝑥1 ]𝑝[𝑋2 =𝑥2 ]…𝑝[𝑋𝑛 =𝑥𝑛 ] 𝑛 ( )p𝑡 (1−𝑝)𝑛−𝑡 𝑡. =. 𝑝𝑥1 (1−𝑝)1−𝑥1 𝑝𝑥2 (1−𝑝)1−𝑥2 ….𝑝𝑥𝑛 (1−𝑝)1−𝑥𝑛 𝑛 ( )𝑝𝑡 (1−𝑝)𝑛−𝑡 𝑡.
(14) 5. =. 𝑝𝑥1 +𝑥2 +⋯+𝑥𝑛 (1−𝑝)1+1+⋯+1−𝑥1 −𝑥2 −⋯−𝑥𝑛 𝑛 ( )𝑝𝑡 (1−𝑝)𝑛−𝑡 𝑡. =. 𝑝𝑡 (1−𝑝)𝑛−𝑡 𝑛 𝑡 ( )𝑝 (1−𝑝)𝑛−𝑡 𝑡. =. 1 𝑛 ( ) 𝑡. 𝑛 −1 =( ) 𝑡 Como observamos que este último valor no depende del parámetro p, por lo tanto T = ∑𝑛𝑖=1 𝑋𝑖 es una estadística suficiente para el parámetro p. En el ejemplo 1.2 podemos notar que para comprobar vía definición de estadística suficiente es tediosa y mucho manejo matemático, sin embargo, existen resultados como el teorema siguiente conocido como el teorema de factorización, propuesto por Fischer y Neyman que facilitan este trabajo. Teorema 1.1 Sea (X1, X2, …,Xn) una muestra aleatoria extraída de una población con función de densidad de probabilidad f(x, ). La estadística T = t(X1, X2, …,Xn) ℝ es suficiente para si y solo si, existen funciones g y h tal que la función de cuantía conjunta de X1, X2, …,Xn se puede factorizar como sigue p(X1, X2, …,Xn; ) = g(T(X1, X2, …,Xn), )h(X1, X2,…,Xn) en donde g(T, ) es una función que depende solamente de y de la muestra a través del estadístico T(X1, X2, …,Xn ) y h(X1, X2, …,Xn) es no negativa y no depende de . Demostración. (Suficiente) Supongamos que el estadístico T = t(X1, X2, …,Xn) = t es suficiente para . Entonces P[(X1, X2, …,Xn) = (x1, x2,…,xn) / T=t(X1, X2, …,Xn)] = k(x1, x2,…,xn;t) Es independiente de , luego P[(X1, X2, …,Xn) = (x1, x2,…,xn) / T=t(X1, X2, …,Xn)] =. 𝑝[(𝑋1 ,…,𝑋𝑛 )=(𝑥1 ,…,𝑥𝑛 );] 𝑃[𝑇=𝑡].
(15) 6. De modo que P(X1, X2, …,Xn; ) = P[(X1, X2, …,Xn) = (x1, x2,…,xn) / T=t(X1, X2, …,Xn)]P[T=t] = k(x1, x2,…,xn;t)P[T = t; ] = g(T(X1, X2, …,Xn), )h(X1, X2,…,Xn).. (Necesario) Ahora, supongamos que existen funciones g y h tal que P(X1, X2, …,Xn; ) = g(T(X1, X2, …,Xn), )h(X1, X2,…,Xn) Por otro lado, P[T(X1, X2, …,Xn) = t;] = ∑{𝑥1′ ,…,𝑥𝑛′:𝑡(𝑥1′ ,…,𝑥𝑛′)=𝑡} 𝑃[(𝑋1 , … , 𝑋𝑛 ) = (𝑥1′ , … , 𝑥𝑛′ ] = ∑{𝑥1′ ,…,𝑥𝑛′:𝑡(𝑥1′ ,…,𝑥𝑛′)=𝑡} 𝑔(𝑡, 𝜃)ℎ(𝑥 ′ ) = g(t, )∑{𝑥1′ ,…,𝑥𝑛′:𝑡(𝑥1′ ,…,𝑥𝑛′)=𝑡} ℎ(𝑥 ′ ) Luego, P[(X1, X2, …,Xn) = (x1, x2,…,xn); / T=t(X1, X2, …,Xn)]. =. 𝑝[(𝑋1 ,…,𝑋𝑛 )=(𝑥1 ,…,𝑥𝑛 );] 𝑃[𝑇=𝑡,𝜃]. P[X1 =x1 ,…,Xn =xn ;θ]. ={. P[t;θ]. , si t(x1 , … , xn ) = t = T. 0. = g(t,) ∑. ,. en otro caso. 𝑔(𝑡,𝜃)ℎ(𝑥1 ,…,𝑥𝑛 ). ℎ(𝑥 {𝑥′1 ,…,𝑥′𝑛 :𝑡(𝑥′1 ,…,𝑥′𝑛 )=𝑡}. ′). Es independiente de . Por tanto T = t(X1, …,Xn) es una estadística suficiente para . .
(16) 7. Ejemplo 1.3. Tomemos una población que tenga como función de densidad la distribución exponencial −θx f(x) = { θe , x ≥ 0 0, en otro caso. donde es el parámetro. Sea una muestra aleatoria X1, X2, …, Xn de tamaño n obtenida de esta población. Encontrar un estadístico para según el teorema de factorización. En efecto. Para X1, X2, …, Xn la función de densidad conjunta esta, dada por: f(X1, X2, …, Xn; ) = f(X1 = x1)f(X2= x2)…f(Xn= xn) = 𝑒 −𝜃𝑥1 𝑒 −𝜃𝑥2 …𝑒 −𝜃𝑥𝑛 = n𝑒 −𝜃[𝑥1 +𝑥2 +⋯+𝑥𝑛] = n𝑒 −𝜃[𝑥1 +𝑥2 +⋯+𝑥𝑛] . 1 de donde se observa que h(X1, X2,…,Xn) = 1 y g(T(X1, X2, …,Xn), ) = n𝑒 −𝜃[𝑥1 +𝑥2 +⋯+𝑥𝑛] = n𝑒 −𝜃𝑡 Para t (x1, x2, …, xn) = x1 + x2 + xn = ∑𝑛𝑖=1 𝑥𝑖 es una estadística suficiente para parámetro poblacional . Por lo tanto, la suma de los valores de las variables aleatorias que representa una muestra aleatoria es un estadístico suficiente en la poblacional exponencial. Ejemplo 1.4. Sea una población definida mediante la función de densidad gamma definida por: 1. x −1 e−x/ , x 0 f(x; , ) = {() 0, en otro caso.
(17) 8. donde , son valores positivos y () es la función gamma. En este caso, cuando una variable aleatoria X decimos que sigue la distribución gamma con parámetros y se denota por X gamma(x; , ). Sea X1, X2, …, Xn una muestra aleatoria de tamaño n. Encontrar un estadístico suficiente para suponiendo un caso particular = 1. En efecto, los elementos de una muestra aleatoria son independientes, ese hecho nos permite obtener la siguiente función de densidad conjunta f(X1, X2, …, Xn; , 1) = f(X1 = x1)f(X2= x2)…f(Xn= xn). =. =. =. 𝑥1−1 𝑒 −𝑥1 𝑥2−1 𝑒 −𝑥2. (). .. (𝑥1 𝑥2 …𝑥𝑛 )−1 (())𝑛. (𝑥1 𝑥2 …𝑥𝑛 )−1 (())𝑛. (). …. −1 𝑒 −𝑥𝑛 𝑥𝑛. (). 𝑒 −𝑥1 −𝑥2−⋯−𝑥𝑛. 𝑒 −(𝑥1 +𝑥2 +⋯+𝑥𝑛). donde, g(T(X1, X2, …,Xn), ) =. (𝑥1 𝑥2 …𝑥𝑛 )−1 (())𝑛. y h(X1, X2,…,Xn) = 𝑒 −(𝑥1 +𝑥2 +⋯+𝑥𝑛). A partir del valor de la función de n variables de h podemos obtener que t(x1, x2, …, xn) = x1 + x2 + … + xn O, sea la suma de valores de las n variables aleatorias que conforman una muestra aleatoria de tamaño n es el estadístico suficiente para estimar el parámetro , en la población con distribución gamma..
(18) 9. 1.2 Familia Exponencial de distribuciones de probabilidad y densidades. En esta sección introducimos una clase de distribuciones de probabilidad o de funciones de densidad que cumplen cierta característica al descomponer en varias funciones la distribución de probabilidad o a la propia función de densidad, esto nos permitirá saber si dichas distribuciones que representan a determinadas poblacionales tengan estadísticas suficientes. Estas descomposiciones, se realiza utilizando algunos argumentos de matemáticas que es una herramienta para expresar de manera equivalente las distribuciones de probabilidades. Particularmente las propiedades de suficiencia de un estimador puntual tiene particularidades que permite utilizar una de las muestras aleatorias para estimar un parámetro poblacional. Por lo que existen conceptos muy importantes que fortalecen el teorema de factorización. En ese sentido, vamos definir una clase o familia de distribuciones en la que todos los parámetros de las distribuciones que la integran tienen estadísticas suficientes. Este grupo de distribuciones recibe el nombre de familia exponencial de distribuciones, y podremos obtener estadísticos suficientes del parámetro con esta familia. Definición 1.2. Sea F(x; ) una función de distribución dependiendo de un único parámetro. Se dice que pertenece a la familia exponencial si su función de densidad (o función de cuantía) puede expresarse así f(x; ) = exp{a()b(x) + c() + d(x)} donde la caracterización de las funciones es como sigue: a) a() y c() son funciones reales de , y b) b(x) y d(x) son funciones reales de x. Esta forma de distinguir las funciones dadas facilita el trabajo matemático en el momento de realizar cálculos operacionales cuando queremos que una determinada distribución de probabilidad sea de la familia exponencial. Ejemplo 1.5. Se dice que una variable aleatoria X está distribuida uniformemente en a x b si su función de densidad es: 1. f(x) =. {𝑏−𝑎. , 𝑎 ≤𝑥 ≤𝑏. 0 , en otro caso. Encontrar las funciones representativas de la familia exponencial..
(19) 10. En efecto, en este modelo tenemos como parámetros a y b, de modo que cualquier variable aleatoria X u(x; a, b) Y, el modelo que queremos para esta función de densidad es de la forma siguiente: f(x; ) = exp{a()b(x) + c() + d(x)} entonces 1. f(x) = exp{ln(𝑎−𝑏)} = exp{ln 1 – ln(a-b)}. = exp{-ln(a-b)1} De donde se observa que a(a,b) = -ln(a-b), b(x) = 1 no existe c(a, b) ni la función d(x). Eso implica que la distribución uniforme no es de la familia exponencial. Cuando consideremos una muestra aleatoria X1, X2, …,Xn de tamaño n extraída de una población con función de distribución dada F(x), aparecen un conjunto de funciones de cuantía o funciones de densidades según sea el caso, discreto o continua, será de una familia exponencial uniparamétrica, si la función de cuantía o densidad conjunta es de la forma: f(x1, x2, …,xn; ) = exp{a()b(x1, x2,…,xn) + c() + d(x1, x2,…,xn)} Ejemplo 1.6. Sea X1, X2, …, Xn una muestra aleatoria de tamaño n extraída de una población con distribución binomial negativa de parámetros r y , 0 < < 1. Justificar que distribución de probabilidad definida por: p(x) = (. 𝑥+𝑟−1 𝑟 ) 𝜃 (1 − 𝜃)𝑥 ; x = r, r+1, … 𝑥. es de la familia exponencial. En efecto, en este caso cuando la variable aleatoria X tiene distribución binomial negativa se denota por: X b*(x; r, ) Ahora tomamos una muestra aleatoria X1, X2, …,Xn para obtener.
(20) 11. p(x1, x2, …,xn; ) = p(x1, )p(x2, )…p(xn, ) = ∏𝑛𝑖=1 𝑝(𝑥𝑖 , 𝜃) =(. 𝑥1 + 𝑟 − 1 𝑟 𝑥 +𝑟−1 𝑟 ) 𝜃 (1 − 𝜃)𝑥1 ….( 𝑛 ) 𝜃 (1 − 𝜃)𝑥𝑛 𝑥𝑛 𝑥1. = (∏𝑛𝑖=1 (. 𝑛 𝑥𝑖 + 𝑟 − 1 )) 𝜃 𝑛𝑟 (1 − 𝜃)∑𝑖=1 𝑥𝑖 𝑥𝑖. 𝑛 𝑥 +𝑟−1 = exp(ln ((∏𝑛𝑖=1 ( 𝑖 )) 𝜃 𝑛𝑟 (1 − 𝜃)∑𝑖=1 𝑥𝑖 )) 𝑥𝑖. 𝑥 +𝑟−1 = exp(∑𝑛𝑖=1 𝑙𝑛 ( 𝑖 ) + 𝑛𝑟𝑙𝑛(𝜃) + ∑𝑛𝑖=1 𝑥𝑖 (ln(1 − 𝜃))) 𝑥𝑖 𝑥 +𝑟−1 = exp(ln(1 − 𝜃) ∑𝑛𝑖=1 𝑥𝑖 + 𝑛𝑟(ln(𝜃)) + ∑𝑛𝑖=1 𝑙𝑛 ( 𝑖 )) 𝑥𝑖 Esta expresión toma la forma de f(x1, x2, …,xn; ) = exp{a()b(x1, x2,…,xn) + c() + d(x1, x2,…,xn)} O sea a() = ln(1- ) b(x1, x2, …,xn) = ∑𝑛𝑖=1 𝑥𝑖 c() = nr(ln()) y 𝑥 +𝑟−1 d(x1, x2, …,xn) = ∑𝑛𝑖=1 𝑙𝑛 ( 𝑖 ) 𝑥𝑖 Por lo tanto, la distribución de probabilidad binomial negativo es de la familia exponencial. Ejemplo 1.7. En la población de proporciones de n ensayos con k éxitos, donde k n, generalmente esta población se representa por la distribución binomial. Para esta población encontrar las funciones a(p), c(p), b(x) y d(x). En efecto, cuando la variable aleatoria X pertenece a la población de proporciones de éxitos respecto al número total de ocurrencia, se representa por:.
(21) 12. X Bin(n, p) donde p es el parámetro poblacional. Entonces, el modelo representativo es: 𝑛 p(x) = ( ) 𝑝 𝑥 (1 − 𝑝 )𝑛−𝑥 , x = 0, 1, 2, …, n 𝑥 Ahora aplicando el argumento exp(ln(t)) se tiene 𝑛 p(x) = exp(ln (( ) 𝑝 𝑥 (1 − 𝑝 )𝑛−𝑥 ) ) , x = 0, 1, 2, …, n 𝑥 Utilizando adecuadamente las propiedades logarítmicas y, poniendo en la forma f(x; p) = exp{b(x)a(p) + c(p) + d(x)}. se tiene, 𝑛 𝑝 p(x) = exp{xln(1−𝑝) + nln(1- p) + ln( )} 𝑥 Luego, 𝑝. a(p) = ln(1−𝑝). c(p) = nln(1- p). b(x) = x y 𝑛 d(x) = ln( ) 𝑥 Por consiguiente, el modelo binomial pertenece a la familia exponencial. Ejemplo 1.8. Existen modelos probabilísticos que finalizan cuando se halla el primer éxito, caso modelo geométrico cuya función de probabilidad es: p(x) = p(1-p)x , x = 1, 2,… ; 0 < p < 1 donde p es único parámetro. ¿Es de la familia exponencial? En efecto, esta población es de un solo parámetro, entonces p(x) = exp{ln(p(1-p))x). = exp{ xln(p(1-p))}.
(22) 13. = exp{xln(p) + xln(1-p)} 𝑝. = exp{xln(𝑝−1)} f(x; ) = exp{a()b(x) + c() + d(x)} de donde se observa que 𝑝. a(p) = ln(𝑝−1) y, b(x) = x no existe c(p) ni d(x). Por lo tanto, este modelo no pertenece a la familia exponencial. Según los ejemplos anteriores, podemos ver que no todos los modelos probabilísticos son de la familia exponencial, las que son, según la teoría de estimaciones puntuales tiene una estadística suficiente. Para mayor claridad de los modelos de la familia exponencial de distribuciones uniparamétricas, presentaremos en una tabla con sus respectivas funciones a(), c(), b(x) y d(x), donde representa a cualquier parámetro de la población.. Distribución. f(x;). a(). b(x). c(). Poisson. 𝜃 𝑥 𝑒 −𝜃 𝑥!. ln. x. -. -lnx!. e-x. -. x. ln. 0. x. nln(1- ). Exponencial. 𝑛 𝑝 ( ) 𝑥 (1 − )𝑛−𝑥 ln( ) 1−𝑝 𝑥. Binomial. 1. N(, 1). 1 (𝑥−𝜇)2. 𝑒 −2. 𝜇. x. 𝑛 𝑥 𝑛−1 𝑒 −𝑥. -. x. √2𝜋 Gamma (un parámetro). -. 𝑙𝑛2𝜋 2. −. d(x). 𝜇2 2. (n-1)ln(x). 𝑛 ln( ) 𝑥 -. 𝑥2 2. nln()-ln(n-1)!. (𝑛 − 1)!. Tabla 1.1: Valores de factores de la familia exponencial elaborada por Garthwaite, Jolliffe & Byron (1995). En el caso de distribuciones de k parámetros , la definición 1.2 se generaliza de la manera siguiente f(x; ) = exp{∑𝑘𝑖=1 𝑎𝑖 (𝜃1 , … , 𝜃𝑘 )𝑏𝑖 (𝑥) + c(1, …,k) + d(x)}.
(23) 14. = c*((1, …,k)d*(x) exp{∑𝑘𝑖=1 𝑎𝑖 (𝜃1 , … , 𝜃𝑘 )𝑏𝑖 (𝑥)} con c*(𝜃1 , … , 𝜃𝑘 ) = exp{c(𝜃1 , … , 𝜃𝑘 )}, d*(x) = exp{d(x)}. Ejemplo 1.9. Sea una muestra aleatoria X1, X2, …,Xn un muestra de tamaño n tomada de la población con modelo gamma x−1 e−x/β. f(x) = {. (). 0 ,. , 𝑥>0. en otro caso. cuyos parámetros son y , encontrar las funciones a(, ) , c(, ), b(x1, x2,…,xn) y d(x1, x2, …,xn). En efecto, sabemos que la distribución gamma tiene dos parámetros y , para lo cual, sea X gamma(x; , ) donde y son valores positivos. Entonces f(x) =. 𝑥 −1 𝑒 −𝑥/𝛽. (). ; 0 < < ; > 0, 0 < x < . Ahora, sea f(x1, x2, …,xn; , ) = f(x1; , ) f(x2; , ) …f(x; , ) = ∏𝑛𝑖=1 𝑓(𝑥𝑖 ; 𝛼, 𝛽). = ∏𝑛𝑖=1. 𝑥𝑖𝛼−1 𝑒 −𝑥𝑖 /𝛽. (). = exp{𝑙𝑛 (∏𝑛𝑖=1. = exp{∑𝑛𝑖=1 𝑙𝑛 (. 𝑥𝑖𝛼−1 𝑒 −𝑥𝑖 /𝛽. (). 𝑥𝑖𝛼−1 𝑒 −𝑥𝑖 /𝛽. (). )}. )}. = exp{∑𝑛𝑖=1 ((𝛼 − 1) ln(𝑥𝑖 ) −. 𝑥𝑖 𝛽. − 𝑙𝑛(()𝛽 𝛼 ))}.
(24) 15. = exp{(𝛼 − 1) ∑𝑛𝑖=1 ln(𝑥𝑖 ) −. = exp{(𝛼 − 1) ∑𝑛𝑖=1 ln(𝑥𝑖 ) −. 1 𝛽. 1 𝛽. ∑𝑛𝑖=1 𝑥𝑖 − 𝑛(𝑙𝑛(()𝛽 𝛼 ))}. ∑𝑛𝑖=1 𝑥𝑖 − 𝑛𝑙𝑛(()) − 𝑛(ln()) + 0}. De donde obtendremos que a1() = - 1, b1(x1, x2, …,xn) = ∑𝑛𝑖=1 ln(𝑥𝑖 ) 1. a2() = 𝛽 , b2(x1, x2, …,xn) = ∑𝑛𝑖=1 𝑥𝑖 c(, ) = 𝑛𝑙𝑛(()) − 𝑛(ln()) y d(x1, x2,…,xn) = 0. Por lo tanto T = (b1(x1, x2, …,xn), b2(x1, x2, …,xn)) = (∑𝑛𝑖=1 ln(𝑥𝑖 ) , ∑𝑛𝑖=1 𝑥𝑖 ) es un estadístico suficiente para el par de parámetros (, ). 1.3 Método de máximo verosimilitud. Existe varios métodos para estimar parámetros, tenemos por ejemplo el método de estimación por momentos, cada método tiene ventajas y desventajas operacionalmente, El método de estimación por máximo verosimilitud se desarrolla sobre el concepto de que, diferentes valores de un parámetro de una población tienden a generar diferentes muestras. Por consiguiente, cualquier muestra puede ser más probable que haya sido extraído con ciertos valores paramétricos que otros, luego es razonable escoger aquel valor del parámetro que maximice la probabilidad de obtener una muestra observada. Por ejemplo, consideremos el conjunto de valores del parámetro y la siguiente distribución de probabilidades. X. 0. 1/3. 1. 0. 0,1. 2. 0,5 0,9. Tabla 1.2. Probabilidades para dos valores de ..
(25) 16. En esta tabla observamos que P[X=1/ = 0] = 0 < P[X=1/ = 1/3] = 0,1 esto nos dice que saquemos una muestra aleatoria cuando = 1/3, es decir, de mayor probabilidad. Análogamente, cuando X = 2, la extracción de muestra seria para = 1/3. En general, dado una muestra aleatoria X1, X2, …, Xn será escogida de aquella población que el valor de conduzca a la probabilidad de ocurrencia más alta. Así, la característica esencial del método de máxima verosimilitud es que la P[X1= x1, X2= x2, …, Xn = xn / ] = f(x1, x2, …,xn; ) es función de , que pueden ser valor de una mas alta en las x’s ya sea de función de cuantía o función de densidad, eso depende como son las variables aleatorias: discretas o continuas. Definición 1.3. Sea X1, X2, …, Xn una muestra aleatoria extraída de una población cuya función f(x1, x2, …,xn; ) dada en los valores observados x1, x2, …,xn de la muestra en función de . La función de verosimilitud de la muestra y es: L() = f(x1, x2, …,xn; ) = ∏𝑛𝑖=1 𝑓(𝑥𝑖 , 𝜃) Ejemplo 1.10. Cuando n es grande se trabaja con la distribución de Poisson cuya fórmula es: 𝑝(𝑥; ) =. 𝑥 𝑒 − 𝑥!. para x=0,1,2,3…. Encontrar la función de verosimilitud en la población Poisson. En efecto. Sea 𝑝(𝑥; ) =. 𝑥 𝑒 − 𝑥!. para x = 0, 1, 2, …. Entonces, la función de verosimilitud para una muestral de tamaño n con X1, X2, …, Xn se tiene L() = f(x1, x2, …,xn; ) = ∏𝑛𝑖=1. 𝑥𝑖 𝑒 − 𝑥𝑖 !. , para cada xi = 0, 1, 2, …. Definición 1.4. El estimador de máxima verosimilitud (EMV) de , denotado por 𝜃̂ = t(X1, …, Xn), basado en una muestra aleatoria X1, …, Xn es el valor de que maximiza a L(), esto es, L(𝜃̂ ) = 𝑚𝑎𝑥𝜃𝜖 {L()} Ya que, la función logaritmo es una función inyectiva y estrictamente creciente, entonces.
(26) 17. l() = ln(L()). y, obtener el valor máximo para l() es lo mismo obtener el valor máximo para L(), para lo cual, bastará resolver lo que se conoce como la ecuación de verosimilitud 𝜕(𝑙(𝜃)) 𝜕(𝜃). 𝜕. = 𝜕(𝜃) [ln(𝐿(𝜃)) = 0. Si la función de verosimilitud contiene k parámetros 1, 2, …, k, esto es, l(𝜃⃗) = L(1, 2, …, k) = f(x1, x2,…,xn; 1, 2, …, k) = ∏𝑛𝑖=1 𝑓(𝑥𝑖 ; 1, 2, … , k) Entonces los estimadores de máxima verosimilitud de los parámetros 1, 2, …, k son las variables aleatorias 𝜃̂1 = t1(X1,…, Xn) 𝜃̂2 = t2(X1, …, Xn) ………………… 𝜃̂k = tk(X1, …, Xn) Que maximizan l(𝜃⃗). En este caso, para obtener los estimadores de máxima verosimilitud de 1, 2, …, k, bastará resolver las ecuaciones simultáneas de verosimilitud. ⃗⃗)) 𝜕(𝑙(𝜃 𝜕(𝜃1 ). ⃗⃗)) 𝜕(𝑙(𝜃 𝜕(𝜃2 ). 𝜕. = 𝜕(𝜃 ) [ln(𝐿(𝜃⃗)) = 0 1. 𝜕 = 𝜕(𝜃 ) [ln(𝐿(𝜃⃗)) = 0 2. …………………… ⃗⃗)) 𝜕(𝑙(𝜃 𝜕(𝜃𝑘 ). 𝜕. = 𝜕(𝜃 ) [ln(𝐿(𝜃⃗)) = 0 𝑘.
(27) 18. Ejemplo 1.11. Dada la muestra de tamaño n, X1, …,Xn de la población de Poisson con parámetro . La función de verosimilitud es: L() = f(x1, x2, …,xn; ) = ∏𝑛𝑖=1. 𝑥𝑖 𝑒 − 𝑥𝑖 !. 𝑒 −𝑛 𝑥1 +𝑥2+⋯+𝑥𝑛. =. 𝑥1 !…𝑥𝑛 !. Aplicando logaritmo natural tendremos l() = -n + ln() ∑𝑛𝑖=1 𝑥𝑖 + 𝑙𝑛 (𝑥. 1. ). 1 !…𝑥𝑛 !. para maximizar esta función derivamos con respecto a 𝒏. 𝒅𝒍 𝟏 = −n + ∑ 𝒙𝒊 = 𝟎 𝒅 𝒊=𝟏. Luego, 1. ̂ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 = 𝑥̅. 1.4 Método de los momentos Puede haber muchas maneras de calcular un parámetro de una población, por eso, es deseable tener métodos más generales, así como el método de momentos, históricamente uno de los métodos de estimación más antiguo. El método de momentos consiste en igualar los primeros momentos de una población a los momentos correspondientes de una muestra, y despejar el parámetro a estimar. Definición 1.5. El k-ésimo momento de la muestra de una conjunto de observaciones X1,…, Xn es la media de sus k-ésimas potencias y se presenta por medio de 𝑚𝑘′ =. 𝑘 ∑𝑛 𝑖=1 𝑥𝑖. 𝑛. Y, si fi (frecuencia absoluta) veces se presenta el valor xi en la muestra. Entonces 𝑚𝑘′ =. 𝑘 ∑𝑛 𝑖=1 𝑥𝑖 𝑓𝑖. 𝑛. En muchas ocasiones, el k-ésimo momento según la definición 1.5 se conocen como momentos con respecto al origen. Así 𝑚0′ =. 0 ∑𝑛 𝑖=1 𝑥𝑖 𝑓𝑖. 𝑛. 𝑛. =𝑛=1.
(28) 19 ∑𝑛 𝑖=1 𝑥𝑖 𝑓𝑖. 𝑚1′ =. 𝑛. 𝑚2′ =. = 𝑋̅. 2 ∑𝑛 𝑖=1 𝑥𝑖 𝑓𝑖. 𝑛. Este momento se utiliza para calcular la varianza. Podemos hablar también, de momentos respecto a la media, estos son: 𝑚𝑘′ =. ̅ 𝑘 ∑𝑛 𝑖=1(𝑥𝑖 − 𝑋) 𝑓𝑖 𝑛. En esta clase operaciones, tendremos los primeros momentos: 𝑚0′ = 𝑚1′ = 𝑚2′ =. ̅ 0 ∑𝑛 𝑖=1(𝑥𝑖 − 𝑋) 𝑓𝑖. 𝑛. =𝑛=1. 𝑛 ̅ 1 ∑𝑛 𝑖=1(𝑥𝑖 − 𝑋) 𝑓𝑖 𝑛 ̅ 2 ∑𝑛 𝑖=1(𝑥𝑖 − 𝑋) 𝑓𝑖 𝑛. = 𝑋̅ − 𝑋̅ = 0 = S2. Los momentos de orden 3 y 4 con respecto a la media se emplean en el cálculo de los coeficientes de asimetría y curtosis respectivamente. El método momentos consiste en solucionar el sistema de ecuaciones 𝑚𝑘′ = 𝜇𝑘′ , k = 1,2,…,p para obtener los p parámetros de la población. Ejemplo 1.12. Dada una muestra aleatorio de tamaño n tomada de una población gamma, aplicar el método de momentos para estimar sus parámetros y . En efecto, sabemos que la distribución gamma dada por: 1. f(x) = {. 𝛽 𝛼 (𝛼). 𝑥 𝛼−1 𝑒 −𝑥/𝛽 𝑝𝑎𝑟𝑎 𝑥 > 0 0, en otro caso. tiene dos parámetros y y, con estos parámetros podemos encontrar la media y la varianza de la población gamma dada por: = y 2 = 2 Lo que se pretende en este ejemplo es, estimar precisamente estos dos parámetros y . El sistema de ecuaciones que tendremos que resolver es: 𝑚1′ = 𝜇1′ y 𝑚2′ = 𝜇2′ Por la función generadora de momentos, sabemos que 𝜇1′ = y 𝜇2′ = ( +1)2 entonces 𝑚1′ = y 𝑚2′ = ( +1)2.
(29) 20. Y, al resolver estas dos ecuaciones para determinar y , tenemos. =. 𝑚1′ 𝛽. entonces 𝑚2′ =. 𝑚1′ 𝑚1′. ( 𝛽 + 1) 2. 𝛽. = (𝑚1′ )2 + 𝑚1′ De donde =. 𝑚2′ − (𝑚1′ )2 𝑚1′. Y, (𝑚′ ). 2. 1 = 𝑚′ − (𝑚 ′ )2 2. 1. Estos dos últimos resultados, se denotarán por (𝑚′ ). 2. 2. 1. 1 ̂ 𝛼̂ = 𝑚′ − (𝑚 ′ )2 y 𝛽 =. 𝑚2′ − (𝑚1′ )2 𝑚1′. (1). Ahora si, reemplazando los valores 𝑛. 2. ∑ 𝑥𝑖 𝑚1′ = 𝑋̅ y 𝑚2′ = 𝑖=1 𝑛. En (1) y haciendo algunas operaciones se tiene 𝛼̂ =. 𝑛𝑋̅ 2 ̅ 2 ∑𝑛 𝑖=1(𝑥𝑖 −𝑋 ). y 𝛽̂ =. ̅ 2 ∑𝑛 𝑖=1(𝑥𝑖 −𝑋 ) 𝑛𝑋̅. De esa manera, podemos estimar los parámetros de la distribución gamma.. 1.5 Estimación intervalar En lugar de obtener estimación puntual que lógicamente tiene interesantes propiedades, es más coherente realizar estimaciones de parámetros por intervalos. En este tema, lo que se trata es encontrar un intervalo aleatorio [L1, L2] llamado intervalo de confianza que debe contener al parámetro con una probabilidad dada 1 - llamado nivel de confianza, en base a una muestra aleatoria; esto es,.
(30) 21. P[L1 L2] = 1 - para todo , y se conoce que L1 es el límite inferior y L2 límite superior. En particular, para = estimación por intervalos de la media poblacional al nivel de confianza 1 - , se tiene P[-z0 z z0] = 1 - Entonces P[-z0 . 𝑋̅ −𝜇 𝜎 √𝑛. z0] = 1 - . Luego P[𝑋̅ -z0. 𝜎 √. 𝑋̅ + z0 𝑛. 𝜎 √𝑛. ]=1-. O sea, al nivel de confianza 1 - tenemos 𝑋̅ -z0. 𝜎 √𝑛. 𝑋̅ + z0. 𝜎 √𝑛. Asimismo [𝑋̅ -z0. 𝜎 √𝑛. , 𝑋̅ +z0. 𝜎 √𝑛. ]. (2). Donde L1 = 𝑋̅ -z0. 𝜎 √𝑛. , L2 = 𝑋̅ + z0. 𝜎 √𝑛. En muchas ocasiones expresamos el nivel de confianza en tanto por ciento, haciendo que 100(1- ) del cual por ejemplo decimos que tenemos el nivel de confianza del 95%, con esto lo que queremos decir es que, de los 100 intervalos aleatorios que se toman 95 de ellos contendrán al parámetro en cuestión. 1.5.1 Cantidad pivotal Sea X1, X2, …, Xn una muestra aleatoria extraída de una población con función de densidad f(x, ) y sea Q = q(x1, x2, …, xn ; ) una función de X1, X2, …, Xn y donde ℝ (ver Mitacc (1990)). Definición 1.6. Si la distribución de Q no depende del parámetro , decimos que Q es una cantidad pivotal. Ejemplo 1.13. Sea X1, X2, …, Xn una muestra aleatoria de una población normal N(, 25). Demostrar que Q = 𝑋̅ - es una cantidad pivotal. En efecto. Primero calculamos la esperanza matemática de la variable aleatoria Q. Así E[Q] = E[𝑋̅ - ].
(31) 22. = E[𝑋̅] - = -=0 De la misma forma calculamos Var [Q] = Var[𝑋̅ - ] = Var[𝑋̅] + 0 =. 𝑛. =. 25 𝑛. 25 Q = 𝑋̅ - N(0, 𝑛 ). Por consiguiente, Donde observamos que N(0,. 𝜎2. 25 𝑛. ) como distribución de Q = 𝑋̅ - no depende del parámetro ,. por lo tanto Q es una cantidad pivotal..
(32) 23. Capítulo 2. Contraste de hipótesis 2.1 Introducción. En la estadística inferencial clásica se denomina contraste de hipótesis, posteriormente esta denominación se cambió a prueba de hipótesis. El termino prueba de hipótesis es mas usual y concordante según la literatura actual. Las hipótesis estadísticas son afirmaciones o conjeturas son probadas mediante cálculos probabilísticos, esos valores probabilísticos determinan el nivel de confianza aplicado a un parámetro poblacional. A partir del conocimiento de la población que se estudia por medio de afirmaciones sobre el valor o valores de los parámetros, o del tipo de función de distribución que deseamos conocer. La teoría de Neyman-Pearson, utiliza en su demostración razón de verosimilitud, cuyo fundamento matemático es mas elaborado, no es muy aplicable computacionalmente, lo que permitió a los estadísticos Schweder & Hjort (2002) trabajar con p valores. Es importante darse cuenta de la dependencia entre las probabilidades de errores de tipo I y de tipo II al limitarnos a probar estadísticas para las cuales la probabilidad de un error de tipo I es menor que, o igual a, algunas constante . En otras palabras, nos restringimos a regiones críticas de tamaño menor que o igual a , por ejemplo, en caso de población normal, las regiones críticas se ubican en las colas. 2.2 Distribución de confianza. Como uno de los tópicos más importantes dentro de la inferencia estadística, a parte de la estimaciones y muestras aleatorias son las regiones de confianza y pruebas de hipótesis al nivel de confianza 1- . En ese contexto, dado un modelo paramétrico para una variable aleatoria X con distribución de probabilidad P(X, , ), donde es un parámetro escalar de interés primario para nuestro objetivo y que pertenece a un intervalo finito o infinito de la recta real, y representa a otros parámetros secundarios de menos importancia para nuestro trabajo. Para aplicar y poder inferenciar el parámetro seleccionaremos un modelo como estadística de prueba y se planteará las hipótesis pertinentes que son afirmaciones respecto al parámetro de interés que es de la población, esos planteamientos son del tipo como > 0 , 1 < 0 < 2 Donde 0 , 1 , 2 , etc., que son evaluadas en función de la muestra aleatoria..
(33) 24. En un modelo paramétrico de una población representado por una función de probabilidad o función de densidad, de una variable aleatoria X con distribución de probabilidad P(x; , ) donde y son parámetros de la población. El parámetro tiene como función de densidad la distribución uniforme, porque, cualquier parámetro siempre está entre dos valores de extremos a y b, o sea, [a, b], en particular cuando = µ según (2) de la sección 1.5 se tiene a = 𝑋̅ – z0. 𝜎. √𝑛. µ 𝑋̅ + z0. 𝜎. √𝑛. =b. (3). Definición 2.1. Sea X = (X1, X2, …, Xn) una muestra aleatoria de tamaño n de la población representada por distribución continua P(x, ) y x es el valor observado X. Una función continua C(, X) de que tiene el comportamiento de variable aleatoria, se dice es una distribución de confianza de si la función de distribución F(a, ) = P(C(, X) a) = a. (4). para todo a [0, 1]. Observación 1. El valor observado de la muestra aleatoria X es x = {x1, x2, …, xn }. Observación 2. Como C(, X) es una variable aleatoria de distribución uniforme, entonces, por definición de la función de distribución se tiene 𝑎−0. F(a, ) = 1−0 , 0 a 1 =a Ejemplo 2.1. Sea X una variable aleatoria con distribución uniforme en ]0, b[, esto es, ( X U(0, b)). Encontrar C(b, X). En efecto, como X U(0, b), entonces 1. , 0<𝑥<𝑏 f(x) = { 𝑏 0 , en otro caso Definimos 𝑋. C(b, X) = 𝑏. Y demostremos que C(b, X) tiene distribución uniforme. Así 0 < 𝑥 < 𝑏 entonces De donde, Luego. 0 𝑏. 𝑥. 𝑏. <𝑏<𝑏 𝑥. 0<𝑏<1.
(34) 25 𝑥. 𝑋. 𝑥. F( 𝑏, b) = P( 𝑏 𝑏) =. 𝑥 −0 𝑏. 1−0. 𝑥. =𝑏. Se puede demostrar que 𝑋 𝑏 es una cantidad pivotal para X que tiene distribución uniforme. De la inferencia estadística sabemos que, el valor del parámetro estimado depende de los valores de la muestra X, de modo que para cada valor obtenida tendremos un único valor C(, X), eso significa que C(, X) es una función inyectiva en el parámetro poblacional , entonces existe la inversa de C(, X) en . Si 0 < < 1, supongamos que C(, x) entonces C-1(, x). (5). de donde se observa que C-1(, x) es una cota inferior de , por lo tanto existe el inf{: C(, x) } = C-1(, x) En (5) el hecho de que C(, x) se puede asociar con diferentes tipos de intervalos de confianza, que son temas estudiado en el curso de análisis de inferencia estadística, en este trabajo de tesis analizaremos por separados, teniendo presente que C(, X) tiene distribución uniforme. Al aplicar probabilidades encontraremos un valor real del intervalo ]0, 1[ denominado probabilidades de cobertura. 1. Para intervalos de confianza unilateral izquierdo ]- , [, donde = C-1(, x), para ]0, 1[ ]- , [ entonces P( [ = P( C-1(, x [) = P(C(, X) [ = Porque C(, x) es una variable aleatoria de distribución uniforme, y se llama probabilidad de cobertura unilateral izquierdo. 2. Para intervalos de confianza centrado más conocido como intervalos de confianza bilateral ] , [, donde = C-1(, x) y = C-1(, x) para [, ] ]0, 1[, tenemos P( [ = P(C-1(, x) C-1(, x)) = P( C(, x) ) =. 𝛽−𝛼 1−0. =-. siendo C(, x) de distribución uniforme. La cantidad - se llama probabilidad de cobertura bilateral..
(35) 26. 3. Para intervalos de confianza unilateral derecho ] , [ donde = C-1(, x), para ] , [ entonces P( [ = P( C-1(, x [) = 1 - P( C-1(, x [) = 1 - P(C(, x) ) =1- Se utilizó la definición de probabilidad de un complemento así como C(, x) es una variable aleatoria de distribución uniforme, como en los anteriores casos 1- se llama probabilidad de cobertura unilateral derecho. 2.3 Prueba de la razón de verosimilitud En matemática surgen conceptos muy importantes cuando se estudia funciones continuas, a ellas se asocia las funciones monótonas, que son funciones crecientes funciones decrecientes. Una función 𝑓: 𝐴ℝ → ℝ. se dice monótona creciente si, para x1 < x2 entonces f(x1) f(x2) Es monótona decrecientes si x1 < x2 entonces f(x1) f(x2) Y, cuando decimos que la función f es monótona, puede ser que f sea creciente o decreciente. Cuando se estudia estadística inferencial, se toma una muestra aleatoria de tamaño n, X1, X2, …, Xn de modo que las características de los Xi de la población debe coincidir su función de probabilidad con la variable aleatoria X (caso discreto, p(x; )), o con función de densidad (caso continuo, f(x; )), donde . Ahora se divide el espacio paramétrico en dos subregiones: 0 y 1= - 0 De modo que H0 : 0 (hipótesis nula) H1 : 1 (hipótesis alternativa). (6). de donde la razón de verosimilitud se define por: RV(x1, x2, …, xn) =. 𝑚𝑎𝑥𝜃𝜖0 (𝐿(𝜃)) 𝑚𝑎𝑥𝜃𝜖 (𝐿(𝜃)). ]0, 1[. (7).
(36) 27. A continuación, enunciaremos una definición, proposición y corolarios dado por Najera, Peralte & Pérez (2013). Definición 2.2. Una familia de funciones de densidades o de funciones de probabilidades {f(x, ): R} de una variable aleatoria X, tiene razón de verosimilitud monótona si, para 1 < 2 𝑓(𝑥,𝜃2 ). (8). 𝑓(𝑥,𝜃1 ). es monótona como función de x en {x : f(x;1 ) > 0 ó f(x;2 ) > 0} Proposición 2.1. Sea X una variable aleatoria cuya familia de densidades o de funciones de probabilidades es: {f(x, ): R} tal que para 1 < 2 𝑓(𝑥, 𝜃2 ) 𝑓(𝑥, 𝜃1 ) es creciente como función de x. Entonces 𝑃𝜃2 (X x) 𝑃𝜃1 (X x). Demostración. Sea x1 < x < x2, según la definición 2.2 se tiene 𝑓(𝑥1 ,𝜃2 ). 𝑓(𝑥2 ,𝜃2 ). 𝑓(𝑥1 ,𝜃1. 𝑓(𝑥2 ,𝜃1 ). ). Asimismo f(𝑥1 , 𝜃2 ) f(𝑥2 , 𝜃1 ) f(𝑥1 , 𝜃1 )f(𝑥2 , 𝜃2 ) Entonces, 𝑥. 𝑥. ∫−∞ f(𝑥1 , 𝜃2 ) f(𝑥2 , 𝜃1 ) 𝑑𝑥1 ∫−∞ f(𝑥1 , 𝜃1 ) f(𝑥2 , 𝜃2 ) 𝑑𝑥1 Luego 𝑥. 𝑥. f(𝑥2 , 𝜃1 ) ∫−∞ f(𝑥1 , 𝜃2 ) 𝑑𝑥1 f(𝑥2 , 𝜃2 ) ∫−∞ f(𝑥1 , 𝜃1 ) 𝑑𝑥1 ; para x1 < x De donde f(𝑥2 , 𝜃1 )𝑃𝜃2 (𝑋 ≤ 𝑥) f(𝑥2 , 𝜃2 )𝑃𝜃1 (𝑋 ≤ 𝑥) También ∞. ∞. 𝑃𝜃2 (𝑋 ≤ 𝑥) ∫𝑥 f(𝑥2 , 𝜃1 )𝑑𝑥2 𝑃𝜃1 (𝑋 ≤ 𝑥) ∫𝑥 f(𝑥2 , 𝜃2 )𝑑𝑥2 ; para x2 < x Además 𝑃𝜃2 (𝑋 ≤ 𝑥)(1) 𝑃𝜃1 (𝑋 ≤ 𝑥)(1).
(37) 28. Por lo tanto, 𝑃𝜃2 (𝑋 ≤ 𝑥) 𝑃𝜃1 (𝑋 ≤ 𝑥). . Corolario 1.- Si para 1 < 2 𝑓(𝑥, 𝜃2 ) 𝑓(𝑥, 𝜃1 ) es decreciente como función de x. Entonces 𝑃𝜃1 (X x) 𝑃𝜃2 (X x) Demostración. Sea x1 < x < x2, por la proposición 2.1 se tiene 𝑓(𝑥1 ,𝜃2 ) 𝑓(𝑥1 ,𝜃1 ). . 𝑓(𝑥2 ,𝜃2 ). . 𝑓(𝑥2 ,𝜃1 ). 𝑓(𝑥2 ,𝜃1 ). Entonces 𝑓(𝑥1 ,𝜃1 ) 𝑓(𝑥1 ,𝜃2 ). 𝑓(𝑥2 ,𝜃2 ). (es creciente). Por lo tanto 𝑃𝜃1 (X x) 𝑃𝜃2 (X x). Corolario 2.- Sea X una variable aleatoria continua como en la proposición 1, P(X x) continua como función de , y = ]inf , sup[. Si P(X x) 1 cuando inf y P(X x) 0 cuando sup, entonces C(, x) = 1 - P(X x) es una distribución de confianza. Demostración. Sea 1 < 2 para ] 1 , 2 [ , entonces por la proposición 2.1 tenemos que 𝑃𝜃2 (X x) 𝑃𝜃1 (X x) Entonces - 𝑃𝜃1 (X x) - 𝑃𝜃2 (X x) Luego 1 - 𝑃𝜃1 (X x) 1- 𝑃𝜃2 (X x) Así lim (1 − 𝑃𝜃1 (X x)) lim (1 − 𝑃𝜃2 (X x)). 𝜃1 →𝜃𝑖𝑛𝑓. De donde. 𝜃1 →𝜃𝑖𝑛𝑓.
(38) 29. 1- lim (𝑃𝜃1 (X x)) 1 − 𝑃𝜃2 (X x) 𝜃1 →𝜃𝑖𝑛𝑓. También 1 – 1 1 − 𝑃𝜃2 (X x) Además 0 1 − 𝑃𝜃2 (X x) = C(2 , x) Por lo tanto 0 C(2 , x). De donde para todo 2 . En particular para = 2 se tiene 0 C( , x). (9). Por otro lado, se tiene 𝑃𝜃2 (X x) 𝑃𝜃1 (X x) Entonces - 𝑃𝜃1 (X x) - 𝑃𝜃2 (X x) Luego 1 - 𝑃𝜃1 (X x) 1- 𝑃𝜃2 (X x) Así lim (1 − 𝑃𝜃1 (X x)) . 𝜃2 →𝜃𝑠𝑢𝑝. lim (1 − 𝑃𝜃2 (X x)). 𝜃2 →𝜃𝑠𝑢𝑝. De donde 1 − 𝑃𝜃1 (X x) 1 -. lim (𝑃𝜃2 (X x)). 𝜃2 →𝜃𝑠𝑢𝑝. Además 1 − 𝑃𝜃1 (X x) 1 − 0 También C(1 , x) = 1 − 𝑃𝜃1 (X x) 1 Por lo tanto C(1 , x) 1 De donde para todo 1 . En particular para = 1 se tiene C( , x) 1 Luego, según (9) y (10) tenemos que. (10).
(39) 30. 0 C( , x) 1 Por lo tanto C( , x) es una variable aleatoria de función de densidad uniforme. Así demostramos que C(, x) = 1 - P(X x) es una distribución de confianza. Ejemplo 2.2. Sea X1, X2, …, Xn una muestra aleatoria de la distribución Gamma con solo el parámetro de forma > 0 desconocido, y conocido definida por: f(x; ) = f(x) = {. 𝑥 𝛼−1 𝑒 −𝑥/𝛽 𝛽 𝛼 (𝛼). 𝑥>0. ; 𝑥≤ 0. 0. > 0, > 0. (11). donde () es la función Gamma dada por: ∞. () = ∫0 𝑥 𝛼−1 𝑒 −𝑥 dx. (12). Sea S = ∑𝑛𝑖=1 𝑋𝑖 Entonces S tiene una distribución Gamma con parámetro de forma n y desconocido. En efecto. Sabemos que la función generadora de momentos de la distribución Gamma es: M(t) = (1 − 𝑡)−𝛼 entonces M’(t) = -(1 − 𝑡)−𝛼−1 Entonces M(t) = (1 − 𝑡)−𝛼−1 Luego, para t = 0 (llamado el primer momento de la distribución Gamma en 0), se tiene M′(0) = (1 − (0))𝛼−1 = = es la media de la población de distribución Gamma. Ahora calculemos el segundo momento, sea la segunda derivada de la función generadora de momentos de la distribución Gamma M′′(t) = (−𝛼 − 1)(1 − 𝑡)−𝛼−2(-) = 2(𝛼 + 1)(1 − 𝑡)−𝛼−2 Ahora para t = 0 se tiene M′′(0) = 2(𝛼 + 1) Entonces 2 = 2(𝛼 + 1) - 2 Por consiguiente 2 = 2(𝛼 + 1) – ()2.
(40) 31. De donde 2 = 2 En seguida, calculamos la esperanza matemática de S E[S] = S = E[∑𝑛𝑖=1 𝑋𝑖 ] = ∑𝑛𝑖=1 𝐸 [𝑋𝑖 ] = n = (n) De la misma forma calculamos la varianza de S Var[S] = 𝜎𝑆2 = Var[∑𝑛𝑖=1 𝑋𝑖 ] = ∑𝑛𝑖=1 𝑉𝑎𝑟[𝑋𝑖 ] = n2 = n(2) = (n)2 Por lo tanto, la función de densidad f de S es también distribución Gamma dada por: f(s; n) = f(s) = {. 𝑠𝑛𝛼−1 𝑒 −𝑠/𝛽. 𝑠>0; 𝑠≤ 0. 𝛽 𝑛𝛼 (𝑛𝛼). 0. n> 0, > 0. (13). Usando la propiedad logarítmica (13) queda en la forma f(s; n) =. 𝑒 −𝑠/𝛽 𝑒 (𝑛𝛼−1)𝑙𝑛𝑠 𝛽 𝑛𝛼 (𝑛𝛼). s > 0, > 0. ,. (14). Por ser de la distribución Gamma el (14), pertenece a la familia exponencial. Ahora calculamos F(s; n) así F(s; n) = P(S s; n) 𝑠. 1. = 𝛽𝑛𝛼 (𝑛𝛼) ∫0 𝑒 −𝑥/𝛽 𝑒 (𝑛𝛼−1)ln(𝑥) dx, x > 0 Ahora si, según el corolario 2, tenemos la distribución de confianza para el parámetro en la población Gamma C(n, x) = 1 – Pn(S s) = 1-. 1 𝛽 𝑛𝛼 (𝑛𝛼). 𝑠. ∫0 𝑒 −𝑥/𝛽 𝑒 (𝑛𝛼−1)ln(𝑥) 𝑑𝑥. donde n es tamaño de la muestra. En la teoría de probabilidades sabemos que la función de densidad, 𝑑. f(x) = 𝑑𝑥 𝐹(𝑥). (15).
(41) 32. para todo x en la cual F es diferenciable. Aplicando este concepto, podemos obtener la función de densidad de la función de distribución de confianza del parámetro derivando respecto al parámetro, llamado función de densidad de confianza del parámetro en cuestión. En (15) derivando respecto al parámetro tendremos 𝑑. c(n, x) = - 𝑑𝛼 (𝐹(s; n)) 𝑑. = - n𝑑𝛼 𝐹(s; n). =-n. 𝑠 𝑑 1 ( ∫ 𝑒 −𝑥/𝛽 𝑒 (𝑛𝛼−1)ln(𝑥) 𝑑𝑥 𝑑𝛼 𝛽 𝑛𝛼 (𝑛𝛼) 0. 𝑠 𝑑. = -n ∫0. 𝑒 −𝑥/𝛽 𝑒 (𝑛𝛼−1)ln(𝑥). ( 𝑑𝛼. 𝑠 𝑑. = - n ∫0. 𝛽 𝑛𝛼 (𝑛𝛼). 𝑒 (𝑛𝛼−1)ln(𝑥). ( 𝑑𝛼. 𝛽 𝑛𝛼 (𝑛𝛼). 𝑠. 𝑥. ) 𝑑𝑥. ) 𝑒 −𝑥/𝛽 𝑑𝑥. 𝑒 −𝑥/𝛽 𝑒 (𝑛𝛼−1)𝑙𝑛𝑥. = n∫0 (𝑔(𝑛𝛼) − ln (𝛽)) ( 𝑠. ). 𝛽 𝑛𝛼 (𝑛𝛼). ) 𝑑𝑥. 𝑥. = n∫0 (𝑔(𝑛𝛼) − ln (𝛽)) 𝑓(𝑥; 𝑛𝛼)𝑑𝑥 donde g(n) es la función llamado digamma, o sea 𝑑. g(n) = 𝑑𝛼 (ln (𝑛𝛼)). 2.4 Formulación de la prueba de hipótesis Problemas como cuando un ingeniero tiene que decidir con base en datos muéstrales si el verdadero promedio de duración de cierta clase de neumático es por lo menos, 22 000 km, cuando un Agrónomo tiene que decidir con base en experimentos si una clase de fertilizantes produce un rendimiento más alto de frijol de soya que otro, y cuando un fabricante de productos farmacéuticos tiene decidir con base en muestras si 90 % de todos los pacientes que reciben un nuevo medicamento se recuperarán de cierta enfermedad, se pueden traducir al lenguaje de las pruebas estadísticas de hipótesis. En el primer caso podríamos decir que el ingeniero tiene que probar la hipótesis de que , el parámetro de una población exponencial, es por lo menos.
(42) 33. 22 000; en el segundo caso podríamos decir que el agrónomo tiene que decidir si 1 > 2, donde 1 y 2 son las medias de dos poblaciones normales; y en el tercer caso podríamos decir que el fabricante tiene decidir si , el parámetro de una población binomial, es igual a 0,90. En cada caso se debe suponer, por supuesto, que la distribución escogida describe correctamente las condiciones experimentales, esto es la distribución proporciona el modelo estadístico correcto. En seguida usaremos definiciones dados en Ipiña & Durand (2008). Definición 2.2. Una hipótesis es un supuesto, o una afirmación sobre algún parámetro de una población. Naturalmente, el parámetro al que hace referencia la anterior definición es desconocido, y el objetivo al construir tales hipótesis es, teniendo en cuenta los valores muéstrales, seleccionar como cierta una de dos hipótesis complementarias. Estas dos hipótesis planteadas y elegidas una de ellas se llama contraste de hipótesis. Definición 2.3. Las dos hipótesis complementarias de un contraste se llaman hipótesis nula e hipótesis alternativas, simbolizadas H0 y H1, respectivamente. Si denotamos por el conjunto de valores que puede tomar el parámetro , es decir, el espacio de paramétrico, la notación general de un contraste de hipótesis es: {. 𝐻0 ∶ 𝜃 ∈ 0 𝐻1 ∶ 𝜃 ∈ 𝑐0. siendo 0 , y 𝑐0 algún conjunto complementario de 0. Definición 2.4. Un contraste de hipótesis es una regla de decisión que especifica. i) Cuáles valores muéstrales generan la decisión “H0 es cierta”. ii) Cuáles valores muéstrales generan la decisión “H1 es cierta”. El conjunto de valores muéstrales que produce el rechazo de H0 como cierta se llama región de rechazo. La región complementaria de ésta, se llama región de aceptación. Definición 2.5. Se denomina estadístico de contraste a un estadística T = t(X1, …, Xn) que permite resolver un contraste. El estadístico de contraste, en consecuencia, es una función muestral que genera una decisión respecto a las dos hipótesis enfrentados de un contraste. Así, por ejemplo, un contraste puede consistir en decidir que H0 sea rechazado si 𝑋̅ = u(X1, …,Xn) es mayor que 3; en este caso, o sea, región de rechazo es {(x1, …,xn): 𝑥̅ > 3}..
(43) 34. El hecho de dividir el espacio paramétrico y, como los parámetros estimados depende de la muestra X1, X2, …, Xn , entonces gráficamente la estructura del espacio muestral para rechazar la hipótesis nula es:. Espacio muestra. Región de rechazo (R) . Rechazamos H0. (X1,…,Xn). Región de aceptación (A) . Decisión. Aceptamos H0. (X1,…,Xn). Figura. 2.1: Región de aceptación y rechazo A continuación, daremos conceptos sobre error de tipo I y de tipo II que las encontramos en García (1990). Para aceptar o rechazar una afirmación acerca de los parámetros debemos efectuar una partición adecuada del dominio de la distribución muestral en dos regiones. La región de rechazo R (o región critica) y la región de aceptación A, el punto crítico c sirve de frontera. Si se comparan dos formas distintas de partición se dice que se están comparando dos pruebas (de la misma hipótesis). En general se comparan las pruebas en base a las probabilidades de los errores que se pueden cometer. El razonamiento indica que al tomar una decisión se puede cometer dos clases de errores: puede rechazarse la hipótesis cuando es cierta o puede aceptarse cuando es falsa. Los procedimientos que se utilizan habitualmente se suelen denominar “contraste o test de hipótesis”. Posibles errores de un test:.
(44) 35. . Error tipo I: Rechazar H0 cuando H0 es cierta.. Llamada también nivel de significancia , es la probabilidad que el punto muestral (estadístico) caiga en la región de rechazo R bajo H0, esto es, = P[rechazar H0 / H0 es verdadera] = ∫𝑅 𝑓(𝜃̂/𝐻0 )d𝜃̂ ∞ =∫𝑐 𝑓(𝜃̂/𝐻0 )d𝜃̂.. donde 𝑓(𝜃̂/𝐻0 ) es la distribución muestral de 𝜃̂ bajo la hipótesis H0. . Error tipo II: Aceptar H0 cuando H0 es falsa.. Denotado por es la probabilidad que el punto muestral caiga en la región de aceptación bajo H1, esto es; = P[aceptar H0 / H0 es falsa] =P[rechazar H1 / H1 es verdadera] = ∫𝐴 𝑓(𝜃̂/𝐻1 )d𝜃̂ 𝑐 =∫−∞ 𝑓(𝜃̂/𝐻1 )d𝜃̂. donde 𝑓(𝜃̂/𝐻1 ) es la distribución muestral de 𝜃̂ bajo la hipótesis H1. Una gráficamente intuitiva de estos casos sería: f(𝜃̂). f(𝜃̂/𝐻0 ) f(𝜃̂/𝐻1 ) 𝜃̂ A. R c. Figura.2.2: Probabilidades:𝛼 y 𝛽 están en ]0; 1[.
(45) 36. En la teoría de Neyman-Pearson lo que se pretende es acotar la máxima probabilidad (max 𝑃𝜃 (𝑅)) de error tipo I por ]0, 1[, o sea, se busca una región de rechazo R tal que 𝜃∈0. 𝑃𝜃 (𝑅) < entonces max 𝑃𝜃 (𝑅) 𝜃∈0. Y, por otro lado, minimizar la probabilidad de error tipo II, para lo cual, se busca una región de rechazo R tal que 𝑃𝜃 (𝑅) > entonces min 𝑃𝜃 (𝑅) 𝜃∈1. Como vemos, los test de hipótesis están diseñados para controlar la probabilidad máxima de rechazar H0 cuando es cierta. En alguna ocasiones se observa que es posible rechazar H0 con los mismos datos para un nivel de significancia = 0.05 que aceptar con = 0.01. Ejemplo 2.5. Dada una muestra aleatoria; n=16 los datos son obtenidos de una población normal N(, 400). Realizar la prueba de hipótesis,. H0 : 𝜇 ≤ 58 ; H1 : 𝜇 > 58. Se. RC={𝑥̅ > 68,2} a. Determinar el nivel de significancia del problema. b. Determinar la probabilidad de error tipo II si realmente =74. c.. Calcular la potencia de la prueba.. En efecto, hemos contrastado H0 : 𝜇 ≤ 58 frente a H1 : 𝜇 > 58 a. Con n=16 y 𝜎 2 = 400. Hallaremos 𝛼. R. A. R.C . 1-. +∞. -∞ Figura. 2.3: Nivel de significancia 𝛼 𝑥̅ = 68,2.
(46) 37. 𝑧=. 68,2−58 20 √16. = 2,04. 1 − 𝛼 = 0,9793 𝛼 = 0,0207. b. Determine la probabilidad de error tipo II si realmente =74. Según H0. Según H1 α . Figura.2.4: Error del tipo II. 𝛽 𝑥̅ = 68,2 𝜇 = 74 𝛽 = 𝑃[𝑥̅ < 68,2] 𝛽 = 𝑃[. 𝑥̅ −𝜇 𝜎 √𝑛. <. 68,2−74 20 4. ]. 𝛽 = 𝑃[𝑧 < −1,16] = 0,123 𝛽 = 0,123. c. Calcular la potencia de la prueba 𝛽 = 0,123 1 − 𝛽 = 1 − 0,123 = 0,877 1 − 𝛽 = 0,877 2.5 Pruebas de hipótesis e intervalos de confianza A continuación, daremos la siguiente definición con su respectiva proposición dada en Najera et al. (2013). Definición 2.6. Sean ⊝ ⊆ ℝ el conjunto de valores posibles del parámetro 0, ⊝0 ⊂ ⊝, 𝑦 ⊝𝑐0 el complemento de ⊝0 𝑒𝑛 ⊝. En un problema de prueba de hipótesis.
(47) 38. 𝐻0 : 𝜃 ∈ ⊝0 𝑣𝑠 𝐻1 : 𝜃 ∈ ⊝𝑐0 Un valor p es un estadístico de prueba 𝑝(𝑋) que satisface 0 ≤ 𝑝(𝑥) ≤ 1, para toda observación 𝑥 de 𝑋, de modo que valores pequeños de 𝑝(𝑋) den evidencia de que 𝐻1 es cierta. Se dice que 𝑝(𝑥) es el nivel de significancia alcanzado por la prueba.. La siguiente proposición muestra que las distribuciones de confianza permiten ver de forma unificada las pruebas de hipótesis y los intervalos de confianza. La cual se encuentra en Najera et al. (2013). Proposición 2.1 La confianza de la afirmación < 0 es el grado de confianza C( 0 ; x) del intervalo de confianza (−∞, C −1 (C( 0 ; x))), y es igual al valor p observado de la prueba de hipótesis 𝐻0 : ≤ 0 𝑣𝑠 𝐻1 : > 0 Demostración. Puesto que 𝐶(; 𝑥) es creciente como función de , entonces 𝐶(; 𝑋) es un estadístico de prueba para probar 𝐻0 : ≤ 0 𝑣𝑠 𝐻1 : > 0 De modo que valores pequeños de 𝐶(; 𝑋) dan evidencia de que 𝐻1 es cierta; como 0 ≤ 𝐶(; 𝑥) ≤ 1, entonces 𝐶(; 𝑋) es un valor p de la prueba de hipótesis. Si 𝑥 es una observación de 𝑋, el nivel de significancia alcanzado por la prueba de hipótesis, o la confianza de la afirmación ≤ 0 es:. 𝑝(𝑥) = 𝐶(0 ; 𝑥) = 𝑃 (𝐶(; 𝑋) ≤ 𝐶(0 ; 𝑥)). Además, 𝑃 ( ≤ 𝐶 −1 (𝐶(0 ; 𝑋))) = 𝑃 (𝐶(; 𝑋) ≤ 𝐶 (𝐶 −1 (𝐶(0 ; 𝑋)))).
(48) 39. = 𝑃 (𝐶(; 𝑋) ≤ 𝐶(0 ; 𝑋)). O sea, 𝐶(; 𝑥) también es el grado de confianza del intervalo de confianza (−∞, 𝐶 −1 (𝐶( 0 ; 𝑥))) Ejemplo 2.6. Dada una muestra aleatoria de tamaño n, 𝑋1 , … , 𝑋𝑛 de una población 𝑁 (𝜇, 𝜎 2 ), donde el parámetros 𝜇 es desconocido, 𝜎 2 es conocido. El parametro 𝜇 se estima por: 𝑛. 1 𝑋= ∑ 𝑋1 𝑛 𝑖=1. Se plantea la hipótesis de la siguiente manera 𝐻0 : 𝜇 ≤ 𝜇0 𝑣𝑠 𝐻1 : 𝜇 > 𝜇0 Consideremos como estadístico de prueba z=. √𝑛(𝑋−𝜇0 ) 𝜎. De modo que el valor p es:. 𝑝(𝑋) = 1 − 𝐹 (. √𝑛(𝑋 − 𝜇0 ) ) = 𝐶(𝜇0 ; 𝑋) 𝜎. donde 𝐹 es la función de distribución para la población Normal, y 𝐶(𝜇; 𝑥) es la distribución de confianza de 𝜇.. 2.6 Lema clásico de Neyman-Pearson En la teoría de la prueba de hipótesis a la que actualmente nos referimos como “clásica” o “tradicional”, la teoría de Neyman-Pearson, evitamos la dependencia entre las probabilidades de errores de tipo I y de tipo II al limitarnos a probar estadísticas para las cuales la probabilidad de un error de tipo I es menor que, igual a, alguna constante . En otras palabras, nos restringimos a regiones críticas de tamaño menor que, o igual a, . Debemos permitir que la.
(49) 40. región crítica sea de tamaño menor que para tomar en consideración a las variables aleatorias discretas, donde pudiera ser imposible encontrar una prueba estadística para la cual el tamaño de la región crítica sea exactamente igual a . Para todo propósito práctico, entonces, mantenemos la probabilidad de un error de tipo I fijo y buscamos la prueba estadística que minimice la probabilidad de un error de tipo II, o, en forma equivalente, que maximice la cantidad 1 - . Al probar la hipótesis nula = 0 contra la hipótesis alternativa = 1, la cantidad 1 - se conoce como la potencia de la prueba en = 1. Una región crítica para probar una hipótesis nula simple = 0 contra una hipótesis alternativa simple = 1 se dice que es mejor o más potente, si la potencia de la prueba en = 1 está en un máximo. Para construir una región crítica (región de rechazo) más potente en esta clase de situación, hacemos referencia a las verosimilitudes de una muestra aleatoria de tamaño n de la población en consideración cuando = 0 y = 1. Denotemos estas verosimilitudes con L0 y L1, tenemos así L0 = ∏𝑛𝑖=1 𝑓(𝜃0 ; 𝑥𝑖 ) y L0 = ∏𝑛𝑖=1 𝑓(𝜃0 ; 𝑥𝑖 ). (16). Hablando intuitivamente, es evidente que 𝐿0 𝐿1 debe ser pequeña para puntos de la muestra dentro de la región crítica, lo que lleva a errores I cuando = 0 y a decisiones correcta cuando = 1; de la misma manera, 𝐿0 𝐿1 debe ser grande para puntos de la muestra fuera de la región crítica, lo que lleva a decisiones correcta cuando = 0 y a errores de tipo II cuando = 1. El siguiente teorema demuestra el hecho que este argumento, ciertamente, garantice una crítica más potente. Teorema 2.1 (Lema clásica de Neyman-Pearson) Si C es una región crítica de tamaño y k es una constante tal que 𝐿0 𝐿1. k dentro de C. y, 𝐿0 𝐿1. k fuera de C. entonces C es una región crítica más potente de tamaño para probar = 0 contra = 1..
Figure
Documento similar