Estimación del parámetro de dispersión en la distribución binomial negativa en estudios estratificados

Texto completo

(1)UNIVERSIDAD NACIONAL DE SAN AGUSTÍN DE AREQUIPA ESCUELA DE POSGRADO UNIDAD DE POSGRADO DE LA FACULTAD DE CIENCIAS NATURALES Y FORMALES. ESTIMACIÓN DEL PARÁMETRO DE DISPERSIÓN EN LA DISTRIBUCIÓN BINOMIAL NEGATIVA EN ESTUDIOS ESTRATIFICADOS. Tesis presentada por la bachiller: Sharmila Pamela Cano Villafuerte Para optar el Grado Académico de Maestra en Ciencias: Matemáticas, con mención en Modelación Matemática.. ASESOR: Dr. Jhon Franky Bernedo Gonzales. AREQUIPA-PERÚ 2019.

(2) ESTIMACIÓN DEL PARÁMETRO DE DISPERSIÓN EN LA DISTRIBUCIÓN BINOMIAL NEGATIVA EN ESTUDIOS ESTRATIFICADOS. Tesis presentado por: Bach. Sharmila Pamela Cano Villafuerte. JURADO. Dra. Claudia Luque Justo:. Dr. Dugan Paul Nina Ortiz:. Dr. Jhon Franky Bernedo Gonzales (Asesor):. i.

(3) Agradecimientos Agradezco a Dios por bendecir cada día de mi vida y sobretodo por estar conmigo en cada paso que doy, por fortalecer mi corazón e iluminar mi mente en aquellos momentos de dificultad y debilidad.. Agradezco a mis padres: Ernesto Elard y Norma por haberme forjado como la persona que soy y por su gran apoyo incondicional en todo lo que emprendo.. A mi hijo por su amor, comprensión y paciencia, ya que estuvo a mi lado en todo este proceso.. A mi asesor Dr. Jhon F. Bernedo Gonzales por su guía, tiempo, dedicación y paciencia en la elaboración de esta tesis..

(4) Dedicado a mi amado hijo Alessandro César.

(5) Resumen En el presente trabajo se estudio, analizo y describió el comportamiento de los diferentes estimadores del parámetro de dispersión de la distribución binomial negativa (NB), cuando se tiene datos de conteo en un diseño de muestreo estratificado en que, el modelo estadístico asume una media por cada estrato. Nótese que si el número de estrato es grande, entonces el modelo estadístico está altamente parametrizado y el estimador de máxima verosimilitud (MLE) del parámetro de dispersión NB puede ser sesgado e ineficiente. Algunos de los estimadores estudiados incluyen ajustes para el número de parámetros medios para reducir el sesgo. Por medio de simulación, se estudió el comportamiento de los estimadores: método de momentos, máxima verosimilitud, máxima verosimilitud perfilado, comparando el sesgo, el error cuadrático medio. Palabras claves: Parámetro de dispersión, distribución binomial negativa, muestreo estratificado, método de momentos, máxima verosimilitud, máxima verosimilitud perfilado.. iv.

(6) Abstract In the present work we studied, analyzed and described the behavior of the different estimators of the dispersion parameter of the negative binomial distribution (NB), when we have counting data in a stratified sampling design in which, the statistical model assumes an average for each stratum. Note that if the stratum number is large, then the statistical model is highly parameterized and the maximum likelihood estimator (MLE) of the dispersion parameter NB can be biased and inefficient. Some of the estimators studied include adjustments for the number of average parameters to reduce the bias. By means of simulation, the behavior of the estimators was studied: moment method, maximum likelihood, maximum likelihood profiled, comparing the bias, the mean square error. Key words: Dispersion parameter, negative binomial distribution, stratified sampling, moments method, maximum likelihood, maximum likelihood profiled.. v.

(7) Índice general 1. Preliminares. 4. 1.1. Muestreo Aleatorio Estratificado . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.1.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.1.2. Estimación de la Media Poblacional y Total Poblacional . . . . . .. 6. 1.2. Método de Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . . .. 8. 1.2.1. Definición (Función Verosimilitud) . . . . . . . . . . . . . . . . . .. 8. 1.2.2. Definición (Estimador de Máxima Verosimilitud). 9. . . . . . . . . . .. 1.2.3. Algunas Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.2.4. Función Score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.2.5. Información de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 13 2. Distribución Binomial Negativa. 14. 2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2. Familia Exponencial Uniparamétrica . . . . . . . . . . . . . . . . . . . . . 14 2.3. Componente Aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4. Función Generadora de Momentos . . . . . . . . . . . . . . . . . . . . . . . 18 2.5. Distribución Binomial Negativa . . . . . . . . . . . . . . . . . . . . . . . . 22 2.5.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.6. Algunas Propiedades de la Distribución Binomial Negativa . . . . . . . . . 24 2.7. Parametrización de la Distribución Binomial Negativa . . . . . . . . . . . . 28 2.8. Estimación de Parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.8.1. Método de Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.8.2. Método de Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . 30 3. Estimación del Parámetro de Dispersión de la Distribución Binomial Negativa. 35. vi.

(8) vii 3.1. Modelo Estadístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.2. Anotaciones y Resultados Importantes . . . . . . . . . . . . . . . . . . . . 37 3.3. Estimadores del Parámetro de Dispersión . . . . . . . . . . . . . . . . . . . 40 3.3.1. Método de Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.3.2. Función Verosimilitud Perfilada . . . . . . . . . . . . . . . . . . . . 4. Aplicación: Simulación. 41 43. 4.1. Problema de Aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 A. Programa en R. 51. A.1. Programa para el ejemplo 2.6-pag. 32 . . . . . . . . . . . . . . . . . . . . . 56 A.2. Programa de la Aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . 59.

(9) Introducción Generalmente, los diseños de muestreo estratificado consideran la media, proporción, total poblacional como parámetros de la población a estudiar. Sin embargo, cuando se toma las observaciones en los estratos, la naturaleza de la variable (o las variables) a estudiar son de diferente tipo. En este sentido, si se asume que la variable (o variables) a ser estudiada es de naturaleza discreta, esto es en cada estrato. Para esto se debe considerar una distribución de probabilidad adecuada. En esta situación, generalmente los datos poseen sobredispersión, ante este fenómeno, generalmente se usa la distribución binomial negativa. La distribución binomial negativa (NB) tiene amplias aplicaciones como modelo para datos de conteo, en particular para los datos que muestran sobredispersión de Poisson (Ross y Preece, 1985). La distribución NB se puede generar a partir de una mezcla Poisson-gamma de variables aleatorias y lo cual motiva a que la distribución NB sea a menudo usada, debido a la existencia de heterogeneidad entre las unidades de estudio. En la distribución de Poisson, la varianza es igual a la media, sin embargo esto no necesariamente se cumple en la distribución NB. Nótese que si la variable Y tiene una µ2 distribución NB, la media es dada por µ y la varianza V ar(Y ) = µ + , donde k se k denomina parámetro de dispersión. Si se tiene la condición V ar(Y ) > E(Y ) se dice que en la distribución de los datos presenta una sobredispersión. Esta problemática motivó en este trabajo a estimar el parámetro de dispersión de la distribución binomial negativa cuando los datos son tomados por medio de un diseño de muestreo estratificado. Para el cual se va examinar y estudiar el comportamiento de los diferentes estimadores propuestos para el parámetro de dispersión de la distribución binomial negativa. Como también describir el comportamiento de los diferentes estimadores cuando se tiene datos de un diseño de muestreo estratificado. El presente trabajo se ha estructurado en cuatro capítulos. En el primer capítulo recopilaremos información preliminar para poder estudiar y examinar el comportamiento 1.

(10) 2 de los diferentes estimadores del parámetro de dispersión de la distribución NB cuando los datos de conteo son de un diseño de muestreo estratificado. En el segundo capitulo introducimos la distribución binomial negativa como modelo estadístico para datos de conteo. En el tercer capitulo se estudiará y analizará los diferentes tipos de estimadores para el parámetro de dispersión de la distribución NB. Asimismo en el cuarto capitulo se hará las simulaciones para ver el comportamiento de los diferentes estimadores comparando el sesgo y error cuadrático medio. Ilustrando los diversos estimadores con datos estratificados generados por medio de simulación. Finalmente en anexos se tiene el programa en R de la simulación de los datos generados, como también las conclusiones y propuesta futuras del trabajo presentado..

(11) 3. Objetivos Objetivo General Estimar el parámetro de dispersión de la distribución binomial negativa cuando los datos son tomados por medio de un diseño de muestreo estratificado.. Objetivos Específicos 1. Examinar y estudiar el comportamiento de los diferentes estimadores propuestos para el parámetro de dispersión de la distribución binomial negativa. 2. Describir el comportamiento de los diferentes estimadores cuando se tiene datos de un diseño de muestreo estratificados..

(12) Capítulo 1 Preliminares 1.1. 1.1.1.. Muestreo Aleatorio Estratificado Definición. Un diseño de muestreo aleatorio estratificado es aquel en el que se divide la población de N individuos, en H subpoblaciones o grupos no superpuestos, llamados estratos, atendiendo a criterios que puedan ser importantes en el estudio, de tamaños respectivos N1 , ..., NH , se cumple que. N = N1 + N2 + ... + NH =. H X. Nh. h=1. y realizando en cada una de estas subpoblaciones(o estratos), muestreos aleatorios simples de tamaños nh , h = 1, ..., H. Ejemplo 1.1. Una empresa de publicidad, interesada en determinar cuánto enfatizar la publicidad televisiva en una determinada provincia, decide realizar una encuesta por muestreo para estimar el número promedio de horas por semana que ven televisión los hogares de la provincia. La provincia tiene dos ciudades, A y B, y un área rural. La ciudad A rodea una fábrica y la mayoría de los hogares son de obreros jóvenes con hijos en edad escolar. La ciudad B es un suburbio exclusivo de una provincia vecina y tiene habitantes de más edad con pocos niños en casa. Existen 155 hogares en la ciudad A, 62 en la ciudad B y 93 en el área rural. Se podría usar un muestreo aleatorio estratificado en esta situación.. En efecto: La partición de la población en 3 estratos facilita la tarea de selección de. 4.

(13) 5 muestras y el trabajo de campo. Además se espera cierta homogeneidad dentro de cada estrato y posiblemente alta variabilidad (diferencias) entre los 3 estratos en cuanto al número de horas que ven televisión. Esto favorece a la precisión de un estimador global respecto a un muestreo aleatorio simple no estratificado, como se verá más adelante en el Ejemplo 1.2 Las razones principales para realizar un muestreo aleatorio estratificado son en parte tanto prácticos como teóricos, en lugar de un muestreo aleatorio simple. Entre ellos se pueden destacar: 1. La posibilidad de mejorar la precisión de los estimadores globales, a través de una buena selección de estratos y de una afijación apropiada (selección de los tamaños muestrales nh ). Este resultado es particularmente cierto si las mediciones dentro de los estratos son homogéneas. 2. El costo por observación en la encuesta puede reducirse mediante la estratificación de los elementos de la población en grupos convenientes. 3. La necesidad de obtener estimaciones separadas para cada subpoblación o estrato. El muestreo aleatorio estratificado se puede aplicar en estudios tales como: a) Una encuesta de estudiantes universitarios en una universidad grande puede ser administrada y llevada a cabo más convenientemente si los estudiantes se estratifican a residentes dentro y fuera del campus. b) El plan de muestreo de control de la calidad en una planta de fabricación puede ser estratificado por las líneas de producción porque el gerente de cada línea puede requerir estimaciones de las proporciones de productos defectuosos. c) Muestrear a los pacientes de un hospital con una dieta determinada para evaluar el aumento de peso, tal vez sea más eficiente si los pacientes están estratificados por género porque tienen más peso que las mujeres. Sea y la variable de interés. Sea yhi = valor de la variable de interés en la i − sima unidad en el estrato h, para h = 1, ..., H y i = 1, ..., Nh . Se tiene: Nh :. Número de unidades de muestreo en el estrato h.. nh :. Número de unidades muestrales que se extraerán en el estrato h..

(14) 6 µh =. 1 Nh. PNh. i=1. PNh. τh = Nh µh = 1 N. µ= yh =. 1.1.2.. yhi i=1. PH PNh. 1 nh. yhi. i=1 yhi =. h=1. Pnh. media la población en el estrato h. i=1. yhi. total poblacional por estrato h 1 N. PH. h=1. Nh µh. media poblacional.. media muestral en el estrato h, h = 1, ..., H.. Estimación de la Media Poblacional y Total Poblacional. Sea y h , h = 1, ..., H la media muestral para la muestra aleatoria simple seleccionada del estrato h, nh el tamaño de la muestra para el estrato h, µh la media poblacional para el estrato h, y τh el total poblacional para el estrato h. Entonces el total poblacional: τ = τ1 + τ2 + ... + τh Así se tiene una muestra aleatoria simple dentro de cada estrato. Por lo tanto, y h es un estimador insesgado de µh y Nh y h es un estimador insesgado de τh = Nh µh . Nótese que un estimador de τ , se obtiene sumando los estimadores de τh . De manera similar, debido a que la media poblacional µ es igual al total poblacional τ dividido por N , se obtiene un estimador insesgado de µ sumando los estimadores de τh en todos los estratos y luego dividiendo por N . Tal estimador se denota por y st , donde el subíndice st indica que se utiliza un muestreo aleatorio estratificado. Estimador de la media poblacional µ : H 1 1 X Nh y h y st = [N1 y 1 + N2 y 2 + ... + NH y H ] = N N h=1. (1.1). La varianza estimada de y st es dado por: i 1 h 2b 2b 2 b b V (y st ) = 2 N1 V (y 1 ) + N2 V (y 2 ) + ... + NH V (y H ) N 1 n1 s21 nH s2H 2 2 b V (y st ) = 2 N1 1 − + ... + NH 1 − N N1 n1 NH nH H 1 X 2 nh s2h b V (y st ) = 2 N 1− N h=1 h Nh nh. (1.2).

(15) 7 Ejemplo 1.2. Supongamos que se lleva a cabo la encuesta planificada en el Ejemplo 1.1. La empresa de publicidad tiene suficiente tiempo y dinero para entrevistar a n = 40 hogares y decide seleccionar muestras aleatorias de tamaño n1 = 20 de la ciudad A, n2 = 8 de la ciudad B y n3 = 12 del área rural. Las muestras aleatorias simples se seleccionan y se realizan las entrevistas. Los resultados, son mediciones del tiempo de visualización de la televisión en horas por semana, se muestran en la Tabla 1.1. Con los datos presentados en la tabla se estimará, el tiempo promedio en horas por semana que los hogares de la provincia ven televisión.. Tabla 1.1: Tiempo de televisión en horas por semana Ciudad A. 35 43 36 39 28 28 29 25 38 27 26 32 29 40 35 41 37 31 45 34. Ciudad B 27 15 4 41 49 25 10 30 Rural. 8 14 12 15 30 32 21 20 34 7 11 24. Tabla 1.2: Resumen descriptivo de los datos Provincia. Nh. nh. Media. Mediana. Desviación (SD). Ciudad A. 155. 20. 33.90. 34.50. 5.95. Ciudad B. 62. 8. 25.125. 26.00. 15.25. Rural. 93. 12. 19.00. 17.50. 9.36. Reemplazando en la formula (1.1), los valores del resumen descriptivo de los datos de la muestra se tiene: y st =. =. 1 (N1 y 1 + N2 y 2 + ... + NH y H ) N 1 (155 × 33,90 + 62 × 25,125 + 93 × 19) 310. = 27,675 ≈ 27,68 horas. el tiempo promedio que los hogares o familias de la provincia pasan viendo televisión es y st = 27,675 ≈ 27,68. horas por semana..

(16) 8 La varianza estimada de y st es: 2 H 1 X 2 sh nh b V (y st ) = 2 Nh 1 − N h=1 Nh nh. Vb (y st ) =. 20 5,952 8 15,252 12 9,362 1 2 2 2 155 1 − + 62 1 − + 93 1 − 3102 155 20 62 8 93 12. = 1,97049 ≈ 1,97 horas2 Se observa que no hay mucha variabilidad con respecto al tiempo en horas por semana que los hogares o familias ven televisión en la provincia.. 1.2.. Método de Máxima Verosimilitud. Es un método de estimación más usado, para estimar los parámetros de un modelo estadístico.. 1.2.1.. Definición (Función Verosimilitud). Sea X1 , X2 , ..., Xn una muestra aleatoria (m.a) de una población con función de probabilidad f (X, θ) (o función de densidad). Para cada muestra observada la función de verosimilitud se define como la probabilidad (o de densidad) conjunta de (X1 , X2 , ..., Xn ) evaluada en (x1 , x2 , ..., xn ) en que: L(θ; x1 , x2 , ..., xn ) = P rθ (X1 = x1 , ..., Xn = xn ), L(θ; x1 , x2 , ..., xn = fθ (x1 , ..., xn ),. caso discreto.. caso continuo.. Observaciones: θ puede ser un escalar o un vector θ = (θ1 , ..., θp )> El subíndice θ en la función de probabilidad o de densidad indica que dicha función depende del valor del parámetro. Utilizaremos también las notaciones P r(·; θ) y f (·; θ). En el caso que las variables aleatorias sean independientes e idénticamente distribuidas se tiene:.

(17) 9 Si X es una v.a discreta con función de probabilidad P r(X; θ), entonces: L(θ; x1 , x2 , ..., xn ) = P r(x1 ; θ) × ... × P r(xn ; θ). =. n Y. P (xi ; θ). i=1. Si X es una v.a continua con función de densidad f (X; θ), entonces: L(θ; x1 , x2 , ..., xn ) = f (x1 ; θ) × ... × f (xn ; θ). =. n Y. f (xi ; θ). i=1. 1.2.2.. Definición (Estimador de Máxima Verosimilitud). Sea X1 , X2 , ..., Xn una muestra aleatoria de una población con función de probabilidad f (X, θ). Para cada muestra observada (x1 , x2 , ..., xn ), la estimación de máxima verosimilitud (MLE) de θ es el valor θbM L que maximiza la función de verosimilitud, así: L(x1 , x2 , ..., xn ; θbM L ) = máx L(x1 , ..., xn ; θ) θ. Observaciones: Frecuentemente se utiliza el término estimador de máxima verosimilitud para indicar al estimador. El estimador de máxima verosimilitud se denota por θbM L . Procedimiento Para obtener el estimador MLE de θ dada una muestra observada (x1 , ..., xn ) y θ = (θ1 , ..., θp )> se debe considerar los siguientes pasos 1. Escribir la función verosimilitud L(θ; x1 , ..., xn ) 2. Obtener el logaritmo de la función verosimilitud: `(L(θ; x1 , ..., xn )) = log(L(θ; x1 , ..., xn )), llamada también función soporte o log-verosimilitud.

(18) 10 3. Hallar el estimador de θj donde j = 1, ..., p tal que ∂ `(θ) = 0, ∂θj. j = 1, . . . , p. y denotarlo por θbj 4. Comprobar que realmente es un máximo, es decir, que ∂2 `(θ) |θj =θbj < 0 ∂θj2 Ejemplo 1.3. Sea X1 , ..., Xn una m.a de X ∼ N (µ, σ 2 ) con σ 2 conocido, cuya función de densidad de X, es 1 f (x; µ, σ 2 ) = √ σ 2π. (x − µ)2 − 2σ 2 x ∈ R e. Determinando la función de verosimilitud de θ = µ; L(x1 , ..., xn ; θ) =. n Y. f (xi ; µ, σ 2 ). i=1. =. n Y i=1. = √. (xi − µ)2 √ exp − 2σ 2 2πσ 2 1. n. 1 2πσ 2. (. n 1 X exp − 2 (xi − µ)2 2σ i=1. ). ( ) n 1 X 1 2 = − 2 (xi − µ) n exp 2σ i=1 (2πσ 2 ) 2. donde x1 , ..., xn ∈ R Obtener el MLE de µ, para esto la función log-verosimilitud es n n n 1 X (xi − µ)2 `(µ, σ 2 ) = − log(2π) − log(σ 2 ) − 2 2 2 2σ i=1. derivando parcialmente con respecto µ e igualando a cero, tenemos ∂` =0 ∂µ.

(19) 11. n n 1 X ∂` 1 X =− 2 2(xi − µ)(−1) = 2 (xi − µ) ∂µ 2σ i=1 σ i=1. Como n 1 X (xi − µ) = 0 σ 2 i=1 n X. (xi − µ) = 0. i=1 n X. xi − nµ = 0. i=1. nµ =. n X. xi. i=1 P n. µ=. i=1. n. xi. =x. por tanto µ b=x Comprobar que realmente es un máximo, es decir, que ∂ 2` −n = 2 < 0, 2 ∂µ σ. ∂2` ∂µ2. |µ=bµ < 0. ∀µ ∈ R. entonces ∂ 2` |µ=bµ < 0 ∂µ2 Por tanto la estimación máximo verosimilitud para una muestra dada con σ 2 conocido, es µ bM L = x Nota: En el caso que se tenga dos variables, a fin de verificar que una función G(θ1 , θ2 ) tenga un máximo local en (θb1 , θb2 ) debe cumplir las siguientes condiciones: a. Las derivadas parciales de primer orden son iguales a cero ∂ G(θ1 , θ2 ) |θ1 =θb1 ,θ2 =θb2 = 0 ∂θ1. ∂ G(θ1 , θ2 ) |θ1 =θb1 ,θ2 =θb2 = 0 ∂θ2.

(20) 12 b. Por lo menos una derivada parcial de segundo orden es negativa. ∂2 G(θ1 , θ2 ) |θ1 =θb1 ,θ2 =θb2 < 0 ∂θ12 ó ∂2 G(θ1 , θ2 ) |θ1 =θb1 ,θ2 =θb2 < 0 ∂θ22 c. El determinante de la matriz Hessiana de las derivadas parciales de segundo orden debe ser positivo. ∂2 G(θ1 , θ2 ) ∂θ12. ∂2 G(θ1 , θ2 ) ∂θ1 ∂θ2. ∂2 G(θ1 , θ2 ) ∂θ1 ∂θ2. ∂2 G(θ1 , θ2 ) ∂θ12. 2 ∂2 ∂2 ∂2 = 2 G(θ1 , θ2 ) 2 G(θ1 , θ2 ) − G(θ1 , θ2 ) |θ1 =θb1 ,θ2 =θb2 ∂θ1 ∂θ2 ∂θ1 ∂θ2 Ejemplo 1.4. Considerando el Ejemplo 1.3 donde µ y σ 2 son desconocidos. Obtener los estimadores de máxima verosimilitud usando la condición (c.) de la nota. Para esto las derivadas parciales de segundo orden con respecto a µ y σ 2 son: ∂ 2` n =− 2 2 ∂µ σ n n 1 X ∂ 2` = 4− 6 (xi − µ)2 ∂(σ 2 )2 2σ σ i=1. n n X ∂ 2` =− 4 (xi − µ) ∂µ∂σ 2 σ i=1. Como las condiciones (a) y (b) ya se cumplieron en el ejemplo (1.3), calculamos el determinante de la matriz Hessiana:. − σn4. − σn2 Pn i=1 (xi − µ). − σn4 n 2σ 4. −. Pn. 1 σ6. i=1 (xi. Pn. − µ). i=1 (xi. − µ)2.

(21) 13 . !2  n X (xi − µ)  |µ=bµ,σ2 =bσ2. n 1  n n X 1 = 6 − + 2 (xi − µ)2 − 2 σ 2 σ i=1 σ.  =. 2. 2. n X. 2. 1  n n 2 1 − + 2σ b − 2 6 σ b 2 σ b σ b. i=1. !2  (xi − µ b). i=1. 2 = n >0 2b σ6. Como el determinarte es positivo se tiene que la función presenta un máximo local (b µ, σ b2 ) Pn 1 2 2 donde µ bM L = x y σ bM L = n i=1 (xi − x) . Que son los estimadores de ML.. 1.2.3.. Algunas Propiedades. Los estimadores de ML presentan las siguientes propiedades: 1. Principio de Invarianza, si θbM L es el estimador máxima verosimilitud de θ, entonces para cualquier función φ(θ) el estimador MLE de φ(θ) es φ(θbM L ) 2. Insesgadez Asintótica, es cuando lı́m E[θbM L ] = θ. n→∞. 3. Consistencia, es cuando el estimador θbM L es asintóticamente insesgado cuya varianza tiende a cero al aumentar el tamaño muestral es decir lı́m E[θbM L ] = θ. n→∞. 1.2.4.. y. lı́m V [θbM L ] = 0. n→∞. Función Score. La primera derivada de la función log-verosimilitud S(θ) =. d`(θ) dθ. (1.3). donde θ es un escalar, es llamada la función score.. 1.2.5.. Información de Fisher. La segunda derivada de la función log-verosimilitud d2 `(θ) dS(θ) I(θ) = − =− 2 dθ dθ. (1.4). donde θ es un escalar, es llamada la información de Fisher. El valor de la información de Fisher en el MLE θbM L , es la información observada de Fisher..

(22) Capítulo 2 Distribución Binomial Negativa 2.1.. Introducción. Muchas de las distribuciones de probabilidad conocidas pueden ser reunidas en una familia denominada familia exponencial de distribuciones. Por ejemplo pertenecen a esta familia de distribuciones la distribución normal, binomial negativo, normal inversa, logaritmica, binomial, Poisson, gamma entre otras. La familia exponencial de distribuciones tiene mayor importancia en el área de modelos de regresión, a partir del trabajo de Nelder y Wedderburn (Generalized Linear Models, 1972) fueron definidos los modelos lineales generalizados. En la década de los 80, estos modelos se popularizaron, primero, en el Reino Unido, y posteriormente, en Europa y los Estados Unidos.. 2.2.. Familia Exponencial Uniparamétrica. La familia exponencial uniparamétrica es caracterizada por una función de densidad o de probabilidad de la forma. f (x, θ) = h(x) exp [η(θ)t(x) − b(θ)]. (2.1). en que las funciones η(θ), b(θ), t(x) y h(x) asumen valores en los números reales. las funciones η(θ), b(θ) y t(x) no son únicas. Por ejemplo, η(θ) puede ser multiplicado por una constante y t(x) puede ser dividido por la misma constante. Varias distribuciones importantes pueden ser escritas en la forma (2.1), tales como: Poisson, binomial, Rayleigh, normal, gamma y normal inversa (en las tres últimas uno de los parámetros es conocido). 14.

(23) 15 Es muy fácil verificar si una distribución pertenece o no a la familia exponencial (2.1) como se muestra en los siguientes ejemplos: Ejemplo 2.1. La distribución de Poisson con parámetro θ > 0, usada para el análisis de datos en la forma conteo, con función de probabilidad. f (x, θ) =. e−θ θx 1 = exp(x log(θ) − θ) x! x!. es un miembro de la familia exponencial donde η(θ) = log(θ), t(x) = x, b(θ) = θ, h(x) =. 1 . x!. Ejemplo 2.2. La distribución binomial, con parámetro 0 < θ<1 y m conocido, es usado para el análisis de datos en la forma de proporciones, tiene por función de probabilidad     m m θ x m−x     ) + m log(1 − θ) f (x, θ) = θ (1 − θ) = exp x log( 1−θ x x θ que también es un miembro de la familia exponencial donde η(θ) = log( 1−θ ), t(x) = x,   m b(θ) = −m log(1 − θ), h(x) =   x. Una familia exponencial en la forma canónica es definida a partir de (2.1) considerando las funciones η(θ) y t(x) iguales a la función identidad, se tiene f (x, θ) = h(x) exp[θx − b(θ)]. (2.2). En la parametrización (2.2), θ es llamado parámetro canónico. El logaritmo de la función de verosimilitud correspondiente a una única observación en el modelo (2.2) es: `(θ) = θx − b(θ) + log[h(x)]. 2.3.. Componente Aleatorio. El componente aleatorio de un modelo lineal generalizado se define a partir de una familia exponenecial uniparamétrica en la forma canónica (2.2) con la introducción de un parámetro de perturbación ϕ > 0. Nelder y Wedderburn (1972) hicieron esto posible, logrando incorporar distribuciones biparamétricas al componente aleatorio del modelo. Obteniendo la función: f (x; θ, ϕ) = exp{ϕ−1 [xθ − b(θ)] + c(x, ϕ)}. (2.3).

(24) 16 donde b(·) y c(·) son funciones conocidas, cuando ϕ es conocida, la familia de distribuciones (2.3) es idéntica a la familia exponencial en la forma canónica (2.2). Posteriormente en la sección que continua (función generadora de momentos) se demostrará el valor esperado y la varianza de la familia (2.3) son: 0. E(X) = µ = b (θ) y. 00. V ar(X) = ϕb (θ). . Se observa que ϕ es el parámetro de dispersión del modelo (2.3) y su inversa ϕ−1 , es una medida de precisión. La función que relaciona el parámetro canónico θ con la 0. media µ (inversa de la función b (·)) es denotado por θ = q(µ). La función de la media µ en la varianza es denotada por b00 (θ) = V (µ). Se denomina V (µ) como la función de R varianza. Se observa que el parámetro canónico puede ser obtenido por θ = V −1 (µ)dµ, dµ pues V (µ) = . dθ En la tabla (2.1) se presenta varias distribuciones importantes en la familia (2.3) caracterizando las funciones b(θ), c(x, ϕ), una media µ en términos del parámetro θ y la función de varianza V (µ). Cuando ϕ es desconocido, la familia (2.3) pueda o no pertenecer a la familia exponencial biparámetrica. Para que (2.3) pertenezca a la familia exponencial, la función c(x, ϕ) debe ser descompuesta c(x, ϕ) = ϕ−1 d(x) + d1 (x) + d2 (ϕ) según (Cordeiro y McCullagh 1991). Como la distribución Normal, Gamma, Normal Inversa, entre otras..

(25) − log(−θ). − µ1. ν −1. Gama:G(µ, ν). −k log(1 − exp(θ)). µ log( µ+k ). 1. Binomial Negativa: N B(µ, k). m log(1 + exp(θ)). 1. Binomial:B(m, π). µ log( m−µ ). σ2. Normal:N (µ, σ 2 ). exp(θ). log(µ) θ2 2. 1. Poisson:P(µ). b(θ). θ. µ. ϕ. Distribución. ν log(νx) − log(x) − log Γ(ν). − 21. − 1θ. − µ) +1 µ2. µ k. exp(θ) k 1−exp(θ). µ. µ (m m. 1. µ. V (µ). m exp(θ) 1+exp(θ). θ. exp(θ). − log x! i x2 2 + log(2πσ ) 2 σ log m h x i log Γ(k+x) Γ(k)x!. h. µ(θ). c(x, ϕ). 17. Tabla 2.1: Algunas distribuciones importantes en la familia Biparamétrica.

(26) 18 Ejemplo 2.3. Sea la distribución normal con parámetros µ y σ 2 cuya función de densidad esta dado (x − µ)2 f (x, µ, σ ) = √ exp − 2σ 2 2πσ 2 −∞ < x < +∞ y σ 2 > 0 entonces, (x − µ)2 log(2πσ 2 ) 2 f (x, µ, σ ) = exp − − 2σ 2 2. donde µ ∈ R,. . 1. 2. . (x2 − 2xµ + µ2 ) 1 2 = exp − − log(2πσ ) 2σ 2 2. . 1 = exp 2 σ. ϕ = σ2,. donde θ = µ,. b(θ) =. µ2 2. =. µ2 1 x2 2 xµ − − log(2πσ ) − 2 2 2 2σ. θ2 , 2. ϕ−1 =. 1 , σ2. c(x, ϕ) = − 12. h. x2 σ2. + log(2πσ 2 ). i. Por lo tanto la distribución normal es un miembro de la familia exponencial (2.3). Ejemplo 2.4. Sea la distribución binomial con parámetros m y π, cuya función de probabilidad esta dado   m f (x, π) =   π x (1 − π)m−x , x donde π ∈ [0, 1] ,. x = 0, 1...., m. se tiene entonces,. .       m m π f (x, π) = exp log   + x log π + (m − x) log(1 − π) = exp x log + m log(1 − π) + log   1−π x x µ π ) = log( m−µ ) θ = log( 1−π. θ. me lo que implica µ = 1+e θ,   m b(θ) = −m log(1 − π) = m log(1 + eθ ), y c(x, θ) = log   x y por tanto la distribución binomial pertenece a la familia exponencial (2.3). Esto es, ϕ = 1,. 2.4.. Función Generadora de Momentos. Una función generadora de momentos (f.g.m) dada por la familia (2.3) esta dada por. M (t; θ, ϕ) = E(etX ) = exp ϕ−1 [b(tϕ + θ) − b(θ)]. (2.4).

(27) 19 En efecto, considerando el caso de variables aleatorias continuas y recordando que Z f (x; θ, ϕ)dx = 1 tenemos Z. exp ϕ−1 [θx − b(θ) ]+c(x, ϕ) }dx = 1. obteniéndose Z. exp ϕ−1 θx + c(x, ϕ) dx = exp ϕ−1 b(θ) .. Luego, Z. tX. M (t; θ, ϕ) = E(e ) =. exp (tx) f (x)dx. Z. exp ϕ−1 [xθ − b(θ)] + tx + c(x, ϕ) dx. Z. exp ϕ−1 [ϕtx + xθ − b(θ)] + c(x, ϕ) dx. Z. exp ϕ−1 [(ϕt + θ)x − b(θ)] + c(x, ϕ) dx. =. =. =. 1 = exp [ϕ−1 b(θ)]. Z. exp ϕ−1 (ϕt + θ)x + c(x, ϕ) dx. usándose (2.5), tenemos:. M (t; θ, ϕ) =. −1 1 exp ϕ b(ϕt + θ) exp[ϕ−1 b(θ)]. reduciendo un poco mas, M (t; θ, ϕ) = exp ϕ−1 [b(ϕt + θ) − b(θ)] demostrando así (2.4).. (2.5).

(28) 20 La función generadora de cumuladores (f.g.c) esta dado por φ(t; θ, ϕ) = log [M (t; θ, ϕ)] = ϕ−1 [b(ϕt + θ) − b(θ)]. (2.6). derivándose (2.6) sucesivamente, en relación a t, se tiene:. φr (t; θ, ϕ) = ϕr−1 b(r) (ϕt + θ) donde b(r) (·) indica la derivada de r-esimo orden de b(·) en relación a t. Para t = 0, se obtiene el r-esimo cumulante de la familia (2.3) como κr = ϕr−1 b(r) (θ). (2.7). Como se dijo anteriormente se puede deducir a partir de (2.7), el valor esperado κ1 = µ y 0. una varianza κ2 de la familia (2.3) para r = 1 y 2, respectivamente. Sea, κ1 = µ = b (θ) y dµ 00 κ2 = ϕb (θ) = ϕ . dθ La ecuación (2.7) muestra que existe una relación interesante de recurrencia entre los dkr cumulantes de la familia (2.3), esto es, κr+1 = ϕ para r = 1, 2, .... Eso es fundamental dθ para la obtención de propiedades asintóticas de los estimadores de máxima verosimilitud en modelos lineales generalizados. Se pueden también, deducir esas expresiones, usando las propiedades de la función escore. Para ello, sea ` = `(θ, φ) o logaritmo de la función de verosimilitud correspondiente a una única observación en (2.3). Tenemos que `(θ, φ) = log exp ϕ−1 [xθ − b(θ)] + c(x, ϕ). `(θ, φ) = ϕ−1 [xθ − b(θ)] + tx + c(x, ϕ). S=. 0. d` = ϕ−1 [x − b0 (θ)] dθ. S =. d2 ` = −ϕ−1 b00 (θ) 2 dθ. luego h i 0 E(S) = E(ϕ−1 [x − b0 (θ)]) = ϕ−1 E(X) − b (θ) = 0 llegando a.

(29) 21. 0. E(X) = b (θ) y como 0. 00. V ar(S) = −E(S ) = ϕ−1 b (θ) y. V ar(S) = E(S 2 ) = ϕ−2 V ar(X). igualando estas dos últimas expresiones tenemos que 00. V ar(X) = ϕb (θ) Ejemplo 2.5. Del ejemplo (2.3) determinar φ(t) y M (t). Para esto, se consideran los parámetros θ y ϕ del ejemplo, donde ϕ = σ 2 , θ = µ y b(θ) =. θ2 . 2. Ahora de (2.6) vemos. que la f.g.c. 1 (σ 2 t + θ)2 θ2 − φ(t) = 2 σ 2 2. 1 σ 4 t2 + 2σ 2 tθ + θ2 θ2 = 2 − σ 2 2. σ 4 t2 + 2σ 2 tθ = 2σ 2 . =. . 1 22 σ t + 2tθ 2. = tµ +. σ 2 t2 2. Derivando φ(t) y haciendo que t = 0, se tiene: κ1 = µ, κ2 = σ 2 y κr = 0, r ≥ 3. Con esto, se tiene que todos los cumulantes de orden mayor que dos son nulos. Entonces la función generado de momentos (f.g.m) σ 2 t2 M (t) = exp tµ + 2.

(30) 22 Tabla 2.2: Función Generadora de Momentos para algunas distribuciones Distribuciones. 2. Normal: N (µ, σ ). Poisson: P (µ). Binomial: B(m, π). Binomial Negativa: N B(µ, k). Gama: G(µ, ν). 2.5. 2.5.1.. Función Generadora de Momentos M (t; θ, ϕ) . exp tµ +. σ 2 t2 2. . exp[µ(et − 1)]. m−µ m. +. µ t m e m. −k 1 + µk (1 − et ) 1−. tµ −ν ν. ,t<. ν µ. Distribución Binomial Negativa Definición. Muchos modelos diferentes dan lugar a la distribución binomial negativa y, en consecuencia, existe una variedad de definiciones en la literatura. Damos tres versiones de la distribución binomial negativa. Las dos primeras versiones surgen en el caso que r es un número entero positivo, que puede interpretarse como el experimento aleatorio de una secuencia de pruebas independientes de Bernoulli hasta r-ésimo éxito, de modo que hay dos resultados posibles (éxito o fracaso). La tercera versión es cuando r es un número real positivo. Primera Versión: Sea X1 el número de pruebas Bernoulli hasta que ocurre el r-ésimo éxito y p la probabilidad de éxito en cada prueba entonces la función de probabilidad de X1 es definida por x−1 r P [X1 = x] = p (1 − p)x−r , r−1. 0<p<1. (2.8). donde x = r, r + 1, r + 2, ... y r ∈ Z + . la idea de (2.8) es que el evento o suceso X1 = x puede ocurrir, si hay r − 1 éxitos en la primeras x − 1 pruebas, y un éxito adicional en la última prueba (la x-ésima prueba)..

(31) 23 Segunda Versión: Una versión mas común de la distribución NB esta definida en términos de la variable aleatoria X2 que es el número de fracasos o fallas antes de r-ésimo exito, cuya función de probabilidad de X2 esta dado por x+r−1 r P [X2 = x] = p (1 − p)x , x. 0<p<1. (2.9). donde x = 0, 1, 2, ... y r ∈ Z + La idea para (2.9) es que el evento X2 = x puede ocurrir si hay x fallas (o equivalentemente r − 1 éxitos) en las primeras x + r − 1 pruebas. En ambos (2.8) y (2.9), el coeficiente binomial puede estar definido por. y y! y(y − 1)...(y − (k − 1)) = = k k!(y − k)! k!. (2.10). donde y es un entero positivo y k es un entero no negativo. Sin embargo, el lado derecho de (2.10) puede calcularse incluso si y no es un entero positivo. Por tanto, el coeficiente binomial ky se puede ampliar para que funcione con todos los números reales y. Sin embargo k todavía debe ser un numero entero no negativo.. y y(y − 1)...(y − (k − 1)) = k k!. por conveniencia, dejemos. y 0. . (2.11). = 1. Cuando y > k − 1, el coeficiente binomial en (2.11) se. puede expresar como:. Γ(y + 1) y = k Γ(k + 1)Γ(y − k + 1). (2.12). donde Γ(·) es la función gamma Tercera Versión: La tercera versión surge de la ampliación del coeficiente binomial, teniendo en cuenta la función de probabilidad de (2.9), donde r es número real positivo. Por tanto, la distribución binomial negativa con parámetros r y p, tal que 0 < p < 1, cuya función de probabilidad es:. P [X = x] =. x+r−1 r p (1 − p)x , x. x = 0, 1, 2, .... (2.13).

(32) 24. Siempre que r en (2.13) sea un número real positivo pero no un número entero. La distribución ya no puede interpretarse como el número de fallas hasta la ocurrencia del r-ésimo éxito. Mas bien, se utiliza como una distribución de conteo.. 2.6.. Algunas Propiedades de la Distribución Binomial Negativa. Primera Propiedad: La distribución binomial negativa es una función de probabilidad. Para ello se demostrara que la suma de todas las probabilidades binomiales negativas es uno. Partiendo de la definición (2.13), que se puede reorganizar de la siguiente manera: . . x+r−1 (x + r − 1)(x + r − 2)...(r + 1)r = x! x. x+r−1 (−r − (x − 1)(−r − (x − 2))...(−r)(−r − 1) = (−1)x x! x. Usamos los siguientes hechos relacionados con la expansión de la serie de Taylor con centro igual cero (serie de Mauclarin). . x+r−1 x −r = (−1) x x. −r. (1 − y). ∞ X x −r = (−1) (y)x x x=0. Demostración. 1 = pr p−r. 1 = pr (1 − q)−r (usando 2.16). (2.14). (2.15).

(33) 25. ∞ X −r (−q)x 1=p x x=0 r. Finalmente ∞ X x+r−1 r x 1= pq x x=0 ∞ X x+r−1 r 1= p (1 − p)x x x=0 Lo cual queda demostrado que las sumatoria de todas las probabilidades es uno.. Segunda Propiedad: Función generadora de momentos para distribución NB En efecto, sabiendo que la (f.g.m) esta sobre todos los números reales y partiendo de su definición se tiene:. M (t) = E(etx ). M (t) =. ∞ X. tx. . e. x=0. x+r−1 r p (1 − p)x x. ∞ X x+r−1 =p [(1 − p)et ]x x x=0 r. (usando 2.15) ∞ X. −r M (t) = p (−1) [(1 − p)et ]x x x=0 r. x. (usando 2.16). M (t) = pr [1 − (1 − p)et ]−r. M (t) =. pr [1 − (1 − p)et ]r.

(34) 26. la función generadora de momentos obtenida funciona para la distribución binomial negativa con respecto a (2.13) y por tanto a (2.9). Para la distribución binomial negativa en (2.8), tenga en cuenta que X = Y + r. Así que. E(etX) = E(et(Y +r) ) = etr E(etY ) La función generadora de momentos de (2.8) es simplemente multiplicar a la f.g.m anterior por el factor etr . Para resumir, la función de generado de momento para las tres versiones son:. MX (t) = E(etX ) =. pr etr , [1−(1−p)et ]r. para (2.8). MX (t) = E(etX ) =. pr , [1−(1−p)et ]r. para (2.9) y (2.13). El dominio de la función generadora de momentos es le conjunto de todos los t para el cual MX (t) esta definido y es positivo. Basado en la forma que toma, nos enfocamos en asegurarnos de que 1 − (1 − p)et > 0. Esto conduce al dominio t < −ln(1 − p).. Tercera Propiedad: Media y Varianza Derivando la función generadora de momentos y evaluando en t = 0, encontraremos los momentos de la distribución binomial negativa de acuerdo a (2.13) se tiene. MX (t) = E(etX ) =. pr [1 − (1 − p)et ]r. derivando con respecto a t 0. MX (t) = pr (−r)[1 − (1 − p)et ]−r−1 (−(1 − p))et. =. r(1 − p)pr et [1 − (1 − p)et ]r+1. 0. MX (0) =. 0. r(1 − p)pr pr+1. MX (0) =. r(1 − p) p.

(35) 27. Por lo tanto µ = E(X) =. r(1 − p) p. Ahora 00. MX (t) = rpr (1 − p)et [1 − (1 − p)et ]−r−1 + rpr (1 − p)et (r + 1)(1 − p)et [1 − (1 − p)et ]−r−2. =. rpr (1 − p)et r(r + 1)pr (1 − p)2 e2t + [1 − (1 − p)et ]r+1 [1 − (1 − p)et ]r+2. luego en t = 0. r(1 − p)pr r(r + 1)pr (1 − p)2 + MX (0) = pr p pr p2 00. =. r(1 − p) r(r + 1)(1 − p)2 + p p2. =. r(1 − p)[p + (r + 1)(1 − p)] p2. =. r(1 − p)(1 + r(1 − p)) p2. =. r(1 − p) + r2 (1 − p)2 p2. por lo tanto los momentos son E(X) = MX0 (0) =. E(X 2 ) = MX00 (0) =. r(1 − p) p. r(1 − p) + r2 (1 − p)2 p2.

(36) 28. ahora determinamos la varianza. V ar(X) = E(X 2 ) − E(X)2 =. r(1 − p) + r2 (1 − p)2 r2 (1 − p)2 − p2 p2. r(1 − p) + r2 (1 − p)2 − r2 (1 − p)2 V ar(X) = p2. V ar(X) =. r(1 − p) p2. Tener en cuenta que V ar(X) = p1 E(X) > E(X) donde 0 < p < 1. Así, cuando los datos de la muestra sugieren que la varianza es mayor que la media, la distribución binomial negativa es una excelente alternativa a la distribución de Poisson.. Cuarta Propiedad: Una propiedad útil de la distribución binomial negativa es que la suma independiente de variables aleatorias binomiales negativas, todas con el mismo parámetro p, también tiene una distribución binomial negativa. Es decir, sea Y = Y1 + Y2 + ... + Yn una suma independiente, tal que cada Yi tenga una distribución binomial negativa con parámetros ri y p. Entonces la suma Y = Y1 + Y2 + ... + Yn tiene una distribución binomial negativa con parámetros r = r1 + r2 + ... + rn y p. Tenga en cuenta que la función generadora de momentos de una suma independiente es el producto de las funciones generadoras de momentos individuales.. MY (t) = E[etY ] = E[et(Y1 +Y2 +...+Yn ] Pn. p i=1 ri Pn MY (t) = E[e ] = [1 − (1 − p)et ] i=1 ri tY. 2.7.. Parametrización de la Distribución Binomial Negativa. La parametrización para la distribución binomial negativa en este trabajo es dado por:.

(37) 29. Γ(y + k) P (Y = y; µ, k) = Γ(k)Γ(y + 1). . µ µ+k. y . k µ+k. k ;. µ > 0, k > 0. (2.16). cuya media, esta dado por E(Y ) = µ varianza V ar(Y ) = µ +. 2.8. 2.8.1.. µ2 k. Estimación de Parámetros Método de Momentos. Teniendo en cuenta la función de probabilidad definida en (2.16) donde E(Y ) = µ µ2 y V ar(Y ) = µ + k Partimos utilizando el método de momentos para estimar los parámetros µ y k Pn. i=1. α1 = E(Y ) =. n. yi. (1er Momento) pero E(Y ) = µ por lo que se tiene µ b=y. Pn 2. α2 = E(Y ) =. i=1. n. yi2. (2do momento). Por otro lado, por momentos poblacionales se sabe. E(Y 2 ) = V ar(Y ) + E(Y )2 reemplazando Pn. i=1. n n X i=1. yi2. =y+. yi2 = ny +. y2 + y2 k. ny 2 + ny 2 k. n X ny 2 (yi − y)2 + ny 2 = ny + + ny 2 k i=1.

(38) 30. n X. (yi − y)2 − ny =. i=1. ny 2 k. ny 2 2 i=1 (yi − y) − ny. k = Pn. por lo que y2 2 i=1 (yi − y) − ny. b k = Pn. Luego los estimadores por el método de momentos son µ b=y y2 2 i=1 (yi − y) − ny. b k = Pn. 2.8.2.. Método de Máxima Verosimilitud. Se va determinar los estimadores de los parámetros µ y k. Partiendo de la función de verosimilitud de la función de probabilidad definida en (2.16) tenemos:. L(y1 , ..., yn ; µ, k) =. n Y i=1. Γ(yi + k) Γ(k)Γ(yi + 1). . µ µ+k. yi . k µ+k. k. n X µ k Γ(yi + k) `(µ, k) = yi log + k log + log µ+k µ+k Γ(k)Γ(yi + 1) i=1 Como log. h. Γ(yi +k) Γ(k). i. `(µ, k) =. =. Pyi −1. n X i=1. j=0. log(j + k) tenemos. ( yi log. . µ µ+k. . + k log. k µ+k. yi −1. +C +. X j=0. derivando parcialmente con respecto µ y k e igualando a cero ∂` =0 ∂µ ∂` =0 ∂k. ) log(j + k).

(39) 31. luego n. X ∂` = ∂µ i=1. . yi yi k − − µ µ+k µ+k. =0. n X µyi + kyi − µyi − µk µ(µ + k). i=1. k. nµ =. =0. Pn. yi − nµk =0 µ(µ + k) i=1. n X. yi. i=1. Pn µ=. i=1. yi. n. µ b=y Por lo que el MLE para µ es y. ahora ( ) yi −1 n X ∂` X yi k k = − + log +1− + (j + k)−1 = 0 ∂k µ + k µ + k µ + k i=1 j=0. n X. ( log. i=1. n X i=1. log. . k µ+k. k µ+k. +. n log. . −. yi −1. −yi − k + µ + k X + + (j + k)−1 µ+k j=0. Pn. k µ+k. yi + µ+k. i=1. . Pn. i=1. µ. ) =0. n yX i −1 X + (j + k)−1 = 0 i=1 j=0. n. yi −1. −ny + nµ X X + + (j + k)−1 = 0 µ+k i=1 j=0.

(40) 32 Como el estimador MLE de µ es y reemplazando en la ecuación anterior tenemos n log. k y+k . n log. . n. yi −1. −ny + ny X X (j + k)−1 + + y+k i=1 j=0. k y+k. . n yX i −1 X (j + k)−1 = 0 + i=1 j=0. Como se puede observar en esta última ecuación no se puede determinar de forma analítica el estimador del parámetro k, por lo que usaremos métodos numéricos (Richard L. Burden y J. Douglas Faires 2010). Ejemplo 2.6. Usando el método de Newton-Raphson, programando su algoritmo en R se determino una aproximación a la raíz de la función g(k) = 0 siendo: g(k) = n log. k y+k. . n yX i −1 X + (j + k)−1 i=1 j=0. y también se determino un ajuste de los datos observados (Número de hojas observadas) Tabla 2.3, a la distribución NB y Poisson.. Tabla 2.3: Distribución de frecuencia de ácaros rojos en hojas de manzana Número de ácaros por hoja. 0. 1. 2. 3. 4. 5. 6. 7. Número de hojas observadas. 70. 38. 17. 10. 9. 3. 2 1. 8+ 0. En la figura 2.1 se tiene la gráfica de la función g(k) = 0, donde se observa el valor aproximado del parámetro de dispersión k, el cual es la raíz de la función g(k). En la tabla 2.4 se muestra las iteraciones obtenidas al programar en R el algoritmo del método Newton-Raphson, donde la estimación de máxima verosimilitud del parámetro de dispersión k es de 1.0245924 En la tabla 2.5 se muestra el ajuste de los datos observados de la tabla 2.3 que son el número de hojas de manzana observadas a la distribución NB y Poisson. Asimismo en la figura 2.2 se observa el ajuste a la distribución NB y Poisson con respecto al número de hojas de manzana observadas.

(41) 33. Figura 2.1: Gráfica de la función g(k) para obtener la raíz de la función. Tabla 2.4: Resultados usando el método de Newton-Raphson iteración. k. g(k). error. 1. 0.6885722. 9.3308860000. 0.1885722000. 2. 0.8669831. 2.8562040000. 0.1784109000. 3. 0.98421. 0.5737500000. 0.1172269000. 4. 1.0216113. 0.0393841800. 0.0374013300. 5. 1.0245755. 0.0002223296. 0.0029641400. 6. 1.0245924. 7.189612×10−9. 1.692371×10−5. 7. 1.0245924 -1.421085×10−14. 5.473080×10−10.

(42) 34. Tabla 2.5: Ajuste de los datos observados a la distribucion binomial negativa y Poisson y. F. Observada F. Esperada NB. F. Esperada Poisson. 0. 70. 69.49. 47.65. 1. 38. 37.6. 54.64. 2. 17. 20.1. 31.33. 3. 10. 10.7. 11.97. 4. 9. 5.69. 3.43. 5. 3. 3.02. 0.79. 6. 2. 1.6. 0.15. 7. 1. 0.85. 0.02. Figura 2.2: Frecuencias observadas y esperadas para los modelos binomial negativa y Poisson.

(43) Capítulo 3 Estimación del Parámetro de Dispersión de la Distribución Binomial Negativa La distribución binomial negativa se usa comúnmente para analizar datos de conteo biológico con sobre dispersión (Ross y Preece, 1985), en particular para modelar capturas de prospección de arrastre (Gunderson, 1993), otros tipos de encuesta de pescar con engranajes (Power and Maser, 1999) y pesquerías comerciales (Baum y Myers, 2004), llevando en cuenta que los datos son tomados bajo un diseño de muestro estratificado. En este capítulo se estudiará varios estimadores del parámetro de dispersión de la distribución binomial negativa para datos de conteo bajo un diseño estratificado (alto / bajo), en el cual el modelo asume que en cada estrato se tiene una media.. 3.1.. Modelo Estadístico. Consideramos una población que se divide en H estratos, el objetivo es tomar una muestra de la población considerando un diseño de muestreo estratificado. Para ello suponemos que los datos se muestrean de H estratos con nh muestras por cada estrato. Dentro de los estratos, los datos son independientes e idénticamente distribuidos (iid) con distribución de probabilidad binomial negativa con media µh y parámetro de dispersión común k. Nos referimos a esto como el modelo de medias por estratos (SMM). La función de masa de probabilidad para el conteo i-ésimo en el estrato h, Yhi , se puede escribir como: 35.

(44) 36. Γ(y + k) P (Yhi = y, µh , k) = Γ(k)Γ(y + 1). . µh µh + k. y . k µh + k. k ,. µh > 0, k > 0. (3.1). donde h = 1, 2, ..., H; i = 1, 2, ..., nh , con media E(Yhi ) = µh y varianza µ2 V ar(Yhi ) = µh + h . k Cuando k → ∞ se tiene entonces V ar(Yhi ) = µh y se puede mostrar que la distribución límite de Y es la distribución de Poisson cuando k → ∞. La función de verosimilitud del modelo estadístico, considerando H estratos y siendo las Yhi variables aleatorias independientes que tienen una distribución BN con media µh y parámetro de dispersión k; es dado por: L(µ, k) =. nh H Y Y h=1 i=1. Γ(yhi + k) Γ(k)Γ(yhi + 1). . µh µh + k. yhi . k µh + k. k. en que µ = (µ1 , µ2 , ..., µH )T El logaritmo de la función de verosimitud, es dado por: `(µ, k) = log(L(µ, k)) nh H X X `(µ, k) = log h=1 i=1. nh H X X `(µ, k) = log h=1 i=1. µh k Γ(yhi + k) + yhi log + k log Γ(k)Γ(yhi + 1) µh + k µh + k. Γ(yhi + k) + yhi log(µh ) − yhi log(µh + k) + k log(k) − k log(µh + k) Γ(k)Γ(yhi + 1). El estimador de máxima verosimilitud puede ser obtenido derivando parcialmente en relación a los parámetros: ∂` =0 ∂µh ∂` =0 ∂k luego nh nh nh ∂` 1 X 1 X 1 X = yhi − yhi − k = 0, ∂µh µh i=1 µh + k i=1 µh + k i=1. h = 1, .., H. " H n # h ∂` ∂ XX Γ(yhi + k) µh k = log + yhi log + k log =0 ∂k ∂k h=1 i=1 Γ(k)Γ(yhi + 1) µh + k µh + k.

(45) 37 H nh ∂` X X k yhi ∂ Γ(yhi + k) k = +1− − + log =0 log ∂k µ + k µ + k µ + k ∂k Γ(k)Γ(y + 1) h h h hi h=1 i=1. =. nh H X X. log. h=1 i=1. k µh + k. . µh yhi ∂ Γ(yhi + k) + − + log =0 µh + k µh + k ∂k Γ(k)Γ(yhi + 1). Es posible obtener el estimador de máxima verosimilitud de µh , así Pnh Pnh Pnh k i=1 yhi i=1 yhi − − i=1 = 0 µh µh + k µh + k nh y h nh y h nh k − − =0 µh µh + k µh + k nh y h nh (y h + k) = µh µh + k. µh y h + ky h = µh y h + kµh Por tanto el MLE para µh es µ bh = y h. Para obtener el estimador de máxima verosimilitud para k, no es posible obtenerlo de forma analítica, por tal motivo se utilizara métodos numéricos (Richard L. Burden y J. Douglas Faires 2010).. 3.2.. Anotaciones y Resultados Importantes. Los datos son conteos extraídos de H estratos, cada uno con nh muestras. Sea n =. P. h. nh. y sea Yhi el conteo i-ésimo en el estrato h. Asimismo los Yhi son variables aleatorias independientes que tienen una distribución binomial negativa con E(Yhi ) = µh µ2 V ar(Yhi ) = µh + h . k La varianza para la media por estrato, Y h , es definido por:. y.

(46) 38 1 vh (µh , k) = V ar(Y h ) = nh. µ2h µh + k. En efecto, se sabe Yh =. Yh1 + Yh2 + ... + Yhnh , nh. h = 1, 2, ..., H. la media muestral en el estrato h y como Yhi son iid. entonces. V ar(Y h ) =. V ar(Yh1 ) + V ar(Yh2 ) + ... + V ar(Ynh ) n2h µh +. V ar(Y h ) =. µ2h µ2 µ2 + µh + h + ... + µh + h k k k n2h. nh = 2 nh. µ2h µh + k. 1 = nh. µ2h µh + = vh (µh , k) k. Lo que queríamos demostrar. Usando el método de momentos para estimar k, se tiene la estimación de V ar(Y h ): 1 vbh (k0 ) = nh. . y2 yh + h k0. (3.2). donde k0 es algún valor de la prueba para k. Sin embargo un estimador insesgado para V ar(Y h ) es ṽh (k0 ) =. nh k0 vbh (k0 ) nh k0 + 1. Es posible mostrar que E(ṽh ) = V ar(Y h ). (3.3).

(47) 39 En efecto, E(ṽh ) = E. =. nh k vbh (k) nh k + 1. nh k E(b vh (k)) nh k + 1. 1 nh k E(y 2h ) E(y h ) + = nh k + 1 nh k 1 µh k + µ2h + µ2h nh k nh k µh + = nh k + 1 nh k 2 nh nh k µh k 2 nh + µh k + µ2h + µ2h nh k = nh k + 1 k 2 n2h nh k µh k(knh + 1) + µ2h (1 + nh k) = nh k + 1 k 2 n2h (knh + 1)(µh k + µ2h ) = (knh + 1)(knh ). 1 = nh. µ2h µh + k. = V ar(Y h ). 1 Pnh (yhi − y h )2 , el cual nh i=1 es un estimador sesgado para la V ar(Y h ). Notese que la varianza muestral insesgada en Dentro de los estratos se tiene la varianza muestral s2bh =. cada estrato es dado por n. s2h =. h 1 X (yhi − y h )2 , nh − 1 i=1. h = 1, ..., H.

(48) 40. 3.3. 3.3.1.. Estimadores del Parámetro de Dispersión Método de Momentos. El método de estimador de momentos (MME) es la k-ésima raiz de la ecuación estimada X (yhi − y )2 h − (n − H) = 0 (3.4) −1 y ) y (1 + k h h h,i Esto es equivalente. P h. vbh−1 (k)s2bh − (n − H) = 0, donde vbh (k) esta definido en (3.2).. Incluyendo H (el número de parámetros de la media por estrato µh ) en la ecuación estimada se intenta ajustar el sesgo en s2bh . Si vh (µh , k) fue conocida y usada en la ecuación estimada de (MME) en lugar de vbh (k) entonces es fácil mostrar que sustrayendo o restando n − H en lugar de n hace que la ecuación estimada sea insesgada (es decir la esperanza igual a cero). Sin embargo vbh (k) puede ser extremadamente sesgada cuando nh y k son pequeños el cual sugiere que el (MME) de la ecuación estimada no es insesgada en esta situación y producirá estimaciones sesgadas de k. Observamos esto en resultados de simulación no reportados. Proponemos un ajuste adicional para el modelo medio de estratos (SMM) para corregir el sesgo en vbh (k).. X s2 bh − (n − H) = 0 v b h (k) h. (3.5). El método ajustado de estimación de momentos (AMME) de k es la raíz de (3.5). Es posible cuando b k > −minh y h . Utilizando el método de momentos, pasamos a mostrar la ecuación 3.4 α1 = E(Yhi ) = µh. (1er Momento) pero sabemos que µh = y h. Pnh α2 =. E(Yhi2 ). =. i=1. nh. Yhi2. (2do momento).. Por otro lado, se sabe por momentos poblaciones V ar(Yhi ) = E(Yhi2 ) − E(Yhi )2. µ2 µh + h = k. Pnh. i=1. nh. 2 yhi. − µ2h. como µh = y h , se tiene de la ecuación anterior lo siguiente.

(49) 41. y2 yh + h = k. Pnh. i=1. 2 yhi. nh. − y 2h n. h X nh y 2h 2 2 nh y h + yhi + nh y h = k i=1. n. h X nh y 2h (yhi − y h )2 + nh y 2h nh y h + + nh y 2h = k i=1. nh (y h +. y 2h k −1 ). =. nh X. (yhi − y h )2. i=1 nh X (yhi − y h )2 nh = y (1 + y h k −1 ) i=1 h. Aplicando sumatoria a ambos lados con respecto h se tiene H X h=1. nh =. nh H X X (yhi − y h )2 y (1 + y h k −1 ) h=1 i=1 h. por lo tanto nh H X X (yhi − y h )2 n−H = y (1 + y h k −1 ) h=1 i=1 h. quedando demostrado (3.4).. 3.3.2.. Función Verosimilitud Perfilada. Para obtener un estimador de k sera utilizada la función de verosimilitud perfilada Lp . En este sentido, la función de verosimilitud perfilada es definida por: yhi k nh H Y Y yh k Γ(yhi + k) Lp (k) = Lp (k; y 1 , ..., y H ) = Γ(k) yh + k yh + k h=1 i=1 el logaritmo de la función de verosimilitud perfilada para el parámetro de dispersión k es: `p (k) =. nh H X X h=1 i=1. . Γ(yhi + k) k log − yhi log(y h + k) + k log Γ(k) yh + k. (3.6).

(50) 42. P hi −1 Γ(yhi + k) = yj=0 log(j + k) tenemos y como log Γ(k) . `p (k) =. nh H X X. (y −1 hi X. log(j + k) − yhi log(y h + k) + k log. j=0. h=1 i=1. k yh + k. ). derivando parcialmente con respecto a k la función de verosimilitud perfilada se tiene: ) ( yhi −1 H nh X ∂`p X X yhi k k k (j + k)−1 = − + log + − + ∂k yh + k yh + k k yh + k j=0 h=1 i=1. X nh yX H H X hi −1 X nh y h k knh = − (j + k)−1 + nh log + nh − + yh + k yh + k yh + k h=1 h=1 i=1 j=0. X nh yX H H X hi −1 X nh y h k nh y h + knh − knh = − + nh log + + (j + k)−1 yh + k yh + k yh + k h=1 h=1 i=1 j=0. =. H X h=1. nh log. k yh + k. +. nh yX H X hi −1 X (j + k)−1 h=1 i=1 j=0. La función score perfilada para k es ∂`p X = nh log ∂k h. . k yh + k. y el MLE perfilada es la raiz de (3.7). . hi −1 X yX + (j + k)−1 = 0. h,i. j=0. (3.7).

(51) Capítulo 4 Aplicación: Simulación En este capítulo se mostrarán el comportamiento del estimador MLE perfilado estudiado por medio de simulaciones realizando mas de 100 simulaciones. Para las simulaciones se considerará que el número de estratos asume diferentes valores, así H = 5, 10, 20, 30, 50. Para este diseño de muestreo estratificado se asumirá que el mismo tamaño de muestra en cada estrato nh es el mismo para todos los estratos, en este sentido se tomará diferentes tamaños para nh = 5, 10, 15, 20, 30. También se considera el P promedio por estratos µ̄ = H −1 H h=1 µh , así en todos las simulaciones se considera µ̄ = 5. Por ejemplo, si µ̄ = 5 y se tiene que H = 5 entonces las medias en cada estrato pueden ser µ1 = 4, µ2 = 4,5, µ3 = 5, µ4 = 5,5, µ5 = 6. En la simulación se observará el error cuadrático medio y el sesgo de lo estimadores para los diferentes escenários indicados anteriormente.. 43.

(52) 44. Figura 4.1: Sesgo relativo y error cuadrático medio (MSE) para el parámetro k considerando para la simulación k = 0,5. En la Figura 4.1 (lado izquierdo) Se presenta el sesgo relativo para el caso que k = 0,5. Nótese que el sesgo relativo es mayor cuando el número de estratos es H = 5 o H = 10 y el número de muestras por estrato nh = 5, aumentando casi un 60 %. En cambio, a medida que el número de estratos aumenta y el número de muestras tomadas en cada estrato también es mayor se observa que el sesgo relativo para k disminuye. En este sentido el estimador MLE perfilado es asintóticamente insesgado, esto cuando el número de muestras aumentan. En la Figura 4.1 (lado derecho) Se presenta el error cuadrático medio (MSE) para el caso que k = 0,5. Se observa que cuando el numero de muestras en cada estrato es nh = 5 se tiene que el MSE es mayor, asimismo MSE descrece a medida que nh es mayor. Asimismo cuando el numero de muestras nh ≥ 10 se tiene una disminución drástica con respecto MSE que tiende a cero. Por lo que podría concluir que el estimador MLE perfilado es consistente teniendo en cuenta la 4.1 de sesgo y MSE cuando es altamente estratificado..

(53) 45. Figura 4.2: Sesgo relativo y error cuadrático medio (MSE) para el parámetro k considerando para la simulación k = 1 En la Figura 4.2 (lado izquierdo) Se presenta el sesgo relativo para el caso que k = 1,0. Observamos que el sesgo relativo es mayor cuando el número de estratos es H = 5 o H = 10 y el número de muestras es nh = 5 donde el sesgo relativo aumenta casi a un 70 %. En cambio, a medida que el número de estratos aumenta y el número de muestras tomadas en cada estrato también es mayor se observa que el sesgo relativo para k disminuye. En este sentido el estimador MLE perfilado es asintóticamente insesgado aparentemente, esto cuando el número de muestras aumenta. En la Figura 4.2 (lado derecho) Se tiene el error cuadrático medio (MSE) para el caso que k = 1,0. Se observa que cuando el tamaño de muestra en cada estrato es nh = 5 se tiene que el MSE es mayor comparado con el MSE de 4.1, también se puede ver que el MSE descrece a medida que nh es mayor que 5. Asimismo de la Figura 4.2 se desprende que cuando nh ≥ 10 se tiene una disminución drástica en el MSE. Para k = 1 la simulación muestra que el sesgo relativo aumenta mas comparado con el sesgo relativo con respecto a la 4.1 y de la misma forma el MSE es mayor en relación al MSE de la 4.1 cuando la simulación asume k = 0,5..

(54) 46. Figura 4.3: Sesgo relativo y error cuadrático medio (MSE) para el parámetro k considerando para la simulación k = 2,5 En la Figura 4.3 (lado izquierdo) Se presenta el sesgo relativo para el caso que k = 2,5. Observamos que el sesgo relativo es mayor cuando el número de estratos es H = 5 o H = 10 y el número de muestras es nh = 5 donde el sesgo relativo aumenta casi a un 60 % y 80 %. En este sentido, se observa que cuando k comienza a crecer se tiene que también aumenta el sesgo relativo. También, a medida que el número de estratos aumenta y el número de muestras tomadas en cada estrato también es mayor entonces se observa que el sesgo relativo para k disminuye casi de manera uniforme para todos los tamaños de muestra considerados. En la Figura 4.3 (lado derecho) Se tiene el error cuadrático medio (MSE) para el caso que k = 2,5. Notar que cuando el tamaño de muestra en cada estrato es nh = 5 se tiene que el MSE es mayor, también se observa que el MSE descrece a medida que nh es mayor que 5. Para k = 2,5 la simulación muestra que se tiene valores mayores para el sesgo relativo y para el MSE en relación cuando la simulación asume k = 0,5 y k = 1,0.

(55) 47. 4.1.. Problema de Aplicación. Se tomaron los datos recopilados por el INEI de los informes estadísticos de nacimientos del registro civil como son la declaración jurada y formulario de nacimiento de las 49 municipalidades distritales de Lima Metropolitana (años 1999 y 2000). Para la simulación se considero las variables DEPRESMA (Dpto. de residencia habitual de la madre) y ABORTOS ( Número de abortos y de nacimientos muertos), no se considero los departamentos de Lima y Callao por la gran cantidad de madres que tenían, como también no se considero departamentos cuya cantidad de madres era menor que 15. Teniendo así, 10 estratos que representan 10 departamentos mostrado en la siguiente tabla de frecuencias. Tabla 4.1: Frecuencias de mujeres entrevistadas Departamento. nh. Ancash (2). 47. Ayacucho (5). 27. Cajamarca (6). 19. Huanuco (10). 29. Ica (11). 44. Junín (12). 43. La Libertad (13). 18. Loreto (16). 15. Pasco (19). 19. Piura (20). 21. total. 282. Tabla 4.2: Frecuencias de abortos y nacidos muertos de forma global de los departamentos considerados en la aplicación. y frecuencia. 0. 1. 2 3. 217 52 9 4.

(56) 48 En la Figura 4.4, se observa el gráfico de la función h(k), siendo ∂`p X h(k) = = nh log ∂k h. . k yh + k. . hi −1 X yX + (j + k)−1. h,i. j=0. Nótese que el valor próximo para la raíz de h(k) es 1.5. Así, se aplico el método de Newton-Raphson programando en R el algoritmo de dicho método para obtener el valor del parámetro de dispersión k. En la Tabla 4.3 se muestra las iteraciones del método de. Figura 4.4: Gráfica de la función h(k) para obtener la raíz de la función Newton-Rapshon programado en R, obteniendo la estimación de máxima verosimilitud perfilada de k cuyo valor es 1.412039 con un error de 0.000001. Tabla 4.3: Resultados de las iteraciones del método de Newton-Rapshon para obterner el valor de k para los datos de aplicación iteración. yk. h(k). error. 1. 1.212637. 3.78117010−1. 2.12637410−1. 2. 1.356566. 8.06982810−2. 1.43929010−1. 3. 1.407114. 6.56411910−3. 5.05479810−2. 4. 1.411998. 5.41002910−5. 4.88328910−3. 5. 1.412039. 3.75592910−9. 4.09198110−5. 6. 1.412039. 9.94759810−14. 2.84126510−9.

(57) 49 Para mostrar el ajuste del modelo de medias por estratos se considero como ejemplo el departamento de Junin. En este sentido, la Tabla 4.4 muestra el ajuste para este departamento. Y la Figura 4.5 muestra el ajuste de la Tabla 4.4 Tabla 4.4: Tabla de frecuencias observadas y esperadas para el departamento de Junín y. 0. 1. 2. 3. F. Observada 31.00 9.00 1.00 2.00 F. Esperada. 30.35 9.37 2.47 0.62. Figura 4.5: Frecuencias observadas y esperadas para el departamento de Junin.

(58) Conclusiones y Propuestas Futuras Conclusiones 1. Se presentaron los estimadores del parámetro de dispersión de la distribución binomial negativa en un diseño de muestreo estratificado. 2. Se observó que el estimador MLE perfilado tiene una performance pobre cuando el tamaño de muestra es pequeño, sin embargo cuando el tamaño de muestra es grande y como también el número de estratos, el sesgo crece y error cuadrático medio disminuye. Esto revela que la consistencia del estimador MLE perfilado verificado por medio de simulación. Propuestas Futuras Si se tiene información auxiliar en el diseño de muestreo es posible usarlo para tomar las muestras. En este sentido, es posible extender el modelo en esta situación. Sin embargo, se debe analizar el comportamiento del parámetro k de la distribución NB con esta información auxiliar, así un trabajo futuro es analizar este modelo estratificado con información auxiliar. Se puede asumir otras distribuciones para modelar la sobredispersión en datos de conteo. Una distribución que esta siendo ampliamente usada es la distribución COMPoisson, un futuros trabajo sería estudiar esta distribución cuando se tiene un diseño de muestreo estratificado.. 50.

(59) Apéndice A Programa en R A continuación se presentará los códigos en lenguaje R usados para la simulación # clean other objects rm ( list = ls ()) # - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -# # set . seed ( 1 ) # Parametros de la NB # dispersion -> k k _ sim = 2 . 5 # - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -# #. numero de estratos si es impar. # H _ sim = 3 5 # aux 1. = 5 + 0 . 2 5 * rep ( c ( - 1 ,1 ) , ( H _ sim - 1 )/ 2 ). # mu _ sim = c ( 5 , aux 1 ) # - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -# #. numero de estratos si es par. H _ sim. = 50. mu _ sim = 5 + 0 . 2 5 * rep ( c ( - 1 ,1 ) , ( H _ sim )/ 2 ) # 5 + ( 1 : H _ sim )* rep ( c ( - 0 . 2 5 ,0 . 2 5 ) , ( H _ sim )/ 2 ) # - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -# # parametro p p _ nb = k _ sim /( k _ sim + mu _ sim ) # - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -# # t a m a o s de muestra nh = c ( 5 ,1 0 ,1 5 ,2 0 ,3 0 ). 51.

(60) 52 # - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -# # derivada de la verosimilitud perfilada # ecuacion ( 6 ) del articulo cadigan log _ likp = function ( par , y 1 , nH ){ x. = par [ 1 ]. s1 = 0 xbar = apply ( y 1 , 1 , mean ) for ( h in 1 : H _ sim ){ # para cada estrato yh = y 1 [h , ] for ( i in 1 : length ( yh ) ){ if ( yh [ i ] >= 1 ){ j 1 = seq ( 0 , ( yh [ i ] - 1 ) ) s 1 = s 1 + sum ( ( x + j 1 )^( - 1 ) ) #. s 1 = s 1 + sum ( log ( x + j 1 ) ) } }. } lf 1 = sum ( nH * log ( x /( x + xbar )) ) + s 1 lf =( lf 1 ) return ( lf ) } # - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -# # numero de simulaciones n _ sim = 1 2 0 biasj = numeric () # rep ( 0 , length ( nh )) eqmj = numeric () # rep ( 0 , length ( nh )) # for ( r 1 in 1 : length ( nh ) ) { ksim = numeric () for ( iter in 1 : n _ sim ) { # generacion muestras # nha = nh [ r 1 ] y _ m 1 = matrix ( 0 , length ( mu _ sim ) , nh [ r 1 ] , byrow = T ) # nh [ r 1 ].